Бану Ергеш: Тіл мен технология арасындағы үйлесімді табуымыз керек

Жасанды интеллект бүгінде біздің күнделікті өмірімізге дендеп енді. Смартфондардан бастап, өндіріс, медицина, білім беру сияқты салаларда кеңінен қолданылып келеді. Тіпті соңғы кездері «қандай да бір тіл жасанды интеллект жүйесіне қосылмаса, онда оның жоғалып кету қаупі жоғары» дегенді жиі еститін болдық. Осы орайда жасанды интеллект жүйесіндегі қазақ тілінің қарқыны қандай екенін білу үшін El.kz ақпарат агенттігі ЖИ-ді ана тілімізде сайратуға күш салып жүрген маман Бану Ергешпен сұхбаттасты.
El.kz: Бану ханым, бүгінде жасанды интеллектінің қазақшасы өте жақсы деңгейде жұмыс істейді. Бұрынғымен салыстырғанда айырмашылығын бірден байқаймыз. Сонда осы ЖИ-ді қазақша сөйлету үшін қандай жұмыстар жасалып жатыр?
Бану Ергеш: Жасанды интеллект қандай да бір тілді, қандай да бір ақпаратты түсінуі үшін соған қатысты деректермен қоректенуі керек. Яғни, ол ақпаратты өзіне жинайды. Сол негізде ЖИ өздігінен оқи бастайды. Соңғы жылдардағы бұл жүйедегі қазақ тілінің жақсаруының бірнеше себебі бар. Ең біріншісі, интернет кеңістігіндегі қазақ тіліндегі өңдеуге келетін материалдардың, мәтіндердің, аудио мен видеолардың көбеюі. Сонымен қатар, Қазақстанның ең басты стратегиялық дұрыс бағыттарының бірі – ЖИ-дің әлемдік деңгейдегі дамуынан қалмас үшін оны дамытуға бет бұруы. Өздеріңіз білетіндей былтыр президенттің тапсырмасымен қазақ тілінің үлкен тілдік моделі құрылып басталды. Ол жоба «Kaz – LLM» деп аталады. Сондай-ақ, ЖИ саласында ғылыми бағыттағы көптеген жобалар мемлекет тарапынан қаржыландырылуда. Бұл ЖИ-дің дамуына алып келетін қадамдар. Ал біздің тарапымыздан ЖИ-ге қазақша түсіндіру үшін Еуразия ұлттық университетіндегі осы саладағы ғылыми мектебімізде жұмыс тобымен қызмет атқарудамыз. Онда қазақ тілін компьютерлендірумен айналысып жүрген мамандар бар. Әрқайсысы өз бағыты бойынша тыңғылықты жұмыс істеуде. Қазақ тілін компьютерге түсіндіру үшін морфологиялық, синтаксистік, семантикалық талдау дайындау жүргізілуде. Ал менің ғылыми бағытым ЖИ-ге қазақ тіліндегі мәтіндердің сентиментін және эмоциясын таныту. Сол бойынша жұмыстар атқарып жатырмыз. Осының барлығы қазақ тілін компьютерлендіруге қосылатын үлкен үлес.
El.kz: Жалпы қазақ тілі өте бай тіл ғой. Бір сөзің өзінде бірнеше синонимдері бар. Оның үстіне өзінің үндестік заңдары бар дегендей. ЖИ-ге қазақ тілін үйрету қаншалықты қиындық тудырды?
Бану Ергеш: Иә, сізбен келісемін. Біздің тіл – өте бай тіл. Өзінің ерекшеліктері, заңдылықтары бар. Қазақ тілі – агглютинативті тіл. Яғни, сөздер түрлі аффикстер арқылы күрделі формаға ие болады. Мұндай тілдерде морфологиялық талдау сияқты компьютерлік лингвистика саласындағы күрделі есептердің бірі шешілуі қажет. Сонымен бірге, мұндағы үндестік заңдылықтары, сөз тәртібінің еркіндігі және синонимдардың көптігі ЖИ-ге модельді оқыту кезінде қиындық тудырады. Сондықтан, морфологиялық, синтаксистік, семантикалық сияқты кешенді, жан-жақты тілдік талдау есептерін шешу ЖИ-ге, компьютерге қазақ тілін түсіндіруді жеңілдетеді. Ал синонимдері көп және көп мағыналы сөздерді түсіндіру үшін түрлі лингвистикалық ресурстардың болуы қажет. Енді қазіргі кезде қазақ тіліндегі лингвистикалық ресурстардың қолжетімділігі төмен деңгейде. Қазір осы бағыт бойынша жұмыс жасалынып жатыр. Ел бойынша ғалымдар тобын, түрлі ұйымдар мен топтар құру жобалары іске асырылуда. Егер сол жобалар жүзеге асып, лингвистикалық ресурстар қолжетімді болса, онда компьютерді қазақ тіліне үйрету жеңілдей түседі.
El.kz: Бүгінгі заманның мақалы десек пе, нақылы десек пе, «қандай да бір тіл жасанды интеллект жүйесіне қосылмаса, ол тілдің жоғалып кету қаупі жоғары» дегенді еститін болдық. Бұл туралы не ойлайсыз? Бұл шындық па, әлде шындыққа жанаса ма?
Бану Ергеш: Енді бұл пікірдің астарында шындық бар десек болады. Өйткені, қазіргі цифрлық заманда тіл цифрлық түрге әртүрлі жүйелерде енгізілмесе, онда оның қолдану аясы тарылып, өсіп келе жатқан ұрпақ үшін қолжетімсіз болғандықтан қолданыстан да шығуы мүмкін. Қазір өзіміз де көп уақытымызды компьютерде, түрлі смартфондарда өткіземіз. Егер сол құрылғыларда қазақ тіліндегі контент, оны түсінетін жүйелер болмаса, онда ол тілдің қолданыс аясын тарылта бастайды. Сондықтан тілдің ЖИ жүйесіне интеграциялануы тілдің болашақтағы қолданысының артуына кепілдік береді. Бұл жерде біз тек қазақ тілінің ЖИ-дегі қолданылуы емес, мәдени кодымызды, ұлттық сипатымыз бен болмысымыздың интернет кеңістігінде сақталуын да қамтамасыз етеміз. Қазір ЖИ біздің өміріміздің барлық саласында бар. Сол әр салада қазақ тілін түсінетін құралдардың болуы біздің тіліміздің сақталып, әрі қарай кеңінен пайдаланылуына кепіл болатыны анық.
El.kz: Ғылым саласында, ЖИ саласында қандай жетістіктерге жеттіңіздер? Бұл жетістіктерге көңіліңіз тола ма?
Бану Ергеш: Мен 2008 жылдан бастап табиғи тілді өңдеу саласындағы зерттеулермен айналысып келемін. Табиғи тілді өңдеу – компьютерлік лингвистика, ЖИ саласында маңызды есептердің бірі. Яғни, тілді компьютерге түсіндіру бойынша түрлі зерттеулер жасалынатын сала. Бізді көбі қазақ тілін зерттеумен айналысады деп ойлайды. Сондай түсініспеушіліктер де болған. Бірақ біз ана тілімізді қалай түрлендіріп компьютерге түсіндіріп, қолданыс аясын қалай кеңейтуге болады деген сұраққа жауап беретін есептерді шешумен айналысамыз. Қазіргі кезде қазақ тілін этносаралық тіл ретінде қалыптастырып, қолданыс аясын кеңейту мақсатында көптеген жұмыстар жасалуда. Біздің тілді ЖИ-ге түсіндіру үшін ең бірінші фундаменталды есептер шешілуі қажет. Мен жұмысымды солардан бастаған болатынмын. Соның нәтижесі түрлі қолданысқа дайын қызықты программалық өнімдердің негізі бола білді. Мысал үшін «Ахметтану» интеллектуалды жүйесін айтар едім. Ахмет Байтұрсынұлының еңбектерін жүйелеп, оның еңбектері бойынша сұрақ-жауап жүйесін әзірледік. Сонымен қатар, «Қызықты ономастика» мобильді қосымшасы дайындалды. Ал қазір өзімнің қызыға айналысып жүрген бағыттарымның бірі қазақ тіліндегі мәтіндерді сентиментке талдау. Яғни, мәтін жағымды ма, жағымсыз ба және ондағы эмоцияның қандай екенін компьютерге үйрету бойынша зерттеумен айналысудамын. Бірақ әлі зерттеудің басында жүрміз. Жұмысты лингвистикалық ресуртар базасын құрудан бастадық. Себебі, қазіргі кезде қазақ тілінде осы эмоция тану бойынша қолжетімді базалар жоқ. Мысалы, «айналайын» деген сөзді компьютерге қалай түсіндіруге болады? Ал оны тікелей аударатын болсақ тұрып айналып жатырмын дегенді білдіреді. Шын мәнінде оның қандай мағынада айтылатынын әр қазақ білгенімен компьютер түсінбейді. Міне қазір дәл сол жұмыстармен айналысып жатырмыз. ҚАзіргі кезде жұмысыма толыққанды көңілім толады деп айта алмаймын. Ғылым болғандықтан зерттеу барысында түрлі мәселелер туындайды. Ал олардың туындауы бұл саланы ары қарай зерттеуге итермелеп, оны дамытуға жол ашады. Барлығын толықтай түсінетін ЖИ әлем бойынша жасалған жоқ. Сондықтан бұл бір күннің, бір адамның жұмысы емес.
El.kz: Компьютерлік лингвистиканы зерттеп жүрсіз. Не білдіңіз? Не байқадыңыз? Нені көкейге түйдіңіз?
Бану Ергеш: Ең бірінші байқағаным мен білгенім, ол ана тілімізді компьютерге толық түсіндіру үшін әлі талай еңбектенуіміз керек екен. Қазір қазақ тіліндегі материалдар көбейіп жатыр. Бірақ ол әлі де жеткіліксіз. Бұл салада біздің тіл ресурстары төмен тілдердің қатарында. Біз тіл мен технология арасындағы үйлесімділікті табуымыз қажет. Қазақ тілінің құрылымы терең әрі нәзік. Оны машинаға түсіндіреміз деп қазақ тілінің заңдылықтарын бұзып тастауға болмайды. Қазіргі әлемде қолданылып жатқан дайын жүйелер ол ағылшын тіліне бейімделген. Ал біздің тіл мен ағылшын тілінің ерекшеліктері басқаша. Сол себепті біз тілге икемделген ЖИ-ге ұмтылмай, оған өз тілімізді түсіндіретін деңгейге көтерілуіміз керек. Сонда ғана біздің тілдің ерекшеліктері мен мағынасы толық сақталып қалады.
El.kz: Бүгінде даму көшінен қалмас үшін ЖИ-ді жетік меңгеруіміз керек екені айқындала түсті. Ал сол ЖИ-дегі қазақ тілінің әлеуеті дәл қазір қандай деңгейде деп ойлайсыз? Жалпы ЖИ-дегі қазақ тілін дамыту үшін тағы не істеу керек?
Бану Ергеш: Жалпы ЖИ-ді қазақ тілінде оқыту үшін біз бірқатар жұмыстарды атқарып жатырмыз. Бірақ олар толық бітті деп айтуға келмейді. Әлі де атқарылуы тиіс жұмыстар жетерлік. Біздегі ең басты мәселе сол интернет кеңістігіндегі қазақ тіліндегі ақпараттардың жетіспеушілігі. Сол үшін ана тіліміздегі деректердің санын арттыру өте маңызды. Сонымен қатар, өңдеуге дайын ақын-жазушыларымыздың еңбектерін де желіге жүктеуіміз керек. Мен зерттеумен айналыса бастағанда қазақ тілді ақпарат болған жоқ. Орыс және ағылшын тіліндегі материалдарды аударып көрдім. Бірақ олар жеткіліксіз болды. Сондықтан кітаптарды ақтарып, қолдан семантикалық база құрастырдым. Сөздердің ,сөз тіркестерінің тізімін жасап, олардың мағынасын қоса жаздым. Оның барлығын қолмен атқаруға тура келді. Енді бүгінде осы саламен көптеп айналысып жатқандықтан айтылған мәселелердің шешімін табу біршама жеңілдеді. Алдағы уақытта қазақ тіліндегі ақпараттарды, корпустарды, Dataset-терді көбейтетін болсақ, онда ЖИ қазақ тілін жақсы түсінер еді.
El.kz: ЖИ қазақ тілінде тәп-тәуір жұмыс істей бастағалы оның көмегімен жұмысын жеңілдеткендер көбейді. Ал болашақта ЖИ адамдарды жұмыссыз қалдыруы мүмкін бе?
Бану Ергеш: Келешекте жұмыс нарығы өзгеруі мүмкін. ЖИ-дің көптеп енуі адамдардан қосымша біліктілікті талап етеді. Яғни, әр маман жұмыссыз қалмауы үшін ЖИ-ді өз саласында қалай қолдануға болатынын игеруі қажет. Бүгінде жоғары оқу орындарында бұл бағытта жұмыстар басталды. Әр студентке ЖИ бойынша курстар өткізіліп, өз саласындағы қолданысын үйрететін сабақтар қойылуда. Сондықтан ЖИ адамдарды жұмыссыз қалдырады деп айту орынсыз. Ал кім соның тілін жетік білетін болса, керісінше жұмысты жеңіл табатын болады.
El.kz: Ғылым дамыған сайын технологияның да түр-түрі шығып, сағаттап дамуда. Осы қарқынның бәсеңдей қоюы да екіталай. Ал ЖИ-дің болашағы туралы не ойлайсыз? Оның қарқыны қандай? Біз ілесе алып жатырмыз ба?
Бану Ергеш: Бүгінде ЖИ-дің болашағы зор екеніне ешкімнің күмәні жоқ. Оның дамуы да өте қарқынды. Күн сайын ЖИ-дің түрлі нұсқалары шығып жатқанын да көзіміз көріп отыр. ЖИ сіз үшін мәтін жазып, видео жасап, сурет те салып береді. Әртүрлі эксперттік ойларды да сұрасаңыз болады. Бұл үрдіс әрі қарай дами беретіні даусыз. Сондықтан біз осы салада жұмыс істей алатын білікті мамандарды дайындауымыз керек. ЖИ-ді өзіміз дамыту үшін қуатты жүйе болуы шарт. Біз әлемнен бір жыл кейін бастадық. Қазір бұл салаға мемлекеттік деңгейде ден қойылды. Осы қарқынмен жұмысты жалғастырар болсақ әлем көшіне ілесе аламыз. Жалпы әр ғылымның мақсаты да өз саласын алға сүйреп, адам өмірін жеңілдетіп, пайда әкелетін түрлы қолданбаларды әзірлеу.
El.kz: Алға қойған жоспарларыңызбен бөлісе отырсаңыз. Алдағы уақытта сіздерден қандай жаңалық күтеміз? Қандай мақсаттарыңыз бар?
Бану Ергеш: Мемлекеттің қаржылардыруымен, қолдауымен бірнеше жоба жасап жатырмыз. Атап айтсам сөйлеу синтезі, мәтіндерден эмоцияны тану сияқты жобалар бар. Жалпы жоспарымыз білім беру саласына өзіміздің ЖИ технологияларын енгізу. Сондай-ақ, дыбыстық сөйлес синтезімен интонацияны тану жүйесін жасауды жоспарлап отырмыз.
El.kz: Қазір жастардың ғылым-білімге ұмтылатын заманы. Білектің күшімен өмір сұретін заман алыстап барады десек қателеспейтін шығармыз. Сіздің жастарға айтарыңыз бар ма?
Бану Ергеш: Қазіргі кезде жастар ғылыммен айналысуды университет қабырғасында бастайды. Осыны мектеп бағдарламасына да қосып, бүлдіршіндерді ойын түрінде болсын, басқа интерактивті форматта болсын ғылыммен айналысуға баулуды қолға лауымыз керек деп ойлаймын. Ғылым мен білім оңай сала емес, жауапкершілікті талап етеді. Бүгінде ақпарат көп, табу оңай. Бірақ оны түсініп, өз саламызда керегімізге қолдана білу қажет. Жастарға өз тіліміздің, еліміздің болашағы үшін еңбек етіп, қазіргі технологияларды тек қолданып қана қоймай, соны бірге жасауға атсалысуға шақырғым келеді. Бүгінде ол үшін барлық мүмкіндіктер жасалып жатыр.
El.kz: Бану ханым, уақыт бөліп сұхбаттасқаныңызға рахмет! Алдағы уақытта сіздерден жағымды жаңалықтар күтетін боламыз. Жұмысыңызға сәттілік тілейміз!
