22 Желтоқсан 2014, 06:48
Жуырда қазақ тілінің Google translate жүйесіне енгендігі туралы хабарды бүкіл ел болып қуанып қарсы алдық. Сол мезетте бүкіл адамның назары сонда болды. Бірнеше күн бойы елдегі басты ақпараттық себепке айналды. Аударма сапасына қатысты сын да айтылып жатты. Бірақ қатты шу арасында маңызды ақпараттар мен жұмыс істеу механизмдері назардан тыс қалады. Осы олқылықтың орнын толтыру үшін El.kz редакциясы машиналық аударма туралы түсіндірмелі жаңалық форматындағы мақаланы ұсынады.
Google translate деген не?
Google translate – көптілді аударма қызметін ұсынатын онлайн сервис. Қазіргі таңда сервисте 90 тілді пайдалану мүмкіншілігі бар. Сервис машиналық аударма негізінде жұмыс істейді. 2007 жылдың қазан айына дейін SYSTRAN жүйесінде жұмыс істеген. Осыдан кейін Google өзі жасап шығарған аударма жүйесін пайдалана бастады. Ал 2011 жылдан бастап сервистің API ақылы пайдалануға өтті (аудару қызметімен шатастырмау керек). Күніне сервисті 500 млн адам пайдаланса, қазақ тілін 200 мың адам қолданады.
Google translate қашан пайда болды?
Google аударма жүйесінің негізін қалаушы Франц Джозеф Ох. Ол Перспективті қорғаныс жобаларын зерттеу агенттігің (DARPA) 2003 жылғы машиналық аударма бойынша жүлдесін жеңіп алған. Содан соң Google компаниясының аударма жобаларымен айналысатын бөлім жетекшісі болып тағайындалды. 2005 жылдан бастап әдіснама жасалып, алғашқы тәжірибелерге кірісті. Жүйенің жұмыс істеу механизмі мен негізгі принциптерін жеке еңбек ретінде жазып шығарған. Ол еңбекпен сілтеме арқылы өтіп, таныса аласыз.
Google translate қалай жұмыс істейді?
Google translate статистикалық машиналық аударма (СМА) бойынша жұмыс істейді. СМА – адамның қатысуынсыз белгілі бір тілдегі материалдарды статистикалық тәсілмен зерттей отырып, екінші тілге аудару. Жұмыс іcтеудің негізгі идеясы - машиналық оқу. Машиналық оқу үлкен көлемдегі деректер көмегімен алгоритмдерді үйрену. Сонын негізгінде қорытынды шығару.
Аудару жүйесі аясында машиналық оқу тіл корпусы арқылы іске асады. Тіл корпусына тұрақты тіркестер, сөздер, сөйлемдер және нақты ережелер аясында құрастырылған материалдар кіреді. Әдетте тіл корпусының құрамына миллиардатаған сөздер кіреді. Тілден тілге аудару үшін машина өздігінен тілді «үйрене бастайды». Машина негізге алатын тілі бар, Google translate-те ол ағылшын тілі. Мысалы, машинаға қазақ тілін аударып үйрену керек. Ең алдымен қазақ тілі корпусын құрау үшін цифрлық күйдегі контент ізделеді. Оқулықтар, кітаптар, веб-сайттардағы материалдар қоры жинақталады. Осы жерде қазақ тілінен басқа тілдерге параллельді аударылған мәтіндер керектігі туындайты. Басқа тілдерге аударылған мәтіндері көп болса, 2 млн сөзі бар база негізінде аудармашы робот үйреніп бастай алады. Ал егер де екі тілді аудармасы болмаса, 1 млрд сөз керек болады.
Алынған ақпарат 3 дейгейден өтеді. Бірінші, модельдеу кезеңінде тілдің алғашқы құрылымын жасау. Виртуалды моделі жасақталады. Екінші, үйрені кезеңінде аудармалар арасында ұқсастықтар ізделінеді. Адамдар машинаға ешқанадай тіл ережелерін, заңдылықтарын бермейді. Миллиондаған құжаттарды өңдей отырып, машина өздігінен паттерндерді (тұрақты заңдылықтарды) табады. Сондай-ақ осы кезеңде алынған деректерді ретке келтіру үрдісі болады. Оның негізінде ақпарат массивтерін робот жіктеп, категорияларға бөлшектейді.
Адамдар тек нәтижелер бекіту мен аудармалар сапасын бағалау сынды әрекеттер істейді. Керекті тілдегі материалдар саны артқан сайын аудару сапасы мен жылдамдығы арта береді. Үшінші, машина аударманың бірнеше нұсқасын жасап қойып, нәтижесінде аударма деңгейі жоғары нәтижелерді ұсынып отырады.
Тіларалық аударма
Google translate жүйесінде қол жетімді 90 тілдің барлығы өзара аударыла алады. Бірақ та аударма ортаңғы тіл арқылы жүзеге асады. Мысал ретінде қазақ тілінен урду тіліне аударуды қарап көрейік. Алдымен қазақ тіліндегі мәтін ағылшын тіліне аударылады, кейін хинди тіліне. Содан соң ғана урдуға аударылады. Тілдің пайдалану аясы кең болған сайын аудару сатылары азая береді. Қазақ тілі қосымша тіл арқылы емес, ағылшын тіліне тіке шыға алады. Бірақ аудару сапасына тіларалық байланыс қатты әсер етеді. Өзара аз аударылатын тілдер аудармасы да сапасыз бола береді.
Аударма жүйесіне тілдердің қосылуы
Ең бірінші болып ағылшын, испан, француз, неміс тілдері қолжетімді болды. Кейін португал, голланд тілдері қосылды. Осы уақытқа дейін google translate жүйесіне тілдердің ену үрдісі жалпы 38 сатыдан тұрады. Әлемнің тілдері көп болуына байланысты бұл сатылар жалғасып кете береді. Соңғысында қазақ тілімен қатар басқа да тілдер енді. Келесі кезекте амхар, кантон, чероки, корсикан, фриз, гавай, қырғыз, түркмен, пашто, тибет және т.б. тілдері еңгізіледі.
Google translate жүйесіне ең алғаш материалдар БҰҰ мен Еуропалық Одақ ресми құжаттарынан алды. Сол себепті жүйеде 6 ірі тілдік корпустар (БҰҰ ресми тілдері), сондай-ақ 20-дан еуропалық тілдер (ЕО ресми тілдері) пайдаланылды. Әр тілдің жүйеге қосылу уақыты әр келкі. Тілдік корпусы жүйеленген тілдер ертерек кіреді.
Google translate-ке жаңа тілдің қосылу бірнеше шартқа сай келуі керек: