Scroll Top

KAS IR MAŠĪNTULKOŠANA?

Mašīntulkošana ir rakstīta vai arī runāta teksta tulkošana, kuru veic dators, nevis cilvēks ─ tulkotājs. Mašīntulkošanu (saīsinājumā: MT) mēdz uzskatīt par datorlingvistikas apakšnozari, kas pēta metodes teksta tulkošanai ar datoru. Praktiskie pētījumi mašīntulkošanā tika sākti drīz pēc pirmo datoru rašanās kā viens no potenciāliem datora lietojuma virzieniem. Pirmās neveiksmes mašīntulkošanā sekmēja plašāku datorlingvistikas pētījumu sākšanu. To rezultāti savukārt tika izmantoti mašīntulkošanas tehnoloģiju pilnveidē. Mūsdienu mašīntulkošanas sistēmas izmanto neironu tīklu modeļus, kas nemitīgi tiek attīstīti un pilnveidoti.

Pašos pirmsākumos MT nodrošināja ļoti primitīvu avota valodas vārdu aizstāšanu ar atbilstošiem statistiski biežāk lietotās nozīmes vārdiem mērķvalodā. Rezultāts faktiski nebija pieņemams, jo atkarībā no teksta un konteksta, kurā vārds tika lietots, tam varēja būt ļoti atšķirīgas nozīmes. Attīstoties datorlingvistikai, MT sāka izmantot valodas korpusus un statistiskās metodes, kas ļāva ņemt vērā atšķirības valodu tipoloģijā un tulkot, piemēram, frazeoloģismus.

Mūsdienās mašīntulkošana ir ne tikai pētniecības virziens, bet arī plaši lietota tehnoloģija un veiksmīgs komercprodukts. Mašīntulkošanas sistēmas tulkojuma kvalitāte var būtiski atšķirties dažādiem valodu pāriem un jomām. Lai arī mašīntulkošana tiek plaši lietota, tomēr tā joprojām nespēj pilnībā automatizēt jebkāda veida tulkošanu. MT risinājumi atšķirībā no citiem ar datora izmantošanu saistītiem rīkiem – datorizētās tulkošanas (computer-assisted translation, computer-aided translation  CAT) un interaktīvas tulkošanas (tulkošanas ar datora palīdzību) rīkiem – veic tulkošanu ar minimālu cilvēka dalību vai pat bez tās.

Mašīntulkošanai mūsdienu pasaulē ir milzīga praktiskā nozīme, jo īpaši Eiropas Savienībā, kur vienlaikus ir jānodrošina tulkošana visās Eiropas Savienības dalībvalstu valodās, tādējādi mazinot valodas barjeru. Bez mašīntulkošanas būtu jānodarbina simtiem tulkotāju, tas aizņemtu vairāk laika un cilvēkresursu. Mūsdienu mašīntulkošanas sistēmas izmanto gan publiskās pārvaldes iestādes, gan uzņēmumi, lai nodrošinātu daudzvalodu saturu. Mašīntulkošanu plaši izmanto lokalizācijas uzņēmumi.

Neņemot vērā tehnoloģiju attīstību, mašīntulkošana vēl nespēj aizstāt cilvēkus. Šobrīd pasaulē ir aptuveni 300 tūkstošu profesionālu tulkotāju, kas kopumā veido 0,004% no pasaules iedzīvotāju skaita. Saskaņā ar ASV statistikas speciālistu pētījumiem tulkošanas pakalpojumu tirgus ir aptuveni 50 miljardu ASV dolāru vērtībā, un šis skaitlis pastāvīgi pieaug.

Mūsdienās mašīntulkošanas tehnoloģiju var pielāgot konkrētām jomām vai profesiju vajadzībām (piemēram, informēšanai par gaidāmajām laika ziņām), rūpīgi atlasīts valodas materiāls var būtiski uzlabot tulkojuma rezultātu. Tas ir īpaši noderīgi jomās, kurās tiek lietota izteikti formāla vai standartizēta valoda. Līdz ar to oficiālu tipveida paziņojumu (tekstu) vai standarta juridisku dokumentu mašīntulkojums nodrošina labāku rezultātu nekā sarunu vai citu mazāk standartizētu tekstu, tostarp literāru sacerējumu, tulkojums.

LABĀKIE MAŠĪNTULKOŠANAS RISINĀJUMI ŠODIEN

Šobrīd pasaulē nav nevienas mašīntulkošanas programmas, kas varētu pilnībā atbilst tulkojuma saņēmēja vēlmēm un prasībām. Katram risinājumam noteikti ir savas priekšrocības un trūkumi. Pieci labākie mūsdienu mašīntulkošanas risinājumi ir minēti turpmāk.

  • Google tulkotājs – kopš 2006. gada Google izmanto neironu mašīntulkošanu, patentējot īpašu mašīntulkošanas tehnoloģiju, kas ir nodēvēta par Google neironu mašīntulkošanu. Šī tehnoloģija ļauj izmantot atkārtotus neironu tīklus, lai tulkotu veselus teikumus, vienlaicīgi maksimāli saglabājot to kontekstu.
  • DeepL Translators – šī mašīntulkošanas programma sāka darboties 2017. gadā, plaši pētot un apgūstot labākās tulkošanas iespējas, izmantojot mākslīgo intelektu. DeepL  Translator nodrošina precīzākus un niansētākus tulkojumus, salīdzinot ar citiem mašīntulkošanas rīkiem.
  • Bing Microsoft Translator – balstīts uz Microsoft patentētu mašīntulkošanas sistēmu, izmantojot algoritmu, lai analizētu secību, kādā vārdi ir jātulko, lai iegūtu visprecīzāko tulkojumu.
  • SYSTRAN Translate – dibināts 1968. gadā, pirmais uzņēmums, kas piedāvāja komerciālus mašīntulkošanas pakalpojumus. Regulāri atjaunina savu tulkošanas rīku ar jaunām un progresīvām mašīntulkošanas tehnoloģijām un funkcijām. Nodrošina ar ļoti precīziem tulkojumiem.
  • Amazon Translate – paralēli e-komercijas tirgum tika izveidots mašīntulkošanas rīks, lai nodrošinātu ātrus, augstas kvalitātes valodu tulkojumus par pieņemamu cenu.

Arī Skrivanek ir savs neironu mašīntulkošanas risinājums ─ Skrivanek NMT. Vairāk par Skrivanek NMT šeit.

Noteikti ir jāņem vērā, ka mašīntulkošana var būt palīgs tekstu vai mājaslapu tulkošanai, taču vēl joprojām tā nevar pilnībā aizstāt cilvēka veiktu tulkojumu. Tā var paātrināt tipveida dokumentu tulkošanas procesu, ar zināmu precizitāti un efektivitāti veicot tulkošanu, bet noteikti būs nepieciešama tulkotāja vai valodas profesionāļa palīdzība teksta un tulkojuma apstrādē un rediģēšanā pēc mašīntulkotāja veiktā darba.

Ieinteresēja un vēlies uzzināt vairāk? Raksti mums uz [email protected] jau tūlīt, un pastāstīsim, kā gudri investēt mūsdienīgā valodu tehnoloģijā.

Google tulkotājs
Skrivanek NMT mašīntulkotājs

MAŠĪNTULKOŠANAS VĒSTURE

Pirmās idejas par mehānisku vārdnīcu izmantošanu valodas barjeru pārvarēšanai radās jau 17. gs. Tomēr tikai 20. gs. 30. gados šo ideju neatkarīgi patentēja franču izcelsmes armēņu zinātnieks Žoržs Artsruni (George Artsrouni) un krievu zinātnieks Pjotrs Smirnovs-Trojanskis (Пётр Петрович Смирнов-Троянский).

Bieži par mašīntulkošanas (un datorlingvistikas) sākumu min amerikāņu zinātnieka Vorena Vīvera 1949. gada memorandu, kurā viņš definē mašīntulkošanas uzdevumu, galvenās grūtības (piemēram, neviennozīmību) un iespējamos risinājumus – kriptogrāfiju, valodneatkarīgus jēdzienus un citus.

Drīz pēc tam mašīntulkošanas pētījumi tika sākti Vašingtonas Universitātē, Kalifornijas Universitātē Bērklijā un Masačūsetsas Tehnoloģiju institūtā. Viens no zināmākajiem tā laika sasniegumiem ir 1954. gadā veiktais Džordžtaunas eksperiments (sadarbība starp Džordžtaunas Universitāti Vašingtonā un IBM), kura laikā ar datoru tika pārtulkoti 49 rūpīgi izvēlēti teikumi no krievu valodas angļu valodā. Eksperimenta labie rezultāti radīja strauju mašīntulkošanas pētījumu uzplaukumu visā pasaulē. 1962. gadā 42 zinātniski pētnieciskie centri nodarbojās ar mašīntulkošanas sistēmu izstrādi.

1966. gadā ASV tika izveidota īpaša Automatizētas valodas apstrādes konsultatīvā komisija (Automatic Language Processing Advisory Committee, ALPAC), kuras uzdevums bija novērtēt mašīntulkošanas devumu. Šīs komisijas ziņojumā mašīntulkošana tika novērtēta kā lēnāka, neprecīzāka un divreiz dārgāka, salīdzinot ar tulkotāju, un tika ieteikts pievērsties fundamentāliem datorlingvistikas pētījumiem. ASV valdība pārtrauca pētījumu finansēšanu mašīntulkošanas jomā.

Padomju Sociālistisko Republiku Savienībā (PSRS) mašīntulkošanas pētījumi tika atsākti 1974. gadā. Tādējādi laikposms no 60. gadu vidus līdz 70. gadu vidum tiek vērtēts kā stagnācijas periods mašīntulkošanā, kura laikā galvenā uzmanība tika pievērsta sintakses teorijām un valodas sapratnei, nevis jaunu mašīntulkošanas rīku izveidei.

Tomēr mašīntulkošanas pētījumi netika pārtraukti Kanādā, Francijā un Vācijā. Šajā periodā tika izstrādātas arī vairākas pasaulē pazīstamas mašīntulkošanas sistēmas: Systran (ASV), ETAP-1 (PSRS) un citas. 1976. gadā Systran mašīntulkošanas risinājumu iegādājas Eiropas Komisija dokumentu tulkošanai ─ sākumā tulkošanai no franču valodas angļu valodā, vēlāk arī citiem valodu pāriem. Eiropas Komisija Systran izmantoja līdz 2010. gadam.

Jauns un ļoti svarīgs mašīntulkošanas uzplaukums sākās laikposmā no 70. gadu vidus līdz 80. gadu beigām, kad progresēja rūpniecisku mašīntulkošanas sistēmu izstrāde, ‒ kā atbilde arvien pieaugošajam pieprasījumam pēc izmaksās efektīvām mašīntulkošanas sistēmām tehniskās un komerciālās dokumentācijas tulkošanai. Radās interaktīvas un konkrētas nozares vajadzībām izstrādātas mašīntulkošanas sistēmas.

80. gadu sākumā pieauga mašīntulkošanas sistēmu dažādība, palielinājās pētījumos iesaistīto valstu skaits. Mašīntulkošanas sistēmu izstrādē īpaša uzmanība tika pievērsta milzīgu leksikonu, terminoloģisko datubāzu un zinību bāzu izveidei.

20. gs. 80. gadu vidus kļuva par pavērsiena punktu pārejai no likumos balstītām metodēm uz datos balstītām metodēm. Sistēmas izmantoja statistiskās metodes, lai iemācītos tulkojumus no liela apjoma tekstu korpusiem. Statistiskās mašīntulkošanas metodes kļuva populāras gadsimtu mijā. To sekmēja pieaugošā datoru jauda un datu glabāšanas apjoma pieaugums.

2002. gadā tika nodibināts pirmais statistiskās mašīntulkošanas uzņēmums Language Weawer. Statistiskās mašīntulkošanas sistēmas izstrādāja arī Google, Microsoft un IBM. Līdzīgi kā likumos balstītās sistēmas, statiskās mašīntulkošanas sistēmas sākumā izmantoja vārdu modeļus, bet vēlāk vārdu virknes (frāzes), sintakses un hierarhiskus frāžu modeļus, tika veidotas arī hibrīdas sistēmas.

20. gs. beigās tika sākta arī runātās valodas mašīntulkošanas pētniecība. Šajā laikā radās datorizētās tulkošanas rīki, kas arvien plašāk tika lietoti programmatūras lokalizācijā. Gadsimtu mijā radās mašīntulkošanas risinājumi tīmeklī, un mašīntulkošana sāka kļūt par masu produkciju.

Statistiskā mašīntulkošana bija dominējošā metode līdz 2016. gadam, kad to strauji nomainīja neironu mašīntulkošana. Neironu mašīntulkošanai sākotnēji sarežģītības un nepietiekamo datora un valodas resursu dēļ nebija vērā ņemamu rezultātu. Tāpēc neironu tīklu modeļi vispirms tika izmantoti kā valodas modeļi statistiskās mašīntulkošanas sistēmās, bet vēlāk iekļauti statistiskās mašīntulkošanas sistēmās kā papildu vērtētāji tulkošanas modelim ‒ pārkārtošanas modelim, pirmskārtošanas modelim un citiem.

Pēc daudzu gadu pētījumiem, izstrādēm neironu mašīntulkošana tomēr kļuva par modernāko metodi. 2016. gada rudenī uzņēmums Google sāka statistiskās mašīntulkošanas sistēmu aizstāšanu ar neironu mašīntulkošanas sistēmām. 2017. gadā to sāka arī Facebook. Par pāreju uz neironu mašīntulkošanu paziņoja arī Amazon, Microsoft, Systran, IBM, Baidu un daudzi citi.

Šodien par mašīntulkošanas iespējām gan teorētiskā, gan praktiskā līmenī aktīvi runā gan zinātnieki, gan programmētāji, gan arī tulkošanas un lokalizācijas nozares praktiķi. Joprojām daudzi kritiķi uzskata, ka pilnībā automatizēta tulkošana principā nav iespējama. Izmantojot tikai mašīntulku, teksts tik un tā būs jārediģē. Vairums iesaistīto tomēr atdzīst, ka ilgtermiņā varētu būt iespējams uzlabot mašīntulkotāja kvalitāti tiktāl, ka rezultāts būs līdzvērtīgos cilvēka veiktam tulkojumam, jo laika gaitā mašīntulkotājs spēj “mācīties” un vairs nepieļaus vienas un tās pašas kļūdas. Jāatzīst, ka mašīntulkotāja “mācīšana” prasa ne vien lielus finansiālos ieguldījumus, bet arī zinošus speciālistus.

Ar katru gadu mašīntulkošanas kvalitāte uzlabojas, taču mašīntulkošana un teksta pēcrediģēšana ir vienots process, kurā mašīntulkotāja tulkoto tekstu pārskata cilvēks (parasti profesionāls tulkotājs) un pārliecinās, ka mašīntulkotājs nav pieļāvis rupju nozīmes kļūdu.

Šādas pieejas izmantošana ir ļoti izdevīga liela apjoma projektiem un darba uzdevumiem, jo mašīntulkotājs spēj iztulkot liela apjoma tekstus sekundēs, savukārt profesionāla tulkotāja veikta tulkojuma pēcrediģēšana garantē, ka tulkojuma kvalitāte neatšķirsies no cilvēka veikta tulkojuma. Līdz ar to ar vieniem un tiem pašiem resursiem ir iespējams iztulkot aptuveni divreiz vairāk teksta, nezaudējot kvalitāti. Visbiežāk mašīntulkotājs tiek izmantots, tulkojot liela apjoma tekstus, tehniskos aprakstus, lietošanas instrukcijas, tipveida juridiskos tekstus un citus.

Nepieciešams tulkojums? Sazinieties ar mums!

Kvalitātes un konfidencialitātes garantija, ko apstiprina ISO sertifikāti

Mūsu projektu vadītāji runā latviešu, krievu, angļu, vācu un poļu valodā

99% klientu saņem cenas piedāvājumu mazāk nekā 15 minūtēs

Vairāk nekā 3000 valodas speciālistu un dzimtās valodas runātāju

Vairāk nekā 98% klientu mūs labprāt ieteiktu saviem draugiem un partneriem

Mūsu birojā katru gadu tiek iztulkoti vairāk nekā 16 miljoni vārdu

Skrivanek mašīntulkojums
Māšintulkošanas vēsture