Lukács
8 °C
22 °C
Index - In English In English Eng

Gép fordíthat az EU-s Bábelben

2008.03.16. 11:49
Az Európai Unió huszonhárom hivatalos nyelve azt eredményezi, hogy a lehetséges fordítás-párok száma 253. A hamisítatlan nyelvi Bábelben a folyamat automatizálása tűnik kézenfekvő megoldásnak. Csakhogy az igen költséges és lassú. Vagy mégsem?

A 2007 végén lezárult METIS II projekt ugyanis bebizonyította, hogy létezik a ma elterjedt módszereknél gyorsabb is, amellyel (eddig) hollandból, németből, görögből és spanyolból fordított angolra a gép.

Szabályalapú kontra statisztikai megközelítés

A gépi fordítás története ugyan a múlt század ötvenes éveiben vette kezdetét, viszont a minőséget (és természetesen a végeredményt) tekintve, a masinák még mindig nem veszik fel a versenyt az emberrel. Még akkor sem, ha egyes – pontos, egyértelmű szókészlettel rendelkező, kifejezetten formális szövegeket produkáló, tehát viszonylag könnyen kezelhető – szakterületeken, például a repülőgép-gyártásban figyelemreméltó eredményeket érnek el.

Az európai kutatóközösségek a nyolcvanas évek óta rendkívül aktívak ezen a téren, amit leginkább az Eurotra kezdeményezés fémjelzett. Az akkori kísérleteket a szabályalapú (rules-based) megközelítés jellemezte: a számítógépnek megtanították a mondattani szabályokat, majd azokat felhasználva, a szöveget egyik nyelvről a másikra ültette át. (Általában ez a szemlélet vezérelte a ma kereskedelmi forgalomban hozzáférhető legtöbb szoftver fejlesztőit.)

A kilencvenes évek elejétől viszont – a beszédfelismerés területén folytatott kutatások hatására – egy új, statisztikai alapú megközelítés kezdett elterjedni. Szabályok helyett szövegkorpuszokon alapuló statisztikai módszerekre tevődött át a hangsúly.

Korpuszok

A korpusz nagymennyiségű strukturált, elektronikusan tárolt és feldolgozott szövegekből áll össze. Egy adott nyelvet reprezentál, így akár több tízmillió szóból is állhat. Általában egy-egy meghatározott területen használják statisztikai elemzésekre, előfordulásokat ellenőriznek, nyelvi törvények érvényességét bizonyítják velük. A szövegek lehetnek egyetlen (monolingual corpus) és két vagy több nyelven is (multilingual corpus). Utóbbiakat, a párhuzamos összehasonlítást megkönnyítendő, speciálisan formázzák. A számítógép így tanulja meg, hogy egy nyelv szavai és kifejezései miként kapcsolódnak egy másikhoz.

A párhuzamos korpuszok egyik legékesebb példája az Európai Parlament dokumentumain alapul, tizenegy nyelvet dolgoz fel. Előállításuk azonban meglehetősen drága, és ezért elég ritkák. Nagyon kevés nyelven léteznek, kifejezetten szakszövegekre vonatkoznak.

Mintaegyeztetés

Az európai uniós METIS II a statisztikai alapú gépi fordítást párhuzamos források nélkül, csak a célnyelv – az angol – (egynyelvű) korpuszait használva igyekezett megvalósítani céljait. Az egynyelvű korpuszok hatékony kezeléséhez szókészlettani szempontból szótár, valamint a szintaxis valamilyen szintű megértése szükséges. A 2003-ban lezárult eredeti METIS keretében a korpuszt mondatminták elemzésére, majd a mintákat összekapcsolva (a forrásnyelvet a célnyelvhez viszonyítva), szövegek fordítására dolgozták fel. A görögben például az ige kijelentő módban megelőzheti az állítmányt, míg az angolban (különösen a beszélt nyelvben) elég ritkán, ami azt jelenti, hogy a programnak ezt mindenképpen meg kellett tanulnia, mert csak úgy tud helyes szórendben fordítani.

A METIS II komoly továbblépés az eredetihez képest: egész mondatok helyett inkább töredékeket, kifejezéseket vizsgáltak. Így még egyértelműbbé vált, mennyire hatékony módszer a mintaegyeztetés. Ezzel az eljárással nyelvtani szabályok szintén felhasználhatók: fordítási alternatívák generálódnak, majd a korpusz segítségével beazonosítható a legpontosabb (és egyben legvalószínűbb).

Métisz a mitológiában és a valóságban

A projekt nevéről annyit, hogy Métisz az értelem és a megfontoltság istennője a görög mitológiában, Ókeanosz és Téthüsz titánok lánya, Zeusz első felesége, Pallasz Athéné anyja. Zeuszt nagyszülei figyelmeztették, hogy Métisztől születendő leánya értelmesebb és okosabb lesz nála, míg a következő fiúgyermek erőben tesz túl rajta, és ledönti trónusáról. Tanácsukra a főisten lenyelte várandós feleségét, s vele együtt az isteni bölcsességet is, de már késő volt, mert hamarosan elviselhetetlen fejfájás gyötörte. Az istenek nem tudták, mit tegyenek. Héphaisztosz, a kovács rézbaltával felnyitotta Zeusz fejét, ahonnan sisakban és teljes fegyverzetben kiemelkedett Athéné. Métisz pedig az Olümposz urának belsejében élt tovább, akit tanácsokkal és jóslatokkal segített.

A modern Métiszre visszatérve, a partnerek holland, német, görög és spanyol szövegeket angolra ültető rendszert fejlesztettek. A tesztek jól sikerültek, és bebizonyosodott, hogy METIS II még a hosszú évtizedek fejlesztésének eredményeként létrejött piacvezető – szabályalapú – SYSTRAIN-nel is képes felvenni a versenyt. A világhálón egyébként már hozzáférhető egy prototípus.

De merre és hogyan tovább? Spanyol és belga kutatóprogramok keretében ugyan igyekeznek az eredményeket hasznosítani, csakhogy az egész rendszer továbbfejlesztésére egyrészt még nem született uniós terv, másrészt a prototípus kereskedelmi forgalomba kerülő termékké alakításához komoly ipari partnerre lenne szükség.