Kinga, Kincső
15 °C
31 °C

Gépi fordítás statisztikai módszerekkel

2003.08.08. 12:01
Az utóbbi évek technológiai fejlődése lehetővé tette, hogy jelentős előrelépés történhessen a statisztikai módszereket alkalmazó gépi fordításban. A fejlesztések két központja a DARPA által anyagilag támogatott Dél-kaliforniai Egyetem Információtudomány Intézete (ISI, Marina del Rey), illetve a Johns Hopkins Egyetem Nyelv- és Beszédfeldolgozó Központja (CLSP, Baltimore).
A gépi fordítás a hagyományos számítástudományban, és az MI-ben egyaránt fontos szakterület. Lényege: egy adott természetes nyelven írt, elmondott szöveg másik természetes nyelvre történő, komputer általi átalakítása. Egyes tudósok kivitelezhetetlennek tartják mindaddig, amíg az MI-kutatás nem abszolválta a természetesnyelv-megértést. Elfogadottabb azonban a számítógépes nyelvészeti álláspont: a fordításhoz elegendő a nyelvre vonatkozó tudás, a bonyolult feladat a szemantikai rétegek megértése nélkül is végrehajtható.

A szimbolikus és a statisztikai módszer

A klasszikus, rendkívül idő- és munkaigényes szimbolikus módszer abból áll, hogy kétnyelvű programozók a szókészletre, nyelvtanra (azon belül főként a szintaxisra) vonatkozó, a komputer számára nélkülözhetetlen (és elképesztő mennyiségű) információ bevitelével, késztetik fordításra a gépet. A program kielemzi az idegen nyelvű szöveg grammatikai szerkezeteit, majd kemény szabályokon alapuló angolra interpretálja. Számos honlap, például a Yahoo, vagy a BabelFish használ ilyen típusú - kereskedelmi alkalmazásokban a legelterjedtebb - szoftvert.

Az IBM Watson Kutatóközpontjában, Peter F. Brown és kollégái azonban már a kései nyolcvanas, korai kilencvenes évek óta egy másik eljárással kísérleteznek. Angol szöveget és különböző fordításait tanulmányozva, a számítógép statisztikai elemzést végez, így próbálja elsajátítani, megtanulni a második nyelvet. Például, kap két arab szóösszetételt: rajl kabir, rajl tawil. Ha tudja, hogy az első "nagy embert", a második "magas embert" jelent, a kettőt összehasonlítva kikövetkezteti: a rajl jelentése "ember". Az ilyen jellegű, N-grams kifejezések képezik a statisztikai gépi fordítás alapjait. (N az adott kifejezésen belüli szavak, terminusok számát jelöli.) Tehát a gépet nem a programozó oktatja, hanem saját tapasztalataiból tanul. És idővel a legkülönlegesebb nyelveket is olyan gyorsan elsajátíthatja, amit korábban elképzelhetetlennek tartottak.

A módszer gazdaságosnak tűnt ugyan, ám - komplexitása miatt - a kilencvenes évek hardvereinél, szoftverjeinél komolyabb kapacitást igényelt.

Fordítórendszerek

Fordulatot az 1999 nyarán, a Johns Hopkins Egyetemen rendezett munkaértekezlet hozott. Az ISI gépifordítás-kutatásait vezető Kevin Knight nagyszabású terveket körvonalazott. Mivel a hardver-fejlődés lehetővé tette addigra, úgy gondolta, a megfelelő program létrehozásának is eljött az ideje.

Hamarosan (még szintén 1999-ben) megjelent az Egypt/Giza szoftvercsomag, miközben David Yarowsky és csoportja (JH Egyetem) a legegzotikusabb nyelvek fordítására vonatkozó fejlesztésekbe fogtak: bengáli, nepáli, üzbég, sőt, a Star Trek kezdetben ellenséges, idővel barátságos klingonjaira szintén gondoltak. A Klingon Nyelvintézet a Hamletet és a Bibliát már lefordította, és a fordítások alapján létrehozott szótárféleségre támaszkodva, sokkal könnyebben boldogulnak más szövegekkel. Yarowsky azt ígéri, hogy öt éven belül száz nyelv gépifordítás-rendszerét dolgozzák ki.

Franz Josef Och
A témakörrel előbb a németországi Aachen Műszaki Egyetemén foglalkozó, jelenleg az ISI csoportjához tartozó Franz Josef Och fejlesztette az eredeti programnál okosabb Giza++-t. A kutató szerint rendszere bármely nyelvvel működik. Több alkalommal tesztelték, és mindig kiváló eredményeket produkált. Legutoljára úgy végzett az első helyen, hogy hét arab és tizennégy kínai fordítót utasított maga mögé.

"Adjanak elegendő mennyiségű párhuzamos adatot, és napokon, sőt, órákon belül bármely két nyelvre érvényes fordítórendszerük lesz" - nyilatkozta. Statisztikai modelljei mindig az adott input legvalószínűbb megoldására találnak rá. Och nem mondja meg a számítógépnek, miként dolgozzon, hanem hagyja, hogy a modell paramétereit felhasználva, magától jöjjön rá az ideális angol, stb. szövegre. Nyelvtani, lexikológiai szabályokkal kevésbé törődik, valószínűségi-statisztikai alapokon keres helyettük pattern-párosításokat. A fordítás során a szavak helyett szócsoportokra (kifejezésekre, mondatokra) tolódott át a hangsúly.

Fordítás vagy ferdítés?

A végeredmény hagy még kívánnivalókat maga után: az olvasó ugyan érti az eredeti szöveg jelentését, nyelvtanilag azonban bőven akadnak hibák. Knight elismeri: távolról sem tökéletes a statisztikai módszer, és a maximális pontosságot megcélozva, a hagyományos és az új megközelítés kombinációjára törekszenek jelenleg. És arra is, hogy a szövegrészek jelentésének viszonylag precíz visszaadása mellett, a mondattanban se legyenek ordító esetlenségek.

Közben az IBM kifejlesztette Bleu Metric-jét, a gépi fordításokat emberi fordításon nyugvó szabvánnyal statisztikailag összevető technikát. Gyors, objektív megfigyelései segítenek a félresikerült kísérletek kiszűrésében.

Ám hiába a látványos eredmények, a statisztikai módszerről több kutató vélekedik szkeptikusan, s helyette inkább nyelv-specifikus eljárásokra összpontosítanak.