Szilárda
-2 °C
7 °C

Gépfordítók Bábel tornyában

2005.11.04. 14:48
Stan Jou, a Carnegie Mellon Egyetem PhD-hallgatója ugyan mozgatja az ajkát, de nem ad ki hangot. Szájával anyanyelvén, mandarin kínaiul formálja a szavakat, melyeket az arcához és nyakához rögzített tizenegy elektróda az izmok tevékenysége alapján "térképez fel", s teszi lehetővé, hogy egy számítógépes program kitalálja, majd mandarinról angolra fordítsa, mit akart mondani.
A demonstrációt október 27-én tartották. A publikum néhány másodperccel később hangszórón hallhatta az eredményt. "Hadd mutassam be új prototípusunkat" - mondta a szintetikus hang. "Ön mandarinul beszél, amit a rendszer angolra, vagy spanyolra fordít." A jövőben az elektródákat a beszélő arcába implantált vezeték nélküli chipek helyettesíthetik. (Ráadásul nincs is szükség tizenegy elektródára, mert az összes információhoz akár három-négy elég.)

Szájról olvasás a XXI. században - jellemezték többen a bemutatót.

Mindent fordít?

"Egy kicsit sci-finek tűnik, de nagyon izgalmas látomás" - nyilatkozta a CMU Fejlett Kommunikációs Technológiák Nemzetközi Központjának (interACT) igazgatója, az új technológia kidolgozását vezető Alex Waibel. A projektben a neves pittsburghi felsőoktatási intézmény és a németországi Karlsruhe Egyetem vesznek részt. A kutató saját életével magyarázza a gépi fordítás iránti érdeklődését: "németnek születtem, Spanyolországban töltöttem a gyerekkoromat, japán a feleségem. Németül, spanyolul, angolul, franciául és latinul beszélek."

A technológia segítségével - idővel - bárki bármilyen nyelven "beszélhet". A rendszer kereskedelmi forgalomba kerülésére azonban még körülbelül tíz évet várhatunk.

A Pittsburgh és Karlsruhe közötti videokonferenciával egybekötött demonstráció során több új fordítóeszközt hoztak nyilvánosságra. Maga a "konferencia" szintén központi részét képezte a bemutatónak: miközben Waibel beszélt, egy szoftver spanyolra és németre fordította mondandóját. Míg a korábbi beszédfordító (speech-to-speech) rendszerek általában egy-egy témakörre, például utazásra, hotelfoglalásra, bevásárlásra, gyógyászatra korlátozódtak, az új technológia nyílt tematikával is elboldogul. Figyelembe veszi, hogy beszéd közben nem mindig tartjuk be a nyelvtani szabályokat, rosszul alkalmazzuk a mondattant, vagy éppen bonyolult szókészletet használunk, mondandónkat érzelemkifejező felkiáltásokkal színesítjük. A CMU kutatói azt szeretnék, hogy programjaik előadásokat, televíziós műsorokat, telefonbeszélgetéseket, azaz az élőnyelvi kommunikáció szinte minden formáját lefordítsa.

Statisztika szemantika helyett

"Néha még az embernek is nehéz megérteni, mit mond a másik" - magyarázza az MIT Számítástudományi és Mesterséges Intelligencia Laboratóriumában dolgozó Chao Wang. "Ezt szem előtt tartva, elképzelhetjük, mekkora kihívást jelent a gépeknek."

Az előrelépést a gépi fordításban bekövetkezett szemléletváltás tette lehetővé. A múltban a legtöbb szoftver szótári definíciók, nyelvtani szabályok, szemantika alapján próbált elboldogulni a hallottakkal. A programozók nagyjából azt akarták elérni, hogy programjaik úgy gondolkozzanak, mint az ember. A mesterségesintelligencia-kutatásban elterjedt statisztikai módszerek, a számítógépek teljesítményének drasztikus növekedése, a világhálón mind nagyobb mennyiségben hozzáférhető minta - lefordított szöveg -, a szaporodó és egyre használhatóbb adatbázisok azonban megváltoztatták a gépi fordítást is: feladva a jelentésalapú megközelítést, a statisztikai eljárást részesítették előnyben. Nem tökéletes, megvannak a korlátai, a humoros, ironikus beszéd interpretálása igen sok problémát okoz, egyes nyelveknél, például angolról spanyolra könnyebben megy, mint angolról németre, de összességében eredményesebb a korábbi módszereknél - fejtegeti Waibel.

A Központ egyik projektjének eredményeként a lefordított beszéd feliratok formájában jelenik meg egy LCD-kijelzőn. Egy másikban a PDA fordít thairól angolra, angolról arabra. Utóbbi főként a katonai, hírszerzői munkát könnyítené meg. A Nyelvelemző Rendszer idegen nevekre szakosodott keresőmotorral rukkolt elő, míg egy másik program a szimultán fordításban jeleskedik. Waibel azonban nemcsak szoftverben gondolkodik: a megszokott fejhallgatón és audió-felszerelésen túlmutató parányi mikrofonjai, hangszórói lehetővé teszik, hogy míg az egyik hallgató a fordított szöveget, a mellette ülő másik az eredetit fülelje.