Élőben fordít angolról kínaira a Bing
A Microsoft bemutatott egy videót, amelyben az előadó angolul elhangzó beszédét élőben fordították kínaira, ráadásul az előadó hangjához nagyon hasonló hangon. Rick Rashid, a Microsoft Research vezetője elmagyarázta, hogyan lehetséges ez.
Az utóbbi évtizedekben tudósok azon dolgoztak, hogy a számítógépek felismerjék az emberi nyelvet. Nehézséget okoz, hogy mindegyik ember máshogyan beszél, és még egy adott ember is másképp ejti a szavakat a szövegkörnyezettől függően. A hetvenes években azonban fordulat következett be a beszédfelismerésben, a Carnegie Mellon University kutatói úgynevezett Markov-modell alapján statisztikai nyelvi rendszereket használtak, hatalmas adatbázist gyűjtöttek össze emberi beszédből. Hatalmas előrelépés volt ez, az elmúlt harminc évben ezen az alapon ismerték fel egyre jobban és hatékonyabban a gépek az emberi beszédet. De még mindig nagyon sok hibát vétenek. Sokan használják ezeket a beszédfelismerőket, például telefonos ügyfélszolgálatok, az Xbox Kinect, valamint az Apple Siri szolgáltatása.
Néhány évvel ezelőtt a Microsoft a Torontói Egyetemmel közösen kezdett új fejlesztésbe, az ötletük az volt, hogy az emberi gondolkodást veszik alapul, és sokkal több adatot használtak, mint korábban. Harminc százalékkal jobb eredményt értek el beszédfelismerésben, eddig minden negyedik-ötödik szó volt hibás, ezt sikerült leszorítani arra, hogy csak minden hetedik-nyolcadik szót tévessze el a rendszer.
A cikkben látható videóban is ezt a technológiát használják, így nyomon követhető a beszédfelismerő pontossága. Ezek után már csak egy ugrás volt, hogy a technológiát fordításokra is használják. Ha például azt szeretnék, hogy az angolt mandarinra fordítsák, akkor a beszédet előbb fel kell ismertetni a géppel, ezt átküldik a Bing fordítóján. Utolsó lépésként az írott szöveget felolvassa egy gép, ehhez is nagyon sok adatot gyűjtöttek, kínai beszédeket vittek fel a rendszerbe, hogy minél életszerűbb legyen.
És most jön a csavar, az eredeti angol forrás hangjából is mintát vettek, és úgy alakítják a kínai hangot, hogy az hasonlítson az előadó hangjára. Így olyan, mintha ugyanaz az ember beszélne kínaiul. A videón be is mutatják a technológiát, ami a közönségnek reakcióiból ítélve jól működik.