Bertalan
19 °C
32 °C
Index - In English In English Eng

Beszédfelismerő szolgáltatást indított a YouTube

2010.03.05. 16:11
A YouTube csütörtökön jelentette be, hogy új szolgáltatást indít el, a feltöltött videók beszédfelismerésen keresztüli automatikus feliratozását, amelynek segítségével a süketek is képesek lehetnek teljesebb módon használni az oldalt és a szándék szerint ledőlhetnek a nyelvi korlátok is.

Hunter Walk, a Youtube vezető termékmenedzsere a csütörtöki sajtótájékoztatón elmondta, hogy évek óta a célközönség szélesítésén dolgoznak, ennek keretében terjesztették ki a szolgáltatást a mobilokra is. A cél még mindig a közönség szélesítése, mégpedig a beszédfelismerő technológia segítségével: áthidalják az idegen nyelvek akadályait, valamint segítik a hallássérülteket a tartalom megértésében.

Mike Cohen, a Google egyik mérnöke elmondta, hogy a a beszédfelismerés mögötti technológia már 50 éve fejlesztés alatt áll, és most vált eléggé megbízhatóvá ahhoz, hogy széles körben megkezdődhessen a használata. "Már 25 éve dolgozom ezen. Nagy eredményeket értünk el, és ennek a mostani projektnek a kivitelezése számosmúlt béli kutatás révén vált lehetővé. Rengeteg problémát kellett megoldanunk, olyanokat, mint a különböző akcentusok felismerése, a háttérzaj kiszűrése, a nyelvjárások és a kiejtés különbségei" - nyilatkozta a kutató.

Bush elnök egy levelet hagyni neki

Mindennek ellenére a technológia még közel sem tökéletes. Jelenleg az automatikus feliratozás csak angol nyelven elérhető, és a kiejtési különbségek és az akcentusok miatt sok szót ért félre. A sajtótájékoztatón tartott bemutatóban, amellyel a szövegfelismerés működését demonstrálták, a "sim card" (SIM kártya) kifejezést úgy értelmezte, mint "salmon", azaz lazac.

A cég közlése szerint, bár mostantól minden angol nyelvű videóhoz elérhető a szolgáltatás, a legalkalmasabbak azok a felvételek, amelyeken kevés a háttérzaj és tisztán hallható a beszéd. Erre példaként azt a beszédet hozták fel, amelyet Obama elnök a chilei földrengés apropóján tartott.

Meg is kerestük a megosztón a felvételt, és kipróbáltuk a feliratozást, amely az alsó menüsor CC jelű gomján kersztül érhető el. A felirat többnyire valóban híven követi az elnök tisztán hallható beszédét, egy-két helyen szúrja csak el a ragozást, amikor Obama elharapja a szavak végét, és meglepően kevés helyen téveszti el az egyes kifejezéseket.

A szolgáltatás valóban sokat segíthet tehát azoknak, akik nem tudják meghallgatni a szöveget, viszont az alkalmankénti elértésekkel könnyen zavarba hozhatja azokat, akik csak alapfokon beszélik a nyelvet.

Összehasonlításképpen megpróbálkoztunk Obama beiktatási beszédével is, amelyben meglehetősen sok a háttérzaj és rendesen torzít is.

Ebben az esetben már ügyetlenebb volt az értelmező, a zajosabb helyeken szinte ötletszerűen dobálja a hangzás alapján talált lehetséges kifejezéseket, de a valós szöveget csak ott adja vissza, ahol tisztább lesz a felvétel. Minderre megoldást jelenthet, hogy a videók tulajdonosai ellenőrizhetik és kijavíthatják a generált szövegeket.

Nem vagy más, csak oximoron

Kíváncsiak voltunk arra is, hogyan boldogul egy bonyolultabb szöveggel, így megnéztük az ijustine nevű videoblogger bejelentkezését az iPad bejelentésének helyszínéről. Az eredmény itt még érdekesebb, mert bár az egyszerű szöveggel jól boldogul a YouTube, az olyan kifejezéseket, mint a 3G, a WiFi vagy akár az iPad, nem érti, viszont becsülettel megkeresi a valószínű kifejezéseket. Így lesz az "a WiFi and a 3G version, both one gigahertz Apple A4 chip" mondatból "life I can't read the first ball one thing that hurts actually fortunate", ami azokhoz a Google Translatorral létrehozható gyöngyszemekre hasonlít, amik miatt annyira szeretjük a kínai termékek magyarított használati utasításait.

Ken Harrenstien, a Google szoftvermérnöke erről a jelenségről azt mondta a bemutatón, "nehéz minden szót helyesen értelmezni, de néha ez nem számít, néha pedig szórakoztató lehet."

A vállalat céja, hogy a szolgáltatás minden nyelven elérhető legyen, és helyenként a feliratozás fordításának béta verziója is elérhető már, így hát visszatértünk Obama szépen hangsúlyozott mondataihoz és megnéztük, vajon a YouTube szerint mit mondott magyarul.

A fordító nagy csatát vív a magyar ragozással és szórenddel, a bonyolultabb kifejezéseket pedig még mindig szó szerint ülteti át, de a lényeg többnyire érthető marad, ami a korábbi próbálkozásoknál már önmagában lényegesen jobb eredmény.

Ennél persze jóval több fog kelleni ahhoz, hogy a vállalat kivitelezhesse a tervét, hogy univerzálissá tegye a szolgáltatást, de ahogyan Harrenstien is fogalmazott, "ez nem a magoldás, hanem egy lépés a megoldás felé".

Mike Cohen szerint a torzításokon kívül az is nagy nehézséget jelent, hogy minden nyelvhez óriási mennyiségű adat feldolgozására van szükség, és persze minden nyelvnek ugyanúgy megvannak a saját nyelvjárásai, akcentusa és egyéni jellemzői, amelyek beépítése még az angolnál sem hibátlan.

A YouTube sajtótájékoztatóján Harrenstien, aki maga is süket gyermekkorától fogva, elmondta, hogy annak idején, amikor az MIT-n tanult, sok előadásra nem járt be, mivel nem feliratozták azokat. Most viszont a hozzá hasonló helyzetben lévőknek lehetősége van arra, hogy a YouTube-on keresztül feliratozva tekinthessék meg az előadásokat.

Ben Hubbard a Berkeley Egyetemről elmondta, ez egy nagyszerű új módja annak, hogy egy teljesen úgy közönség számára tegyék elérhetővé a kurzusokat, ezután pedig a Kaliforniai Süketek Iskolájának néhány tanulója lépett az emelvényre, akik kifejezték hálájukat a cég felé az új szolgáltatás elindításáért.