Előd
7 °C
16 °C

Videókeresés beszédfelismeréssel

2007.06.23. 14:51
Az iPod és a műsorszórás (broadcasting) szavak összevonásából eredő online tartalomterjesztési forma, a népszerű podcast anyagai közötti kutakodásra szakosodott keresőmotor, felhasználva a beszédfelismerés eredményeit, videókra is kiterjeszti tevékenységét.

A bostoni céget korábban stílszerűen PodZinger-nek hívták, most pedig EveryZing-nek. Keresőjükbe bedolgozták a szerteágazó tevékenységet (információbiztonság, ad hoc hálózatok kutatásfejlesztése) folytató, szintén bostoni BBN beszédfelismerő-technológiai újításait, melyek lényege, hogy az adott beszéd körülbelül nyolcvan százalék pontossággal kereshető szöveggé alakítható át. Tom Wilde, az EveryZing igazgatója szerint a kereskedelmi forgalomban jelenleg hozzáférhető hasonló rendszerek közül a BBN-é nyújtja a legjobb teljesítményt.

Alaptechnológiák

Ez a pontosság új keresési lehetőségeket biztosít: teljes video- és audioanyagok átírása, a felhasználó közvetlenül a keresett szövegrészhez irányítása, vagy a Google-hoz hasonló célzott, speciális tartalomhoz kapcsolódó hirdetések szolgáltatása, és így tovább.

Az EveryZing a BBN két alaptechnológiáját alkalmazza. A beszédet szöveggé konvertáló (speech-to-text) Byblos rendszer valószínűségi gépitanulás-algoritmusokat használ. Egy percnyi audioanyagot egy perc alatt alakít át szöveggé.

A szöveg tartalmát feldolgozó algoritmusok képezik a másik BBN alaptechnológiát. A természetesnyelv-feldolgozáshoz különböző kontextusokhoz kapcsolódó hatalmas kifejezés- és szógyűjteménnyel rendelkeznek. A rendszer ezek segítségével képes egy-egy videót „értelmezni”.

Például labdarúgásról szóló híradórészletben valószínűleg a focihoz kapcsolódó speciális szavakkal, kifejezésekkel találkozunk. Az EveryZing ebben az esetben az olyan félreérthető, vagy értelmezhetetlennek tűnő szavakat is tudja kezelni, mint a „les”, a „tizenegyes” vagy a „lesszabály.”

Beszédfelismerés és keresés

„A szöveg megértése hatékony eszköz, mert lehetővé teszi, hogy a kereső elvontabb fogalmakat is szolgáltasson a felhasználónak, aki ezáltal még jobban finomíthatja, pontosíthatja kutakodását” – véli Wilde.

A YouTube, a podcast, az internetes televíziók, rádió-show-k és más multimédiás szolgáltatások felgyorsítják a világháló permanens forradalmát. Ugyanakkor a pontos keresés még mindig számos problémába ütközik. A találatok szinte csak a szöveges és képformátumú dokumentumokra vonatkoznak, a video- és audioformátumok esetében azonban ritkábban bukkanunk rá a keresett tárgyra, személyre.

Az utóbbi években egyre több cég jött rá, hogy a beszédfelismerés jelentheti a megoldást.

Audioanyagok szöveges átiratával és ezek multimédiás kereséskor történő alkalmazásával legalább egy évtizede kísérleteznek. A legfőbb eredményeket a BBN, az MIT, a Carnegie Mellon Egyetem, az IBM és az SRI International érték el. (A BBN rendszer elődjének a CMU 1995-ös Infomedia-ja tekinthető.)

Új korszak a keresőmotorok történetében?

Most viszont tényleg eljött a videokeresés kora. A tartalom jelentős része megtalálható a világhálón. „Sokkal érdekesebbek, szórakoztatóbbak, mint az egyszerű szövegek” – magyarázza az Infomedia mellett hajdan bábáskodó Richard Stern professzor.

Az EveryZing elsődleges célja a tartalomszolgáltatókkal való együttműködés, multimédiás anyagaik kereshetővé alakítása. Jelenleg az ABC audio- és videoanyagain dolgoznak: szöveggé alakítják azokat, a szövegeket időcímkékkel látják el. Az időcímkék arra jók, hogy ha például Hilary Clintont keressük, a program azonnal a megfelelő fájlrészhez kalauzol. Sőt, hozzátársítva bizonyos fogalmakat, más kulcsszavakat is ajánl.