Videókeresés beszédfelismeréssel
További Tudomány cikkek
- Szakmai körökben is megosztó: most akkor jó vagy rossz az időszakos böjt?
- A madarak harcolnak és udvarolnak is alvás közben
- A nem őszinte viselkedésformák átszövik mindennapjainkat
- Magyar fejlesztés forradalmasíthatja a napelemparkok telepítését
- Eddig ismeretlen fajokat és hegyeket is találtak a víz alatt és a víz fölött is
A bostoni céget korábban stílszerűen PodZinger-nek hívták, most pedig EveryZing-nek. Keresőjükbe bedolgozták a szerteágazó tevékenységet (információbiztonság, ad hoc hálózatok kutatásfejlesztése) folytató, szintén bostoni BBN beszédfelismerő-technológiai újításait, melyek lényege, hogy az adott beszéd körülbelül nyolcvan százalék pontossággal kereshető szöveggé alakítható át. Tom Wilde, az EveryZing igazgatója szerint a kereskedelmi forgalomban jelenleg hozzáférhető hasonló rendszerek közül a BBN-é nyújtja a legjobb teljesítményt.
Alaptechnológiák
Ez a pontosság új keresési lehetőségeket biztosít: teljes video- és audioanyagok átírása, a felhasználó közvetlenül a keresett szövegrészhez irányítása, vagy a Google-hoz hasonló célzott, speciális tartalomhoz kapcsolódó hirdetések szolgáltatása, és így tovább.
Az EveryZing a BBN két alaptechnológiáját alkalmazza. A beszédet szöveggé konvertáló (speech-to-text) Byblos rendszer valószínűségi gépitanulás-algoritmusokat használ. Egy percnyi audioanyagot egy perc alatt alakít át szöveggé.
A szöveg tartalmát feldolgozó algoritmusok képezik a másik BBN alaptechnológiát. A természetesnyelv-feldolgozáshoz különböző kontextusokhoz kapcsolódó hatalmas kifejezés- és szógyűjteménnyel rendelkeznek. A rendszer ezek segítségével képes egy-egy videót „értelmezni”.
Például labdarúgásról szóló híradórészletben valószínűleg a focihoz kapcsolódó speciális szavakkal, kifejezésekkel találkozunk. Az EveryZing ebben az esetben az olyan félreérthető, vagy értelmezhetetlennek tűnő szavakat is tudja kezelni, mint a „les”, a „tizenegyes” vagy a „lesszabály.”
Beszédfelismerés és keresés
„A szöveg megértése hatékony eszköz, mert lehetővé teszi, hogy a kereső elvontabb fogalmakat is szolgáltasson a felhasználónak, aki ezáltal még jobban finomíthatja, pontosíthatja kutakodását” – véli Wilde.
A YouTube, a podcast, az internetes televíziók, rádió-show-k és más multimédiás szolgáltatások felgyorsítják a világháló permanens forradalmát. Ugyanakkor a pontos keresés még mindig számos problémába ütközik. A találatok szinte csak a szöveges és képformátumú dokumentumokra vonatkoznak, a video- és audioformátumok esetében azonban ritkábban bukkanunk rá a keresett tárgyra, személyre.
Az utóbbi években egyre több cég jött rá, hogy a beszédfelismerés jelentheti a megoldást.
Audioanyagok szöveges átiratával és ezek multimédiás kereséskor történő alkalmazásával legalább egy évtizede kísérleteznek. A legfőbb eredményeket a BBN, az MIT, a Carnegie Mellon Egyetem, az IBM és az SRI International érték el. (A BBN rendszer elődjének a CMU 1995-ös Infomedia-ja tekinthető.)
Új korszak a keresőmotorok történetében?
Most viszont tényleg eljött a videokeresés kora. A tartalom jelentős része megtalálható a világhálón. „Sokkal érdekesebbek, szórakoztatóbbak, mint az egyszerű szövegek” – magyarázza az Infomedia mellett hajdan bábáskodó Richard Stern professzor.
Az EveryZing elsődleges célja a tartalomszolgáltatókkal való együttműködés, multimédiás anyagaik kereshetővé alakítása. Jelenleg az ABC audio- és videoanyagain dolgoznak: szöveggé alakítják azokat, a szövegeket időcímkékkel látják el. Az időcímkék arra jók, hogy ha például Hilary Clintont keressük, a program azonnal a megfelelő fájlrészhez kalauzol. Sőt, hozzátársítva bizonyos fogalmakat, más kulcsszavakat is ajánl.