Vilma
-7 °C
4 °C

Virtuális kommentátor

2005.08.14. 15:38
A rendszer vizuális információkat, mozgóképek folyamát fordítja szövegre. Ugyanazt teszi, mint mi: leírja, amit lát. Alkotórészei egymással folytatott permanens interakció során dolgozzák fel az adatokat. A feldolgozás az ember esetében rutinműveletnek tűnik, csakhogy a rutinművelet bonyolult mentális folyamatokból áll össze.

A projekt és utóélete

Az Európai Unió IST (Information Society Technologies) programjának keretében a 2001. májusban indult, 2004 decemberében lezárult CogViSys (Cognitive Vision Systems, Kognitív Látórendszerek) projekt eredményeinek továbbfejlesztésén ma is dolgoznak. Három területre koncentrálnak: a vezetőket a közúti viszonyokról tájékoztató, navigálásukat az autó és a forgalom kapcsolatáról valósidejű videók elemzésével segítő (alkalmasint figyelmeztető) rendszerre, brit és amerikai jelbeszédre (melyeknek bizonyos szekvenciáit alakítják át szöveggé, illetve emberi beszéddé), kisebb embercsoportok "rituális" interakcióira, például helyzetkomikumra (situation comedies, sitcoms) épülő jelenetekre.

A projektet a Karlsruhei Egyetem Informatika Tanszékéhez tartozó Algoritmusok és Kognitív Rendszerek Intézetében dolgozó Hans-Hellmut Nagel koordinálta. A zürichi ETH, a Sophia Antipolisi INRIA (Franciaország), a Leuveni Katolikus Egyetem (Belgium), valamint a freiburgi és az oxfordi egyetem vettek még részt benne. A végeredményt Karlsruheben mutatták be; a nyílt forráskódú CogViSys szoftver egy része a világhálóról letölthető. Nagel szerint az alkalmazott technológia tíz éven belül, azaz hamarabb elterjed, mint gondolnánk.

Emberi látás, gépi látórendszerek

A kutatók abból indultak ki, hogy a számítógépes látás területén elért sikerek ellenére, a rendszerek kognitív feladatok kivitelezésekor, például az általánosabb jellegű felismerésben (osztályozás, stb.), vagy jelenetek megértésében egyáltalán nem jeleskednek. Modellként az ember három egymáshoz kapcsolódó tevékenységen, képfeldolgozáson, következtetésen, ismerettároláson (memórián) alapuló vizuális érzékelése szolgált. A mesterséges rendszernek ezt a három tevékenységet kellett -szöveges leírásokat automatikusan generáló "virtuális kommentátor" alkalmazásban - egyesítenie.

"Hogyan értjük meg, mi történik akkor, amikor mozgóképek peregnek?" - teszi fel a kérdést Nagel, majd a projekt nehézségeit ecseteli: "mindez óriási kihívásokat jelent a gépi látás szintjén, melyeket a leíró természetes nyelvek témaköréhez kell kapcsolnunk. A művelet kivitelezéséhez algoritmikus értelmezőt, a két szint közötti egyfajta logikai réteg használatát választottuk."

Tárgyak, testek és fények nyomában

Az egy vagy több kamerával rögzített képszekvenciák szöveges leírássá alakítása (Vid-Text, video-to-text-conversion) több stádiumon keresztül valósul meg. Első lépésként a videó input-jelből - a későbbiekben látható tárgyak, testek és az uralkodó fényviszonyok sematikus ábrázolását szemléltető - kulcselemeket, utasításokat kivonatolnak. A legfontosabbakat rendszer folyamatosan kiértékeli, fogalmakhoz társítja, majd fogalmi leírásokká változtatja.

A bizonyos tárgytípusok, testek, illetve a fényviszonyok előre feltételezett változataira vonatkozó általános ismereteket az állapotok "pályájának" felbecsülésére használják, ami a felvett jelenetben észlelhető mozgások numerikus tér- és időbeli ábrázolását eredményezi. A számszerű megjelenítést konceptuális megjelenítéssé alakítják át. Utóbbi jelenti a kimenő (természetes nyelven íródó) szöveges leírás generálásához szükséges forrásmatériát.

A rendszer - és az algoritmikus megközelítés - pontosságát a szöveges leírás mutatja meg. Könnyen ellenőrizhető, hiszen CogViSys "felmondja a leckét."

Nagel úgy véli, fejlesztésük elvileg keresőként is működhet: "ha az interneten egy videószekvencia után kutakodunk, begépelhetjük a szöveget. A rendszer rákeres a megfelelő mozgóképekre, tartalmukat menetközben értelmezi, végül eldönti, a kapcsolódás elég egyértelmű-e ahhoz, hogy találatként jelenítse meg."