Móric
14 °C
17 °C

Valós időben utánoz az avatár

2008.04.06. 11:20
A Deutsche Telekom, a Fraunhofer Intézet és a Ben Gurion Egyetem rendszere először csevegőszobákban és online hívásközpontokban jelenhet meg.

A komikus karaktereket irányító rendszer a berlini Deutsche Telekom Laboratórium és Fraunhofer Heinrich-Heintz Intézet, valamint az izraeli Ben Gurion Egyetem közös munkája. Az eddigi visszajelzések pozitívak, a látogatók jót szórakoztak „torz” tükörképükkel. A fejlesztők hamarosan tanulmányt jelentetnek meg, melyben részletesen bemutatják a gépi látáson, beszéd- és gesztus-felismerésen alapuló, billentyűzet és egér nélküli intuitív interakcióra képes avatárt.

Azonnali reakció

„A különböző típusú felismerés-megoldások eredményeként, bármilyen új interface tervezhető a hatékony ember-gép kommunikációhoz” – jelentette ki Oliver Schreer, az egyik kutató (Fraunhofer HHI).

A prototípus a legegyszerűbb mezei PC-vel is kompatibilis. Csak egy olcsó webkamera és átlagos fejhallgató kell hozzá. A valós időben történő audiovizuális elemzés teszi lehetővé a virtuális karakter azonnali animációját. Mindez előzetes tanulás vagy egyéni gesztusinput tárolása nélkül megy végbe. Mivel – a fej- és a kézmozdulatok pontos követéséhez – a rendszer meghatározó eleme a bőrszín alapú felismerés, legfontosabb követelmény, hogy a felhasználó kezének mozgatásával kezdje a kommunikációt. (És, ha egy mód van rá, ne viseljen bőrszínű ruhát.)

Paramétersorok

A rendszer egyrészt hatvanhat paraméterből álló sort „ismer”, amelyek segítségével meghatározza az aktuális arckifejezést, másrészt eleve rendelkezik néhány arckifejezés (öröm, szomorúság, meglepődés, undor) pontos, a felhasználó által manuálisan is aktiválható mintájával.

A hangok és a szájmozgás szinkronjával és az így létrejövő, a fonéma analógiájára visemaként definiált mintákkal szemben sem tehetetlen: a fonémákat tizenöt visemából álló sor képes reprezentálni. Természetesen „ismeri” ezt a sort.

A testmozgások (karok, felsőtest) azonosítása 186 paraméter alapján történik. A rendszer a fej elfordítását, bólogatást, stb. szintén felismeri. Az ujjak pozíciójából összeálló kézgesztusokhoz az amerikai jelbeszéd ábécéjét is alkalmazza. Viszont nem minden esetben törekszik a százszázalékos imitációra: ha az avatár túl nevetségessé és ezáltal hiteltelenné válna, inkább valóságosnak próbál tűnni, s nem teljesen úgy tenni, mint a szemközti humán partner.

Alkalmazási lehetőségek

Schreer a jövőbeli alkalmazásokkal kapcsolatban elmondta, hogy eleinte valószínűleg virtuális beszélgető-szobákban és online hívásközpontokban próbálkoznak vele. A beszélgetőket mindkét esetben avatárok jelenítenék meg. Az ezt követő lépés a mobil készülékekbe integrálás lesz. Az érintőképernyőt, digitális tollat és beszédfelismerő rendszert kiegészítve, tényleg felhasználóbarát interface-ként működne.

Egyes részek (például a gesztusfelismerés) már alkalmasak a piaci forgalmazásra, mások viszont még nem: az ujjak mozgásának elemzése és interpretálása a jelenlegi technológiák mellett túl bonyolult feladat, valós időben (valós feltételek mellett, valós környezetben) jól működő, robusztusabb algoritmusok kellenek hozzá.

Egy-két éven belül valószínűleg megoldódik ez a probléma is – prognosztizál Schreer.