Kinga, Kincső
19 °C
32 °C

Okosszemüveg segíthet egyes bénulásban szenvedőkön

2014.08.08. 00:59
Az ELTE kutatói agyi bénulásban szenvedő betegeken segítenek technológiával: okosszemüveggel, speciális, mozgásra képes okostelefontartó és természetes nyelvi feldolgozás kombinálásával olyan rendszert alkottak, ami sokkal gyorsabbá, hatékonyabbá teszi a kommunikációt. Az első kísérletek sikeresek, a technológiában még rengeteg van. A projektet bemutató videójuk díjat nyert a mesterséges intelligencia legnagyobb konferenciáján.

Az ELTE  Neurális Információfeldolgozási Csoport nevű kutatócsoportjának kutatói (Németh András, Sárkány András, Verő Anita, Vörös Gyula, Lőrincz András) sérült, agyi bénulástól (cerebral palsy) szenvedő betegek kommunikációs lehetőségeit kutatják: céljuk az kiterjesztett (augmentatív) és alternatív kommunikációs módszerek kidolgozása. 

A betegségcsoportban érintett emberek szinte mindent értenek, amit mondanak nekik, de motoros képességeik korlátozottsága miatt nem tudnak beszélni, legtöbbször nem ismerik a karaktereket, nem tudnak írni, ezért képi nyelvet használnak. A képi kommunikáció viszont sokszor nehézkes és lassú, ezen változtatnának magyar kutatók.

A sérültek szimbólumtábla segítségével kommunikálnak:  általában egy papíralapú tábla előttük, sokszor csatlakoztatva a kerekesszékhez, erről tudnak kiválasztani egy-egy képet, ami jelenthet egy szót vagy egy kifejezést is.

A gyakorlatban ilyenkor a kommunikáció a szimbólumok rendezésével történik: „Egymás mellé tesznek kettő, például: menni, tó. Ebből ki kell találni, hogy mit akar mondani: én megyek a tóhoz? Vagy: menjünk a tóhoz? Ennyi alapján még sok mindent jelenthet, nehéz rájönni a szülőknek vagy a gondozóknak, mit szeretne közölni az illető” – mondja Verő Anita, a kutatócsoport egyik tagja.

A kutatók szeretnék megoldani, hogy szimbólum-, illetve képsorozatokból automatikusan tudjanak természetes nyelvi mondatot készíteni. „Például megkapjuk ezt a két szót, hogy megy, tó; ilyenkor az a kérdés, hogy melyik a legvalószínűbb mondat, amit lehet ebből össze lehet állítani”. A csoport természetesnyelv-feldolgozás (NLP) módszereivel próbál lehetséges mondatokat felajánlani a felhasználónak, amiből már ki lehet választani melyik kell. Ezt egy beszédszintetizátor ki tudja mondani.

A mobil segít látni is

A projekt része a WheelPhone nevű mobiltartó robot hasznosítása is: ezzel is a kommunikációt lehet gyorsítani. Okostelefont lehet csatlakoztatni hozzá, ami távolról vezérelhető, akár a videóban látható szemüveggel: a kommunikációt segíti, arra nézhet rá a felhasználó, akivel beszélgetni akar.

Nehézkes mozgásnál ez sokaknak nagy segítség: egy helyiségen belül így virtuálisan tudnak mozogni, az okosszemüveggel láthatják a mobil kamerájának képét.

Ezt mutatja be a fenti videó is, amellyel elvitték a legjobb hallgatói videónak járó díjat a legnagyobb mesterséges intelligenciáról szóló konferencián a 28. Conference of the Association for the Advancement of Artificial Intelligence-n. Az „AAC Telepresence” nevű, fent bemutatott rendszer prototípusa pedig elnyerte a Association des Paralysés de France legjobb kommunikációs alkalmazásnak járó díját.

A megfelelő mondatok kiválasztása, gyakorlatilag a nyelv szimulálása nehéz és összetett feladat, mivel a szimbólumsorozatok, amiket a felhasználók összeraknak, nem nagyon tartalmaznak nyelvtani információt. Emellett nincsenek kötőszavak, leginkább főneveket, mellékneveket tartalmaznak.

Túl sok lehetőség van, sok mondat készülhet ugyanazokból a szimbólumokból. „Első körben statisztikai alapú nyelvi modelleket kezdtünk el használni: hatalmas szövegadatbázis alapján próbáljuk meg kitalálni, hogy ténylegesen mi a legvalószínűbb szósorozat, mondat, mondatrészlet, ami ezeket a szavakat tartalmazhatja. Illetve, milyen kötőszavakkal kellene kipótolni, hogy ez ténylegesen ez milyen mondat legyen” – mondja Verő. A kísérletek angolul indultak, mivel a statisztikai módszerek pontosabbak, ha nagy szövegbázissal dolgoznak, ami angolul elérhető, de tesztelnek magyarul is.

Az első kísérletek alapján a statisztikai módszer egyszerűbb esetekben tényleg működik: ha nagyon nagy szövegadatbázist használnak, például a weben található szövegeket, akkor egész pontos. Viszont, vannak esetek, amikor érezhető, hogy más információ, a kontextus is hiányzik: 

Vásárlási szituációt szimuláltunk, megkértük az illetőket, hogy az egyetemi kampuszon vásároljanak a büfében. Az egyik mondat, ami előjött az volt, hogy: „pocket out”, azaz „zseb ki„. Ezzel azt akarta kifejezni, hogy az eladó vegye ki a zsebéből a pénztárcáját, mert ő magától nem tudja kivenni. Ez nem egy gyakori mondat, szinte esélytelen statisztikai módszerrel megközelíteni, ráadásul a kifejezés azt is jelentheti, hogy kifogytam a pénzemből. 

A kutatás egyik része most arról szól, hogy a kontextusinformációkat is hozzárakják a mondatalkotáshoz: Mi a szituáció? Ez egy vásárlási helyzet? A kutatók ehhez a képi információt is szeretnénk feldolgozni, vizsgálhatják azt is, hogy valaki éppen merre néz.

Már működik

A mondatalkotó technológiát különböző eszközökkel is ötvözik, hogy még könnyebb legyen a kommunikáció. Az egyik kutatási irány az okosszemüvegeké: Epson Moverio BT100 és BT200 nevű eszközökkel sokkal több lehetőség adódik. Át lehet látni rajta, viszont a retinára is vetít, ezen jeleníthető meg  a szimbólumtábla, amiből tekintettel vagy a fejmozgással lehet választani.

A videóban animációk láthatóak arról, hogy hogy működik maga a rendszer, de csak azért, mert nehéz lett volna kamerát rakni a szemüvegre. Viszont már egy működő dologról van szó: egy androidos szoftver kivetíti a szimbólumtáblát a szemüvegre, a fejmozgással lehet vezérelni a kurzort, és ha pár másodpercig rajta van egy szimbólumon, akkor kiválasztódik. Így egymás mellé lehet rakni párat.

A szemüveges szimbólumkiválasztást már működött a teszteken, az egyetemi büfében szimuláltak vásárlást: „A kísérletben résztvevő bejött a kerekesszékén,  tekintetiránnyal kiválasztotta a szimbólumtábláról a képeket, és így próbált vásárolni. Feliratoztuk a termékeket, amiket karakterfelismeréssel fel tudtunk ismerni, tudtuk, hogy melyik termékre néz, automatikusan gyűjtöttük, miközben választott a felhasználó” – mondja Verő.

Az így kapott adatokból már készíthető olyan algoritmus, ami képes megbecsülni, adott helyzetekben mit szeretne kifejezni a felhasználó. A következő lépés a szimbólumtábla fejlesztése: a cél, hogy ne kelljen az egészet áttekinteni, hanem mappaszerkezet-szerűen lehessen keresni benne.