Miklós
-7 °C
2 °C

Szájról olvasó számítógépek

2003.09.26. 16:27
A pszichológusok már ötven éve megállapították, hogy sokkal jobban értjük a beszélő személyt, ha nemcsak hallgatjuk, de látjuk is. Több kutatóközpontban, különböző szakterületek - mesterséges látás, beszédfelismerés, egy-két esetben a gépi fordítás - szintézisével próbálják ugyanezt az elvet számítógépes közegre alkalmazni.
Logikus lépés az audiovizuális beszédfelismerés - állítja Ian Matthews, a Carnegie Mellon Egyetem Robotikai Intézetének kutatója. Nemcsak logikus, de szükséges is, hiszen hiába fejlődtek oly sokat a személyi számítógépek, a velük történő kommunikáció módja mit sem változott az utóbbi évtizedekben. Ellenére annak, hogy a rendszerek egyre jobban értik a hangot, változatlanul a billentyűzet és az egér a legfontosabb interfészek.

Ráadásul a hangfelismerés még távolról sem tökéletes: nemcsak zajos környezetben, de ideális körülmények között is adódnak problémák. A gépek egyszerűen képtelenek megkülönböztetni az emberi beszéd finom árnyalatait. Csendben talán nem, de taxiban, vasútállomáson könnyen elvétik a majdnem azonos kiejtésű, viszont teljesen más jelentésű szavakat (például a "bókot" és a "pókot", stb.). Ritkábban tévednének, ha a beszélőt hallanák és látnák is, azaz tudnának szájról olvasni.

Szájról olvasnak

Chalapathy Neti
Az IBM Thomas J. Watson Kutatóközpontjában (Yorktown Heights, New York állam) dolgozó Chalapathy Neti már négy éve fejleszt audiovizuális beszédfelismerő technológiákat. Az emberre hivatkozik ő is: "az auditív és a vizuális érzékelést egyesítve döntünk az elmondottakról." Szimultán használjuk fülünket és szemünket. A komputerek szintén megtaníthatók ugyanerre a feladatra - fűzi hozzá.

A folyamat elején a számítógép és a kamera bőrszínhez hasonló színű pixeleket keres, majd statisztikai modellek segítségével választja ki az archoz hasonló formákat, lokalizálja a beszélőt. A látásért felelős algoritmusok nemcsak a szájra, hanem annak környékére is összpontosítanak. Becsléseket végeznek a különböző jegyek - például az ajkak központja, sarkaik - elhelyezkedéséről.

Jobban érti

Ha a kamera csak a szájat nézné, mindössze tizenkettő-tizennégy hangot ismerne fel vizuálisan. Ezért tágították látómezejét, ami azt eredményezte, hogy többfajta mozgást érzékel: az állkapocsét, az alsó orcáét, a nyelvét, valamint a fogak helyzetét is.

Végül egyesítik a vizuális és az audiomintákat. Az egyesített anyagot (újfent) statisztikai modellek elemzik, s meghatározzák, mit mondott a beszélő. Neti és társai többször, eltérő körülmények között - csendben, gyenge és erős háttérzajjal - tesztelték a rendszert. Sokkal jobb eredményeket kaptak, mint a csak audiokísérletek során.

Fejre szerelt kamera

A zajon kívül egyéb zavaró, a laboratóriumok falain kívül mindennapos tényezőkkel is számolnak: a beszélő nem néz a kamerába, elfordítja a fejét, rosszak a látási viszonyok. Ezek ellensúlyozására fejlesztenek egy audiovizuális headsetet, apró kamerával a mikrofonon. A kamera, függetlenül a fej és a test mozgásától, állandóan látná a szájat. Kiegészítésként, jelenleg a száj környékének állandó infravörös megvilágítást biztosító pirinyó szerkezettel kísérleteznek.

A másik megoldás a látási feltételeket vizsgáló visszacsatoló rendszer lenne. A megbízhatósági szint alapján döntené el, hogy használható-e a vizuális információ: ha magas a szint, akkor igen, ha alacsony - például amikor a beszélő elfordítja a fejét -, akkor nem.

Az Intelnél a beszédet audiovizuálisan elemző szoftvert fejlesztettek, s teszteltek kínaiul és angolul egyaránt. Bíztatóak a zajos közegben született eredmények: a rendszer öt szóból négyet felismert.

Jelbeszéd

Hang és kép fúziójára, a beszéd vizualizálására tett kísérlet az Egyesült Államok negyedik leggyakrabban használt nyelvét, a süketek/süketnémák kommunikációját biztosító, francia eredetű (!) ASL-re (American Sign Language) vonatkozó fejlesztés is. A chicagói DePaul Egyetemhez tartozó Számítógép-tudományi, Telekommunikáció és Információs Rendszerek Iskolájában Rosalee Wolfe irányításával az elmondott szöveget automatikusan ASL nyelvre fordító rendszeren dolgoznak.

Az ASL legalább annyira különbözik az angoltól, mint bármely más beszélt nyelv. Önálló mondattannal, jelentéstannal rendelkezik. Egységeket képező jegyek, úgynevezett cherémák (cheremes, görögül: kéz) különböztetik meg egymástól a jeleket: a kézmozgás, a kéz formája (egyenes, kicsavart), a fej orientációja, a nem-manuális elemek (például az arckifejezések) az alapok. A beszéd e jegyek különböző kombinációjából épül fel. Egy-egy jel egész mondatot, vagy csak egy szót fejez ki.

Virtuális jeltolmács

A fordítóprogram a verbális kommunikációt animált vizuális információvá alakítja. Az inputot egy ASL-szekvenciákat generáló mesterséges közvetítő nyelvre, interlinguára konvertálja. Ezután, a kerémák és más elemek felhasználásával dolgozza ki a vizuális jeleket, melyeket Paula, egy animált figura tolmácsol élethűen a nézőnek. A megértést könnyítendő, Paula kezét és fejét szokatlanul nagyra tervezték.

Wolfe és munkatársai eredetileg csak repülőtéri biztonsági alkalmazásra gondoltak, később viszont már szélesebb körben (oktatásban, kereskedelemben, egészségügyben) használható eszköz kivitelezését jelölték meg célként. Mellékprojektként a repülőtéri munka gördülékenységét, illetve a süketek/süketnémák biztonságérzetét fokozó modulokat terveznek.