
További Szoftver cikkek
Ráadásul a hangfelismerés még távolról sem tökéletes: nemcsak zajos környezetben, de ideális körülmények között is adódnak problémák. A gépek egyszerűen képtelenek megkülönböztetni az emberi beszéd finom árnyalatait. Csendben talán nem, de taxiban, vasútállomáson könnyen elvétik a majdnem azonos kiejtésű, viszont teljesen más jelentésű szavakat (például a "bókot" és a "pókot", stb.). Ritkábban tévednének, ha a beszélőt hallanák és látnák is, azaz tudnának szájról olvasni.
Szájról olvasnak
![]() |
Chalapathy Neti |
A folyamat elején a számítógép és a kamera bőrszínhez hasonló színű pixeleket keres, majd statisztikai modellek segítségével választja ki az archoz hasonló formákat, lokalizálja a beszélőt. A látásért felelős algoritmusok nemcsak a szájra, hanem annak környékére is összpontosítanak. Becsléseket végeznek a különböző jegyek - például az ajkak központja, sarkaik - elhelyezkedéséről.
Jobban érti
Ha a kamera csak a szájat nézné, mindössze tizenkettő-tizennégy hangot ismerne fel vizuálisan. Ezért tágították látómezejét, ami azt eredményezte, hogy többfajta mozgást érzékel: az állkapocsét, az alsó orcáét, a nyelvét, valamint a fogak helyzetét is.
Végül egyesítik a vizuális és az audiomintákat. Az egyesített anyagot (újfent) statisztikai modellek elemzik, s meghatározzák, mit mondott a beszélő. Neti és társai többször, eltérő körülmények között - csendben, gyenge és erős háttérzajjal - tesztelték a rendszert. Sokkal jobb eredményeket kaptak, mint a csak audiokísérletek során.
Fejre szerelt kamera
A zajon kívül egyéb zavaró, a laboratóriumok falain kívül mindennapos tényezőkkel is számolnak: a beszélő nem néz a kamerába, elfordítja a fejét, rosszak a látási viszonyok. Ezek ellensúlyozására fejlesztenek egy audiovizuális headsetet, apró kamerával a mikrofonon. A kamera, függetlenül a fej és a test mozgásától, állandóan látná a szájat. Kiegészítésként, jelenleg a száj környékének állandó infravörös megvilágítást biztosító pirinyó szerkezettel kísérleteznek.
A másik megoldás a látási feltételeket vizsgáló visszacsatoló rendszer lenne. A megbízhatósági szint alapján döntené el, hogy használható-e a vizuális információ: ha magas a szint, akkor igen, ha alacsony - például amikor a beszélő elfordítja a fejét -, akkor nem.
Az Intelnél a beszédet audiovizuálisan elemző szoftvert fejlesztettek, s teszteltek kínaiul és angolul egyaránt. Bíztatóak a zajos közegben született eredmények: a rendszer öt szóból négyet felismert.
Jelbeszéd
![]() |
Az ASL legalább annyira különbözik az angoltól, mint bármely más beszélt nyelv. Önálló mondattannal, jelentéstannal rendelkezik. Egységeket képező jegyek, úgynevezett cherémák (cheremes, görögül: kéz) különböztetik meg egymástól a jeleket: a kézmozgás, a kéz formája (egyenes, kicsavart), a fej orientációja, a nem-manuális elemek (például az arckifejezések) az alapok. A beszéd e jegyek különböző kombinációjából épül fel. Egy-egy jel egész mondatot, vagy csak egy szót fejez ki.
Virtuális jeltolmács
A fordítóprogram a verbális kommunikációt animált vizuális információvá alakítja. Az inputot egy ASL-szekvenciákat generáló mesterséges közvetítő nyelvre, interlinguára konvertálja. Ezután, a kerémák és más elemek felhasználásával dolgozza ki a vizuális jeleket, melyeket Paula, egy animált figura tolmácsol élethűen a nézőnek. A megértést könnyítendő, Paula kezét és fejét szokatlanul nagyra tervezték.
Wolfe és munkatársai eredetileg csak repülőtéri biztonsági alkalmazásra gondoltak, később viszont már szélesebb körben (oktatásban, kereskedelemben, egészségügyben) használható eszköz kivitelezését jelölték meg célként. Mellékprojektként a repülőtéri munka gördülékenységét, illetve a süketek/süketnémák biztonságérzetét fokozó modulokat terveznek.
