Ferenc, Olívia
-4 °C
4 °C

Szóból ért a gép

2001.05.15. 10:35
Az új, hazai fejlesztésű játékhoz nem szükséges billentyűzet vagy egér, csak egy mikrofon. A Színözönt ugyanis nagyjából bárki hanggal irányíthatja.
Ilyen nincs, és mégis van - mondtam tavaly, amikor egy e-mail nyomán a Budapesti Műszaki Egyetem egyik titokzatos oldalán szép sorjában kiíródtak a számok, amelyeket a telefonba diktáltam. Lingvisztika szemináriumon annak idején átugrottuk a beszédfelismerés témakörét, mivel teljesen nyilvánvaló volt, hogy a megjelent hallgatók egyike sem fogja életében megérteni ezt a veszettül bonyolult témakört (bölcsészkarra tessenek gondolni - hangsúlyozom: nem célom a felsőoktatás vagy magam gyalázása).

"Piros, fehér, narancs, kék, rendben"
A neuronhálót programozó barátaim említették, olyan szövegkörnyezetben, amelyben egyúttal közelebb húzták magukhoz a nagyfröccsöt, hogy annál bonyolultabbat ők sem tudnak - pedig a nagyobb pénzintézetek adatbázisrendszere sem teasütemény.

A neuronhálót és lingvisztika fehér foltjait összekötve körülbelül érzékelhető, hogy milyen nehézségű annak a megoldása, hogy egy Pentium olyan sebességgel értelmezze a magyar nyelvű beszédet, mintha pasziánszoznánk.

A játék visszaszól

A dolog azonban nagyon is valóságosan létezik. Tíz év kutatás és fejlesztés áll mögötte, illetve egy féléves cég, a Sigmoid. (A sigmoid egy olyan döntésfüggvény, amelyet nem eldöntendő kérdéseknél szokás bevetni, hanem amikor több lehetséges kimenet közül kell közelítéses alapon választani, pl. ez az ember azt mondta, hogy "kakukk" vagy hogy "fándli".)

A Sigmoid oldaláról hétfőtől letölthető az első magyar nyelvű beszédfelismerésen alapuló játék, a Színözön. A játék alapja a mastermind, amelyben négy szín sorrendjét kell sorozatos tippeléssel kitalálni - a lényeg, hogy sem billentyű, sem egér nem kell a használatához, ha van mikrofon, egyszerű parancsszavakkal játszhatunk, a gép pedig gyerekhangon válaszol (már ezért az egyért is érdemes letölteni).

A program elsőre felismeri bárki hangját (vagyis felhasználófüggetlen), megkülönbözteti a beszédet a mikrofon által közvetített környezeti zajoktól.

"Diktálok!"

A Színözön persze csak ízelítő mindabból, amire a beszédfelismerő-engine képes. Rendkívüli dolog például, hogy vakok is minden nehézség nélkül játszhatnak vele - de ha ugyanígy kiszolgálna egy hálózatba kötött lakást, ahol csak annyit kellene mondani, hogy "sütő, tévé, zene bekapcs". Beszélgetés a mesterséges intelligenciával. Nyakunkon a Mézga-féle jövő!

A Sigmoid egyébként továbbra is jövőbe fejleszt: céljuk egy olyan szoftver kifejlesztése, amelynek diktálni lehet. A szoftvernek ehhez fel kell ismernie minden szót, azokat helyesen leírni és tagolni. A probléma egy nagyságrenddel nehezebb, de ha megoldják, azért legalább fődíj jár.