Vilma
-7 °C
4 °C

Beszélő számítógépek

2003.07.17. 16:51
Egyre izgalmasabbak, s az óhajtott célt mind jobban közelítik a beszédfelismerésre és -aktiválásra vonatkozó fejlesztések. A kutatók szerint hamarosan valóra válik a digitális idők egyik nagy álma: működésbe léphetnek a szöveget értve hallgató, majd arra válaszoló gépek.
Szaporodnak, egyre változatosabbak a beszélgető szoftverek. Egyelőre főként két funkciót igyekeznek betölteni: az adatbázisoz hangutasítások útján történő hozzáférést, valamint e-mailek hangzó anyaggá alakítását (és fordítva).

Rövid- és hosszútávú projektek

Az IBM laboratóriumaiban nagycégeknek szánt alkalmazásokon dolgoznak elsősorban. Például a felhasználó szóbeli kívánságaira reagáló számlakezelő rendszeren. "Ha valaki azt mondja, üzletet szeretne kötni, a gép rákérdez, hogy milyen jellegűt" - kommentálja a mobil megoldások csoportját vezető Eugene Cox. A piaci szereplők eddig pozitívan reagáltak az újításokra.

Az egymást nem értő beszédpartnerek közötti kommunikációt támogató megoldásokon szintén munkálkodnak; várhatóan az év végén mutatják be a (mondatelemzésen, és a mondat elemeinek a megértésén alapuló) programcsomagot. 2010-re pedig - a Super Human Speech Recognition Projectje keretében - nemcsak a gépi fordítás tökélyét, de olyan computereket is prognosztizálnak, melyek a beszédet az embernél pontosabban alakítják át írott szöveggé. (A jelenlegi rendszerek hozzávetőleg ötször-tízszer több hibát követnek el.)

A Microsoft a napokban tette közzé 2004-re esedékes beszédszerverének (a korábbi .Net Speech Platformról Speech Serverre módosult) első, beszédalkalmazás (Speech Application) program-fejlesztői készletének harmadik bétaváltozatát. A Speech Server egyrészt a szóbeli utasítások szerverek általi kezelését könnyíti meg, másrészt egybevág a cég egyéb telefon-számítógép projektjeivel. És - nem utolsósorban - a költségeket is csökkenti.

Kihívások

Az egyik legnagyobb problémát az jelenti, hogy beszéd közben nem követünk szigorú szabályokat. Azonos tartamot különböző módon fejezünk ki, elharapunk hangokat, ugyanannak a szónak pongyolább, szlengesebb ejtését használjuk, a gyorsabb beszéd során lazábban alkalmazzuk a nyelvtant. A meghatározott bemenet fogadására programozott gépek mindezt nehezen, sőt, leginkább egyáltalán nem tudják kezelni. A háttérzajok, ilyen-olyan szűrők szintén megnehezítik a dolgukat.

Korábban - elsősorban a mondattan gépi feldolgozására, minél tökéletesebb megértésére fektetve a hangsúlyt - több sikertelen, vagy nagyon furcsa (saját) angolt, japánt, stb. "használó" szerkezet született. Manapság viszont a beszédet valószínűségi funkciók alapján értelmező fejlesztések tűnnek a legelőremutatóbbnak. Például a Microsoft MI-munkáiban is többnyire ez az elsőszámú szempont. Thomas Bayes, XVIII. századi angol matematikus híres tételéből kiindulva (és leegyszerűsítve azt): annak a valószínűsége, hogy valami megtörténik hozzávetőleges pontossággal kiszámítható múltbeli előfordulásai alapján.

Yoda

Microsoft jelenleg fejlesztési fázisban lévő Yodája (Your Outlook Data Access) az adott személy beszédszokásait tanulmányozva alakítja majd koherens írott szöveggé a hangfolyamot. Igék után például nem a tárgyat keresi, hanem tapasztalatai alapján tudja, hogy a meghatározott hangmintát milyen minták követnek nagy valószínűséggel. De a témákat alaposan körül kell határolni, mert Yoda - erényei és a korábbiakhoz képest vitathatatlan előrelépés ellenére - képtelen a drasztikus váltások, vagy az új témák feldolgozására.

"Az embertől teljesen eltérő módon tanítjuk beszélni a gépeket" - nyilatkozta a Microsoft beszédkutató csoportját vezető Alex Acero. "Annak ellenére, hogy még nagyon kezdetleges, sokkal intelligensebb a mostani alkalmazásoknál."

Természetesen a hardware-fejlődés is sokat segíthet. Ha - videón keresztül - a számítógép "látja" a beszélőt, zajos környezetben nyolcvan százalékkal kevesebb hibát vét, mint mozgókép nélkül. Mivel beszéd közben rengeteg vizuális információhoz juthatnak, kamerákkal látják el az új rendszereket, melyek száj- és arcizom-mozgások katalógusával vetik egybe az elhangzottakat.

Számítógép-telefonok

A fejlesztések a PC-knél primitívebb billentyűzettel rendelkező kommunikációs eszközöket, például a mobiltelefonokat, vagy a személyi hívókat is célba veszik. De a legjelentősebb változás a hagyományos telefonoknál várható: a hívások a számítógépen keresztül érkeznek, egy program olvasható e-mailekké alakítja a szóbeli üzeneteket. A telefonhívások, videók, szöveges, illetve hangüzenetek egyetlen konzol általi feldolgozásával, hasonlóra vállalkoztak a Microsoft és a HP közös Athén projektjének a kiötlői is.

Egyre komplexebbek a különböző szabványokban (VoiceXML, X+V, azaz xHTML és VoiceXML, SALT = Speech Application Language Tags) írt alkalmazások. A rendszerek általában három részből tevődnek össze: a szóbeli utasításokat a gép számára érthető üzenetté formáló szerkezetből, a hívót irányító, előzetesen felvett válasz-sorokból, valamint egy szöveg-beszéd átalakítóból. Utóbbi vagy válaszol, vagy (ha nem tud) újabb kérdéseket tesz fel.