Bence
10 °C
25 °C

Hódítanak a beszélő kütyük

2009.03.14. 11:17
Egyre elterjedtebbek a beszédszintézisen alapuló alkalmazások. A főként angol nyelvű rendszerek cikkeket, könyveket olvasnak fel a felhasználónak, de az is lehet, hogy egyszer a kijelzőt is helyettesíti majd a gépi hang.

A számítógéppel való mindennapi interakcióink során már fel sem tűnik, hogy a gép legtöbbször szöveget jelenít meg a képernyőn, és mi is sokszor szöveges információt viszünk be a billentyűzettel. A kommunikációnak ez a formája az irodai alkalmazások esetén igen elterjedt és kényelmesnek mondható, mégis sok szituációban körülményes, sőt használhatatlan is lehet.

Buszon gépelni nehéz

Az elmúlt években tanúi lehettünk a mobil informatikai alkalmazások tömeges elterjedésének, ami maga után vonta azt, hogy mobil körülmények közötti is használhatóvá kell tenni az egyre összetettebb informatikai szolgáltatásokat. Mozgás közben nagy képernyőt és billentyűzetet nehéz használni, mobil-, vagy virtuális billentyűzettel pedig csak nagyon korlátozott módon lehet gépelni.

Rengeteg cég folytat komoly kutatásokat annak érdekében, hogy a szövegbevitelt megkönnyítse. Az Apple iPhone-ján alkalmazott virtuális billentyűzet megjelenítése ugyan nem változik, de az egyes karakterek érzékelési tartománya (az a felület, ahol a képernyőhöz érve leütést érzékel a szoftver) dinamikusan módosul attól függően, hogy milyen betűket gépeltünk be korábban. A prediktív szövegbeviteli szoftverek elvén alapuló alkalmazás segítségével, ha például a "happy" szót gépeljük, akkor a "h a p" betűk után a "p" érzékelési tartománya megnő, így a második "p" betűt sokkal nehezebben üthetjük mellé, az utolsó "y" karaktert pedig szinte lehetetlen eltéveszteni.

Ezek a fejlesztések ugyan jelentősen növelik az iPhone használhatóságát, de egy zötykölődő buszon, nagy tömegben, vagy éppen biciklizés közben szöveget bevinni, vagy olvasni szinte lehetetlen. A beszédszintézis és a beszédfelismerés alkalmazása az okostelefonokon és egyéb mobileszközökön elsősorban használhatósági kérdés. Hosszú távon több oldalas dokumentumokat senki sem fog egy néhány centis képernyőn nézni, ahogy autóvezetés közben sem lesz képes emailezni, ha ezek a technológiák nem épülnek be mindennapi eszközeinkbe.

Beszélő iPod

Nagy felháborodást váltott ki az amerikai írókból a Kindle 2 megjelenése, ugyanis az Amazon könyvolvasó eszközébe épített beszédszintetizátor a megvásárolt könyveket felolvassa a júzereknek. Az Amerikai Írószövetség attól ijedt meg, hogy a hangoskönyv-piacot akarja lenyúlni tőlük a világ legnagyobb könyvforgalmazója, pedig a felolvasás minősége jócskán elmarad egy színész előadásmódjától. Mégis figyelemreméltó az alkalmazás megjelenésében, hogy az Amazon felismerte, hogy ha egy könyvek olvasását szolgáló eszközt fejleszt, mely kiválóan jeleníti meg a szöveges tartalmakat, akkor nem hagyhatja ki belőle a beszédszintetizátort sem, hisz az eszköz mobil jellegéből adódóan, bizonyos helyzetekben a felhasználó nem fogja tudni folytatni az olvasást, így valószínűleg szeretné továbbhallgatni a könyvet.

De nem csak a hangoskönyvek esetén van jelentősége a beszédszintézisnek. A nemrégiben megjelent iPod Shuffle legújabb generációja felolvassa a számok és a felhasználó által összeállított zenelisták nevét. A Shuffle alig több mint 4 centiméter hosszú, így nincs kijelzője. Az mp3-lejátszók kijelzőin hagyományosan megjelenített információkat az Apple az úgynevezett VoiceOver technológia segítségével közli a felhasználóval. A beszédszintézis a méret csökkentésének következtében egy kielégítő technológiának bizonyult a számok közti navigáció támogatására. Mivel a Shuffle-t elsősorban hallgatjuk, és nem nézzük, ezért szinte magától értetődő, hogy ha lemerülőben van az akkumulátor, akkor is szóban figyelmeztet bennünket kedvenc kütyünk, hogy ideje feltöltenünk.

A beszédszintézis talán legjobb alkalmazását az amerikai Audiodizer cég esetében hallhatjuk. Az MIT által kiadott Technology Review című újság cikkeit nemcsak olvashatjuk a honlapon, hanem az Audiodizer segítségével le is tölthetjük mp3-formátumban. A felolvasott szöveg minősége remek, elsőre talán nem is vesszük észre, hogy gépi hanggal van dolgunk. Az persze továbbra is kérdéses, hogy milyen alkalmazások esetén fogja a hagyományos kijelzőt felváltani a beszédszintézis. Mindez nagyban múlik azon is, hogy a nehezebb technológiai kihívást jelentő beszédfelismerés mikor jut el egy hasonló fejlettségi szintre.