További Szoftver cikkek
A Rochester Egyetem (New York állam) és a híres PARC (Palo Alto Research Center) olyan (a rejtett Markov modellen alapuló) eljáráson dolgoznak, amely lehetővé teszi, hogy a computerek eldöntsék, mennyire mélyedtünk el az aktuális csevelyben. A szoftver nem azt elemzi, mit mondunk, hanem azt, hogy hogyan. Nincs könnyű dolga, hiszen a folyamatosan beszélt természetes nyelv ugyancsak komoly feladatot jelent egy gépnek.
Az érzelem-probléma
A pszichológia és a kognitív tudományok eredményeit, és egy korábbi "érzelemfelismerő" módszert is felhasználó rendszer a hangtónust, az akusztikai jegyek közötti kapcsolatokat, például a prozódiai, metrikai stílusokat vizsgálja, többek között a hangerő, ritmus, hangmagasság, hangszín változásait.
A hang alapján történő elemzés azonban távolról se egyértelmű - a beszélgetésben való érintettségünk nem azonos az érzelmeinkkel. Márpedig gyakran próbálják közös nevezőre hozni a kettőt. Ugyan szorosan kapcsolódnak egymáshoz, mégis megtévesztő az azonosítás. Viszont, ha nem is azonosak, az érzelmek vizsgálata nélkül nem boldogulunk érintettségünkkel sem. "Ugyanúgy nagyon mélyen érintettek lehetünk szomorú, dühös, vidám és közömbös társalgásban" - hangsúlyozza Paul Aoki, a PARC kutatója. Ráadásul egyazon mondat többfajta érzelmet fejezhet ki. Ha például azt mondjuk, hogy "tetszik a bulitok", örömöt és udvarias unatkozást egyaránt partnerünk tudtára juttathatunk vele. Kizárólag attól függ, hogyan mondjuk. (Leírva viszont egyértelműen csak örömre asszociálunk.)
Társadalmi interakció
A kutatók a következő elképzelésből indultak ki: a mindennapi beszélgetésre vonatkozó működőképes modellnek közvetlenül vissza kell tükröznie, hogy a résztvevő jelenlegi érintettségét korábbi állapota (időbeli folyamatosság), jelenlegi érzelmi attitűdje, valamint partnereinek az interakció során érzékelhető érintettsége befolyásolja. A több részből összeálló input két gyakorlati előnyére mutatnak rá: egyrészt pontosabb eredményekre számíthatunk, mivel az integrációs folyamat során kompenzáljuk a valamelyik inputnál tapasztalható átmeneti zajokat. Másrészt, annak ellenére, hogy bizonyos információ ugyan nem áll a rendelkezésünkre, a felhasználó érintettsége részinformációk alapján is kiszámítható.
Aoki és munkatársai többszintű architektúrát javasolnak. Az első szint a prozódiai, beszédakusztikai tulajdonságokat használja bemenetként, majd érzelmi állapotokat jelez előre. A modult arra tanították, hogy mintákat ismerjen fel, és kapcsoljon állapotokhoz. Méri az érzelmek szintjét, típusát (düh, pánik, szomorúság, boldogság, érdeklődés, unalom, illetve az érzelem hiánya), pozitív/negatív jellegüket. Ez a mérés viszont csak egy adott személy adott pillanatbeli állapotára vonatkozik.
Az emocionális állapotok képezik az érintettségre vonatkozó második szint inputját. Pontos kategorizálásuk jelentette az egyik legfőbb kihívást. Hullámzásukat, illetve a beszélgetőpartner érzelmi szintjét vizsgálja a modul. A társalgást dinamikus, folyamatos processzusként fogja fel, azaz figyelembe veszi az időtényezőt is. "A társadalmi interakció tényét akartuk modellálni" - magyarázza Aoki.
Teszteredmények, alkalmazások
Chen Yu
A PARC tudósai már létező hangalapú kommunikációs rendszerükbe szeretnék beépíteni a szoftvert. Átfogó célként pedig az emberi beszédmódra reagáló szisztéma létrehozását tűzték ki. Ha a gép például úgy érzékeli, hogy teljesen belemerültünk a fecsegésbe, messenger-ünket automatikusan "elfoglalt"-ra állítaná, vagy hangosan jelezné az elektronikus levelek érkezését.
"Az első tényleges alkalmazások három-hat éven belül várhatók" - prognosztizál Chen Yu, a Rochester Egyetem kutatója, az Indiana Egyetem (Bloomington) tanársegédje (kognitív tudományok).