Melinda, Vivien
2 °C
8 °C

Érzelmek után nyomoz a szoftver

2004.11.28. 16:10
Kapcsolódó cikkek (1)
Az információ automatikus osztályozása a számítástudomány egyik legnagyobb kihívása. Keresőprogramjaink téma szerint csoportosítanak. Fontos lépésnek tűnik, hogy a New York állambeli Cornell Egyetemen kidolgoztak egy érzelemelemző módszert is. Többletinformációhoz jutunk így: a topikot nemcsak azonosítottuk, hanem a szerző hozzá fűződő viszonyára szintén fény derül.

Fantasztikus, tudományos-fantasztikus

A jelenlegi technikák érzelmeket kifejező szavakra, mondatokra és mintákra összpontosítanak. Nem mindig vezetnek célra, mivel ugyanaz a szó pozitív, negatív és, ha túl hivatalos a stílus, neutrális tartammal egyaránt telítődhet. Figyelmen kívül hagyják a szövegkörnyezetet. Hiába fontos egy kulcsszó (például a "fantasztikus") jelenléte, kontextusonként mást és mást jelent. ("Fantasztikus ez a film!", illetve "tegnapelőtt bemutattak egy tudományos-fantasztikus filmet.")

Míg az ember azonnal felismeri az érzelmi töltetet, a számítógépek nem - vagy csak alig - képesek rá. De nem csak az érzelmekkel szemben tehetetlenek, hanem a jelentés is óriási kihívást jelent. Nem véletlen, hogy az internet közeljövőjére vonatkozó tervekben egyre gyakoribbak a "szemantika", "szemantikus", és hasonló szavak, szóösszetételek. Gépeinket, világhálónkat csak a probléma orvoslása után nevezhetjük "intelligensnek".

Szubjektív és objektív vélemények

A Cornell Egyetem Számítástudományi Tanszékének két kutatója - Lillian Lee és Bo Pang - eleve kiiktatták a túl semleges, túl hivatalos mondatokat. Kezdetben az se tűnt egyértelműnek, hogy a szubjektív-objektív elkülönítés könnyebben megy, mint a pozitív-negatív. Holott igen, hiszen "ritkábban váltunk objektívről szubjektívre, és fordítva, mint pozitívról negatívra, és vice versa" - magyarázza Lee. Tehát első lépésként mindenképpen a szöveg szubjektív-objektív osztályozását javasolja, és csak utána jöhet a pozitív-negatív csoportosítás.

A szövegábrázolásra hálózat- és grafikonszerű modellt vezettek be. Minden egyes mondatot pont (vagy csomópont) jelenít meg. A pont-párokat egy-egy link kapcsolja össze. A link erőssége attól függ, mennyire kötődnek a mondatok az adott (objektív, vagy szubjektív) címkéhez: "mennyire kapcsolódnak a szöveghez, elválasztja-e őket egy új bekezdés." Más evidenciák, például jelzők, érzelmileg telített szavak (mint a "meseszép", illetve a "bűn-rossz", stb.) jelenléte szintén számít. Minél több az evidencia, annál könnyebben húzzuk rá az adott mondatra a szubjektív, vagy az objektív címkét, annál erősebben, illetve gyengébben kapcsolódik a két csomópont valamelyikéhez. Gyors és hatékony algoritmussal megoldható a probléma - fűzi hozzá Lee. A vizualizáció során - bizonyos idő elteltével - a hálózat két jól megkülönböztethető részre szakad.

Szeretem, nem szeretem

Mihelyst kész a szubjektív-objektív osztályozás, a folytatásban már csak a szubjektív részt veszik figyelembe; bevált mintafelismerő módszerekkel döntik el, hogy a dokumentum pozitívan, vagy negatívan viszonyul az adott témához, például egy kritika a szóbanforgó filmhez, könyvhöz, stb. Az elemzést cseppet se könnyíti meg, hogy negatív véleményünket általában rendkívül kreatívan, esetleg jelentésükből kiforgatott pozitív jelzőkkel fejezzük ki.

#alt#

Még a látszatra üres szavak és mondatok is lehetnek informatívak - figyelmeztet Lee. Egy filmről például többet elárul a "mindazonáltal,", mint a "jó".

De ez még csak a kezdet. A későbbiekben egyéb szempontokat szintén szeretnének figyelembe venni: a különböző internetes források - például a Village Voice és egy blog filmkritikái - közötti eltéréseket. Lee a retorikai elemek (irónia, pátosz, stb.) kezelését tartja az egyik legnagyobb kihívásnak. "Már csak azért is, mert néha az emberek is félreértik ezeket" - magyarázza. Úgy véli, legalább egy évtizedet kell várnunk a teljesen kötetlen szövegek gépi "értelmezéséig".

A modell több területen alkalmazható: automatikusan kivonatolná, összehasonlítaná a kritikákat, megállapítaná, mely honlapok objektívek, melyek nem, hogyan viszonyulnak a potenciális fogyasztók egy-egy termékhez, és így tovább. A keresőprogramokba szintén beépíthetnék Lee és Pang metódusát.