További Szoftver cikkek
Körmendi György autót akart vásárolni. Volt egy Skoda Octaviája, ahelyett akart valami mást. Mit tesz ilyenkor egy átlagember? Elmegy a boltba, és vesz egy autót. Nem így Körmendi György!
Alapos ember, nem dönt csak úgy hasraütésre. Fogta a Totalcar Népítéletének bejegyzéseit, mind a 37 ezret, és rájuk eresztett egy szövegbányászszoftvert. Az autót vásárlók jelentős részéhez hasonlóan leginkább a szerviztapasztalatokra volt kíváncsi, amit a Népítéleten saját járműveikről véleményt nyilvánító autótulajdonosok 1-10-es skálán fejeznek ki, illetve érdekelte, mik az autók típushibái.
"Nézegettem az ítéleteket, de nincs egységes nézet, végig kell olvasni az összeset, és keresni sem lehet" – mondja Körmendi, aki végül egy Mazda 6 mellett döntött. De hogyan érlelődött meg benne az elhatározás?
A csillagos ötös pozitív
Körmendinek viszonylag könnyű dolga volt, ő az SPSS Hungary ügyvezető igazgatója, az SPSS meg gyakorlatilag az ipari norma a statisztikai analízisre használt szoftverek között, és a cég direkt szövegbányászatra kifejlesztett alkalmazást is árul. Ami persze nem azt jelenti, hogy a gép magától kimondja az igazságot. A népítéletek elemzése durván leegyszerűsítve úgy zajlik, hogy az ember szoftveres segítséggel kivonatolja a szövegeket, a leggyakrabban előforduló jelzőket és egyéb terminusokat összegyűjti, ellátja őket pozitív, illetve negatív címkékkel (a "csillagos ötös" például pozitív, a "b@szik" negatív), aztán megnézi, melyik autóhoz, szervizhez melyik társul gyakrabban. Ezt elméletileg kézi, strigulázós módszerrel is meg lehetne csinálni, és az eredmény valószínűleg pontosabb is lenne, de ki az, aki nekiül 37 ezer népítéletnek?
A szerviztapasztalatok értékeléséhez is kell kézimunka: mivel a műhelyek nevét a felhasználók szabadon gépelhetik be – az Aut-Fort Kft. Szentendrei úti telepének neve például legalább tucatnyi változatban fordul elő, az épület alakja után a legtöbben csak piramisnak hívják – a névváltozatokat emberi erővel egységesíteni kell, mielőtt rájuk lehet engedni a szoftvert.
Lőjük le a poént: Körmendiék elemzése alapján a Mazdák tulajdonosai a legelégedettebbek a szervizekkel, aztán jönnek a hondások és a toyotások. Az Alfa szervizei megcsípték a negyedik helyet, ami valószínűleg annak köszönhető, hogy a Népítéletben véleményt nyilvánító autótulajdonosok az Alfa Szamosit tartják a legjobb szerviznek. Második a Toyota Mayer, harmadik a Bosch.
Dögös aszfaltszaggató
Mit is ír egy 1991-es évjáratú Lancia Dedra 2.0ie ("Dögös aszfaltszaggató") tulajdonosa a Népítéleten a szervizről, ahová a kocsit hordja? "Komolytalan társaság. Csak lehúztak, szerintem nem csináltak semmit! Sajnos ezekhez az autókhoz nem nagyon értenek! (nem csak ők)."
Ebből a szövegből az ember első látásra tudja, hogy negatív ítéletet fogalmaz meg, de mihez kezd vele egy gép? Alaphelyzetben semmit. Aztán ha megtanítják neki, hogy a komolytalan, a lehúztak és az autókhoz nem nagyon értenek mind negatív, illetve ellátják egy jó szótövező algoritmussal, hogy ne csak a komolytalant, hanem a komolytalanságot és a komolytalanabbakat is fel tudja dolgozni, már képes értékelni a szöveget. Úgy-ahogy. Mert akkor még mindig megvan annak az esélye, hogy a hozzászóló csak viccelt, esetleg a konkurencia fizetett ügynöke.
"A statisztikai alapú elemzésnél nem az a cél, hogy minden egyes véleményt eltaláljunk, hanem hogy minél nagyobb arányban találjuk el őket" – mondja Körmendi. "A Népítélet nem feltétlenül ilyen, de vannak hatalmas adatbázisok, mint a Medline, amelyek elemzése meghaladja az emberi teljesítőképesség határait."
A Népítélet-elemzés persze csak egy példa arra, mi mindenre használhatók a szövegbányászati technikák. Körmendi szerint például arra, hogy statisztikai módszerekkel kiszűrjék a netes fórumok bértollnokait, vagyis azokat az egyoldalú véleményformálókat, akik egy-egy cég megbízásából, annak érdekeit képviselve írogatnak pozitív hozzászólásokat, kifejezetten véleménybefolyásolási céllal. Az ilyen ügynököket ránézésre nehéz leleplezni (miért ne írhatna valaki pozitív véleményt egy cégről), de a hozzászólások statisztikai elemzésével kiszűrhetők.
Egy másik lehetséges alkalmazás a trendelemzés: a telekommunikációs cégek valószínűleg kevesebb pénzt öltek volna a wap vagy az mms bevezetésébe, ha egy a fórumokban turkáló szövegelemző program időben kimutatja nekik, hogy ezek a technológiák a kutyát sem érdeklik.
Viszonylag új és még korántsem teljesen megbízható terület a hanganyagok szövegelemzése: egy mobilszolgáltató elméletileg megvizsgálhatja az összes telefonon intézett előfizetés-lemondást, kiderítheti az okokat, és a cég ennek megfelelően korrigálhat, csökkentheti az árait vagy személyre szabott akciókkal bombázhatja meg a hűtlen ügyfeleket.
Tízmillióért inkább vegyen autót
Viszont ha autót akar venni, és a döntés-előkészítéshez az SPSS-t használná, gondolja újra: a szoftver 429 ezer forintba kerül, az egyes modulok hozzá még 190-240 ezerbe, úgyhogy egy jól összeválogatott csomagért már adnak egy Suzukit. A kifejezetten adatbányászatra használt Clementine ára öt-tízmillió forint, abból meg szinte bármilyen autót vehet, mondjuk egy ötéves, megkímélt Porsche Carrera 911 (996)-t. Alternatív megoldásnak ott a fő versenytárs, a SAS, illetve a nyílt forráskódú, ingyenes szoftverek, a SAS-t kiváltani hivatott DAP és az SPSS koppintása, a PSPP.
Aztán van, aki nem is hisz az egészben: a statisztikai alapokon végzett, kvantitatív szövegelemzés ellenzői, a diskurzusanalízis egyes hívei állítják, hogy a számokon alapuló elemzés "óhatatlanul dekontextualizálja a per definitionem egyszeri, alkalmi diskurzív jelentést". Akkor vegyék csak meg azt az autót, amelyik tetszik. Vagy amelyik piros.