Blogbányászat a trendkutatók új fegyvere
További Szoftver cikkek
A Los Angelesben található Dél-Kaliforniai Egyetem Kreatív Technológiák Intézetének tanára, Andrew Gordon és munkatársai nehéz feladatra vállalkoztak, amikor blogokat kezdtek elemezni. A számítógépek ugyanis csapnivalóan, de leginkább sehogy sem kezelik az oksági viszonyokat. Egyedi eseményeket képesek azonosítani, kapcsolatokkal, kapcsolatrendszerekkel viszont nem tudnak megbirkózni. Különösen akkor nem, ha emberi megnyilvánulásokat kell elemezniük, és következtetéseket kell levonniuk.
A kutatók úgy vélik, hogy a gépek blogokon keresztül tudhatnak meg egyre többet az ok-okozati viszonyokról. Persze nem mindegy, milyeneket olvasnak: a számtalan bejegyzés zöme ugyanis hírek kommentálása, utazások és egyéb személyes tervek felvázolása, vagy éppen világmegváltó elmélkedés az élet nagy dolgairól. Ezzel szemben csak mintegy 5 százalékuk a szerzővel megtörtént eseményeket elbeszélő narratíva, márpedig a történetmesélésben érhetők leginkább tetten az oksági viszonyok. Magyarán, a gépnek ezekre a blogokra kell összpontosítania. De hogyan szűrje ki a narratívokat a nem narratívok közül, miként különböztesse meg azoktól?
A gép betanítása
A kutatók két részből álló eljárást dolgoztak ki rá. Az elsőben ők címkézték fel több ezer írást: a „történet” és „nem történet” tengely mentén kategorizáltak. Azért fontos a megkülönböztetés, mert a szövegek többi formájával összevetve, más szavakat, szókapcsolatokat, más gyakorisággal használunk történetmesélés közben. Ezekben a blogokban például sűrűbben fordulnak elő a személyes névmások vagy a múlt idejű igék. Teljesen mindegy, miről mesélünk, a két csoport jól és relatíve könnyen elkülöníthető egymástól. A rendszer tanul az összeszedett anyagból, majd elsajátított ismeretei alapján újabb bejegyzéseket vizsgálva kell kitalálnia, melyek narratívak, melyek nem.
A második fázisban az oksági kapcsolatok azonosítását tanították meg a gépnek. A kutatók blogok sokaságát vizsgálva mutattak ki az ok-okozatisággal összefüggő szókapcsolatokat, mondatokat: „ezt tettem, aminek következtében az történt,” „későre járt, tehát lefeküdtem”, és így tovább. A gép faladata, hogy észrevegye, majd kategorizálja a hasonló mondatokat.
Sosem unatkozik
A távolabbi cél egy olyan rendszer kidolgozása, amely a lakosság jelentős részének életéről napi rendszerességgel gyűjti és összesíti a statisztikai adatokat. Gordon szerint a rendszer valahogy úgy működne, mint a Google sertésinfluenza-követő programja, amely a betegséggel kapcsolatos szavak és kifejezések keresése és egy adott terület társításával igyekszik az adatok mélyére bányászni.
Egy ilyen rendszer elképzelhetetlen volt az internet előtti időkben, amikor az emberek csak megbeszélték, de nagyon ritkán írták le a velük történteket. És ha leírták, akkor sem tették széles nyilvánosságnak hozzáférhetővé. Más kérdés, hogy a blogok jelentős részét kitevő parttalan locsogás, exhibicionizmus sokszor alig talál olvasóra. A gépek viszont a legérdektelenebb, legszószátyárabb szövegeken is átrágják magukat, amennyiben működtetőik úgy akarják. Éjt nappallá téve kutakodnak.
Mire jó a blogbányászat?
A blogbányászat segítségével az élet legkülönbözőbb területeit (filmek, könyvek, termékek iránti érdeklődés, nemzetiségi, vallási ellentétek, kábítószer-kereskedelem stb.) érintő, körvonalazódó trendekről, viselkedésformákról, mémekről, születésükről, elterjedési módjukról gyűjthetnek adatokat a szakemberek. Mivel a blogolás egyik fontos jellemzője az eseményekre való azonnali reagálás, az élmények mielőbbi megosztása, az átéltek aznapi leírása, garantált az összegyűjtött információ aktualitása.
Az 1999-ben alapított Kreatív Technológiák Intézet projektjei a mesterséges intelligencia, grafika, immerzív környezetek területén keresik a legmodernebb megoldásokat, s nem meglepő módon gyakran dolgoznak együtt hollywoodi alkotókkal, vagy a játékipar prominens képviselőivel.
Az sem meglepő persze, hogy kutatásaik jelentős része (például az interaktív tréningek és szimulációk) katonai, nemzetbiztonsági témákat is érint, így Gordonék kezdeményezése is. Kérdés, hogy az átlagpolgár mit fog szólni a blogbejegyzéseiben kutakodó rendszerekhez, mennyire érzi tevékenységüket magánélete elleni támadásnak (már ha egyáltalán tudni fog róluk). Viszont egy ilyen rendszer bevezetését mindenképpen szigorú szabályozásnak kell megelőznie.