További Net cikkek
A nagy szövegállományokból való új ismeretek kinyeréséül szolgáló szövegbányászat egyre népszerűbb kutatási terület mostanában. Rengeteg felfedezést tesztnek a különböző tudományágak művelői a módszertan segítségével. Előfordulhat, hogy egy immunológus és egy rákkutató régóta tanulmányozza ugyanazt a proteint, más folyóiratokban publikálnak és egyáltalán nincs tudomásuk egymás tevékenységéről - magyarázza Kampis György az ELTE Tudományfilozófiai Tanszékének vezetője. A szövegbányászat alkalmazásával hatalmas cikkadatbázisokban meg lehet találni a szinonimákat, össze lehet kapcsolni a különböző területek eredményeit. A professzor által jelenleg vezetett projekt azonban másképp használja ezt a metodológiát.
A Texttrend a szövegek időbeni változására koncentrál. A kutatás során egy olyan keretrendszert szeretnének kifejleszteni, mellyel valamely specifikus területen a weben található dinamikusan változó, nagy mennyiségű információt mélyrehatóan tudnák elemezni. A Texttrend nem egyszerűen indexelni, vagy kivonatolni kívánja a fellelhető szövegeket, hanem (többek között) azok időbeli változásából új tudást kíván létrehozni.
A projekt több, egymástól lényegesen eltérő területen is használható eszközt kíván fejleszteni, ezért a hattagú konzorcium résztvevői is igen változatos háttérrel rendelkeznek. A terrabájtnyi adatok begyűjtésével, azok kezelhető formátumra hozásával (adattisztítás) az MTA SZTAKI munkatársai foglalkoznak Benczúr András vezetésével. A magyar blogoszféra írásos munkásságát a Glia Kft gyűjti majd egy csokorba. Az adatbányászati algoritmusokat és eszköztárakat a Szegedi Tudományegyetemen kutatói: Csirik János, Jelasity Márk és kollégáik fejlesztik ki. Miután a különböző szöveg halmazokból (korpuszok) kiemelték a kulcskifejezéseket, meghatározták azok jellegzetes együttállásait és ezek változásait, az így nyert információt a hálózatelméleti kutatásairól ismert Vicsek Tamás (ELTE) és munkatársai segítségével vizualizálják.
Intencionalitás régen és ma
Ha például megvizsgáljuk a kognitív tudomány egyik kulcskifejezésének az "intencionalitás"-nak a kapcsolódását más fogalmakhoz a különböző diszciplínák publikációiban, akkor a Texttrend segítségével képet alkothatunk arról, hogy a témával foglalkozó kutatók Wittgensteintől, az autizmuson át a multi-ágens rendszerekig bezárólag milyen egyéb témákra fókuszáltak. A hálózatos ábrázolás az egyes fogalmak együttállásán túl azt is megmutatja, hogy mely kapcsolódó témák voltak a hangsúlyosabbak, és mik szorulták háttérbe.
Ha évekre lebontva elemezzük ugyanennek a szónak a közös előfordulását más kifejezésekkel a tudományos közlemények címeiben, megismerhetjük az elmúlt 30 évben a témával kapcsolatos tudományos trendeket. Míg 1977-ben szinte minden intencionalitással foglalkozó publikáció címében szerepelt Husserl neve, addig 2 évre rá a nagy német filozófus szerepe jelentősen háttérbe szorult. 1982-től ugyan újra találkozhattunk a fenomelógia atyjával, de napjainkban már igen kevés intencionalitás témájú írás címében köszön vissza a neve.
Döntéstámogatás a pályázatkiírásban
A tudományos divatok vizsgálatán kívül a projektnek fontos célja a kormányzati szervek döntéstámogatása a kutatásfejlesztési pályázatok kiírásában. Ha a Texttrend elemzéseinek segítségével monitorozzák a különböző folyóiratokban és konferenciákon az egyes tudományterületek változásait, rálátásuk lehet arra, hogy mik a nemzetközileg is fontosnak tekintett témák, mire érdemes támogatást adni, milyen típusú pályázatokat érdemes meghirdetni.
Kormányzati intézkedések hatása a közbeszédre
A tudományos szakszövegek elemzésén túl a szövegbányászati rendszerrel a közbeszéd változásait is szeretnék monitorozni. A blogbejegyzések időbeli elemzésével megállapíthatják például, hogy a korrupcióval és a feketegazdasággal kapcsolatos kormányzati intézkedések, vagy kommunikációs stratégiák hogy csapódnak le a blogokban. A Kereskedelmi és Iparkamara Gazdaság- és Vállalkozáselemző Intézete többek között ebből a célból vesz részt a konzorciumban. Tóth István János és munkatársai arra kíváncsiak, hogy a gazdaság fehérítésére tett kormányzati erőfeszítések hogyan csapódnak le a nyilvános dokumentumokban. Milyen kifejezések jelennek meg, hogyan változik a gyakoriságuk, milyen fogalmakkal fordul elő együtt a korrupció, a fekete gazdaság a különböző hónapokban?
Ehhez hasonlóan azt is vizsgálni szeretnék, hogy a kisebbségekkel kapcsolatos attitűdök hogyan változnak a különböző adatállományokban: a hivatalos sajtóban és a blogokban. Az etnikai, vallási hovatartozásra utaló kifejezések milyen negatív vagy pozitív értékítéletekkel szerepelnek együtt. Az egyes közéleti események, vagy politikai intézkedések, hogyan befolyásolják az attitűdöket kifejező szavak arányát, azok együttes megjelenését.