Gyöngyi
9 °C
9 °C

Káosz és rend az adattengerben

2004.07.02. 12:45
A vállalati adatbázisok mintegy nyolcvanöt százalékát szövegfájlok teszik ki. Kaotikus, szervezetlen, helyenként értelmetlennek tűnő adatok. Hogyan igazodjunk ki rajtuk? Miként alakítsuk át az információt ismeretté, tudássá? A folyamatban komoly segítséget nyújthatnak az újgenerációs szövegbányász eszközök.
"Az információ csak akkor hasznos, ha lokalizálható, és tudássá szintetizálható" - elmélkedik Mani Shabrang, a Dow Chemical (Midland, Michigan) kutató- és fejlesztőcég technikai vezetője. Például adatsorok kulcselemeinek kivonatolásával, összegzésükkel, a köztük lévő kapcsolatok észrevételével.

A Dow mérnökei a New Yorki ClearForest ClearResearch szoftverével dolgoznak. Évszázadnyi anyagban - kémiai leírások, tudományos dolgozatok, vállalati ismertetők között - keresik a releváns, és szűrik ki a lényegtelen információt. Mintákat kapcsolnak össze (pattern-matching), kategorizálnak. Az adatokat, többi adathoz fűződő viszonyukat grafikusan jelenítik meg. A szövegbányászat ugyan még nem annyira pontos, mint az adatbányászat, viszont (relatíve) egyre hatékonyabb, a döntő fontosságú kontextust mind jobban értő termékek kerülnek forgalomba.

Mit jelent a hatékonyság, milyen kihívásoknak kell eleget tenni? Ellenére a biztató eredményeknek, a szoftverek egyelőre csak alapszintű elemzésekre képesek. A nyelvi, nyelvészeti elemek megértése, kezelésük tűnik jelenleg a legégetőbb problémának. Amíg nem sikerül orvosolni, a programok csak nagyon speciális részterületeken alkalmazhatók.

A nyelv labirintusában

Ugyan különböző módszereket, megközelítéseket, de több azonos eljárást használnak:

- kategorizálnak (categorization): az eredményeket szét nem választott massza helyett kategóriákba rendezik,

- csoportosítanak (clustering): csoportokba gyűjtik a tartalmuk alapján hasonló dokumentumokat,

- kivonatolnak (extraction): az adott dokumentumból kigyűjtik a releváns információt,

- kulcsszavakat keresnek (keyword search): egy-egy meghatározott szó, vagy szócsoport után kutatnak,

- természetesnyelv-feldolgozás (natural-language processing): a leírt szavak jelentését szövegkörnyezetük, nyelvtanuk, köznyelvi formáik, stb. alapján határozzák meg,

- osztályoznak (taxonomy): az adatokat előre definiált keretek, például ipari szabványok alapján kategorizálják - bizonyos programok az adattár elemzésén nyugvó, automatikus taxonómia-generálásra is képesek,

- megjelenítenek (visualization): grafikusan, kapcsolatrendszerbe helyezve ábrázolják a "kibányászott" adatot.

Szövegbányász programok

Egyes szoftverrendszerek, például a (WordNet szemantikus szótárra épülő) PolyAnalyst mind a strukturált, mind a strukturálatlan adatokat elemzik. Ugyanakkor a legtöbb vállalat hagyományos business intelligence (BI) programokkal vizsgálja saját strukturált adatait, míg a szövegalapúakat egészen másfajta, különálló eszközökkel tanulmányozzák. Mások az adatbázist és a szövegfájlokat egyaránt speciális, az adott területre "szakosodott" programokkal analizálják. Szerencsére léteznek már a kettőt összekapcsoló technikák is.

"Ha többezer, vagy több tízezer kategóriával dolgozunk, egyszerűen nem működik a szabványos kategóriák szerinti elemzés" - nyilatkozta Patricia B. Cerrito, a Louisville Egyetem (Kentucky) matematika- és biostatisztika-professzora. "Viszont, ha az egészet strukturálatlan adatként kezeljük, nagyon hasznos információkat nyerhetünk belőle."

Esetleg a Text Miner (Szövegbányász) programmal - Cerrito például arra jött rá, hogy bizonyos gyógyszerek növelik a beteg kórházban töltött napjainak számát. Mivel a kórházak nagyon eltérő módon rögzítik a páciensekre vonatkozó információt, rendkívül nehéz létrehozni hiteles orvosi adatrendszert - vonta le a következtetést a kutató. Hiába az óriási mennyiség, az adatokat nem tisztítják meg, nem standardizálják. Azért kellenek az adat- és szövegbányász szoftverek, hogy - elvégezve az utóbbiakat - az információtenger elemezhető legyen.

Az Inxight Software Inc. SmartDiscovery programja szintén a nagy jövő előtt álló szövegbányászok közé tartozik: üzleti folyamatokra fókuszál, "olvashatóbbá" teszi a cégek belső információrendszerét. A Microsoft SharePoint Portal dokumentumkezelő számára könnyen hozzáférhető katalógust és indexet generál az adattárházakból.