Mária
-6 °C
-2 °C

Káosz és rend az adattengerben

2004.07.02. 12:45
A vállalati adatbázisok mintegy nyolcvanöt százalékát szövegfájlok teszik ki. Kaotikus, szervezetlen, helyenként értelmetlennek tűnő adatok. Hogyan igazodjunk ki rajtuk? Miként alakítsuk át az információt ismeretté, tudássá? A folyamatban komoly segítséget nyújthatnak az újgenerációs szövegbányász eszközök.
"Az információ csak akkor hasznos, ha lokalizálható, és tudássá szintetizálható" - elmélkedik Mani Shabrang, a Dow Chemical (Midland, Michigan) kutató- és fejlesztőcég technikai vezetője. Például adatsorok kulcselemeinek kivonatolásával, összegzésükkel, a köztük lévő kapcsolatok észrevételével.

A Dow mérnökei a New Yorki ClearForest ClearResearch szoftverével dolgoznak. Évszázadnyi anyagban - kémiai leírások, tudományos dolgozatok, vállalati ismertetők között - keresik a releváns, és szűrik ki a lényegtelen információt. Mintákat kapcsolnak össze (pattern-matching), kategorizálnak. Az adatokat, többi adathoz fűződő viszonyukat grafikusan jelenítik meg. A szövegbányászat ugyan még nem annyira pontos, mint az adatbányászat, viszont (relatíve) egyre hatékonyabb, a döntő fontosságú kontextust mind jobban értő termékek kerülnek forgalomba.

Mit jelent a hatékonyság, milyen kihívásoknak kell eleget tenni? Ellenére a biztató eredményeknek, a szoftverek egyelőre csak alapszintű elemzésekre képesek. A nyelvi, nyelvészeti elemek megértése, kezelésük tűnik jelenleg a legégetőbb problémának. Amíg nem sikerül orvosolni, a programok csak nagyon speciális részterületeken alkalmazhatók.

A nyelv labirintusában

Ugyan különböző módszereket, megközelítéseket, de több azonos eljárást használnak:

- kategorizálnak (categorization): az eredményeket szét nem választott massza helyett kategóriákba rendezik,

- csoportosítanak (clustering): csoportokba gyűjtik a tartalmuk alapján hasonló dokumentumokat,

- kivonatolnak (extraction): az adott dokumentumból kigyűjtik a releváns információt,

- kulcsszavakat keresnek (keyword search): egy-egy meghatározott szó, vagy szócsoport után kutatnak,

- természetesnyelv-feldolgozás (natural-language processing): a leírt szavak jelentését szövegkörnyezetük, nyelvtanuk, köznyelvi formáik, stb. alapján határozzák meg,

- osztályoznak (taxonomy): az adatokat előre definiált keretek, például ipari szabványok alapján kategorizálják - bizonyos programok az adattár elemzésén nyugvó, automatikus taxonómia-generálásra is képesek,

- megjelenítenek (visualization): grafikusan, kapcsolatrendszerbe helyezve ábrázolják a "kibányászott" adatot.

Szövegbányász programok

Egyes szoftverrendszerek, például a (WordNet szemantikus szótárra épülő) PolyAnalyst mind a strukturált, mind a strukturálatlan adatokat elemzik. Ugyanakkor a legtöbb vállalat hagyományos business intelligence (BI) programokkal vizsgálja saját strukturált adatait, míg a szövegalapúakat egészen másfajta, különálló eszközökkel tanulmányozzák. Mások az adatbázist és a szövegfájlokat egyaránt speciális, az adott területre "szakosodott" programokkal analizálják. Szerencsére léteznek már a kettőt összekapcsoló technikák is.

"Ha többezer, vagy több tízezer kategóriával dolgozunk, egyszerűen nem működik a szabványos kategóriák szerinti elemzés" - nyilatkozta Patricia B. Cerrito, a Louisville Egyetem (Kentucky) matematika- és biostatisztika-professzora. "Viszont, ha az egészet strukturálatlan adatként kezeljük, nagyon hasznos információkat nyerhetünk belőle."

Esetleg a Text Miner (Szövegbányász) programmal - Cerrito például arra jött rá, hogy bizonyos gyógyszerek növelik a beteg kórházban töltött napjainak számát. Mivel a kórházak nagyon eltérő módon rögzítik a páciensekre vonatkozó információt, rendkívül nehéz létrehozni hiteles orvosi adatrendszert - vonta le a következtetést a kutató. Hiába az óriási mennyiség, az adatokat nem tisztítják meg, nem standardizálják. Azért kellenek az adat- és szövegbányász szoftverek, hogy - elvégezve az utóbbiakat - az információtenger elemezhető legyen.

Az Inxight Software Inc. SmartDiscovery programja szintén a nagy jövő előtt álló szövegbányászok közé tartozik: üzleti folyamatokra fókuszál, "olvashatóbbá" teszi a cégek belső információrendszerét. A Microsoft SharePoint Portal dokumentumkezelő számára könnyen hozzáférhető katalógust és indexet generál az adattárházakból.

Nászút ajándékba!

Esküvőt tervez? Tervezzen velünk, nyerjen wellness nászutat!

Értékeljen, nyerjen!

Van kedvenc légitársasága? Írja meg véleményét itt!