Judit
3 °C
6 °C

A keresők hibáit javítja a RealTerm

2004.03.02. 09:07
Kapcsolódó cikkek (2)
Fénykorát éli a Google, az információdzsungelben mégis egyre nehezebb eligazodnunk. Keresőprogramjaink mellett megjelentek a navigációt leegyszerűsítő, a browser és a felhasználó kommunikációjában közvetítő metakeresők, például a természetesnyelv-feldolgozás és az MI-kutatás egyéb eredményeit is hasznosító RealTerm.
A szövegelemzésben és dokumentum-visszakeresésben élenjáró edinburghi Infogistics C/C++ és Java alkalmazásokkal könnyen integrálható RealTerm technológiája többéves fejlesztés eredménye. A használatban lévő keresőprogramokat (search engines) igyekszik optimalizálni, orvosolja a szükségesnél nagyságrendekkel több találat problémáját. Időt takarítunk meg; nem kell újfent kutakodnunk. Hatékonyabban, strukturáltabban szűri, illetve jeleníti meg az információt.

Modern statisztikai, nyelvészeti és fogalmi elemzésnek veti alá az adott dokumentumgyűjteményt, automatikusan definiálja a főbb topikokat és alcsoportjaikat. Nem böngésző - a már összeszedett információban kutat, csoportosít és rendszerez. Saját és más keresőprogramokkal (Yahoo, Google, Altavista, FAST, stb.), adatbázisokkal egyaránt működik. Jelenleg angolul, németül, spanyolul, franciául és olaszul "ért", de a tervek között kelet-európai és skandináv nyelvek is szerepelnek. Harmincnál több fájlformátumot támogat. Egy gigás Pentium mellett tizenötezer szót dolgoz fel másodpercenként, azaz két-három másodperc leforgása alatt ezer dokumentummal végez, dokumentumonként három-négy topikot azonosít. Hiába a viszonylagos gyorsaság, fejlesztői és felhasználói a sebességben látják az elsőszámú problémát. Azonnali válaszokra várunk, s ha nem így történik, rögtön azt hisszük, nem működik a rendszer - magyarázzák.

Első lépésként a legfontosabb, a szövegre legjellemzőbb szavakat és mondatokat (a későbbiekben topikdefiniáló terminusokat) azonosítja. A dokumentum(ok) egésze helyett csak a címeket és a tartalmi kivonatot veszi górcső alá. Több forrásból - keresőkből, adatbázisokból - érkező outputot kapcsol össze, és vonja le következtetéseit. Különböző helyesírás-korrigáló és mondategyesítő algoritmusokat alkalmazva ismeri fel a hibásan leírt, de azonos szavakat (Mono Lisa, Mona Lisa), az alaktanilag és/vagy mondattanilag eltérő, jelentésükben viszont egyező kifejezéseket (adatbányászat, adat bányászása). Ha kell, nyelvtani szabályoknak megfelelő átalakításokat alkalmaz.

A dokumentumok és az azonosított - szavakon túlmutató - terminusok egymáshoz rendelése, témakörök szerinti csoportokba rendezésük (clustering) a második munkafázis. Statisztikai algoritmusok értékelik ki, milyen gyakorisággal fordulnak elő együtt.

A harmadik szakasz a terminusok hierarchikus kapcsolatokba rendezése. A hierarchiák nem statikusak, hanem egyénre szabottan, dinamikusan megváltoztathatók. Az általános és speciális kapcsolatokat szókészlettani elemzéssel különböztetjük meg: például a Ferencvárosi Torna Club a Torna Club specializálása. A terminusok közötti viszony statisztikai jellegű vizsgálata az alternatíva: milyen gyakran kapcsolódik egy kifejezés egy másikhoz? Az "érrendszeri megbetegedések" és a "magas vérnyomás" sűrű együttes előfordulása szintén specializációra utal. Esetleg azt a kiegészítő javaslatot kapjuk, hogy nézzünk utána az "agyvérzésnek" is. A RealTerm könnyen alkalmazható szakterületekre (például a medicinára), koordináltan dolgozik a már létező adatbázisokkal, fogalomköri szótárakkal, szószedetekkel.

A kiválasztott, kiértékelt terminusokat más terminusokhoz és dokumentumokhoz kapcsolódó, a metakereső működését, topikok utáni nyomozását segítő jelentés-alapú, szemantikus hálózatba rendezzük. Könnyebb lesz a munkánk, néhány egérkattintás után máris tudjuk, melyik dokumentum fontos, melyik nem. Mindegy, hogy az első tíz között van, vagy esetleg a háromszáz-huszonnyolcadik. Mivel fogalomalapú keresést végez, alkalmasint - elfogadható, elutasítandó - alternatívát javasol a begépelt kulcsszó helyett, illetve felderíti a szinonimákat is. Mi pedig eldöntjük, hogy relevánsak, vagy sem.