Miklós
-7 °C
2 °C

Adatkinyerés DNS- és protein-szekvenciákból

2006.01.22. 21:58
Az utóbbi évek kutatásai során, például a Humán Genom Projekt eredményeként rengeteg biológiai adat, dokumentumok tömkelege halmozódott fel. Hogyan igazodjunk el köztük, miként ismerjük fel a releváns információt, kapcsoljunk egymáshoz látszatra összefüggéstelen számokat, fogalmakat?

Többek között entitások (minőségjegyek, munkahelyi beosztás, stb.) és gondolatok (például két gén közötti feltételezett kapcsolat) után kutató, mesterségesintelligencia-technikákat alkalmazó eljárásokkal. A keresőmotoroknál kifinomultabbnak, pontosabbnak bizonyult szövegbányászat (text mining) tűnik az egyik legígéretesebbnek közülük. Nemcsak az információt szűri ki meghatározott szempontok alapján, hanem egyértelműnek egyáltalán nem nevezhető, rejtett kapcsolatokra is fényt derít.

Elképesztő tempóban gyűlnek az adatok, feldolgozásuk egyre nehezebb, holott új hipotézisek felállításához, bizonyításához mind nagyobb tömegben kell dolgozni velük. A technológia csodái sokat segítenek, az adatbankok bárhonnan hozzáférhetők, csakhogy az információáradatban könnyedén elsiklunk értékes dokumentumok, nélkülözhetetlen számok és szövegek mellett.

A brit kormány - felismerve a tudományágban rejlő lehetőségeket, és azt, hogy mennyire nélkülözhetetlen a számítógépes kutatásokban - Nemzeti Szövegbányászat Központot alapított. A földkerekség első, különböző irományok, összefoglalók és egyéb dolgozatok szisztematikus elemzésére, tartalmuk gyors meghatározására alkalmas módszerek, programok fejlesztésére létrehozott - három egyetem (Manchester, Liverpool, Salford) konzorciuma által működtetett - kutatóműhelyében gőzerővel folyik a munka.

"Mivel a kormány úgy véli, hogy az információ összességének kezelhetetlensége óriási problémát jelent, ezért elsődlegesen a biológiára kell összpontosítanunk" - jelentette ki Richard Barker, a Központ kereskedelmi menedzsere. Élettudományi és orvosi szövegekre; a nagyléptékű biotechnológiai, bioinformatikai és egyéb "bio" projektekhez nélkülözhetetlen írott információ automatikus keresésére, kivonatolására, kezelésére.

Ráadásul a szabványosítás hiánya szintén komoly gondokat okoz. Például másként hívják a különböző géneket, eltérnek a rövidítések, mozaikszavak. Az egységesítéssel ugyan lehet próbálkozni, ám a tudósközösségnek el kell fogadnia és használnia az új standardokat. Technikai szempontból szintén fontos, hogy a más és más célokra használandó, különböző szoftverek, rendszerek egyetlen koherens keretben együttesen is működjenek.

A terminológiák kezelésében (terminology management) a TerMine szoftver segít. Közös nevezőre hozza a szakkifejezések szövegbeli felismerésére (automatic term recognition, ATR), variánsaik összekapcsolására alkalmazható módszereket. Együttesen használja a nyelvészeti ismereteket (terminológia-kialakulási mintákat) és a statisztikai méréseket (előfordulási gyakoriság, stb.). Címkézett szövegek az inputok, kivonatolt terminológiák az outputok.

A Manchester Egyetemen hosszú évekig fejlesztett CAFETIERE (Conceptual Annotations for Facts, Events, Terms, Individual Entities, and RElations; Tények, események, kifejezések, egyéni entitások és kapcsolatok fogalmi annotációja) szintén hasznos szoftver. A szabályalapú rendszer munkáját az alapvető szemantikai elemek (tények, események, stb.) kivonatolásával kezdi, amiket adatbányász technikákkal dolgoz fel, s mutatja ki a köztük lévő kapcsolatokat.

Manchesterben egy, az Humán Genom Projektre visszavezethető DNS- és proteinszekvenciákra vonatkozó dokumentumok elemzéséhez szükséges szövegbányász szoftveren szintén dolgoznak. A kutatásfejlesztés az európai uniós BioMinT projekt keretében folyik. Biológusok és számítástudományi szakemberek egyaránt részt vesznek benne.

Hamisítatlan interdiszciplináris munka - mint a jellegzetesen XXI. századi bioinformatika.