Ferenc, Olívia
-2 °C
4 °C

Digitális alexandriai könyvtár

2004.12.26. 15:55
Az ókori világ hét csodájának egyikét, Alexandria büszke bibliotékáját ugyan elemésztette a tűz, a Carnegie Mellon Egyetem eljövendő Univerzális Könyvtárát viszont semmiféle természeti erő nem pusztíthatja el. Első lépésként egymillió könyvet digitalizálnak, és tesznek elérhetővé online. Nemcsak latin betűkkel, hanem az ezerötszáz indiai nyelven és a kínai karakterekkel írottakat is.
A papírkönyvek kereshető digitális fájlokká alakítása felettébb bonyolult műveletsorozat, sok csapdával, zsákutcával. Hogyan ismerje fel a számítógép a vizuális fogódzókat, miként tegyen különbséget a könnyen összetéveszthető, azonosnak tűnő jelek, például az 1(-es szám) és az l (betű) között?

Bitekké és bájtokká lesznek a könyvek

Első - egyszerű, de munka- és időigényes - lépés az oldalak beszkennelése, vagy lefotózása. Minden egyes oldalt digitális képpé alakítanak; a leggyorsabb gépekkel maximum százat egy óra alatt. Problémát jelent, hogy a ritka könyvek mérete és formája gyakran speciális eljárásokat és hardvert igényel. A Kirtas Technologies könyvszkennere például robotkezet használ: megfordítja, tizenhat megapixeles Canon kamerával lefényképezi az oldalakat.

Második lépésben a program feldolgozza a képet. Megfelelő méretűvé alakítja, elrendezi a szöveget, eltünteti az olvasást zavaró vizuális hibákat és a foltokat.

Az oldalakat online továbbítható képekként tárolják. Viszont a szövegben ilyenkor még nem lehet keresni. Harmadik lépésként, a computer optikai karakterfelismerő szoftvert (optical character recognition, OCR) használ a gépi olvasáshoz. Betűk után kutat, amiket szavakká, a szavakat nyers vázlattá, a vázlatot szövegfájllá alakítja. Szótárprogram korrigálja a hibákat - az angolban 98 százalékos pontossággal, a nem angol nyelvű irományokban lényegesen alacsonyabb hatásfokon. Tizenhét írás jut az ezerötszáz indiai nyelvre; a száznál kevesebb angol karakterrel ellentétben, a szoftvernek általában többszázat kell azonosítania. Ám a fura betűtípusok, például az óangol szövegek még Shakespeare nyelvének gépi interpretációját is jócskán megzavarják.

A szövegfájlokból standard szófeldolgozó program készít kereshető, szerkeszthető, másolható word-dokumentumokat. Címeket, bekezdéseket, lábjegyzeteket azonosít.

Az elektronikus formájú könyv tárolása a negyedik és egyben utolsó fázis. Ugyanúgy kezelik, mint bármely digitális fájlt: DVD-n, CD-n, merevlemezen. Egy képek nélküli háromszáz oldalas nem-tömörített könyv nagyjából harminc-megabájtnyi tárkapacitást igényel, és nyolc perc alatt tölthető le.

Egyetemes tudástár

A Carnegie Mellon Egyetem 2001-ben indult "Egymillió Könyv Projekt"-jét (Million Book Project) - tizennyolc indiai és kínai egyetem közreműködésével - 2005-re szeretnék kivitelezni. A tekintélyes mennyiség a világ valamennyi nyelvén valaha megjelent kötetek egy százalékát fedi "mindössze"_ Bárki szabadon hozzáférhet majd, viszonylag könnyű lesz a keresés. A projekt nemcsak ösztönző hatást gyakorolhat az oktatásra, hanem teljesen át is formálhatja. Például azért, mert a legnagyobb középiskolák könyvtára nem több harmincezer kötetnél, de a vezető felsőoktatási intézményként nyilvántartott CMU bibliotékáiban fellelhető könyvek száma se haladja meg az egymilliót. A tervek szerint - a gépi fordítást tesztelendő - az egymillióból legalább tízezret két nyelven olvashatnánk.

A távolabbi célként megjelölt Univerzális Könyvtár a "teljes" -könyvekben felhalmozott - emberi tudást demokratizálná az online elérhetőséggel. Már dolgoznak az esetleg felmerülő copyright problémák orvoslásán. Az adatok integritására, hozzáférhetőségükre ügyelve, a bibliotékát több virtuális helyen tárolnák. Különböző fenntarthatósági modelleket elemeznek, és azt is tanulmányozzák, hogy minél könnyebben lehessen kezelni a gigantikus mennyiséget.