
Digitális alexandriai könyvtár
További Tudomány cikkek
-
Gyerekzsenik hoztak tudományos megoldásokat a legégetőbb mezőgazdasági klímaproblémákra
- Így mosnak a magyarok, megvan, mit rontunk el
- Legalább két állást vállalnak a Z generációsok, ha nem akarnak éhen halni
- Izgalmas felfedezést tettek spanyol régészek, fény derülhet egy középkori titokra
- Az eddig ismert legrégebbi hangyafajt fedezték fel Brazíliában
Bitekké és bájtokká lesznek a könyvek
Első - egyszerű, de munka- és időigényes - lépés az oldalak beszkennelése, vagy lefotózása. Minden egyes oldalt digitális képpé alakítanak; a leggyorsabb gépekkel maximum százat egy óra alatt. Problémát jelent, hogy a ritka könyvek mérete és formája gyakran speciális eljárásokat és hardvert igényel. A Kirtas Technologies könyvszkennere például robotkezet használ: megfordítja, tizenhat megapixeles Canon kamerával lefényképezi az oldalakat.
Második lépésben a program feldolgozza a képet. Megfelelő méretűvé alakítja, elrendezi a szöveget, eltünteti az olvasást zavaró vizuális hibákat és a foltokat.
Az oldalakat online továbbítható képekként tárolják. Viszont a szövegben ilyenkor még nem lehet keresni. Harmadik lépésként, a computer optikai karakterfelismerő szoftvert (optical character recognition, OCR) használ a gépi olvasáshoz. Betűk után kutat, amiket szavakká, a szavakat nyers vázlattá, a vázlatot szövegfájllá alakítja. Szótárprogram korrigálja a hibákat - az angolban 98 százalékos pontossággal, a nem angol nyelvű irományokban lényegesen alacsonyabb hatásfokon. Tizenhét írás jut az ezerötszáz indiai nyelvre; a száznál kevesebb angol karakterrel ellentétben, a szoftvernek általában többszázat kell azonosítania. Ám a fura betűtípusok, például az óangol szövegek még Shakespeare nyelvének gépi interpretációját is jócskán megzavarják.
A szövegfájlokból standard szófeldolgozó program készít kereshető, szerkeszthető, másolható word-dokumentumokat. Címeket, bekezdéseket, lábjegyzeteket azonosít.
Az elektronikus formájú könyv tárolása a negyedik és egyben utolsó fázis. Ugyanúgy kezelik, mint bármely digitális fájlt: DVD-n, CD-n, merevlemezen. Egy képek nélküli háromszáz oldalas nem-tömörített könyv nagyjából harminc-megabájtnyi tárkapacitást igényel, és nyolc perc alatt tölthető le.
Egyetemes tudástár
A Carnegie Mellon Egyetem 2001-ben indult "Egymillió Könyv Projekt"-jét (Million Book Project) - tizennyolc indiai és kínai egyetem közreműködésével - 2005-re szeretnék kivitelezni. A tekintélyes mennyiség a világ valamennyi nyelvén valaha megjelent kötetek egy százalékát fedi "mindössze"_ Bárki szabadon hozzáférhet majd, viszonylag könnyű lesz a keresés. A projekt nemcsak ösztönző hatást gyakorolhat az oktatásra, hanem teljesen át is formálhatja. Például azért, mert a legnagyobb középiskolák könyvtára nem több harmincezer kötetnél, de a vezető felsőoktatási intézményként nyilvántartott CMU bibliotékáiban fellelhető könyvek száma se haladja meg az egymilliót. A tervek szerint - a gépi fordítást tesztelendő - az egymillióból legalább tízezret két nyelven olvashatnánk.
A távolabbi célként megjelölt Univerzális Könyvtár a "teljes" -könyvekben felhalmozott - emberi tudást demokratizálná az online elérhetőséggel. Már dolgoznak az esetleg felmerülő copyright problémák orvoslásán. Az adatok integritására, hozzáférhetőségükre ügyelve, a bibliotékát több virtuális helyen tárolnák. Különböző fenntarthatósági modelleket elemeznek, és azt is tanulmányozzák, hogy minél könnyebben lehessen kezelni a gigantikus mennyiséget.
