Budai családi házban teszik kereshetővé a múltunkat
További Tech-Tudomány cikkek
Pár héttel ezelőtt épp egy cikken dolgoztam, amihez archív anyagokat – korabeli cikkeket, lapbeszámolókat, fotókat – keresgéltem az Arcanumon, és közben félig-meddig hallgatóztam, hogy mikről beszélget telefonon a feleségem az édesanyjával. Valahogy arra terelődött a szó, hogy anyósom fiatal korában részt vett egy kommunista szombaton a budapesti Izzóban (avagy Tungsram lámpagyár), ahol fénycsövek gyártásában vettek részt. Egy fotósnak megtetszett a szép fiatal lány, le is fényképezte őt, és a képe megjelent valamelyik ifjúsági lapban. Telefonálás közben rápillantott a feleségem a monitorra, hogy min dolgozom, és megkérdezte, meg lehet-e vajon találni ennyi homályos infó alapján a családi vonatkozású újságfotót. Túl sok támpont nem állt rendelkezésre, de az ilyesmit szeretem, szóval annyit mondtam:
challenge accepted.
Nagyjából 15-20 percbe telt az egész, és néhány beállítás finomhangolásával (időtartomány, újság, képkeresés), pár kulcsszavas kombináció kipróbálása után meglett a kép: a Magyar Ifjúság, 1970. április 17-i számában (14. évfolyam, 15. szám), a 3. oldalon egy bélyegnyi felületen tényleg ott volt a csaknem ötvenéves portré és alatta a szöveg:
Az Egyesült Izzóban két-ezerötszázan végeztek termelő munkát április 12-én. Az ünnepi műszakon résztvevő fiatalok elhatározták, hogy ezután évente négy alkalommal kezdeményeznek kommunista vasárnapot.
Ha tudjuk, hogy név szerint szerepelt a lapban a munkáslány (erre nem emlékezett az anyósom), és nem szombat hanem vasárnap volt a kommunista műszak, akkor még hamarabb alatt meglett volna a keresett tartalom. Az oldalt mindenesetre letöltöttem, a pdf-fájlt átküldtem emailben neki, nagy örömet szerezve a fél évszázados emlék felelevenítésének.
A fentiekből talán kitűnik, hogy mennyire kézenfekvő és magától értetődő az Arcanum (egész pontosan: Arcanum Digitális Tudománytár, ADT) használata az ilyen esetekben, amikor tapinthatóan összesodródott a történelem fonala és a magánember sorsa, még ha ilyen banális és nüansznyi mozzanatról is van szó. Ezért is lepett meg, hogy a privát történelmet kiszolgáló keresés a Camponától kőhajításnyira, egy teljesen átlagos budai családi ház pincéjében zúgó szervereknek köszönhetően járt sikerrel. Ezt pedig onnan tudom, hogy a Biszak Előd, a családi vállalkozásban működő Arcanum programozója végigmutogatta, pincétől a padlásig, hogyan lesznek szakadozott szélű, több évtizeddel ezelőtt megjelent újságokból digitálisan feldolgozott állományok, és egy végtelennek tűnő folyóirat-adatbázis.
Egy budai házban az ország lapjainak java
A folyamat ott kezdődik, hogy a ház alsó szintjén több helyiségben felhalmozott, bekötött, vagy kötetlen újságokat, folyóiratokat, könyveket szkennelésre előkészítik. Ez azt jelenti, hogy ha feláldozható az alapanyag, akkor kiszabadítják a lapokat a kötésből. Ezt egy nagy teljesítményű papírvágó géppel végzi az egyik alkalmazott: a gép feje alá precízen beigazított kötet gerincét nagy erővel lemetszi egy penge, így téve automatikus szkennelésre alkalmassá a lapokat.
Egy szomszédos, nagyobb helyiségben zakatolnak a szkennerek. Többféle eszköz is falja szimultán az újságlapokat, az automatikus szkennerek szempillantás alatt végeznek egy-egy oldal 300 dpi-s bevitelével, függetlenül attól, hogy fekete-fehér vagy színes a tartalom. Egy jókora, nagyjából egy-másfél méteres olvasófejjel bíró gépbe nagyalakú újságlapokat táplálnak, ez a munka időigényesebb, nem lehet olyan gyorsan adagolni az oldalakat, mint a kisebb szkennerekbe. Azokat a kiadványokat, amiket nem vágnak szét, kisebb síkágyas szkennerekkel dolgozzák fel, óvatosan kihajtva és az üvegre préselve az oldalakat. Egyébként itt a legnagyobb az eszközamortizáció, a síkágyas szkennerek üveglapja az efféle rendszeres, ipari mértékű használattól egy idő után karcos lesz, úgyhogy külön üvegműves szaki szab méretre strapabíró üveglapokat a cégnek.
A nagy alakú és szét nem vágható (erről majd később, hogy miért) újságköteteket egy másik, kisebb szobában digitalizálják. Itt állványra szerelt, Canon EOS 5Ds 50 megapixeles, full frame-es digitális fényképezőgépekkel fotózzák be a fixen megvilágított, lehetőség szerint minél jobban lesimított oldalakat. Két munkaállomáson dolgoznak épp, a harmadik, csak 45 fokban kinyitható újságkötetek feldolgozására alkalmas kétkamerás asztal külső helyszínen van.
Az OCR ott téved, ahol tud
A szkennelés során előállított képfájlok tartalmi feldolgozása egy szinttel feljebb történik. Az itt dolgozó számítógépeken tömegesen emészti meg egy optikai karakterfelismerésen (OCR) alapuló szoftver az újságoldalakat, a folyamat végén pedig előáll oldalanként egy pdf állomány, ami a szkennelt képből és az alatta lévő, felismert szövegből áll. Először automatizált ellenőrzések és feldolgozások futnak végig az összes pdf-en, és visszajelzést küldenek, ha valami hibásan került be, vagy esetleg nem lett OCR-ezve egy adott oldal, vagy kimaradtak a fontos metaadatok (pontos dátum, évfolyam, lap neve stb).
Laikus szemmel nézve ezután jön a neheze: ellenőrizni, hogy az OCR helyesen ismerte-e fel a szöveget. Végtelen sok hibalehetőség adódik abból, hogy a sokhasábos újságoldalak tördelése, a bennük elhelyezett reklámok, fotók, az azokhoz tartozó képaláírások a szoftver számára nem alkotnak egyértelműen elkülöníthető egységeket.
Ezek elválasztásához bizony emberi kéz szükséges. Ez azt jelenti, hogy minden egyes oldalon végig kell menni és kijelölni az összetartozó szövegrészeket, korrigálni a tévedéseket, szétválasztani az OCR által folyószövegnek érzékelt, de valójában különálló tartalmakat.
Ha ez megvan, a pdf-ekből automatikusan kiexportálják a szöveget és egy nyelvi feldolgozáson is keresztülviszik, mielőtt a keresőbe betáplálják a tartalmát. Ez a keresés minőségét szolgálja, egyrészt hogy az autocomplete funkció szépen működjön, másrészt hogy teljes kifejezésekre, több szóból álló fogalmakra, azok ragozott toldalékolt változataira is helyes és releváns találatokat kapjanak a felhasználók. Mindez egyben a témakeresés gyorsaságát is szolgálja, ami jelenleg tizedmásodperces nagyságrenddel mérhető, úgy, hogy az adott oldalon kontextusában jelennek meg a találatok.
A következő lépés talán a legérdekesebb: az ADT-n működik egy bétaverziójú képkereső. Ehhez egy külön erre a célra betanított AI-t engednek rá az oldalakra. A neurális hálónak az a fő feladata, hogy automatikusan felismerje, van-e az adott oldalon kép, fotó, grafika – ezzel is a felhasználó dolgát könnyítve a kereső használatakor. A Google TensorFlow gépi tanuló algoritmusára épített arcanumos mesterséges intelligencia egyelőre még gyerekcipőben jár, sokszor bizonytalankodik - táblázatok, hirdetések, szokatlan tördelési megoldások be tudják csapni – de az esetek nagy részében segít releváns találatokat hozni a képeket kereső felhasználó elé – mint történt az anyósom esetében is. (De nézzük például mit dob a gép Petőfi Sándorra, vagy akár Orbán Viktorra.)
A Google Books inspirálta
Az emeleten dolgozik a családi cég vezetése, azaz Biszak Sándor (vezérigazgató), valamint két gyermeke: Biszak Előd (vezető fejlesztő, ügyvezető) és Biszak Bogáta (ügyfélszolgálat), ők meséltek még jó pár érdekes részletet a cég működéséről.
A cég 1989-ben alakult és azóta több átalakuláson is átment. Sokáig CD-ket adtak ki, részben könyveket, amiket kézzel gépeltek be, korrektúráztak, tördeltek újra. Az ADT-vel kapcsolatos munkák 6-8 évvel ezelőtt kezdődtek, akkor adta a Google Books felbukkanása az ihletet a nyomtatott tartalmak minél szélesebb körű digitalizálásához. Az ADT maga 2014-ben indult, bár akkor még csak intézményeknek nyújtott hozzáférést a digitalizált tartalmakhoz.
Az utóbbi időszak legfontosabb műszaki fejleménye, hogy nagyon nagy méretű dokumentumok (például térképek) szkennelése, hatékony és gyors digitalizálása is lehetővé vált, amivel egy régi hiányosságot is tudnak pótolni: egy sor szokatlanul nagy alakú, már-már lepedő méretű napilap - például a Pesti Napló vagy az 1991-1998 közötti Magyar Hírlap – kerül folyamatosan az Arcanum archívumába. Emellett tartalmilag nagy újdonság, hogy a megyei napilapok mindegyikét bedigitalizálták, bár egyes szerződések megkötése még folyamatban van, így az olvasók monitoraira várhatóan ősszel kerülhetnek a jól ismert vidéki újságok régi számai.
A szerkesztőségekkel, a kiadókkal való egyeztetés az Arcanum munkájának legfontosabb része. Régi, megszűnt folyóiratok esetén – és ez teszi ki az adatbázis legnagyobb részét –, már nincs szükség engedélyre. Élő lap esetén a kiadóval létrejött szerződés biztosítja a jogszerű feldolgozást. Hogy van-e jogutód, azt viszont nem egyszerű kideríteni. Erre a legfrissebb példa a nemrég megszűnt Heti Válasz esete.
Az éppen felszámolás alatt álló lap esetén – és ilyen még sose volt –, a felszámolóbiztossal tárgyalunk az engedélyről. Mivel még nem találkozott ilyen esettel, számára sem egyszerű a törvények szerint, jogszerűen eljárni. A székek, íróasztalok sorsa egyszerű, de a digitalizálási jog tisztázása akár hónapokat vehet igénybe.
– mondta Biszak Sándor.
"Előfordul olyan eset, amikor egy lap nagyon régóta létezik, több tulajdonosváltáson ment keresztül. Ilyenkor kérdéses lehet, hogy a jelenlegi kiadója, tulajdonosa-e a lap korábbi számainak, jogutódjának tekinti-e magát. A Nők Lapja esetén a kiadóban kétségek merülnek fel ennek kapcsán. Ebben az esetben nem tudtunk szerződést kötni, mivel nem látják tisztázottnak a jogi helyzetet, úgy érzik, hogy nem adhatnak jogot a sok évtizeddel ezelőtti lapszámok digitalizáláshoz és online megjelentetéshez. Ilyen bizonytalan esetekben, bár az anyag digitalizálása megtörtént, nem publikálhatjuk." – tette hozzá Biszak Előd.
Szépirodalmi művek esetében elég nyilvánvaló a helyzet, a szerzői jogok elévüléséig a rokonok, jogutódok rendelkeznek a művek jogaival, ők általában élnek is ezzel. Újságcikkek szerzőivel, újságírókkal viszont más a helyzet, elenyészően kevés azok száma, akik kifogásolják, hogy felkerültek a cikkeik az Arcanumra, sőt a többség kifejezetten örülni szokott, hogy elérhetővé váltak régi anyagaik, hovatovább reklamálni is szoktak, hogy miért hiányzik egy adott lap a kínálatból. "Egyre többször fordul elő, hogy élő, esetenként saját archívummal is rendelkező lapok, folyóiratok fordulnak hozzánk, hogy szeretnének felkerülni az Arcanumra, mivel így jól kereshető módon, széles felhasználói körhöz jutnak el. Ennek köszönhetően lehet majd nálunk megtalálni a Magyar Grafika, a Teológiai Szemle és a Színház megjelent lapszámait."
Biszak Sándor szerint ezeket a kérdéseket már 30 éve kerülgetik: "Voltunk mi már bíróságon különböző ügyek miatt. A legbonyolultabb ügyünk a Nyugat kapcsán volt – még az ADT előtti időkben. 2000-ben ugyanis CD-ROM lemezen megjelentettük a teljes lapot. Hosszas, peren kívüli tárgyalások után született megállapodás, amelynek értelmében 5 éven keresztül forgalmazhattuk a lemezt. Sajnos a folytatásról már nem sikerült megegyeznünk, így a későbbiekben nem volt hozzáférhető a digitalizált Nyugat." Hogy milyen fontos ebben a jogi szegmensben az időfaktor, jól szemlélteti, hogy mostanában ismét felmerült, hogy az ADT-ben is fel lehetne dolgozni az 1908-ban indult, 1941-ben megszűnt legendás irodalmi folyóiratot, vagy legalább a kezdő évfolyamait, hiszen az elmúlt 20 évben, 2-3 szerző kivételével, az összes szerző esetén lejárt a haláluktól számított 70 éves szerzői jogi védelem.
"Ettől függetlenül nyugodtan mondhatjuk, hogy döbbenetesen kevés a szerzői jogi probléma, sőt egyre kevesebb, egyre problémamentesebb az Arcanum működtetése. Érdekesebb esetek a cikkek tartalma miatt szoktak lenni, amikor egy újságcikknek a szereplője jelentkezik azzal, hogy vegyük le a róla szóló cikket" – tette hozzá Biszak Bogáta. Évente egy-két ilyen megkeresés érkezik, nemrég például egy 1990-es emberölés elkövetője szeretett volna élni a digitális felejtés jogával, mondván rég letöltötte börtönbüntetését, de neve sokat szerepelt annak idején a lapokban és az Arcanumban ma is megkereshető és megtalálható, és ő szeretné ezt a helyzetet megszüntetni.
Amit nem tud a könyvtár
Bizonyára felmerül az olvasókban is a kérdés, hogy honnan kapja az Arcanum, egy kis családi vállalkozás a bedigitalizálandó anyagokat. Az Arcanumra (és néhány esetben, a megyei lapoknál például, a Hungaricana oldalra) felkerülő anyagok jó része megyei, városi könyvtárakból származik, amikkel kifejezetten jó kapcsolatot ápolnak. A könyvtárak örülnek, hogy a birtokukban lévő, sokszor kezelhetetlen mennyiségű, minőségű, romló állapotú, esetenként leselejtezésre ítélt lapokat digitalizálja valaki, mivel nekik se pénzük, se emberük nincs erre a munkára, cserébe viszont hozzáférést kapnak az ily módon kutatható vált anyaghoz. Az Arcanum maga is a szegedi egyetem könyvtárával való együttműködésből nőtte ki magát: az ötletre, hogy a könyvtár gyűjteményében lévő folyóiratokat jó lenne digitalizálni, nyitottak voltak, és mivel saját erőből nem tudták ezt megoldani, örültek a külső segítségnek. A könyvtár adta a meglévő évfolyamokat, illetve tett javaslatokat, hogy miket lenne fontos elérhetővé, kutathatóvá tenni, az Arcanum pedig végezte a szkennelést, feldolgozást. A nagy könyvtáraknál – pl. ELTE – körülbelül két évvel ezelőtt tört meg a jég, amikor az Arcanum adatbázisa 15 millió oldal fölé kúszott, és egyértelművé vált, hogy egy jól használható, egységes eszköz a kutatók kezében, az ország második legnagyobb könyvtárával, Debreceni Egyetem könyvtárával pedig idén nyáron kezdődött az együttműködés. (A fő gyűjtőkönyvtárral, az Országos Széchényi Könyvtárral jó pár évvel ezelőtt, egy korábbi vezetés alatt, sikeresen dolgoztak együtt, de az OSZK saját maga is digitalizálási projektbe kezdett, így az Arcanummal való közös munka egyelőre parkolópályára került.)
A hatékony digitalizálás technikája az Arcanumnál azon múlik, hogy a kölcsön vagy örökbe megkapott fűzött-kötött évfolyamokat, könyveket gerincét levágják és a lapokat így etetik be a szkennerekbe. A világon nagyjából elsőként ők kezdtek ilyen drasztikusnak mondható eljárással digitalizálni, egyes külföldi levéltárak (a finneket említette Biszak Sándor) most kezdik ezt a módszert alkalmazni. Az eljárás olyan újságok, könyvek esetében működik, amik másodpéldányok, azaz a digitalizálás után leselejtezhetőek, vagy a papír bírja a strapát és nem gond az újraköttetésük. Az eredeti példányok esetleges elvesztése miatt azért nem érdemes bánkódni, mert a lapokra vágott és ekképp beszkennelt újságokból sokkal pontosabb és szebb digitális állományok készíthetők, nem történik információvesztés a kötéseknél (ahol az OCR nem működik jól). A nem szétvágható, megőrzendő állományoknál pedig marad az időigényesebb, fotótechnikai módszerekkel megvalósuló digitalizálás (ilyenkor például 45 fokban szétnyitva, üveglappal fedve, lenyomva fotózzák be két profi kamerával a lapoldalakat, vagy kiterítve, óvatosan simítva az oldalpárok közepét igyekeznek a lehető legtöbb adatot bevinni a sárguló papírokról).
Ha csak a számokat nézzük, akkor világszinten is elég jelentős archívum bontakoziik ki szemünk előtt:
- a cégnek 25 alkalmazottja van,
- 1,5 millió oldal/hó kapacitással tudnak digitalizálni, ha mind a 4 robotszkenner megy egész nap,
- helyben 500 terabájt (fél petabájt) tárhelyet foglalnak el az álloményok (80 százalék telítettséggel), a külső backup ugyanennyi,
- jelenleg több mint 23,2 millió oldalt ölel fel az ADT archívuma,
- összesen több mint húszmilliárd szó olvasható a feldolgozott oldalakon.
Szóval több mint 23 millió oldal az előfizetéses rendszerben működő ADT (és a vele párhuzamosan működő ingyenes Hungaricana, ahová végül állami támogatással a megyei lapok kerültek), de már nincs sokkal több több mint tízmillió, amit még be lehet vinni. Ez a jellegű folyóirat digitalizálás ugyanis nem végtelen, egyre csökkenő ütemben gyarapodik az adatbázis, egyre kevesebb a hiányzó anyag, 35-40 millió oldalnál nem lesz több az ADT amikor elkezd stagnálni, majd minimális szintre csökkenni a gyarapodás. "Úgy számolunk, hogy mondjuk a Debreceni Egyetemi Könyvtárban lehet, hogy van még másfél millió oldal, a Kolozsvári Egyetemi Könyvtárban egymillió oldal, ami nekünk még nincs meg. A határon túli lapok – beleértve a számunkra most felfedezett amerikai emigráns lapokat is – szintén nem olyan sok, 1-2 millió." Lehet, hogy sok címről van szó, de kevés lapszámról, jó esetben pár évfolyamról. Jelentős, masszív volumenek már nincsenek.
Mit csinálok? Járom a raktárakat és nézem, hogy mi van. Ez is megvan, az is megvan, amaz is megvan. Na, ez nincs. De ez már egyre ritkább
– mondta Biszak Sándor.
Ha végeztek a jogtisztán, szerződésekkel digitalizálható újságokkal – és egyszer végezni fognak – valamekkora bővülés még a joglejárt (1949 előtti) könyvekkel, illetve a könyvkiadókkal való együttműködésekkel valósulhat meg (például jelenleg zajlik az Akadémiai Kiadó tudományos és szakkönyveinek digitalizálása). Biszak Sándor így összegezte cége tevékenységét: "Úgy érezzük, hogy az újságokkal valami jóba fogtunk bele. Egyrészt jól követhető, számon tartható, hogy mi van, mi nincs, mikor mi jelent meg, és mivel hírekről van szó, mindenki találhat az Arcanumon olyat, ami érdekli, ami érinti".
(A cikk elkészülését az Arcanum támogatta, a cégnek azonban a tartalomba semmilyen beleszólása nem volt.)