Árpád
-1 °C
9 °C

Mao-Micimackó: 16-6

2005.05.09. 10:00
Nem tudja eldönteni, elolvasson-e egy könyvet? Vagy hogy megvegye-e egyáltalán? Kérdezze meg könyvtárosát, irodalomtanárát! Vagy hagyatkozzon az Amazon.com automatikus szövegelemzőjére, ami olvasni ugyan nem tud, de nem is tartja Wass Albertet a legnagyobb írónak.

A világ legnagyobb online könyvkereskedése, az Amazon.com forgalmán már a kezdetekkor nagyot lendített, hogy a vásárlók nyilvánosan véleményezhették az egyes köteteket. Az ember azonban gyarló, sokszor téved, és sokszor megbocsáthatatlanul rossz az ízlése. "A könyv 80 százalékának az égvilágon semmi értelme" - írja például egy névtelen olvasó az Amazonon Esterházy Péter Hahn-Hahn grófnő pillantása című regényéről. "Ehelyt könyörgök a könyves kiadványoknak: átlagos intelligenciájú kritikusokat alkalmazzanak, ne pedig értelmiségieket" - írja a kiábrándult vásárló, aki megbánta, hogy a pozitív kritikák hatására vette meg - és olvasta el - a mű angol nyelvű kiadását.

Ember helyett statisztika

#alt#
A Neurománc száz leggyakoribb szava
Hogy enyhítsen a szubjektív ítéletekből fakadó konfliktusokon, az Amazon a statisztikát hívta segítségül: számokban mondja el egy-egy könyvről, amit szavakban nem lehet.

A könyvárus még 2003 őszén találta ki, hogy beszkenneli a raktárkészletében található könyveket, és megengedi a potenciális vásárlóknak, hogy keressenek a digitális szövegben. A digitalizált írások azonban sok minden másra is felhasználhatók, többek között a szövegek kvantitatív elemzésére.

Mostanra az Amazon egyik legérdekesebb szolgáltatása, hogy összegyűjti egy-egy kötet statisztikailag legvalószínűtlenebb kifejezéseit. Egy-egy szófordulat akkor számít SIP-nek (statistically improbable phrase), ha a vizsgált műben jóval többször fordul elő, mint az Amazon rendszerében szereplő kötetek összességében. Egy-egy SIP előfordulása tehát nem az adott könyvben számít valószínűtlennek, hanem a teljes korpuszban, viszont sokat segít a kötetek témájának meghatározásában - emberi kéz érintése nélkül.

Pártpolitika és wintermute

Az Amazon kigyűjti és ábécésorrendben megjeleníti a digitalizált könyvek száz leggyakrabban előforduló szavát is, ráadásul úgy, hogy minél gyakoribb egy szó, annál nagyobb betűtípussal jelenik meg. Molnár Miklós Magyarország történelméről írott, angol nyelvű munkájáról például egy kattintásra kiderül, hogy az evidenciák (magyar, Magyarország) mellett a leggyakoribb szavai a 'háború', a 'politikai és a 'párt'; William Gibson kultikus Neurománcában pedig három szó emelkedik ki a legjobb százból: a két főszereplő, Molly és Case, illetve a 'mondta' szó.

Hogyan készül a ködös index?
A Fog indexet Robert Gunning, az Oxfordi Egyetem professzora találta ki arra, hogy egyetlen számmal fejezze ki, hány iskolai oktatásban eltöltött év szükséges ahhoz, hogy valaki könnyedén megértsen egy szöveget. Az indexet bárki kiszámolhatja, ha kiválasztja egy tetszőleges angol szöveg száz szavát, és a szavak számát a mondatokéval elosztva kiszámolja az átlagos mondathosszúságot, azután megszámolja a három szótagnál hosszabb szavakat, majd a két számot összeadja, és az eredményt megszorozza 0,4-gyel. Mivel a módszer jórészt a szavak és a mondatok hosszúságára épít, nem teljesen megbízható, de becslésre nyugodtan használható - legalábbis angolul, hiszen például a magyar nyelvben átlagosan több szótagból állnak a szavak, mint az angolban.
Aki még ezek után is bizonytalan, használja az Amazon három olvashatósági mutatóját, a Fog indexet, a Flesch indexet és annak továbbfejlesztett változatát, a Flesch-Kincaid indexet. A Fog azt mutatja, hány évet kell eltölteni az iskolapadban ahhoz, hogy valaki könnyűszerrel megértsen egy szöveget, az 1940-es évekből származó Flesch 0-100-ig terjedő skálán fejezi ki a szöveg nehézségét, ahol a 100 pont jelenti a legkönnyebb olvasmányt, a 0 pedig az érthetetlent. Továbbfejlesztett változata, a Flesch-Kincaid konkrét végzettséget fejez ki, tehát megmondja, hogy egy szöveghez elég-e alsósnak lenni, vagy hat diploma kell hozzá.

Az Amazon jelzi még a szöveg komplexitását , amihez az szavak és mondatok hosszúságát veszi alapul (minél hosszabbak, annál nehezebb a szöveg), és ökörségekkel is szórakoztatja az olvasót. Megtudni például, hogy egy dollárért hány szót kapa kedves vásárló, és azt is, hogy egy unciára (kb. 3 dkg) hány szó jut.

Ráeresztettük az Amazont néhány véletlenszerűen kiválasztott ismert (James Joyce) és ismeretlen (Biblia) szerző művére: az eredmény az alábbi táblázatban látható.

Szöveg Fog index Flesch index Flesch-Kincade index
Einstein: A speciális és általános relativitás elmélete 18,3 33,7 15,2
Hegel: A szellem fenomenológiája 17,2 39,5 14
Mao Ce-tung: A gerilla hadviselés 16,7 38,7 12,8
Biblia 16,2 57 13,5
Marquez: Száz év magány 16 50,3 13
Marx: A tőke 15,8 41,8 12,9
Thomas Mann: Varázshegy 13,7 53,8 11,3
Tolsztoj: Háború és béke 12,1 62,2 9,3
Dosztojevszkij: Bűn és bűnhődés 11,9 62,9 9,3
Konrád György: Kőóra 11,1 61,6 9
Márai: A gyertyák csonkig égnek 11 65,4 8,6
Arthur C. Clarke: A gyermekkor vége 11 62,8 8,4
Beecher-Stowe: Tamás bátya kunyhója 10,6 67,6 8,4
Mark Twain: Tom Sawyer kalandjai 9,2 72,8 7,1
Joyce: Ulysses 9 68,1 6,8
Wittgenstein: A bizonyosságról 8,6 72,2 6,2
Danielle Steel: Visszhangok 8,2 76,2 5,9
Gibson: Neurománc 7,8 72 5,8
Nádas: Szerelem 7,8 76,3 5,7
Saint-Exupéry: A kis herceg 7,2 76,1 5,3
Milne: Micimackó 6,7 80,1 5