Máté, Mirella
12 °C
30 °C

Wikipediák harca a minőségért

2008.09.04. 16:43
Izgalmas tudományos kísérlet lehangoló eredménnyel: a magyar Wikipédia azért rosszabb, mint az angol, mert kisebb. Viszont még mindig jobb, mint a román, az ukrán vagy az azeri. A megoldás? Írjanak több és hosszabb szócikket.

Szomorú, de a magyar nyelvű Wikipedia meg sem közelíti az angolt. Mennyiségileg sem, és mint az nemsokára kiderül, minőségileg sem. Ami még szomorúbb, ezért csak magunkat okolhatjuk.

A 2001-ben elindított angol nyelvű, bárki által szerkeszthető Wikipedia hét év alatt felhalmozódott 2,5 millió szócikkével komoly versenytársává vált az olyan hagyományos enciklopédiáknak, mint amilyen az Enyclopedia Britannica. És bár a közösségi szerkesztési elveket megkérdőjelező, cédulázáshoz, folyóiratbeli publikációhoz és szakmai lektoráláshoz szokott tudósok folyton vitatják, hogy a "dilettánsok" által írt Wikipedia-szócikkek minősége eléri-e a klasszikus követelményeket, a felhasználói oldal fittyet hány az aggályokra, és boldogan használja, kopipészteli, idézi, amit a Wikipedián olvasott. (Kivéve, ha keményvonalas tanár, mert akkor egyenesen tiltja az online enciklopédia használatát. Vagy ha Vágó István, mert akkor meg utálja.)

Annál a kérdésnél azonban, hogy az ingyenes, önkéntesek által írt és szerkesztett Wikipedia jobb-e (hitelesebb, pontosabb, frissebb), vagy a bőrkötéses, 200 000 forintért árult Britannica, még érdekesebb, hogy összevethetők-e az online enciklopédia különböző nyelvi változatai, például az angol és a magyar A szerkesztési alapelvek és a kontribúció módja hasonlóak, hogyan mondhatnánk meg egyszerű módszerekkel, melyik a jobb?

Nézzük meg, milyen hosszúak a szócikkek

A Wikipedia-szócikkek minőségének meghatározásával sok kutató foglalkozik, persze nem úgy, hogy leosztályozzák a cikkeket egyenként, hanem hogy igyekeznek leírni egy olyan, általában matematikai-statisztikai módszert, amely aztán az összes cikk minőségének meghatározására használható. Már ha lehet ilyet egyáltalán.

Néhány kísérlet a közelmúltból: Andrew Lih a Hong Kong-i Egyetemről a változtatások és a szerkesztők (szerzők) együttes számát javasolja mérceként: minél többen dolgoztak egy cikken, és minél többet változtattak rajta, annál jobb.

Tom Cross amerikai biztonságtechnikai szakértő tanulmánya szerint az lehetne a megoldás, ha a cikkekben szereplő szavak más-más színnel jelennének meg, aszerint, hogy mikor kerültek a szövegbe, ezzel segítve az olvasót a minőség megítélésében. Cross elméletének lényege, hogy a régebben leírt szavak több revízión estek át, mint az újak, tehát hitelesebbek.

Más, inkább kvantitatív alapon vizsgálódó kutatók az egyes cikkek szerkesztési történetére (Zeng és társai), illetve a szerzők hálózaton belüli reputációjára (Adler és de Alfaro) koncentráltak, hogy közelebb jussanak a minőség meghatározásához, de eredményeik nem voltak túl meggyőzőek.

És akkor jött hősünk, Joshua E. Blumenstock, a kaliforniai Berkeley kutatója, aki egy tanulmányában bátran kimondta: a méret a lényeg.

A méret a lényeg

Mielőtt ezt kimondta volna, Blumenstock abból indult ki, hogy a Wikipedián már létezik minőségellenőrzési mechanizmus: a kiemelt cikkek (featured articles) szigorú nevezési rendszeren és szűrőn mennek át, mielőtt kikerülnének a főoldalra. Az angol változatban 1140 szócikkből mindössze egy érdemes a kiemelt státuszra; pontosan 2,541,216-ből most összesen 2214.

Véletlenszerűen kiválasztott és kiemelt cikkek hossza az angol Wikipedián. Forrás: Blumenstock: Size matters

Pusztán a szócikkek hosszúságát figyelembe véve Blumenstocknak statisztikai módszerekkel sikerült 97,15 százalékos pontossággal megjósolnia, hogy egy véletlenszerűen kiválasztott cikkhalmazból mely szócikkek a kiemeltek. Vagyis egyenes összefüggést talált a szócikkek hossza és minősége között: minél hosszabb, annál jobb. Még érdekesebb, hogy ha további harminc faktort is számításba vett (képek, belső és külső hivatkozások, táblázatok, idézetek száma, illetve a szöveg olvashatóságát mérő Flesh-Kincaid és SMOG index) a pontosság csak kis mértékben, 97,99 százalékra növekedett.

Az elmélet, mint azt a szerző megjegyzi, persze csak akkor állja meg a helyét, ha a szerkesztők által kiemelt cikkek valóban jó minőségűek. Ellenkező esetben csak annyit lehet megállapítani, hogy "a hosszú cikkek kiemeltek, és a kiemelt cikkek hosszúak".

Próbáljuk is ki gyorsan, milyen terjedelemben foglalkozik a magyar, az angol, a francia és az orosz nyelvű Wikipedia az egyes nyelveken alkotó, véletlenszerűen kiválasztott regényírókkal (a függőleges tengelyen a szavak száma):

Vagy nézzünk egy olyan, szintén véletlenszerűen kiválasztott szócikkhalmazt, amelyet vélhetően nem torzít a nemzeti büszkeség, a divat vagy a kultúrpolitika:

Aki most arra gondol, hogy angolul becslések szerint 1,8 milliárdan beszélnek a Földön, vagy hogy a franciául, oroszul beszélők száma is sokszorosa a magyarokénak, és hogy úgy könnyű, valószínűleg igaza van. Ugyanakkor nagyságrendi különbségek nincsenek, és az is figyelemre méltó, hogy az egyes szócikkek hosszúsága (a kakukktojás globális felmelegedést leszámítva) nyilvánvalóan korrelál a négy különböző Wikipedia összes szócikkének számával:

Ahogy azt előre sejteni lehetett, a magyar Jókai-szócikk terjedelmesebb, mint a másik három nyelven írt, bár meglepetés, hogy az angolnál alig hosszabb, illetve hogy a francia wikizőket teljesen hidegen hagyja Jókai (nincs róla szócikk). Az oroszok elintézik 160 szóban "a XIX. századi magyar irodalom egyik legbefolyásosabb alakját", ugyanakkor irdatlan méretű szócikket szentelnek egyetlen regényének, az Aranyembernek.

Az amerikai Hemingway az angol nyelvű Wikipedián tarol, annyi anyag van róla, mint a másik három íróról összesen, és a számok alapján Marcel Proust is fontosabb a francia wikizőknek, mint az oroszoknak, az angoloknak vagy a magyaroknak. A trendek ellenében menetel viszont Dosztojevszkij, akiről mind a négy nyelven nagyjából hasonló terjedelmű szócikk szól.

Érdekesnek érdekes, ebből konklúziót viszont lehetetlen levonni. Semmi nem igazolja, hogy Hemingway népszerűbb lenne angol nyelvterületen, mint Dosztojevszkij oroszon, vagy hogy a franciák utálják Jókait. Esetleg hogy Dosztojevszkij jelentősebb szerző lett volna, mint Jókai, ami pedig sajnos valószínű.

Az viszont biztos, hogy a Wikipédiáról hiányzik a klasszikus, nyomtatott enciklopédiák terjedelmi szempontja, miszerint a szerkesztők által fontosnak ítélt szócikk hosszabb, mint a kevésbé jelentősnek tartott.

Ezt az ellentmondást maguk a Wikipedia-szerzők is érzik: "Nem feltétlenül gondolom, hogy ragaszkodnunk kellene a kivágott fa paradigmához, miszerint amire több tintát fecséreltek, az fontosabb" - írja blogjában az angol Wikipedia egyik alkalmi munkatársa, aki Darren Barefoot néven publikál. "Ugyanakkor el kellene gondolkodnunk más metaadatok megjelenítésén, hogy jelölni tudjuk, ha egy cikk figyelemre méltó vagy fontos. "

Nem neki jutott egyedül eszébe, Wikipedia ugyanis már jó ideje fontolgatja egy minőségellenőrzési rendszer bevezetését.

"Lesz egy 'átolvasott' [Sighted] címke, ami azt jelenti, hogy a cikket megbízható szerkesztők átnézték, nincs benne spam, reklám vagy ordító hülyeség" - mondja Gervai Péter (Grin) a magyar nyelvű Wikipédia alapítója. "És lesz egy 'kiemelt minőség' címke, ezt a cikk egy ellenőrzött verziója kapja. Ha onnantól változik, azon már látszik, hogy később készült."

A minőségi címkéket a német Wikipedián kísérleti jelleggel már idén májusban bevezették, de az angol nyelven írók még mindig - legalább egy éve - vitatkoznak, sokan cenzúrától, a szerzői szabadság elveszítésétől tartanak.

Kiemelés tőlem

Gervai szerint a magyar Wikipédián eredetileg azok a szócikkek voltak kiemeltek, amelyeket "mutogatni is mer az ember: jó hosszú, jól megírt, szép, tartalmas cikkek". Aztán lassan változott a helyzet, a kiemelés most már minőséget jelent, olyan cikkeket, amelyek tartalmukat, helyesírásukat, stílusukat tekintve is figyelemre méltóak.

A magyar Wikipédia alapítója az összes szócikk 60-70 százalékát tartja igazi cikknek (nem számítja ide például az évszámos szócikkeket, amelyek azt sorolják föl, mi minden történt az adott évben.) Ezek közül most 316 a kiemelt, vagyis az összes szócikk 0,316 százaléka, szemben az angol Wikipedia 0,087 százalékával.

És hogy a cikkek hosszúsága utal a minőségre? "Ide én is eljutottam még 2003-ban, és azt mondom, nem új cikkeket kell írni, hanem a régieket javítani. Ha hosszú egy cikk, és nem is kopipészt, nehéz benne nagy hülyeséget írni "- mondja Gervai.

Bár az angoltól, franciától elmarad a magyar Wikipédia, a többi hasonló nagyságrendű oldalhoz képest jól állunk. Ott van például az azeri nyelvű szájt, a májusi statisztikák szerint 18 000 szócikkel, amelyek közül 4000 eleve nem hosszabb 200 karakternél, cikknek tehát jóindulattal sem nevezhető, és az átlaghossz is mindössze 960 bájt. A velünk fej fej mellett haladó, 109 000 szócikkes román Wikipedián az átlaghossz 1384 bájt, a 112 000-es ukránon 1602. A májusban még csak 97 000-es magyaron 3146.

Szócikkek átlagos hossza (az angol adat 2006-os, a többi idei):