Mi ez az érdekes adat?

2010.10.20. 06:23
A világ első Statisztikai Világnapja alkalmából egy egész napos adatfolyammal bemutatjuk, hogy milyenek a magyarok és mi történik egy nap Magyarországon. Megtudtuk például, hány deci vörösbort iszik ezen a napon egy állatkerti kormos kenguru, hogy a magyarok legszívesebben milyen kaját rendelnek ebédre, de azt is, hány otthon szülés volt tavaly az országban és hány Kovács nevű él nálunk. A fogkefehasználatról és a fővárosi kukaszámról nem is beszélve.

Az ENSZ Statisztikai Bizottsága által október 20-ára kitűzött Statisztikai Világnap ürügyén az Index mélyen behódol a chart porn irányzatnak. Szeretjük a grafikonokat, sőt, imádjuk a tényeket, az összefüggéseket, az adatokat és statisztikákat, ezért október huszadikára minden eddiginél több ilyesmivel leptük el az Index címlapját. További jó hír, hogy mostantól kezdve ez már minden nap így lesz.

De honnan van ez a sok érdekes adat?

Magyarországon a legtöbb izgalmas statisztikát a Központi Statisztikai Intézet mellett (amelynek erre az alkalomra jelent meg az évkönyve, adataiból bőven merítettünk is) a piac- és közvéleménykutató intézetek tartják nyilván, de a nagyobb intézményektől, cégektől, üzletláncoktól is kértünk adatokat. Még olyan adatok beszerzésére is törekedtünk, ami nem létezik.

Mérni egyébként mindent lehet, csak nem biztos, hogy valakinek eszébe jut. Ahogy arról Earl Babbie szociológus A társadalomtudományi kutatás című (adatrajongóknak kötelező!) könyvében is leszögezi, az adatgyártásban nincsenek kivételek. „Ami létezik, azt mérni is lehet.” A kérdés az, hogy hogyan.

 

Népszámlálás, mikrocenzus

Vannak olyan alapvető statisztikák, amelyeket az állam az összes  polgáráról nyilvántart: például az anyakönyvek alapján tudni lehet, hogy hány évesek és milyen neműek a magyarok. A tízévenkénti népszámláláson a Központi Statisztikai Hivatal munkatársai mindenkit felkeresnek az országban, hogy (törvényben meghatározott kérdések alapján) adatokat gyűjtsenek. Legutoljára 2001-ben volt ilyen, jövőre lesz megint, az előkészítése már most folyik.

Két népszámlálás közötti ötödik évben a mikrocenzus a legrészletesebb vizsgálat, ami szintén a magyar háztartások, családok alapvető demográfiai sajátosságairól, gazdasági-aktivitási jellemzőiről, megélhetési viszonyairól, lakáshelyzetéről ad általános és megbízható képet, ráadásul az önkéntes lakossági adatgyűjtéseknél alkalmasabban. A népszámláláshoz hasonlóan a mikrocenzus esetében is kötelező a válaszadás, ezért a nem-válaszolásokból adódó torzítások nem rontják az adatok minőségét.

Reprezentatív minta

A szokásokról, véleményekről adatot gyűjteni ennél már fogósabb feladat. Isteni lenne, ha valaki napról napra mindenkitől végigkérdezné a kedvenc szexuális pozitúráktól a havi fodrászköltéseken és politikai irányultságon keresztül, a kedvenc háziállatig mindent, de ez kivitelezhetetlen. „Ha az alapsokaságnak minden egyede minden tekintetben egyforma volna – megegyezne minden demográfiai jellemzőjük, egyformák lettek volna a tapasztalataik, a véleményük, attitűdjük, a magatartásuk és így tovább -, akkor semmi szükség nem volna gondos, aprólékos mintavételi eljárásra. Valójában egyetlen elem is elég volna mintának a teljes sokaság tanulmányozásához. A valóságban az emberek meglehetősen sokfélék” – fogalmaz lényeglátóan Earl Babbie már fentebb említett könyve. A minta az alapsokaság egy olyan részhalmaza, amelyet megfigyelünk, hogy ennek alapján a teljes sokaság tulajdonságaira következtessünk.

A népszámláláson kívül a piac- és közvéleménykutató intézeteknek ugyanis sajnos nincs kapacitása végiglátogatni minden izgalmas kérdéssel az összes magyar embert. Már a mikrocenzusnál is úgynevezett országosan reprezentatív mintán vizsgálódnak, amelynek eredményeit a teljes társadalomra vetítik.

Mert bármennyire furcsán hangzik, a legfontosabb adatokhoz, piaci döntésekhez a kutatók maximum pár ezer, de sok esetben csak néhány száz ember megkérdezésével jutnak. Gondolta volna, hogy a kereskedelmi televíziózás szempontjából mindenható nézettségi adatokat összesen 1040 család tévénézési szokásaiból számítják ki a majdnem tízmilliós magyar lakosságra?

Megbízható?

Egy bármekkora elemű mintából származó adat akkor megbízható, ha a mintának lényegében ugyanolyan az összetétele, mint az alapsokaságnak, illetve, ha a sokaság minden elemének (egy adott csoport minden résztvevőjének) ismert, de nem nulla esélye van a mintába kerülésre. A mintavételi keret a populáció tagjainak listája, ezt a forrást használják a megkérdezettek kiválogatására. Ha például indexes újságírókat akarunk vizsgálni, akkor a keret lehet az indexes újságírók névsora.

Természetesen a legjobb reprezentatív minta sem képes a tökéletes reprezentativitásra, de lényegesen reprezentatívabb, mint a másmilyenek. Ráadásul a piac- és társadalomkutatók által jól ismert valószínűségelméletek segítségével meg lehet becsülni, hogy egy adott jellemzők által összeállított minta mennyiben tükrözi a valóságot. A statisztikai súlyozás pedig a szándékosan vagy véletlenül kialakult mintavételi hibák, aránytalanságok ellensúlyozására való.

Na és mire jó a statisztika?

A statisztikában a legjobb dolog a tudás, az ENSZ is az ismeretek bővítésére találta ki a világnapot. A Statisztikai Világnapon közölt statisztikák mindegyike már meglévő kutatások eredményeinek másodközlése. A lényeg az értelmezésen van, vagyis hogy a statisztikát szemlélő pontosan értse, amit lát.

Mert ha például a strandra járókat kérdezzük, hamar kiderül, hogy sokkal kevesebb köztük a templomba járó, mint a teljes lakosság körében. Cselesnek kell lennünk, hogy rájöjjünk, ennek feltehetően az életkor, mint közbejövő változó az oka: az idősebbek nem járnak strandra, viszont szívesebben mennek templomba.

Ha nem vagyunk kellően körültekintőek, a mintaképzés is alaposan torzíthat. A Literary Digest nevű hetilap 1890 és 1938 között jelent meg Amerikában. Szerkesztői 1920-ban levelezőlapokat küldtek szét hat államban, és azt kérdezték a címzettektől, hogy kire szándékoznak szavazni. A felméréshez a neveket a telefonkönyvből és gépkocsi-nyilvántartásokból szerezték, és a visszaküldött lapokból helyesen jelezték előre, hogy Warren Harding lesz az elnök. Növelték a mintát és 1924-ben, 1928-ban és 1932-ben is helyes előrejelzést adtak az elnökválasztásról. 1936-ban már tízmillió lapot küldtek szét, és a kétmilliós viszontválaszok Alf Landon elsöprő győzelmét jelezték, mégis újra Franklin Roosevelt nyert, ráadásul minden korábbinál nagyobb arányban.

A szerkesztők arra gyanakodtak, hogy a republikánusok közelebb laknak a postaládához, azért küldték vissza a lapot többen, de tévedtek. Az autótulajdonosokból és telefonelőfizetőkből álló mintavételi keretük túlságosan jómódú mintát eredményezett, pedig az ország éppen egy mély gazdasági válság felé tartott. A mintából kimaradtak a szegények, akik viszont Roosevelt New deal programjára szavaztak.