Márk
12 °C
26 °C

Kihalnak a tudományos modellek?

2008.08.01. 15:45
„Minden modell rossz, viszont akad köztük néhány hasznos” – jelentette ki harminc éve a statisztikus George Box. „Minden modell rossz, ráadásul egyre sikeresebbek leszünk nélkülük” – egészíti ki az eretnek gondolatot Peter Norvig, a Google kutatási igazgatója.

Az internetes kereskedelem árubőségét leíró „hosszú farok” (long tail) közgazdasági fogalmat 2004-ben bevezető Wired főszerkesztő, Chris Anderson Norvigra hivatkozva jósol szomorú jövőt a tudományos modelleknek. (A hosszú farok „a hagyományos áruházak kevés fajtájú, de nagy mennyiségben árusítható tömeg- vagy sikertermékével ellentétben azoknak a kis mennyiségben eladható, de nagyon nagy sokféleségben rendelkezésre álló termékeknek a gyűjtőfogalma, melyeknek a hagyományos kereskedelem korszakában nem volt esélyük a piacra jutásra, a korszerű információtechnológiai megoldásokkal viszont megtalálják kis számú, szétszórtan elhelyezkedő fogyasztójukat, akár a világ túloldalán is.”)

Amikor az adatmennyiség átcsap minőségbe

Chris Anderson

A Wired magazinban megjelent elmélkedés alapvetése az információs társadalom adatzuhataga: gyűjtögető szenzorok, korlátlan tárolókapacitás, szerverfarmok, processzorerdők, felhőszámítások (cloud computing) együtt formálják át életünket, tudományt, üzletet, technológiát.

A számítógép olvashatóvá tette az információt, az internet hozzáférést biztosított, a keresők adatbázissá alakították, a Google-t és társait emberlétünk laboratóriumaként kezelik. Kilobájtokat floppyn, megabájtokat merevlemezen, terabájtokat merevlemezes tömbökön tároltunk, a petabájtok grid-szerű számítási felhőkben tárolódnak. A válaszok mindig megbújnak a mérhetetlen korpusz zéróiból és egyeiből összeálló labirintusban. A több immáron nem pusztán több, hanem más is. Számokban és minőségben egyaránt.

Korábban azt hittük, hogy „a” modell – legyen kozmológiai vagy magyarázza az emberi viselkedést – ugyan nem tökéletes, ám minden hibája/hiányossága ellenére a világ leírásának egyetlen adekvát módszere. Mostanáig így is volt, csakhogy a végtelen adatáramlás lenullázza a tegnapi igazságot.

A világ, ahogy a Google látja

Petabájtnyi információ kezelése új – statisztikai, matematikai – módszereket igényel. Anderson a Google-t hozza fel példaként: alkalmazott matematikával hódították meg a világot. Nem mélyedtek el egyetlen szakterületben sem, viszont úgy vélték, hogy jobb adatokkal és jobb analitikus eszközökkel célba érnek. Az egyre fontosabbnak tűnő jelentésalapú megközelítéssel ellentétben csak a statisztikában bíztak: ha a számok alapján az egyik oldal relevánsabb a másiknál, akkor a számoknak van igazuk.

„Felejtsük el a taxonómiát, ontológiát, pszichológiát” – vonja le a meghökkentő következtetést Anderson. – „Ha elég az adat, a számok önmagukért beszélnek.”

Kissé egyszerűsítő elmélet, de működik. Különösen a tudományban, ahol hipotézisek tesztelése a bevált módszer. A kísérletek vagy bizonyítják, vagy cáfolják a modellt. Mihelyst kész a modell, hozzárendelhetők az adatok, értelmet ad a különben csak zaj adatsoroknak.

Gének nyomában

De mi történik akkor, ha áttekinthetetlenül sok az adat?

Elavulttá válik a hipotézis, modell, teszt háromságon alapuló hagyományos (évszázadok óta működő) tudományos megközelítés – így Anderson. A valóság lényegesen bonyolultabb az elméleteknél. A gén-fehérje interakciók felfedezése például megváltoztatta a dns-ről vallott nézeteket – „minél többet tanulunk a biológiáról, annál távolabb kerülünk az azt magyarázó modellektől.”

Az adatok tartalmukról alkotott feltevések nélkül is elemezhetők – szuperszámítógépek statisztikai algoritmusai megtalálják bennük azokat a mintákat, amelyeket a tudomány nem. A szerző ezúttal a dns-szekventálásban úttörő érdemeket szerzett Craig Venter munkásságára hivatkozik. Venter 2003-ban a Csendes-óceán, 2005-ben az ég egy részét kezdte szekventálni. Közben új fajokat fedezett fel. Aligha tudna mondani róluk bármit is, viszont statisztikai módszere korábban ismeretlen szekvenciákat, fajokat „eredményezett”. Nagyjából úgy járt el, mint a Google, miközben a biológia fejlődéséért kevesen tettek annyit az utóbbi tíz-tizenöt évben, mint ő.

Statisztika mindenek felett

Az amerikai Nemzeti Tudományos Alapítvány februárban jelentette be a Cluster Exploratory projektet: a Google, az IBM és hat egyetem együttműködésében először az agy, az idegrendszer szimulálására kerül sor. Ezerhatszáz processzor, többezer terabájt memória, tárolókapacitás áll rendelkezésükre.

Anderson szerint statisztikai algoritmusokkal jobban megértjük a világot, mintha koherens modellekkel, egyesített elméletekkel, bonyolult előfeltevésekkel igyekeznénk megmagyarázni.

Úgy véli, hamarosan mainstream-mé válik az új gondolkodásmód.

Köszönjük, hogy olvasol minket!

Ha fontos számodra a független sajtó fennmaradása, támogasd az Indexet!