Vírus-számmisztika: mihez kezdjünk az adatokkal?

000 1Q64X9

A blogról

A bejegyzések a szerzők személyes véleményét, nem a cégek álláspontját tükrözik, és semmilyen formában nem minősülnek befektetési ajánlatnak.

Bizonyára sok honfitársunk szívét megdobogtatta, hogy a Google keresője nemrég Semmelweis Ignác képével jelent meg. A lelkiismeretes orvos, „az anyák megmentője” egyszerű, de hatásos megoldást talált egy szörnyű fertőzés, a gyermekágyi láz megelőzésére.

Moss kezet! – üzente szülész kollegáinak. Fertőtlenítsd a kezed, mielőtt egy terhes nőhöz nyúlsz! Ha azt látta, hogy valaki megszegi ezt a szabályt, az agresszív fellépéstől sem riadt vissza.

Semmelweis azonban nem csak ezért a sokak életét megmentő felismerésért érdemli meg a figyelmünket és a tiszteletünket. Az eredmény mellett a módszer is fontos. A 19. század közepén járunk, a mikroorganizmusok felfedezése, a mikrobiológia, a csíraelmélet megjelenése előtt; Louis Pasteur csak nemrég fejezte be egyetemi tanulmányait, Robert Koch még rövidnadrágban futkározik a kertben.

Mire támaszkodhatott Semmelweis? Adatokra! Szerencséje volt, mivel abban a bécsi közkórházban, amelynek szülészetén dolgozott, németes alapossággal gyűjtötték az adatokat, és mivel nagy volt a forgalom, volt belőlük bőven.

Kitűnő honfitársunk statisztikai elemzéseket végzett, számoszlopokat hasonlított össze, mintázatokra figyelt fel és a kísérletezéstől sem riadt vissza. Hipotéziseit tudományos módszerességgel gyűjtött és feldolgozott megfigyelésekkel igazolta. Statisztikai eljárásai mai szemmel nézve egyszerűek voltak, de eredményesek, nagy felzúdulást keltve a máshoz szokott professzorok körében.

Adatok és modellek

A gyermekágyi láz elkerülésére megtaláltuk a megoldást, most viszont a koronavírussal kell elbánni valahogy. A Moss kezet! parancs ma is fontos, de nem elegendő. Szerencsére a tudomány rengeteget fejlődött Semmelweis kora óta. Kiváló műszereink vannak, adatokra éhes számítógépek zümmögnek mindenütt körülöttünk, az adatbányászat módszerei kifinomultak, van gépi tanulás és mesterséges intelligencia, a különböző szintű statisztikai hivatalok és más szervezetek módszeresen gyűjtik az adatokat.

Az orvostudomány élvonala az elsők között lépett be a Big Data világába.

Ennyire egyszerű lenne az élet? Korántsem! Idézzünk egy jól ismert mondást informatikusi körökből: Garbage in, garbage out! Vagyis: rossz betáplált adatokból rossz következtetések születnek. Egészségügyi adat rengeteg van, de vajon megvan a fentebb említett „németes alaposság” is?

Gyakorló adattudósok pontosan tudják (és ehhez a felismeréshez nem is kell igazán adattudósnak lenni), hogy az elemző munkát, az adatfeldolgozást, az eredmények összefoglalását és megjelenítését kiváló statisztikai szoftverek segítik.

Az elemzés azonban csak akkor hoz használható eredményt, ha a gépet hasznos és pontos adatokkal táplálják, az eredmények megfelelően értelmezik (vagyis tudják, hogy pontosan mit is csinál az adott szoftver) és azok alapján valaki racionálisan cselekedni fog.

Előkészítés és megalapozott következtetések levonása: ezek az igazság pillanatai az adattudományban.

A jelenlegi járvány több érdekes példát szolgáltat, a kényszerű bezártság pedig kiváló alkalom a gondolkodásra. Itt van mindjárt az adatok összesítésének problémája. A koronavírussal kapcsolatban nagyon óvatosan kell kezelni minden adatot, mivel azok országonkent nagyon mást tartalmaznak, sőt, egy adott országon belül is eltérések lehetnek az adatgyűjtési és -rögzítési gyakorlatban.

A gyanútan olvasó azt hiheti, hogy az összesítés egyszerű feladat, pedig korántsem az: kellő körültekintés nélkül előfordulhat, hogy almát adunk össze körtével.

Nézzük a fertőzöttek számát! Ez alapvetően attól függ, hogyan “mérjük”, ki a fertőzött, vagyis a tesztelési eljárástól. Az országos fertőzöttséget úgy lehetne a legpontosabban megbecsülni, ha az adott ország lakosaiból reprezentatív mintát (olyat, ami kicsiben jól tükrözi a lakosság összetételét) állítanának össze, majd a minta minden tagját tesztelnék. Erre azonban érhető okokból sehol sincs elegendő tesztelő kapacitás: a legtöbb helyen valamilyen protokoll (eljárásrend) szerint tesztelnek szűkebb, valamilyen okból veszélyeztetettnek tartott csoportokat.

A protokoll és az elvégzett tesztek mennyisége országonként eltérő, következésképpen pusztán az, hogy hány fertőzöttet tartanak nyilván az adott országban, nem ad reális képet a fertőzöttek tényleges számáról.

Tehát az ilyen számok önmagukban nem sokat érnek. Ezért adta ki a jelszót az Egészségügyi Világszervezet, a WHO: tesztelni, tesztelni, tesztelni! Minél több tesztet végeznek el, az adatok annál kevésbé lesznek szelektívek, annál jobban közelítünk a reprezentativitáshoz, annál pontosabb képet kapunk a teljes lakosság állapotáról.

Bonyolítja a helyzetet, hogy kétfajta koronovírus teszt létezik. (Kérjük a szakértőket, hogy ne törjék kerekbe a statisztikust!) Van egy örökítő anyag alapú változat (jelenleg ebből van több), amit garati vagy orrüregi mintán végeznek el, és ami vírus jelenlétét jelezheti; és létezik egy másik, amely ellenanyag (antitestek) jelenlétet mutatja a vérben (ezt most kezdik bevezetni), ami arra utal, hogy a teszt alanya átesett a fertőzésen. Nem mindegy, hogy milyen teszteket végeznek tulajdonképpen, és azok mennyire pontosak.

Az mindenesetre biztos, hogy a tesztadatokat az eltérő gyakorlatok miatt nem lehet egyszerűen összehasonlítani és összeadni.

Hasonló a helyzet a kórházi kezelésre szorulók számával. Ezt is országonként eltérő protokoll határozza meg, ami szorosan összefügg a rendelkezésre álló kórházi ágyak számával – önmagban tehát ez az adat sem értelmezhető.

A betegek száma is nagyon homályos tartalmú adat. Ez az, amit végképp nem lehet tudni, egyrészt azért, mert vannak olyan betegek, akiket sehol sem tartanak nyilván (például mert tünetmenesek, nem is fordultak orvoshoz), másrészt abban sincs megegyezés, hogy ki tekinthető “betegnek”. A jövő dönti majd el, hogy az olyan kezdeményezések, mint az angol King's College a tömegek önkéntes diagnosztikai közreműködésére számító online alkalmazása, a COVID Symptom Tracker mennyire adnak pontosabb képet a járvány terjedéséről, a tünetek megjelenéséről és a veszélyeztetettek köréről.

Nézzük a halálozási számokat! Mivel az elhunytakon nem feltétlenül végeznek tesztet, leginkább csak a kórházi kezelésre szorultakat veszik figyelembe. Azokat az elhunytakat, akik nem „koronás ágyon” feküdtek, de a fertőzés súlyosbította az állapotukat, gyakran nem tekintik „koronásoknak”, mert elhalálozásuk oka talán ki sem derül.

Nagyon csínján kell bánni a származtatott mutatókkal, a különböző arányszámokkal (például fertőzöttségi arány, halálozási arány) is.

Az ilyen hányadosok csak akkor mondanak valamit, ha a számlálójukba és a nevezőjükbe pontos adatok kerülnek, mi pedig pontosan tisztában vagyunk a tartalmukkal és gyűjtésük módszereivel.

Kinek higgyünk?

A fenti problémák ismeretében mégis mire használhatók az adatok? Idősorokba rendezve, ha az adott helyeken konzisztensen gyűjtik őket, jól mutathatják például a járvány dinamikáját: mivel a helyi protokoll és a tesztek mennyisége lassabban változik, a napi, heti adatok összehasonlítása, szemléletes grafikonok felrajzolása képet adhat a vírushelyzet állapotáról.

Ha az említett tényezőkben valamilyen ugrás, váltás van, ajánlatos tudatni, hogy ez vagy az a mutató feltehetően eljárásrendi, módszertani okokból változott meg hirtelen.

Ha szorongunk, veszélyben érezzük magunkat és szeretteinket, természetesen igyekszünk minden szalmaszálba belekapaszkodni. Mit tegyünk és mit ne tegyünk, hogy elkerüljük a bajt? Mit együnk, mit szedjünk, hogyan viselkedjünk, mivel fertőtlenítsünk? Mi használ? – tesszük fel a kérdést azokat a táblázatokat és grafikonokat tanulmányozva, amelyek valamilyen összefüggésre utalnak, és amelyek némelyikén szépen együtt mozgó adatokat, szabályosan ereszkedő vagy emelkedő görbéket láthatunk.

Mielőtt felkiáltanánk, hogy Na ugye, ez az!, nem árt, ha tudjuk: statisztikai eljárásokkal, grafikonokkal nagyon nehéz, vagy éppenséggel lehetetlen oksági kapcsolatokat (például olyasmit, hogy valami árt vagy használ) bizonyítani.

Annyira nehéz, hogy a statisztikusi szakmában évtizedekig nem is volt szabad oksági kapcsolatot emlegetni, a tankönyvek pedig számos humoros és kevésbé humoros példát hoznak fel téves kapcsolatokra, korrelációka.

Ajánlatos különbséget tenni hipotézis és bizonyosság között: szakszerű statisztikai elemzésekkel remek hipotéziseket lehet vizsgálni, de csak akkor lesz bizonyosság belőlük, ha tudományosan igazolják vagy cáfolják azokat (amihez persze idő kell). Adatelemzés, hipotézis, szakszerű igazolás – számos példát találhatunk erre, ha esténként Semmelweis munkásságáról olvasgatunk.

Mikor tetőzik, mikor lesz már vége? Mi a helyzet az előrejelző modellekkel? Ezek prognózisai rengeteg betáplált adattól, induló hipotézistől, feltételezéstől függenek, ezért gyökeresen eltérő előrejelzéseket produkálhatnak. Az adatok minősége különösen fontos: Garbage in, garbage out! Legyünk tehát óvatosak! Viszont bátran kijelenthetjük, hogy a szakszerűen és igényesen összeállított előrejelző modellek (lásd pl. azt az interaktív, különböző forgatókönyvek felvázolására alkalmas modellt, amely a gabgoh.github.io/COVID/index.html címen található) segíthetnek a különböző eshetőségek feltérképezésében, a legrosszabb forgatókönyvekre való felkészülésben. Bármelyik modellt használjuk is, természetesen tudnunk kell, hogy az milyen hipotézisekre épül és milyen adatokból táplálkozik.

Okosabbak leszünk a járvány után? Valamennyivel egész biztosan.

A vihar elmúltával például lehetőség nyílik majd egy nagyobb véletlen (tehát reprezentatívabb) mintán elvégezni a fentebb másodikként említett, antitest-kereső tesztet, ami pontosabb képet adhat majd a fertőzöttek számáról és a fertőzöttségi arányról egy adott területen.

Az adatok egy része, így például a halálozási ráta sajnos utólag sem lesz rekonstruálható, mivel a tört számlálója, azaz a vírusfertőzés következtében elhalálozottak pontos száma továbbra sem lesz ismert.

Kikre hallgassunk leginkább a hír-, nyilatkozat- és véleményáradatban? Talán az a legokosabb, ha olyan tudósok szavára figyelünk, akik már hosszú ideje foglalkoznak járványtannal és gyógyszerkutatással, akik az adataikat, kísérleti és elemzési eredményeiket, terveiket kellő alapossággal és óvatossággal tálalják elénk, összefüggésrendszere helyezve azokat. Szerencsére már többen megszólaltak közülük.

A mai egészségügy ősrégi eljárások és szupermodern eszközök sajátos kavalkádja, egyszerre van jelen benne a jövő és a múlt. A mostani válság a modernizálás vizsgájaként is felfogható: megláthatjuk, mire jutottunk eddig a digitalizálással, a diagnózisok és terápiák felhőbe vitelével, a nagy tömegű és sokféle adatot feldolgozó adatbányászattal, a gépi tanulással, a mesterséges intelligenciával, a nemzeti és nemzetközi digitalizálási programokkal. Tisztábban fogjuk látni a teendőket, erősebb lesz a nyomás az innovációra, és nem árt, ha a technikai fejlődés társadalmi következményeivel is számot vetünk, mert azokból is lesz majd bőven.

Borítókép: AFP Fotós: Kenzo Tribouillard

Durva influenza vagy veszélyes világjárvány?

Vannak, akiknek már nincsenek kérdéseik,
És vannak, akik az Indexet olvassák!
Támogasd te is a független újságírást, hogy ebben a nehéz helyzetben is tovább dolgozhassunk! Kattints ide!