A Google híres arról, hogy a kereséseket kiszolgáló szerverekként jórészt olcsó tömegpécéket alkalmaznak. Ennek több előnye is előnye is van, egyrészt olcsó, és könnyen helyettesíthető egy meghibásodott gép, másrészt a rengeteg beérkező kérést jobban tudják a sok gyengébb gépből álló farmok kezelni, mintha kevesebb, nagy teljesítményű szuperszámítógépet vetnének be.
A hétköznapi gépek százezreiről két és fél éve gyűjti a meghibásodási statisztikákat a Google, és most közzé is tett egy tanulmányt, amiben ennek a tanulságait boncolgatja. Amint kiderült, a legkritikusabb elem egy Google-szerverben (és ebből fakadóan egy hétköznapi, otthoni pécében is) a memória. A szerverek egyharmada él át évente legalább egyszer memóriahibát, és az egy százalékuk olyan kritikus hibát, amitől összeomlik az egész szerver. A memóriamodulok a tapasztalatok szerint 10-18 hónap után kezdenek el az öregedés miatt hibákat produkálni – persze ehhez a Google szervereinél szokásos, napi 24 órás terhelés is kell.
Ha egy memóriamodul elkezd hibázni, az nagyon hamar elindul a lejtőn, a cég statisztikái szerint éves átlagban 4000 hibát jelez egy memóriamodul. Ezeknek a nagyon nagy része nem kritikus, javítható hiba, amit a szervereken futó ECC (Error Correcting Code) algoritmus azonnal korrigál is; olyasmikre kell itt gondolni, hogy egy memóriacella tartalma csak úgy magától egyesről nullásra vált, vagy fordítva.
A szerverparkokban végzett korábbi kutatások azt mutatták, hogy a memóriamodulok egymilliárd üzemóránként 200 és 5000 közötti hibát produkálnak; ehhez képest a Google eredménye roppant lehangoló, 25-75 ezer között mozgó hibaszámot jelez.
Bár az otthoni gépek esetében is hasonló hibaarányokat feltételezhetünk, figyelembe kell vennünk, hogy az átlag asztali gépet nem védi az ECC a memóriahibáktól, viszont egy-egy hiba nem is jár olyan súlyos következményekkel, mint a Google szervereinél, ahol gyakorlatilag minden fontos adatot állandóan a memóriában kell tartani.
A tanulmány két széles körben elterjedt hiedelmet is cáfol. A szerverterem hőmérséklete közel sem annyira fontos, mint eddig gondoltuk, az optimálisnál magasabb hőmérséklet aránylag kevés plusz memóriahibával jár (más kérdés, hogy a processzorok viszont szenvednek a túlmelegedéstől, és azok ilyenkor valóban jóval többet hibáznak). Az új generációs DDR2 memóriák pedig egyáltalán nem megbízhatatlanabbak, mint a régebbi memóriatípusok voltak, sőt, valójában kevesebb hibát produkálnak.