Árpád
3 °C
12 °C

Szoftverhiba miatt állt le négy órára a Facebook

2010.09.24. 12:05
Előzmény (1)
Magyar idő szerint csütörtökön este több órára elérhetetlenné vált az internet egyik legnagyobb forgalmat lebonyolító oldala, a Facebook. A magyar felhasználók az időpont miatt kevésbé érezték meg a kiesést, de az amerikai nyugati parton, ahol a Facebook főhadiszállása is van, az üzemzavar éppen a csúcsidőre esett, fél 12-től délután 3-ig tartott.

Az első hírek szerint egy külső netszolgáltató csatlakozásával volt a gond, de később kiderült, hogy ennél súlyosabb a probléma. Miután az oldalt sikerült újra elindítani, a Facebook vezető szoftvermérnöke, Robert Johnson magyarázta el, mi volt a leállás hátterében.

Mint kiderült, tegnap frissítették az oldal működésének hátterében álló egyik fontos rendszert, azt a szoftvert, ami figyeli a Facebook szervereinek memóriáját, és ahol hibát észlel, ott a hibás bejegyzést kijavítja. A frissítéskor a javító rendszer adatbázisába került egy rossz érték, és mivel minden szerver ez alapján ellenőrzi a saját gyorsítómemóriájában a tartalmakat, hirtelen több ezer szerver érezte úgy, hogy tele van hibás adattal, és annak javításához a központi hibajavítóhoz kell fordulnia.

A hibajavító rendszert nem készítették fel arra, hogy másodpercenként több százezer beérkező feladatot kelljen elvégeznie, így először csak lelassult, majd teljesen összeomlott a rá záporozó kérések alatt. A káoszt tovább fokozta, hogy a rendszert úgy írták meg, hogy ha egy hibát észlelő szerver nem kap választ a hibajavító központtól, akkor a biztonság kedvéért a hibás bejegyzéseket törölje. Ez ahhoz vezetett, hogy hiába javították ki a hibajavító központ hibáját, addigra az összes szerver memóriája tele volt törölt bejegyzésekkel, azokat megint csak hibás adatként észlelte a rendszer, és újra óriási forgalmat irányított a központra.

A karbantartók így végül kénytelenek voltak a végtelen ciklusba került Facebook-szerverfarmot lekapcsolni, és a hibajavítás után újraindítani az egész rendszert. Ez a módszer, bár több órát vett igénybe, végül használt, és azóta újra üzemel az oldal.