Szoftverhiba miatt állt le négy órára a Facebook
Az első hírek szerint egy külső netszolgáltató csatlakozásával volt a gond, de később kiderült, hogy ennél súlyosabb a probléma. Miután az oldalt sikerült újra elindítani, a Facebook vezető szoftvermérnöke, Robert Johnson magyarázta el, mi volt a leállás hátterében.
Mint kiderült, tegnap frissítették az oldal működésének hátterében álló egyik fontos rendszert, azt a szoftvert, ami figyeli a Facebook szervereinek memóriáját, és ahol hibát észlel, ott a hibás bejegyzést kijavítja. A frissítéskor a javító rendszer adatbázisába került egy rossz érték, és mivel minden szerver ez alapján ellenőrzi a saját gyorsítómemóriájában a tartalmakat, hirtelen több ezer szerver érezte úgy, hogy tele van hibás adattal, és annak javításához a központi hibajavítóhoz kell fordulnia.
A hibajavító rendszert nem készítették fel arra, hogy másodpercenként több százezer beérkező feladatot kelljen elvégeznie, így először csak lelassult, majd teljesen összeomlott a rá záporozó kérések alatt. A káoszt tovább fokozta, hogy a rendszert úgy írták meg, hogy ha egy hibát észlelő szerver nem kap választ a hibajavító központtól, akkor a biztonság kedvéért a hibás bejegyzéseket törölje. Ez ahhoz vezetett, hogy hiába javították ki a hibajavító központ hibáját, addigra az összes szerver memóriája tele volt törölt bejegyzésekkel, azokat megint csak hibás adatként észlelte a rendszer, és újra óriási forgalmat irányított a központra.
A karbantartók így végül kénytelenek voltak a végtelen ciklusba került Facebook-szerverfarmot lekapcsolni, és a hibajavítás után újraindítani az egész rendszert. Ez a módszer, bár több órát vett igénybe, végül használt, és azóta újra üzemel az oldal.