日前Facebook及旗下社群軟體Instagram、Whatsapp發生全球大當機,此災情持續超過6小時,引發用戶極度不滿。臉書在(5)日發表聲明,指出這次大癱瘓的原因,是數據中心例行維護時意外切斷連接,進而導致全球大當機。
根據《路透社》報導,臉書工程部門副總裁賈納丹(Santosh Janardhan)在Facebook Engineering發佈文章解釋當機原因,「此次故障並非惡意攻擊造成,而是工程師在進行日常維護發送指令時,意外切斷 Facebook 數據中心與世界各地的服務器連接」。
臉書進一步指出,雖然有設立相關系統審核指令以防止錯誤,但該審核工具存在錯誤,未能阻止導致中斷的指令。
而中斷連接導致的大當機,使工程師用來調查及修復故障的工具失效,導致復原更加困難。「當時派出一組工程師團隊前往數據中心,試圖調整並重啟系統,但由於人身及系統安全規定嚴格,讓工程師花費許多額外的時間才進入數據中心,處理伺服器問題。」
即使在恢復數據中心的網絡連接後,Facebook 仍擔心流量激增會導致其網站和應用程序崩潰。但先前已經為應對此類情況進行過演練,因此恢復相對較快。
對此,網絡監控公司 Downdetector 表示,這次當機是有史以來最大的一次。「它阻止了旗下數十億用戶的訪問,因此將進一步加強審查這家市值近1兆美元的公司。」
(封面圖/翻攝自Facebook Engineering)