近年の各社のデータセンターにおける最も有名な事故とその原因





データセンターはますます重要な対象になりつつあります。なぜなら、多くの大小企業の通常の仕事の流れと、一般ユーザーのデータの安全性は、通常の運用にかかっているからです。大規模なデータ センターのわずか 1 分間のダウンタイムが、データ センター オペレーターの顧客に何百万もの損失をもたらす可能性があります。何時間も、あるいは何日もかかるダウンタイムは、場合によってはまったく推定できない損失につながります。カットの下 - 最近の最も有名な事故とその発生理由の説明。



OVHデータセンターで火災







2021 年 3 月、OVH データセンターの 1 つがほぼ完全に焼失しました。 OVH はヨーロッパ最大のホスティング プロバイダーの 1 つであるため、これは近年最大の事故です。火災は非常に深刻で、SBG2 データセンターを実質的に破壊しました。主な容疑者は、無停電電源装置の 1 つであり、内部シリアル番号 UPS7 が付いています。火災の前夜、このシステムはメンテナンス中であり、その間に多数のコンポーネントが変更されました。手順が完了すると、UPS7 が再起動され、正常に動作しているように見えました。しかし、すぐに火災が発生しました。



ところで、特にこの規模のデータセンターでの火災は非常にまれです。 Uptime Institute はそのようなケースを追跡しています。その代表者によると、火災は平均して 1 年に 1 回未満しか発生しません ...ほとんどの場合、インシデントは開発の最初の段階で中断されましたが、火災が制御不能になった場合もあります。



SBG2 の火災の影響で停止した OVH の場合、 約 360 万の Web サイトに直面しました



OVH の状況を調査した後、専門家は、災害にはいくつかの原因があり、無停電電源装置だけではないという結論に達しました。インシデントのエスカレーションは、以下によって促進されました。



  • -. (Tower design). , . «», , , , .
  • -, , . , , , . .


後者は、セキュリティを維持するための膨大な数のソリューションがあるため、さらに奇妙です。環境パラメータを監視し、UPS と連携できるセンサーがあるとします。たとえば、Eaton EMP002 環境監視センサーは、温度と湿度を監視し、煙感知器やドア オープナーなどのペアリングされたデバイスの動作を監視します。さらに、温度変化をわずかな単位で捉え、一酸化炭素やその他の物質の濃度を監視できるセキュリティ システムもあります。問題が検出された場合、そのようなデバイスは、テクニカル サポート サービスについてオペレーターに通知し、危険信号をオンにします。



WebNX データセンターでの火災







2021年4月、アメリカの企業WebNXのオグデンデータセンターで火災が発生しました。発電機に引火した後、火災は隣接する敷地に延焼した。その結果、完全な停電が発生し、サーバー機器が損傷しました。火災によって最も深刻な被害を受けた一部のサーバーは、回復する見込みがありません。



データセンターにエネルギーを供給する都市への電力供給が遮断された後、状況は制御不能になりました-データセンターでいくつかの自律発電機がオンになりましたが、そのうちの1つが故障し、火災につながりました.



到着した消防隊員が消火活動を行いましたが、火災の影響を受けた地域の設備に水害が発生しました。



Gorilla Servers 社のサーバーもこのデータ センターにありました。確かに、この組織の設備は損傷していませんでしたが、停電の結果、サービスと顧客サイトは機能しなくなりました。データセンターは数時間電源が切られていたため、すべてのシステムの動作を復旧するには約 20 時間かかりました。この場合のデータセンターオペレーターの損失は2500万ドルを超えました。



TSB銀行のデータセンターの故障



2018 年 9 月、英国の銀行 TSB は、以前に新しいデータセンターをテストしていなかったため、IT 機器の大規模な移行を実行することを決定しました。同社にとって最も厄介なことは、移行を実行するために雇われた IT サービス プロバイダーの Sabis が、1 つを除いて、移行によって影響を受けるすべてのデータ センターをテストしたことです。同時に、試験が実施されなかったという事実も経営陣には隠されていました。



その結果は嘆かわしいことです.200万人の銀行の顧客が一度に口座にアクセスできなくなりました. 銀行は、データセンターの混乱の影響を排除するために、約 3,500 万ドルのインシデント調査費用を含め、約 4 億 8,000 万ドルを費やす必要がありました。



ロンドン・テルストラのデータセンターで火災



2020 年 8 月、オーストラリア最大の通信会社である Telstra のデータセンターが被害を受けました。 OVH の場合と同様、問題は UPS の故障が原因でした。火災は封じ込められたという事実にもかかわらず、OVH とは異なり、事件は 11,000 平方メートルのデータ センター エリアのほとんどに影響を及ぼしました。火災が発生した敷地内には、約1,800台のサーバーラックが設置されていました。



消防車4台と乗組員25名が一斉に現場に向かった。火災による深刻な被害は倉庫のごく一部に過ぎなかったので、チームは非常にうまく機能したようです。職員に負傷者はいなかった。



それにもかかわらず、数十のサーバーがオフラインになり、作業は数時間後にのみ復元されました。したがって、Telstra クライアントのサービスとサイトは機能しませんでした。風評被害は言うまでもなく、同社の損失総額は 1000 万ドルを超えました。



Equinix LD8 データセンターでの UPS 障害



2020 年 8 月には、エクイニクス LD8 データセンターの電力網にも問題がありました。そこでは、電力網からの停電の後、そこで UPS が故障しました。火事はありませんでしたが、電気的なトラブルが数時間解消されず、多くのお客様に影響が出ました。



事故はロンドンのドックランズにあるデータ センターで発生し、サポート スタッフは問題が発生した直後に原因を理解することができました。判明したように、シャットダウンされた UPS は、Juniper MX および Cisco LNS ルーターのメイン クラスターの電源を切りました。ほとんどのデータセンター機器の操作を提供したのは、このクラスターでした。



クラスターの電源が切断された後、最大の企業 (エクイニクスの顧客) のサービスは切断されました。これらには、国際的な通信会社である Epsilon、SiPalto、EX Networks、Fast2Host、ICUK.net、Evoke Telecom が含まれます。この事故は、他のデータセンターの運用にも影響を及ぼしました。



結論として、これらは過去数年間に発生したすべての事故にはほど遠いと言っておきます。しかし、これらのインシデントは、防止できた可能性があるため、おそらく最も明らかです。専門外のスタッフ、UPS の問題、停電はよくある問題です。どのような困難なデータセンターのインシデントに直面しましたか? 伝えたいストーリーがある場合は、コメントで議論しましょう。



おまけ:メンテナンスによる停電



また、予見することが非常に困難な (可能な場合でも) 状況もあります。たとえば、The Register はかつて 、読者の 1 人が編集部に送っ記事を再掲しました。むかしむかし、3 つの 220 kVA UPS を備えたサーバー ファームがあり、非常に長い間正常に動作していました。時間が経つにつれて、UPS の 1 つが不要になり、新しくオープンした新しいデータ センターに移動することが決定されました。経営陣は、新しい UPS の購入でお金を節約することを計画しましたが、結果は異なりました。



問題のデータセンターはかなり大きく、その面積は約 2500 平方メートルだったことは注目に値します。多くの機器、数百のサーバーがあったので、問題を認めるのは死のようなものでした。



専門の電気技師がデータ センターに招待され、UPS の 1 つをネットワークから切り離し、新しいデータ センターでさらに接続して輸送する責任を負っていました。その結果、専門家は何か間違ったことをし、データセンターは完全にエネルギーを失いました。



「電気技師が UPS ユニットを主電源から抜き始めたとき、私は自分の机に座っていました。彼らは問題なくシステムをバイパスします。その後、彼らは出力回路ブレーカーといくつかのワイヤーを切断して、解体をスピードアップしました。そして、面積2500平方メートルのデータセンターが突然静まり返った。私は感電死した電気技師を見つけることを期待して、タービンホールに走った. しかし、彼らはただ静かにワイヤーを外しました。私はデータセンターがオフラインになったと大声で叫びましたが、電気技師は機器の電源がバイパスモードになっていると答えました。繰り返しました。彼らは立ち止まり、10秒間考えた後、目が大きく開いた」 とある目撃者は語った。



電気技師は当初、1 時間ごとのダウンタイムを発表しましたが、データ センターの復旧には 36 時間かかりました。



All Articles