Windows Azure、West Europe サブリージョンのサービス停止原因をネットワーク設定によるものと公表


7/26 に West Europe のサブリージョンにおいて Windows Azure のサービスが停止 (GMT 11:09 AM から 2 時間 24 分 発生)、この原因として容量追加時のネットワーク設定によるものという調査結果を公表しました。このサービス停止によるほかの地域やサービスへの影響はありません。

Windows Azure のネットワーク インフラストラクチャーは、データセンターのハードウエアデバイスにおけるネットワーク接続数を制限することにより、ネットワーク障害の波及を防ぐ仕組みを採用しています。

当時、West Europe の需要増加に合わせて容量追加を行っていましたが、この容量追加に合わせた認証プロセスを行っている間、対応するハードウエアデバイスの制限数が調整されていませんでした。突然の利用量増加により設定されていた閾値を超え、いくつかのクラスターのハードウエア デバイスで障害が発生、CPU 利用率が 100% に達してデータトラフィックも影響を受けました。

現在、影響のあったクラスターへの制限設定による問題は解決されており、また、すべての Windows Azure データセンター において制限の設定の引き上げと自動認証プロセスの改善が行われ、デバイスソフトウエアのバグ対応、早期に接続障害を感知するためのネットワークモニタリングシステムの導入が行われました。

今回のサービス障害において、ご迷惑をお掛けいたしましたこと、お詫び申し上げます。

Windows Azure Team Blog > Root Cause Analysis for recent Windows Azure Service Interruption in Western Europe

Comments (0)

Skip to main content