Azure Storage サービスのサービス中断について


以下は、 11 月 22 日に追加投稿された部分の翻訳です。

水曜日 (PST) 以降、一部のお客さまについて火曜日 (PST) の Storage サービスのサービス中断の影響から完全に復旧するための最終の措置をとっていました。現在インシデントは解決し、システムが正常に稼働していることを確認しています。最新状況は、サービスダッシュボード: http://azure.microsoft.com/ja-jp/status/ で確認していただけます。もしお客様が、このインシデントに起因する問題がまだあるようだと思われる場合には azcommsm@microsoft.com (英語のみの受付となります)にご連絡いただければ、お客様のサポート契約の有無に関わらずサポートさせていただきます。このインシデントに関わるコミュニケーションに関してのフィードバックをいただいたことに対し、改めてお礼申し上げます。いただいたフィードバックを今後の計画に務めて取り込んでまいります。

このポストは、11 月 19 日に投稿された Update on Azure Storage Service Interruption の翻訳です。

太平洋標準時間の昨日、Azure Storage サービスで米国、ヨーロッパ、およびアジアの一部にかけてサービス中断が発生し、該当するリージョンでホストされている複数の Cloud Services に影響がありました。まず、サービス中断の発生につきまして、深くお詫びを申し上げます。平素よりお客様には多大な信頼をお寄せいただいており、マイクロソフトは今回の件について非常に重く受け止めております。この記事では、今回発生した問題の背景についてご説明いたします。

Azure Storage に適用するパフォーマンス関連の更新の中に問題が発見され、このために、Virtual Machines、Visual Studio Online、Websites、Search、などの Azure Storage を使用するマイクロソフトのサービス全般でキャパシティが低下しました。このパフォーマンス関連の更新を適用する前に、お客様向けの Azure Tables 用 Storage サービスのうちの一部において、数週間にわたってテストを実施しました。マイクロソフトではこの作業を「フライティング (flighting)」と呼び、更新をサービス全体にデプロイする前に問題を特定するため、必ず実施しています。このフライティング テストではパフォーマンスの大幅な向上が見られたため、Storage サービス全体に更新をデプロイする作業へと進みました。このデプロイ作業の中で問題が発見され、ストレージ BLOB フロントエンドが、フライティング テストのときには検出されなかった無限ループに陥りました。その結果、最終的にはフロントエンドが使用不能になりトラフィックの処理が停止されたため、その上に構築されている他のサービスにも問題が発生しました。

この問題が発見された後、変更は適切にロール バックされましたが、更新を完全に元に戻すにはストレージのフロントエンドの再起動が必要でした。修正方法がデプロイされてからは、影響を受けたリージョン全体でほとんどのお客様の可用性が復旧し始めました。サービスはリージョン全体でオンライン状態に戻っていますが、ごく一部のお客様ではまだ断続的に問題が発生しています。マイクロソフトのエンジニアリング チームとサポート チームは、この間、お客様の支援に積極的に対応しています。

今回のようなインシデントが発生した場合、マイクロソフトは、お客様のサービスを迅速に復旧することに集中して取り組みますが、それと同時に問題の原因を詳細に調査し、今後この問題が二度と発生しないように対策を講じます。マイクロソフトは、弊社プラットフォームでのお客様のエクスペリエンスの改善に引き続き取り組んでまいります。今後、RCA (根本原因の分析) に関してこのブログを更新し、この問題の解決方法と今後の改善策についてお伝えいたします。

Azure をご利用のお客さまへ(アップデート):

弊社は、この事象がどのようにして起きたのかを引き続き調べ、同様の事態を再発させないために必要な改善を進めてまいります。その一方で、現時点で把握できている状況ならびに確認できたギャップを公開することも重要であると考えております。

インシデント情報

インシデント ID

3071402

インシデント名

Microsoft Azure Service Incident :  Connectivity to multiple Azure Services  – Partial Service Interruption (複数の Azure サービスへの接続性 – 部分的なサービス中断)

影響のあったサービス

Azure Storage、Virtual Machines、SQL Geo-Restore、SQL Import/Export、Websites、Azure Search、Azure Cache、管理ポータル、Service Bus、Event Hubs、Visual Studio Online、Machine Learning、HDInsight、Automation、Virtual Network、Stream Analytics、Azure Active Directory、StorSimple、Azure Backup

インシデントの開始日時

2014/11/19  00:51:00 AM (UTC) 

2014/11/19  09:51:00 AM (日本時間)

復旧した日時

2014/11/19  11:45:00 AM (UTC)

2014/11/19  08:45:00 PM (日本時間)

 

まとめ

2014年11月19日、下記の「影響を受けたリージョン」一覧にある複数のリージョンで、Azure Storage サービスにサービス中断が発生しました。影響を受けたAzure Storage サービスに依存する Microsoft Azure サービスと、お客様のサービスにも、影響がありました。この Microsoft Azure サービスには、サービス ダッシュボードや管理ポータルが含まれます。このサービス中断は、 Azure Storage のフロントエンド コンポーネントにおける構成変更が引き起こした不具合の結果、BLOB フロントエンドがトラフィックを受け付けなくなったことによるものでした。

この構成変更は、 パフォーマンス改善とAzure Table フロントエンドにおける CPU フットプリントを減らすことを目的としたAzure Storage の更新の一環として行われたものでした。この変更は過去数週間にわたって複数の運用クラスターに対してデプロイされており、 Table フロントエンドに対しては期待通りに動作していました。

Azure Storage サービスのパフォーマンス改善の一環として、この構成変更を運用サービス全体に適用する決断をいたしました。

この構成変更は、Table フロントエンドに対しては期待通りに動作していたものの、BLOB フロントエンドに対しては、BLOB フロントエンドの中の潜在的な不具合を顕在化させました。この不具合により、BLOB フロントエンドがトラフィックの処理を受け付けなくなる無限ループに陥りました。

残念ながら、この問題は広範にわたりました。オペレーションの間違いにより、運用環境への更新は少しずつ分けて実施するという標準の手続きが適用されず、更新作業が短時間でほとんどのリージョンにわたって実施されたことに起因します。

この問題が発見された後、変更は即座に元に戻されましたが、 BLOB フロントエンドが更新によって引き起こされた無限ループに陥っていたため、構成を更新するには再起動が必要でした。このことにより、復旧に時間がかかりました。 Azure チームは修正方法を調べ検証しました。この修正方法がデプロイされてから、11月19日11:45:00AM UTC (11月19日08:45:00 PM日本時間) には、ほとんどのお客様の可用性が改善し始めました。 IaaS の Virtual Machines を利用していた一部のお客様は、Remote Desktop Protocol (RDP) や SSH 経由の接続も含め、仮想マシンへの接続ができないことを報告しました。

 

お客様への影響

Azure Storage サービスをお使いのお客様に、Storage (BLOB、Table、Queue) への接続の際、 タイムアウトや接続の問題などの影響がありました。Storage サービスに依存するAzure サービスにも影響がありました。お客様に、影響があったサービスや IaaS の Virtual Machine で可用性が失われる問題が発生しました。

 

コミュニケーションとサポート

Azureのインフラストラクチャの問題により、サービス ダッシュボードを通したタイムリーな情報提供にも影響がありました。対応策として、ツイッターやソーシャルメディアのフォーラムを活用しました。また、管理ポータル経由でも影響を受けたお客様に対して可能な限り情報提供を行いました。しかし、サービス ダッシュボードへの影響の結果、障害発生から約3時間にわたりタイムリーな情報更新ができませんでした。

サービス ダッシュボードや管理ポータルに依存するサポート ツールにも影響があり、障害発生当初にサポートケースの発行が制限されました。また、非常に多くのサポートケースが発行されたため、影響を受けているお客様への情報提供が遅れた場合がありました。

 

影響を受けたリージョン
以下のリージョンの一部のお客様に影響がありました。

リージョン
米国中部
米国東部
米国東部 2
米国中北部
米国中南部
米国西部
北ヨーロッパ
西ヨーロッパ
東アジア
東南アジア
東日本
西日本

根本原因(Root Cause)
パフォーマンス改善を目的とした構成変更の更新の際、BLOBフロントエンドの不具合により、BLOB フロントエンドが無限ループに陥りました。

今後の対応

弊社は、同様なインシデントの再発防止のため、Microsoft Azure プラットフォームと我々の運用プロセスの改善を行います。今回講じる対策の一部を記載します。

  • 運用環境への変更の際、少しずつ分けて展開するという標準の手続きを常に実施することをデプロイツールで強制します。
  • 復旧時間を最小化するために、復旧方法を改善します。
  • CPU 使用量を削減する改善に含まれていた BLOB フロントエンドにある無限ループの不具合を修正します。
  • サービスダッシュボードのインフラストラクチャと手続きを改善します。

 

この度は、お客様にご不便をおかけしましたこと心よりお詫びいたします。

 

The Microsoft Azure Team

Comments (0)

Skip to main content