Linux OSが起動しないときのトラブルシューティングについて (ASM編)

本記事では Linux OS が起動しなくなったときのトラブルシュートの方法について、ご案内いたします。以下のような状況が発生しますと、お客様の Linux OS が起動できず、 SSH での接続もできなくなります。 例1 ) fstab の設定変更に失敗してしまって、存在しない UUID を指定し再起動した場合 例 2 ) Kernel Panic が発生し、起動ができない このような時にAzure 上でトラブルシュートをする方法について、ご案内いたします。 新ポータル (https://portal.azure.com/) では Linux 仮想マシンでコンソール出力を確認することが可能でございますので、後述 [ご参考:コンソール出力について] もあわせてご参照ください。 概要 既存の問題の発生していない仮想マシンに、事象の発生した仮想マシンのディスクをつなぐという方法です。問題の発生していない仮想マシンは新規に作成いただいた仮想マシンで問題ありません。   手順 今回、troubleVM という仮想マシンの OS ディスクが破損し、KernelPanic が起こっていると仮定します。この troubleVM のディスクを SafeVM に接続し、ログファイルを確認してみましょう。(ここでは OracleLinux 6.4.0.0 を利用しています。) なお、後の手順では troubleVM で利用している OS ディスクをデータディスクとして SafeVM にアタッチします。アタッチする際には、同じデータセンタにあるディスクのみがリストに表示されますので、SafeVM は troubleVM…


ログインを必要としないログ収集ツールについて(AzureLogCollector)

クラウド サービスを対象としたトラブルシューティングでは、インスタンス内部に保存されているログから調査を進める方法が有効です。Azure チームからは AzureTools や SDP ツールなど、当該インスタンスへリモート デスクトップでログインし取得する方法をご紹介しておりますが、拡張機能を利用すれば、リモート デスクトップでログインせずとも以下のログを採取する事ができます。 システムとアプリケーションのイベント ログ HTTP エラー ログ IIS ログ セットアップ ログ その他のシステム ログ 採取したログは、指定したストレージ アカウントへ保存されます。 本トピックでは、クラウド サービスを対象としリモート デスクトップでログインを必要としないログ収集ツール AzureLogCollector の使用方法をご紹介いたします。 AzureLogCollector を利用する方法について AzureLogCollector でログを採取する為には、ローカルにインストールされている Microsoft Azure PowerShell からスクリプトを実行します。以下に手順を記載しますのでご参考下さい。 1. ログ採取で使用するスクリプトは既に以下のページに用意されています。”Extention PowerShell Script files” 項目配下のスクリプトを SetAzureServiceLogCollector.ps1 として保存してください。 – AzureLogCollector Extension https://azure.microsoft.com/ja-jp/documentation/articles/virtual-machines-extensions-log-collector/ 2. Microsoft Azure PowerShell を管理者権限で起動し、スクリプトの実行ポリシーを Unrestricted へ変更します。 PS>…


Microsoft Azure IaaS (Windows) 診断パッケージ について

仮想マシン上の問題の解決のために、サポート サービスから 「Microsoft Azure IaaS 診断パッケージ」 を用いたトラブルシューティングをお願いすることがあります。本トピックでは、Microsoft Azure IaaS 診断パッケージを用いた情報収集方法についてお伝えいたします。 IaaS 診断パッケージを利用する方法 マイクロソフト サポート担当者から IaaS 診断パッケージを利用するための URL を、メールにてお送りいたします。 マイクロソフト サポート担当者から送付された URL をウェブブラウザで開きます。これは、仮想マシン上のウェブブラウザである必要はありません。 「実行」 ボタンを押します。診断パッケージファイルをダウンロードするように促されるので、ダウンロードし実行します。 IaaS 診断パッケージが起動します。表示された内容を確認のうえ、同意されましたら 「同意する」 ボタンを押してください。 「マイクロソフト自動トラブルシューティング サービスのセットアップ」 が始まります。 「Azure の VM のトラブルシューティング(Windows)」 の画面が表示されたら、「開始」 をクリックします。 「Azure サブスクリプションへの認証します」 の画面が表示されたら、内容を確認していただき 「次へ」 をクリックします。 サインインに使用する電子メールアドレスを入力し 「続行」 をクリックします。 サインインに使用するパスワードを入力し「サインイン」をクリックします。 サブスクリプションを複数お持ちの場合は、問題が発生している仮想マシンが所属しているサブスクリプションを選択し 「次へ」 をクリックします。サブスクリプションを一つお持ちの場合は、そのまま 「次へ」 をクリックします。 調査に役立つお客様環境のログを、マイクロソフトがプロアクティブに取得することを許可する場合は 「Azure のVM のデータ収集を委任します」…


Fiddler トレース収集ツール・収集方法について

Web アプリケーションの問題などや、弊社提供の Web サイトの問題解決のために、サポートサービスから Fiddler トレースをお願いすることがあります。本トピックでは、Fiddler トレースの取得方法についておつたえします。取得方法については、以下の2つの方法があります。 情報収集ツールを利用する方法 Fiddler ツールを環境にインストールして利用する方法 上記 2 つについてご案内をいたします。 情報収集ツールを利用する方法 本方法は、弊社サポートでツールを用意させていただく方法です。弊社から、ツールの URL についてご案内してお使いをいただくものになります。下記に手順を案内いたします。 マイクロソフトから送付された URL をウェブブラウザで開きます。 「実行」ボタンを押します。ファイルをダウンロードするように促されるので、ダウンロードし実行します。 「マイクロソフト自動トラブルシューティングサービス」が起動します。表示された内容を確認のうえ、問題ないようであれば「同意」を押してください。 今回の問題に関連するコンポーネントをダウンロードしますので、しばらく待ちます。 診断ツールの実行箇所の選択になります。今回はローカル環境のログをとることを想定としているので、「このコンピューター」を選択します。(別のコンピューターのログをとる場合には、「別のコンピューター」を選択し、表示される指示に従ってください) 「ネットワークキャプチャー診断」の画面が出てきますので、現象再現の準備をします。現象再現の準備ができましたら、「開始」を押してください。 パッケージの初期化が行われます、こちらが出たら「次へ」を押してください。 ここで、もし同じ環境に Fiddler がインストールされている場合、Fiddler の証明書の削除する旨の通知が出ることがあります。既に Fiddler が環境に入っているようでしたら、既にインストール済みのFiddler ツールを使っていただくことをお勧めいたします。 (利用方法については、次に案内する【Fiddler ツールを環境にインストールして利用する方法】で説明いたします。) ネットワークトレース開始前の画面が出ますので、準備が整えば「次へ」を押してください。 証明書をインストールするように依頼があるので、「はい」を選択してください。 「これで、問題を再現してください。」と出ますので、ブラウザなどで再現手順を実施して、再現をさせていください。間違えてしまった場合や再現しなかった場合には、「キャプチャ停止とデータ破棄」を選択して、一旦終了して、初めからやり直してください。現象が再現したら、「キャプチャ停止とデータ採取」を選択してください。 先ほどインストールした証明書を削除するか聞かれますので、削除してください。 ログ情報を保護するためにパスワード入力画面が出ますので、パスワードを入力してください。こちらのパスワードは、データの復号化に必要なので、後ほどマイクロソフトの担当者までお知らせください。 送付する情報のリストが表示されます。必要に応じて確認をお願いします。確認して問題なければ「次へ」を押します。 データ送信画面が出ますので、念のため「コピーの保存」でデータをコピーしておいてください。「送信」を押すとマイクロソフトにデータが送信されます。何らかの原因で送信に失敗した場合には、先ほどコピーしたデータを用意して一旦担当者までご連絡ください。担当者側でファイル転送ツールを用意し、そちらからご送付をお願いさせていただきます。 ファイル転送に成功すると、以下の画面が表示されます。 送信が終わりましたら、担当者まで送信が終わった旨ご連絡ください。担当者側で無事情報が届いているかの確認をさせていただきます。 Fiddler ツールを環境にインストールして利用する方法 本方法はお客様側でインストールして取得いただく際の方法になります。あらかじめ、Fiddler のサイトからツールをインストールしておいてください。 Fiddler Tool (Download からダウンロードしてインストール) Fiddler を起動します。すぐにキャプチャーを開始するので、左下の [Capturing]…


Windows Azure Storage Analytics のログ収集ツールについて

皆様こんにちは、Windows Azure サポートチームのオオカワです。この記事では、Windows Azure Storage の全てのログを容易に収集するための自動化ツール (SDP Package) についてご紹介しようと思います。 (この記事は、弊社 Kevin Williamson が書いた以下のブログ記事の要点を、日本の Azure サポートチームにて抜粋し意訳したものになります。) Windows Azure Storage Analytics SDP Package ※ 本情報は 2014/2/21 時点での情報となります。将来的に細かい変更が加わる可能性がありますので、あらかじめご了承ください。 自動化ツールのダウンロード この自動化ツールは、Windows 7 以降のクライアント OS ならびに、Windows Server 2008 R2 以降のサーバー OS にて動作します。 PowerShell を用いたダウンロード手順 PowerShell を開きます 以下のスクリプトをコピー & ペーストし、実行します md c:\Diagnostics; Import-Module bitstransfer; Start-BitsTransfer http://dsazure.blob.core.windows.net/azuretools/AzureStorageAnalyticsLogs_global.DiagCab c:\Diagnostics\AzureStorageAnalyticsLogs_global.DiagCab; c:\Diagnostics\AzureStorageAnalyticsLogs_global.DiagCab 上記のスクリプトの代わりに、以下のURL からDiagCab ファイルを直接ダウンロードしても問題ありません。…


仮想マシンのメンテナンス作業に伴う一時停止について

みなさん、こんにちは。Windows Azureサポートチームです。今回のトピックは、比較的多くご質問をいただいている仮想マシンの計画メンテナンスに関連して、メンテナンスが実施される際に仮想マシンに何が起こるかについて技術的な観点から説明いたします。少しでも皆様の理解の一助となれば幸いです。 ※本ドキュメントは 2013年10月時点の情報を基に作成しております。将来的なデータセンターの変更により細かな部分は変更になる可能性がありますので、あらかじめご了承ください。 仮想マシンのメンテナンス作業 データセンター内のブレードサーバー内では、仮想マシンをホストするためのWindows OSをベースとしたホスト環境が動作しています。そのホストの仮想化環境上で、仮想マシンは動作しています。以下のような定期的なメンテナンスのため、定期的な更新作業が必要になります。 セキュリティ更新プログラムの適用 Windows Azureの機能拡張・機能修正 ブレードサーバーのファームウェアアップデート (BIOS アップデートなど) 必要モジュールの入れ替え メンテナンスの際には、ホスト環境を再起動する必要がある場合がありますが、その際には、仮想マシンを動作させている仮想化環境(ハイパーバイザー)も一時停止する必要があります。したがって、ホスト環境の更新の際には、仮想化環境上の仮想マシンはシャットダウンされ一時停止し、ホスト環境の再起動後に、仮想マシンは再起動します。また、更新の内容によっては、ホスト環境の再起動が不要な場合もあります。 ※ブレードサーバー イメージ:写真のような大量のブレードサーバーがデータセンター内部で動作しています。写真は古い世代のものですが、現在の世代はコンテナ型で配置されています。 動作の詳細 データセンターの動作 Windows Azureデータセンターは、世界各地に分散しています。データセンターは、複数のコンテナで構成され、膨大な数のブレードサーバー、電源ユニット、ルーター・スイッチ、ネットワークがまとまって構築されています。これらのリソース群は、データセンターの中で「ファブリック コントローラー」と呼ばれるサービスで自動管理されています。ファブリック コントローラーは、各ユニットを自動で管理していますが、物理的に異常が発生した場合などには、現在利用可能なリソースから自動で切り離したりします。データセンター内の Windows Azure システム自体は基本的には自律で動作していますが、何らかの作業をしなければいけない場合には、外部からリモートで実施しています。 各データセンターの内部は、「クラスタ」と呼ばれる単位でさらに分割されています。例えば、東アジア (香港) データセンターの場合を挙げると、コンピュートサービス用に数クラスタ、ストレージサービス用に数クラスタという形です。クラスタの内部には、1000台を超えるブレードサーバー(以下ノードと呼びます)で構成されており、これらはさらに障害ドメインで物理的に障害点を分割されています。各クラスタは、ファブリック コントローラーで自動管理されています。 ※図中 FC: ファブリックコントローラー、FD: 障害ドメイン、Node: ノード(ブレードサーバー) 各ノードは、Windows Server の Hyper-V 技術をベースとしたホスト OS により管理されています。仮想マシンや、クラウドサービスの各インスタンスは、各ノードのホスト上で、インスタンス化され実行されます。仮想マシン・クラウドサービスの各インスタンスは、さらに論理的に更新ドメインに分割が行われています。 ※図中 小さい□: インスタンス (仮想マシン。各FDに配置され、UDに割り当てられています)、Service: 仮想マシン/クラウドサービス NOTE: 更新ドメインと障害ドメイン 更新ドメインは、クラウドサービス・仮想マシンのサービスの可用性を維持するための論理的な単位です。障害ドメインは障害時の可用性を維持のため、物理的にコンピュートリソースを分割する単位です。詳細については、以下でも説明していますので、ご参考ください。 更新ドメインと障害ドメイン Windows Azure の設定で利用される論理障害ドメインは現状 2…


[Cloud Service] Application Error 1000/1005が発生しリモート接続できなくなる現象について

みなさんこんにちは、Windows Azure サポートチームです。今回は、Windows Azure SDK 1.6 をご利用の際に、リモートデスクトップがつながらなくなる現象について、お知らせいたします。同じエラーメッセージが発生した場合には、ご参考いただければ幸いです。 問題 Windows Azure SDK 1.6 を利用して Web ロール・ワーカーロールを配置し、リモートデスクトップを有効化しているにもかかわらず、突如リモートデスクトップ接続ができなくなる現象が発生する。イベントログを確認すると、以下のようなエラーメッセージが発生している。 Log Name: Application Source: Application Error Event ID: 1000 Level: Error User: N/A Description: Faulting application name: RemoteForwarderAgent.exe, version: 6.0.6002.18314, time stamp: 0x4eb31078 Faulting module name: mscorwks.dll, version: 2.0.50727.5472, time stamp: 0x5174ddb3 Exception code: 0xc0000006 Fault offset: 0x000000000015bf92 Faulting process…


[Cloud Service] クラウドサービス・仮想マシンのコア数制限のエラーについて

みなさんこんにちは。Windows Azureサポートチームです。今回は、クラウドサービスを発行しようとしたときに、コア数の制限により発生するエラーについてご案内します。 問題 Visual Studioやツールなどからクラウドサービス・仮想マシンの発行の際に、以下のようなエラーが発生し、発行に失敗する。 The subscription policy limit for resource type ‘cores count’ was exceeded. The limit for resource type ‘cores count’ is 20 per subscription, the current count is 18, and the requested increment is 4. // 日本語 リソースタイプ 「コア数」 のサブスクリプション ポリシーによる制限値を超過しました。リソースタイプ 「コア数」 の制限は、サブスクリプションあたり 20 ですが、現在の数は 18 であり、要求された追加の数は 4 でした。 原因 ご利用いただいているサブスクリプションに割り当てられているコア数の制限を超えて、インスタンス・仮想マシンを割り当てた場合に発生します。上記エラーの場合は、サブスクリプションに割り当てられている最大コア数が20であり、現在のコア数が18で、さらに4つのコア数を割り当てようとしたため、エラーが発生しています。 コア数とは、仮想マシンに割り当てられる仮想CPUコア数のことです。配置するサイズに応じて利用するコア数は異なります。たとえば、Sインスタンスは1コア数ですが、Lインスタンスは4コア数を利用します。詳細は以下をご参照ください。…


[Windows Azure] Guest OS 2.14 Release 201302-03でイベントログ Schannel 36870が発生する問題について

みなさん、こんにちは。Windows Azureサポートチームです。今回は、Guest OS 2.14 Release 201302-03 以降で発生するイベントログの問題についてお知らせいたします。 同じ問題が場合に、ご案内する情報がお役に立てば幸いです。 問題 Windows Azure の Web ロール・ワーカーロールで、リモートデスクトップでログインすると直後に以下のイベントログが記録される。 Log Name: System Source: Schannel Event ID: 36870 Level: Error User: System Computer: RD************ Description:A fatal error occurred when attempting to access the SSL server credential private key. The error code returned from the cryptographic module is 0x8009030d. The internal error…


[Windows Azure] イベントログエラーSchannel 36874 および 36888 について

みなさんこんにちは。Windows Azureサポートチームです。今回はよくお問い合わせを受ける Webロール上で発生するSchannelのイベントログエラーについてご案内します。もし同じ問題に遭遇された際に、ご参考をいただければ幸いです。 問題 セキュア通信 (SSL/TLS) を行うWebロール、ワーカーロール上でSystemイベントログに、以下のログが発生する。 Log Name: System Source: Schannel Event ID: 36874 Level: Error Description: An SSL 3.0 connection request was received from a remote client application, but none of the cipher suites supported by the client application are supported by the server. The SSL connection request has failed. // SSL の部分が…