Azure HDInsight クラスターをカスタマイズして Spark モジュールや R モジュールをはじめとするさまざまな Hadoop プロジェクトを実行可能に


このポストは、11 月 17 日に投稿された Azure HDInsight clusters can now be customized to run a variety of Hadoop projects including Spark and R Modules の翻訳です。

このたび、Apache Hadoop エコシステムから入手できる各種プロジェクトを基に Azure HDInsight クラスターをカスタマイズする機能を発表します。Hadoop のエコシステムには、急速に進化し開発が進められているオープン ソース プロジェクトが豊富に用意されています。今回の新機能により、これまでは不可能だった Hadoop プロジェクトのテストや Azure HDInsight へのデプロイメントが可能になります。これを可能にするのが、カスタム スクリプトを使用して Hadoop クラスターを任意の方法で変更できる Script Action 機能で、Hadoop、HBase、Storm などあらゆる種類の HDInsight クラスターで利用できます。この機能の効果を実証するために、人気の高い Spark モジュールおよび R モジュールをインストールする手順を文書化しました。

Apache Spark (英語) はオープン ソースの処理フレームワークで、大規模なデータ分析アプリケーションを実行できます。Spark はバッチ処理やストリーム処理、メモリ内処理、従来型のディスク処理をサポートしており、人気が高まっています。R (英語) は統計計算や機械学習用に開発された無料のソフトウェア プログラミング言語で、統計やデータ マイニングの専門家の間で近年人気が急速に高まっています。

カスタマイズを行うには、最新の Azure PowerShell をダウンロードして、クラスターのセットアップの際にクラスター ノード上で実行される PowerShell スクリプトを指定します。このスクリプトを作成するには、Azure が OS の更新プログラムをノードに適用し、セキュリティ修正プログラムを適用し、適切に動作しないノードをリプレースできるようなマネージド クラウド環境が必要です。また、ノードの更新後いつでもカスタマイズを実行して適用できなければなりません。現在は、PowerShell および .NET SDK を使用してカスタム クラスターを作成できます。

Spark を HDInsight Hadoop クラスターにインストールするには、次の PowerShell スクリプトを実行します。“spark-installer-v01.ps1” が Spark を HDInsight にインストールする Script Action です。

New-AzureHDInsightClusterConfig -ClusterSizeInNodes $clusterNodes

     | Set-AzureHDInsightDefaultStorage -StorageAccountName $storageAccountName
-StorageAccountKey $storageAccountKey -StorageContainerName $containerName

     | Add-AzureHDInsightScriptAction -Name "Install Spark"
-ClusterRoleCollection HeadNode,DataNode
-Uri https://hdiconfigactions.blob.core.windows.net/sparkconfigactionv01/spark-installer-v01.ps1

     | New-AzureHDInsightCluster -Name $clusterName -Location $location

HDInsight での Spark のインストールと使用の詳細については、下記を参照してください。

Script Action を使用したその他のカスタマイズの詳細については、以下のドキュメントを参照してください。

Azure HDInsight の詳細については、下記を参照してください。

Azure の 1 か月間の無料評価版

Comments (0)

Skip to main content