はじめての Azure Data Lake ~ Azure Data Lake Analytics でデータを分析してみよう ( 前編 ) ~

Microsoft Japan Data Platform Tech Sales Team
清水

みなさん、こんにちは。先日のはじめての Azure Data Lake ~ そもそも Data Lake って何? ~ では、データレイクのコンセプトや Azure Data Lake の概要及びデータウェアハウスとの比較、はじめての Azure Data Lake ~ 環境構築からファイル アップロードまで ~ では、 Azure Data Lake Store にデータを格納する際の手順やポイントについてご紹介しましたが、いかがだったでしょうか?Azure Data Lake Store に格納したデータは、 Azure Data Lake Analytics や HDInsight  等で分析可能ですが、ここでは Azure Data Lake Analytics を用いて分析を行う際の手順やポイントについてお伝えします。前編では、 Azure Data Lake Analytics の作成方法と分析用スクリプトのコーディング、実行に用いるツールについてお伝えします。

Azure Data Lake Analytics とは

Azure Data Lake Analytics( 以降 ADLA) は、 Apache YARN 上に構築された分散分析サービスです。 ADLA は、  Azure Data Lake Store( 以降 ADLS)  を前提として最適化されており、ビッグ データのワークロードに対して高いパフォーマンス、スループット及び並列化を提供します。

image

上記に加えて ADLA  には以下のような特徴があります。

  • ADLA のユーザーは、仮想マシンのリソースやクラスターの規模を意識することなく、クエリを柔軟にスケールすることが可能
  • SQL の利点と表現力のある C# を融合した言語である U-SQL を包含
  • U-SQL の開発、デバッグ及びチューニングを Visual Studio と連携
  • ADLS に加え以下のようなデータソースも参照可能なため、Azure 内の複数のデータソースをまたぐクエリを記述することが容易
    • Azure Data Warehouse
    • Azure SQL Database
    • SQL Server on Azure VM(SQL Server 2012 以降 )

参照可能なデータソースの詳細については、以下をご参照下さい。

 

CREATE DATA SOURCE (U-SQL)

https://msdn.microsoft.com/en-us/library/azure/mt763307.aspx

 

ADLA の作成とサンプルデータのロード

Azure Portal へアクセスし、「 + 新規」→「 Intelligence + analytics 」→ 「 Data Lake Analytics 」を選択します。

image image

 

以下の項目を指定し、 ADLA を作成します。

項目名

設定値

名前 作成する ADLA の名前
サブスクリプション ADLA を作成するサブスクリプション
リソースグループ ADLA を作成するリソースグループ
場所 ADLA を作成するリージョンを指定
Data Lake Store ADLA と連携する ADLS を事前に作成ADLA は ADLS を前提として最適化されているため、 ADLS が必須です。 ADLS の作成については、こちらをご参照下さい
価格レベル 既定値は「従量課金制」価格レベルの詳細については、以下をご参照下さい。https://azure.microsoft.com/ja-jp/pricing/details/data-lake-analytics/ https://azure.microsoft.com/ja-jp/pricing/details/data-lake-store/

HDInsight とは異なり、仮想マシンの規模やクラスターを構成するノード数等の指定は不要です。

 

作成が完了したら、 ADLA の概要を表示、「サンプルスクリプト」をクリックし、サンプルデータのインストールを行います。

image image

 

サンプルデータのインストールが完了したら「データエクスプローラー」を起動し、 ADLS 内に「 Samples 」というフォルダが作成され、フォルダ内にサンプルデータがあることを確認します。

image

以降は、ここでインストールしたサンプルデータを使用して説明を行います。

 

U-SQL スクリプトのコーディング、実行に用いるツールやコマンド

ADLA を用いた分析では、 SQL と C# を融合した言語である U-SQL を用いてスクリプトをコーディングすることが必要です。 U-SQL スクリプトのコーディング、実行には以下のツールやコマンドが使用可能です。

  • コーディング、実行
    • Azure Portal
    • Visual Studio
    • Visual Studio Code
  • 実行のみ
    • PowerShell 、.NET SDK、Java SDK、Azure CLI、REST API、 Python

詳細については、 Azure Data Lake のドキュメントの「作業開始」内の各項目をご参照下さい。

Data Lake Analytics のドキュメント

https://docs.microsoft.com/ja-jp/azure/data-lake-analytics/ image

 

また、 Visual Studio Code とその拡張機能を用いて U-SQL スクリプトのコーディング、実行を行うことも可能です。詳細については、以下をご参照下さい。

 

Introducing: Microsoft Azure Data Lake Tools for Visual Studio Code

https://blogs.msdn.microsoft.com/azuredatalake/2017/01/20/microsoft-azure-data-lake-tools-for-visual-studio-code/

 

ここでは、Visual Studio を用いて  U-SQL  スクリプトのコーディング、実行を行うこととします。

 

Microsoft Azure Data Lake Tools for Visual Studio のインストール

Visual Studio で U-SQL スクリプトのコーディング、実行を行う際は、 Microsoft Azure Data Lake Tools for Visual Studio( 以降 Azure Data Lake Tools) を使用します。 Visual Studio 2015  では、以下のサイトから Azure Data Lake Tools をダウンロードし、これをインストールする必要があります。

 

Azure Data Lake Tools for Visual Studio

https://www.microsoft.com/en-us/download/details.aspx?id=49504 image

 

Azure Data Lake Tools のインストールが成功すると、 Visual Studio に U-SQL(ADLA) のプロジェクトテンプレートが追加されます。

image

 

後編では、 Visual Studio を用いて U-SQL スクリプトをコーディング、実行する際の手順とポイントをお伝えします。

 

関連記事

はじめての Azure Data Lake ~ そもそも Data Lake って何? ~ はじめての Azure Data Lake ~ 環境構築からファイル アップロードまで ~ Visual Studio Code と Python で Azure Data Services にアクセスしてみよう (Azure SQL Database 、 Azure Machine Leaning 編 ) Azure Data Lake & Azure HDInsight Blog