Azure SQL Data Warehouse とは

Microsoft Japan Data Platform Tech Sales Team

坂本 禎尚

 

現在パブリック プレビュー中で、まもなく一般公開となる Azure SQL Data Warehouse は、マイクロソフトが Azure というパブリック クラウド上で提供する PaaS 型のデータ ウェアハウス(以下、DWH) サービスです。

マイクロソフトはオンプレミス環境向けに Analytics Platform System (旧 Parallel Data Warehouse) という名称で大規模 DWH をサポートするアプライアンス製品を過去 5 年以上に渡って提供し続けており、ここで磨かれ抜いたコア テクノロジーを Azure の PaaS 基盤に最適化したものが、 Azure SQL Data Warehouse です。

システムを構成するアーキテクチャとしては、MPP 型で並列処理に最適化した形態を取っています。
また、データを処理するコンピューティング層(下図、Compute リソース)とデータを保持する ストレージ層(下図、Cloud Storage)を別々に構成することで、使っていない時にはコンピューティング層を一時停止して課金を抑えたり、大量データのロード時や最繁利用時間帯にはコンピューティング層を拡張し、その後にまた縮小するといったことが分レベルのオペレーションで柔軟にできるようになっています。

 

ADW

 

PaaS としての基盤

Azure SQL Data Warehouse は Azure の PaaS 型のサービスなので、小難しい設定項目は一切ありません。
新ポータルでデータベース名やスケール数といった数項目を設定するだけで、すぐに使用を開始することができます。

 

CreateDW

 

設定完了後、10 分位経つとデータベースが使用可能になります。

 

スケーリングの考え方

Azure SQL Data Warahouse におけるスケーリングは DWU(Data Warahouse Unit) 値を変更することによって行います。
パブリック クラウドのサービスにありがちな、CPU コア数やストレージ サイズを選択するという考え方ではないというところがポイントです。

これは、Azure SQL Database の DTU や Azure SQL Server Stretch Database の DSU と共通の考え方です。
Azure SQL Data Warehouse の DWU はクエリ性能のパワーを表した指標になっていて、DWH において最も重要と考えられる以下の 3 要素を数値化したものです。

  • 行のスキャン性能
  • ロード性能
  • ノード間のコピー性能

DWU はデータベース作成時点で一旦決定することになりますが、先述した通り、後から柔軟に変更することが可能です。

Scale2

 

データの保持

Azure SQL Data Warehouse のデータベースは Azure Storage Blob で保持されます。
この先、幾つかの保持形態が提供される予定ですが、現段階では、GEO 冗長の Azure Storage (RA-GRS)という同一データ センター内で 3 重化、更に災害対策を考慮し、別のデータ センター内で 3 重化が自動的に行われており堅牢性に関しては文句の付けどころがない状態になっています。

これに加えて PaaS 型サービスですから、自動的にデータベースのバックアップも GEO 冗長のストレージに取得されることは言うまでもありません。

 

データの活用

以前の記事にも書きました(SQL Server の歴史を振り返る(第 2 回目))が、データは蓄積するだけでは何の価値も生みません。当然ながら活用して初めて資産となり得ます。
例えば、PolyBase というテクノロジーがあります。これは、Azure Storage Blob の中にある非構造化データを、あたかも Azure SQL Data Warehouse の中にある構造化されたデータとして扱ってしまおうというものです。

今日、IoT に代表されるように扱うデータの量、種類双方がちょっと前では考えられないようなボリュームと多様性を持ってきています。
こういったデータを最初から構造化データ前提の、データベースの中にいきなり入れてしまうというのは現実的になかなか難しいものがあります。
これを解決するのが PolyBase です。
データベースを通して非構造化データを扱える、つまりは既存のデータ アクセス言語である SQL 文が使えることになりますから開発生産性及び既存 BI ツールとの親和性向上を大きく後押しできます。

他にも、機械学習サービスの Azure Machine Learning や SaaS 型の分析基盤である Power BI との連携が容易にとれるようにこれら周辺のサービス群側での対応も既に組み込まれています。

 

試してみるには

Azure SQL Data Warehouse の全体感を掴んで頂くには下記のドキュメントが参考になります。

https://azure.microsoft.com/ja-jp/documentation/articles/sql-data-warehouse-overview-what-is/

すぐに試してみたい方はこちらのページを参考に始めて頂くのがおすすめです。

https://azure.microsoft.com/ja-jp/documentation/articles/sql-data-warehouse-get-started-provision/

 

 

最後に Azure SQL Data Warehouse については、5 月 24 日、 25 日の 2 日間にわたって開催される de:code 2016 の下記ブレイクアウト セッションでアーキテクチャを解説します。

是非、こちらのセッションも宜しくお願い致します。

DBP-009 : クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説

https://www.microsoft.com/ja-jp/events/decode/2016/session.aspx#DBP-009