HDInsight で Presto を動かしてみよう

Microsoft Japan Data Platform Tech Sales Team 高木 英朗   Presto とは? Presto は、Facebook 社が開発した人気のあるビッグデータ用の高速な分散 SQL クエリエンジンです。前回記事の「HDInsight のインタラクティブ Hive (LLAP) とは?」でご紹介した Hive on Tez + LLAP と同様に、インタラクティブなレスポンス速度が期待できるエンジンです。どちらも目的は同じですが、Presto の利用に慣れている方は、HDInsight 上でもスキルをそのまま生かすことができます。

0

はじめての Azure Data Lake ~ Azure Data Lake に HDInsight(Hadoop、Storm、Spark 等 ) からアクセスしてみよう ~

data lake
data lake

Microsoft Japan Data Platform Tech Sales Team 清水 みなさん、こんにちは。前々回の記事と前回の記事では、Azure Data Lake Analytics を用いて分析を行う際の手順やポイント、Visual Studio を用いて U-SQL をコーディング、実行する際の手順やポイントについてお伝えしましたが、いかがだったでしょうか ? 今回は、 Azure における PaaS 版の Hadoop である HDInsight から  Azure Data Lake Store にアクセスする際の手順やポイントについてお伝えします。

0

はじめての Azure Data Lake ~ Azure Data Lake Analytics でデータを分析してみよう ( 前編 ) ~

data lake
data lake

Microsoft Japan Data Platform Tech Sales Team 清水 みなさん、こんにちは。先日のはじめての Azure Data Lake ~ そもそも Data Lake って何? ~ では、データレイクのコンセプトや Azure Data Lake の概要及びデータウェアハウスとの比較、はじめての Azure Data Lake ~ 環境構築からファイル アップロードまで ~ では、 Azure Data Lake Store にデータを格納する際の手順やポイントについてご紹介しましたが、いかがだったでしょうか?Azure Data Lake Store に格納したデータは、 Azure Data Lake Analytics や HDInsight  等で分析可能ですが、ここでは Azure Data Lake Analytics を用いて分析を行う際の手順やポイントについてお伝えします。前編では、 Azure Data Lake…

0

HDInsight の インタラクティブ Hive (LLAP) とは?

Microsoft Japan Data Platform Tech Sales Team 高木 英朗   2016年の秋に HDInsight の新しいクラスタータイプとして 「インタラクティブ Hive」 が登場しました。インタラクティブ Hive は Hive 2.0 で追加された LLAP (Long Live and Process) という Hive クエリをより高速にするための仕組みを搭載したものです。これによって、大量のデータをよりインタラクティブに柔軟に分析することが可能になります。本記事の投稿時点 (2017/03/21) ではパブリック プレビュー版が利用可能です。

0

はじめての Azure Data Lake ~ そもそも Data Lake って何? ~

data lake
data lake

Microsoft Japan Data Platform Tech Sales Team 丹羽 勝久 1. はじめに 昨今、クラウドを中心としたトレンドとして、AI、IoT、機械学習などのキーワードが非常に盛んに取り上げられていますが、このような技術、手法が進化すればするほど、扱うデータの量、形態が多様になり、よりデータの蓄積基盤が重要になってきます。これらの領域が扱う大容量のデータ蓄積基盤の1つにデータウェアハウス(DWH)がありますが、このデータウェアハウスと併用して利用するデータレイク基盤が、現在注目されています。 そもそもデータレイク基盤とは何でしょうか?何故、データウェアハウスだけでなく、データレイク基盤も必要なのでしょうか?

0

Apache Spark on Azure をビジネス価値につなげる 8 つのシナリオ(1)

Microsoft Japan Data Platform Tech Sales Team 阪本 真悟 Apache Spark とは 高速かつ汎用的な並列分散処理エンジンである Apache Spark は、構造化データと非構造化データの両方を扱うことが出来、バッチ アプリケーションやインタラクティブなアルゴリズム、あるいはストリーミングといった幅広い処理をカバーすることが出来ます。 また大容量データを基にした機械学習やデータ マイニングを、複数のコンポーネントを統合したシンプルな API によって実現することが可能なため、ここ最近の機械学習やデータ分析のニーズの高まりを受けて急激に注目を集めています。 現在 Spark のコントリビュータは1,000名近くになり、Apache Software Foundationと世界中のオープン ソースのビッグデータ プロジェクトの中でもっともアクティブなプロジェクトになっています。

0

Apache Kafka for HDInsight (public preview) (2)

Microsoft Japan Data Platform Tech Sales Team 高木 英朗   前回は Kafka for HDInsight の概要についてご紹介いたしました。今回は実際に Kafka for HDInsight のデプロイからサンプルコードの実行する方法をご紹介いたします。 今回の手順は以下の Get started with Apache Kafka (preview) on HDInsight の記事をもとにしています。 https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-apache-kafka-get-started

0

Apache Kafka for HDInsight (public preview) (1)

Microsoft Japan Data Platform Tech Sales Team 高木 英朗   分散型のストリーミングプラットフォームとして人気の Apache Kafka が Microsoft Azure の HDInsight に Kafka for HDInsight としてリリースされました。 本記事の投稿時点 (2017/01/23) ではパブリックプレビュー版となります。 HDInsight については以下をご参照ください。 Microsoft Azure の Hadoop ディストリビューション HDInsight を使ってみよう! (1) Microsoft Azure の Hadoop ディストリビューション HDInsight を使ってみよう! (2) HDInsight にデータを取り込む方法

0

[Microsoft Tech Summit (11/1-2) ] (DAT011) “HDInsight + Spark + R を活用した機械学習のためのスケーラブルなビッグデータ分析基盤” セッションフォローアップ

  Microsoft Japan Data Platform Tech Sales Team Team しんご    弊社イベント Microsoft Tech Summit(11/1 –11/2) にて実施したセッション「HDInsight + Spark + R を活用した機械学習のためのスケーラブルなビッグデータ分析基盤」の中でいくつかデモを実施させていただきました。このデモは Azure のサブスクリプションをお持ちであれば、ご自身で試していただくことが可能です。 本記事では、評価環境の構築方法や実際のデモスクリプトの実行方法についてご紹介させていただきたいと思います。

0

HDInsight にデータを取り込む方法

Microsoft Japan Data Platform Tech Sales Team 高木 英朗   過去 2 回にわたる記事で HDInsight を簡単に使ってみる方法を紹介しました。 Microsoft Azure の Hadoop ディストリビューション HDInsight を使ってみよう! (1) Microsoft Azure の Hadoop ディストリビューション HDInsight を使ってみよう! (2) 前回は HDInsight に付属のサンプルデータを使用してクエリを実行しましたが、今回はどのようにしてHDInsightにデータを取り込むことができるかを紹介します。

0

Microsoft Azure の Hadoop ディストリビューション HDInsight を使ってみよう! (2)

Microsoft Japan Data Platform Tech Sales Team 高木 英朗   前回の記事では、HDInsight の概要と実際に Azure のポータル画面からデプロイする方法をご紹介いたしました。今回は HDInsight へのアクセス方法や Hive、Spark の実行についてご紹介いたします。 前回の記事でデプロイした環境を使って試していきましょう。 Ambari へのアクセス デプロイが完了すると管理画面にアクセスすることができます。ここではクラスターのスケール設定、インスタンスの削除等の管理ができます。管理画面の [クイック リンク] からクラスター ダッシュボードのメニューに入ると、HDInsight を管理・操作するためのリンクが表示されます。HDInsight のクラスター管理は Apache Ambari を使用します。[HDInsight クラスター ダッシュボード] をクリックしてすると Ambari にアクセスすることができます。 資格情報で設定したユーザー名とパスワードを入力してログインします。 ログインすると Ambari のダッシュボードが表示されます。ここでクラスターの監視、構成の変更、Hiveクエリ実行、YARNのスケジューラー管理等を行うことができるようになっています。 SSH でのアクセスも試してみましょう。Azure ポータルの HDInsight 画面にもどり [SSH (Secure Shell)] メニューに入ると SSH での接続先が表示されます。この接続先に対して設定した資格情報(パスワード認証または公開鍵認証)でログインします。 この例では Putty でログインしています。ホスト名に “hn0″…

0

Microsoft Azure の Hadoop ディストリビューション HDInsight を使ってみよう! (1)

Microsoft Japan Data Platform Tech Sales Team 高木 英朗   Microsoft の Hadoop への取り組み Apache のオープンソースプロジェクトである Hadoop は多様で大規模なデータを分析するための非常に強力な基盤として多くの企業で活用されています。「Microsoft が Hadoop?」と思われる方もいらっしゃるかもしれませんが、実は Microsoft は Hadoop のオープンソースコミュニティに参加し、開発に積極的に貢献しています。プロジェクトメンバーやコミッターについてはこちらを参照ください。 昨年 Microsoft は、エンジニアリング作業に 6,000 時間以上を費やし、オープン ソース コミュニティとのパートナーシップを通じて、Hadoop プロジェクトのさまざまな部分にコードを提供しつつ革新を進めてきました。さらに、Hadoop のコミッターを擁しており、また Hadoop の Apache ワーキング グループの議長を務めるのは Microsoft 社員の Chris Douglas です。–David Campbell (Microsoft 社員、CTO)https://azure.microsoft.com/ja-jp/solutions/hadoop/ HDInsight とは Microsoft は HDInsight という Hadoop のディストリビューションを Azure…

0