Microsoft Azure の Hadoop ディストリビューション HDInsight を使ってみよう! (2)

Microsoft Japan Data Platform Tech Sales Team 高木 英朗   前回の記事では、HDInsight の概要と実際に Azure のポータル画面からデプロイする方法をご紹介いたしました。今回は HDInsight へのアクセス方法や Hive、Spark の実行についてご紹介いたします。 前回の記事でデプロイした環境を使って試していきましょう。 Ambari へのアクセス デプロイが完了すると管理画面にアクセスすることができます。ここではクラスターのスケール設定、インスタンスの削除等の管理ができます。管理画面の [クイック リンク] からクラスター ダッシュボードのメニューに入ると、HDInsight を管理・操作するためのリンクが表示されます。HDInsight のクラスター管理は Apache Ambari を使用します。[HDInsight クラスター ダッシュボード] をクリックしてすると Ambari にアクセスすることができます。 資格情報で設定したユーザー名とパスワードを入力してログインします。 ログインすると Ambari のダッシュボードが表示されます。ここでクラスターの監視、構成の変更、Hiveクエリ実行、YARNのスケジューラー管理等を行うことができるようになっています。 SSH でのアクセスも試してみましょう。Azure ポータルの HDInsight 画面にもどり [SSH (Secure Shell)] メニューに入ると SSH での接続先が表示されます。この接続先に対して設定した資格情報(パスワード認証または公開鍵認証)でログインします。 この例では Putty でログインしています。ホスト名に “hn0″…

0

Microsoft Azure の Hadoop ディストリビューション HDInsight を使ってみよう! (1)

Microsoft Japan Data Platform Tech Sales Team 高木 英朗   Microsoft の Hadoop への取り組み Apache のオープンソースプロジェクトである Hadoop は多様で大規模なデータを分析するための非常に強力な基盤として多くの企業で活用されています。「Microsoft が Hadoop?」と思われる方もいらっしゃるかもしれませんが、実は Microsoft は Hadoop のオープンソースコミュニティに参加し、開発に積極的に貢献しています。プロジェクトメンバーやコミッターについてはこちらを参照ください。 昨年 Microsoft は、エンジニアリング作業に 6,000 時間以上を費やし、オープン ソース コミュニティとのパートナーシップを通じて、Hadoop プロジェクトのさまざまな部分にコードを提供しつつ革新を進めてきました。さらに、Hadoop のコミッターを擁しており、また Hadoop の Apache ワーキング グループの議長を務めるのは Microsoft 社員の Chris Douglas です。–David Campbell (Microsoft 社員、CTO)https://azure.microsoft.com/ja-jp/solutions/hadoop/ HDInsight とは Microsoft は HDInsight という Hadoop のディストリビューションを Azure…

0

Power BI Embedded って何だろう?

Power BI
Power BI

Microsoft Japan Data Platform Tech Sales Team 倉重 秀昭 / Hideaki Kurashige 本記事の内容は、以前の Power BI Embedded について説明したものです。Microsoft は 2017 年 5 月に Power BI サービスと Power BI Embedded の統合を発表しました。 この統合により、1 つの API サーフェスで一貫性のある機能セットが提供されるようになりました。現在は「Power BI Embedded」の管理メニューのみが Azure Portal に残っています。 Power BI Service の兄弟のような位置づけのサービスとして Power BI Embedded があります。Power BI Service は SaaS の BI ですが、Power BI Embedded…

0

Azure Machine Learning の Jupyter Notebook 対応 ( Variable Selection 編 )

Microsoft Japan Data Platform Tech Sales Team 森本 信次   Azure ML でも 図1のように、3つの Feature Selecction ( 特徴選択 ) が使えるのですが、この 「Feature Elimination」については 今のところ対応していませんので、今回の投稿では Juypter Notebook および Python のライブラリを使ってこの特徴選択の手法を試してみいたと思います。 ウィキペディア によると、特徴選択(とくちょうせんたく、英: feature selection)とは、機械学習と統計学の用語であり、頑健な学習モデルの構築のため、特徴集合のうち意味のある部分集合だけを選択する手法のことを指します。詳しくはこちらをご覧ください。 1.  Filter Based Feature Selection 2. Fisher Linear Discriminant Analysis 3. Permulation Feature Importance 図1. Azure Machine Learning Studio の Feature Selection Items…

0

Azure Machine Learning の Juypter Notebook 対応 ( 後編 )

Microsoft Japan Data Platform Tech Sales Team 森本 信次 前回はサンプルデータを使ってボストンの住宅価格の予測モデルを開発しましたが、今回は実際にこのモデルを使用するための手順を見ていくことにしましょう。   Web サービスのセットアップ モデルの開発後には、そのモデルを Web サービスとしてデプロイすることで、他からそのモデルを使用できるようになります。以下では Webサービスのデプロイをサポートする 「azureml」 パッケージを Notebook 環境へインポートして、「demoservice」 という名前の Web サービスをセットアップしています。 # ワークスペースに関する情報を抽出from azureml import Workspacews = Workspace()workdspace_id = ws.workspace_idauthorization_token = ws.authorization_token # Web サービスのセットアップfrom azureml import services@services.publish(workdspace_id, authorization_token)@services.types(crim=float, zn=float, indus=float, chas=float, nox=float, rm=float, age=float, dis=float, rad=float, tax=float, ptratio=float, black=float, lstat=float)@services.returns(float)def demoservice(crim,…

0

Azure Machine Learning の Jupyter Notebook 対応 ( 前編 )

Microsoft Japan Data Platform Tech Sales Team 森本 信次   Azure Machine Learning ( 以降 Azure ML )は Microsoft が提供しているクラウドベースの機械学習サービスです。Azure ML では ブラウザーを使って様々な機械学習の手法を実行することが可能ですが、Jupyter  Notebook を使用することも可能となっています。 Jupyter Notebook  とは、ノートブック形式で作成したプログラムを実行し、実行結果を保持しながら、データ分析作業を進めるためのツールです。プログラムとその実行結果やその際のメモを簡単に作成、確認することができるため、自分自身の過去の作業内容の振り返りや、チームメンバーへ作業結果を共有する際に便利なほか、スクール形式での授業や研修などでの利用にも向いています。 ではさっそく、Azure Machine Learning Studio で提供されている チュートリアルを実際に進めながら Notebook の使い勝手を見ていきたいと思いますが、必要に応じて以下 のMicrosoft アカウントの作成およびワークスペースの作成を行うようにしてください。   Microsoft アカウントの作成 Microsoft アカウントをもっていない場合にはリンク先から作成します。 ホーム – Microsoft アカウント   ワークスペースの作成 下記リンクを開き「Get Started」ボタンをクリックし、Microsoft アカウントにサインインします。 Microsoft Azure Machine…

0

Azure 上に AlwaysOn AG 構成を構築する際のリスナーについて

Microsoft Japan Data Platform Tech Sales Team 中川 オンプレ環境において AlwaysOn Availability Group(以後、AGと称す) 構成を幾度となく構築した経験のある人でも、Azure 上で AlwaysOn AG を構築する際についつい躓いてしまうポイントがあります。それはリスナー構成です。今回はそのリスナーを構成する際に Azure ではオンプレ時とは少し違った考え方をしなければならないポイントをお伝えします。 まずは、オンプレ環境にて AlwaysOn AG を構築する際のリスナーについてですが、あまり意識していない方もいらしゃるかと思いますが WSFC(Windows Server Failover Cluster) のクラスターリソースの一つであるクライアントアクセスポイントとして登録されます。具体的にはそのクライアントアクセスポイントの IP が AG ノードの NIC に仮想 IP として割り当てられ、プライマリレプリカとなる AG ノードでその IP が Up されることにより、DB クライアントはリスナーを指定して接続すると常にプライマリレプリカに接続できるようになっています。 [フェールオーバー クラスター マネージャー にて] [プライマリレプリカノードにて] この時点ではセカンダリレプリカノードではクライアントアクセスポイントの IP (上記の場合には 10.0.0.20 )は Up していませんが、フェールオーバーするとセカンダリレプリカノードがプライマリに昇格し、クライアントアクセスポイントの…

0

SQL Server 2016 マスターデータサービス ( MDS ) の新機能

Microsoft Japan Data Platform Tech Sales Team 森本 信次   マスターデータサービス ( MDS ) とは マスター データ サービス( MDS: Master Data Services)は、マスター データ管理( MDM: Master Data Management )を実現するためのサービスです。 マスター データとは、「商品マスター」や「社員マスター」、「顧客マスター」、「店舗マスター」などのマスター テーブルのデータを指し、DWH( データ ウェアハウス )環境においてはディメンション テーブルのデータ( 分析軸となるデータ )を指します。   SQL Server 2016 の Master Data Services では主に以下の機能強化が行われました。 エンティティ同期 メンバーの改訂履歴 競合のマージ ビジネスルールの拡張 変更セット ソフト削除メンバーのパージ ワークフロー ( 1段階の承認…

0

[Power BI] DAX入門(4) 動的なランキング計算 –RANKX 関数の活用-

Power BI
Power BI

Microsoft Japan Data Platform Tech Sales Team 土井 DAX 入門 第 4 回目では、データ集計においてよく使われるランキング計算 (ランク関数) について触れていきます。 DAX では RANKX 関数や TOPN 関数を使ってランキング計算が可能になっています。今回は RANKX 関数について具体的な使用方法をご紹介していきます。

0

Azure SQL Data Warehouse での統計の管理

Microsoft Japan Data Platform Tech Sales Team 高木 英朗   以前のエントリで統計の概要と作成方法について紹介しました。今回は統計の管理方法について紹介します。 統計はクエリの実行プランを作成するための情報を提供する重要な要素であることをお伝えしましたが、最適なパフォーマンスを得るためには、この統計情報を最新にしておくということも重要です。 統計の更新タイミング 統計を最新にしておくための最適なタイミングは、データの追加や更新の後です。これはデータの追加や更新時にテーブルのサイズや値の分布が変わる可能性が高いためです。 もし、すべての統計を管理するのは時間がかかりすぎる場合は、例えば新しい値が毎日追加されるような日付列だったり JOIN、GROUP BY、ORDER BY、DISTINCT 等に使われる列に限定すると良いでしょう。 統計が最新かどうかを判断する方法 統計が最新かどうかを判断するため、統計が最後に更新された日時を確認することができます。 確認するには、以下のクエリを実行します。 SELECT sm.[name] AS [schema_name], tb.[name] AS [table_name], co.[name] AS [stats_column_name], st.[name] AS [stats_name], STATS_DATE(st.[object_id],st.[stats_id]) AS [stats_last_updated_date] FROM sys.objects ob JOIN sys.stats st ON ob.[object_id] = st.[object_id] JOIN sys.stats_columns sc ON st.[stats_id] = sc.[stats_id]…

0

Microsoft Azure 仮想マシンに SQL Server を導入、設定する際のポイント 4

Microsoft Japan Data Platform Tech Sales Team清水 みなさん、こんにちは。 3 回目は、 Microsoft Azure で Windows 仮想マシン ( 以降仮想マシン ) を作成する際のポイントをお伝えしました。 4 回目は作成した仮想マシンの設定時と、先日リリースされた SQL Server 2016 をセットアップする際のポイントをお伝えします。 SQL Server 2016 はミッションクリティカル、クラウド連携、高度分析の観点で大幅に強化されていますので、ぜひ SQL Server 2016 をご検討下さい。  

0

SQL Server R Services を初めて使う人のための Tips 集 (可視化編)

Microsoft Japan Data Platform Tech Sales Team 倉重 秀昭 / Hideaki Kurashige   前回の記事に続き、今回も 米国本社の CAT チームの記事を基に、SQL Server R Services を初めて使う人のための Tips について書いていきたいと思います。 R を使う理由の一つに、データを様々なグラフを使って可視化するためのライブラリが豊富にそろっていることがあると思います。SQL Server R Services を使うと T-SQL を使って R のコードを実行することができますが、この場合 R のグラフィックデバイスを使ったグラフ等の表示ができない為、 データの可視化には工夫が必要になります。 今回は T-SQL をつかって R を実行した場合のデータ可視化手法の内、代表的な手法を3つ紹介させていただきたいと思います。   (1) グラフの画像を ファイルとして出力する方法   R の Plot 関数等を使って生成したグラフは、JPG など画像ファイルとしてローカルファイルシステム上に保存する事が可能です。 実現方法としては、以下の2つがあります。   ① ストアドプロシージャ―…

0

[セミナー紹介] これからの DB は SQL Server 2016! セミナー(2016/9/9 日本マイクロソフト品川本社開催)

SQL Server の豊富なノウハウをお持ちのパートナー様との合同セミナーをご紹介します。 2016 年 6 月 1 日より販売が開始された SQL Server 2016 は、リアルタイム運用分析、モバイル デバイスでのリッチな視覚化、組み込みの高度な分析、新しい高度なセキュリティ テクノロジ、新しいハイブリッド クラウド シナリオが搭載されている、マイクロソフト史上最強のデータプラットフォームです。 SQL Server 2016 に対応した、株式会社システムインテグレータ「SI Object Browser」や、SQL Server のライセンス体系、購入方法などについて説明いたします。最後には個別質問会も。 また SQL Server 2016 の新機能や設計、開発、移行ノウハウもお伝えします。 ぜひ、奮ってご参加ください。 詳細、お申込みはこちら → http://www.sint.co.jp/products/siob/sn/2016/0909.html   セミナーに関するお問合せ先 株式会社システムインテグレータ 東京営業所セミナー事務局 担当:汪(おう) mail:oob@sint.co.jpTEL:03-5768-7979 FAX:03-5768-7884(TEL受付:平日9:30~17:30/FAX・インターネット受付:24時間)   開催日程・概要 日時 2016年 9月9日(金)13:30~17:00(受付13:00~) 共催 株式会社システムインテグレータ、日本マイクロソフト株式会社、ウチダスペクトラム株式会社 定員 100名 場所 日本マイクロソフト セミナールーム(31F)〒108-0075 東京都港区港南 2-16-3 品川グランドセントラルタワー※JR 品川駅 港南口よりスカイウェイにて直結 徒歩3分京浜急行 品川駅より…

0

Power Query で Excel マクロから卒業?! - 列のピボット と ピボット解除 –

Power BI
Power BI

Microsoft Japan Data Platform Tech Sales Team 伊藤 Power Query をご存知ですか?Excel 2010/2013 のアドインとして提供していた機能ですが、Excel 2016 では [データ] メニューの [取得と変換] として標準機能となりました。 Excel だとエディションだのバージョンだのが引っかかるという場合には、Power BI Desktop にも同じ機能があり [ホーム] メニューの [データを取得] あるいは [クエリを編集] というボタンから使用できます。 Power BI Desktop や Excel 2016、Power Query アドインのクエリ エディタ (Query Editor) を使用すると、データの取り込みと変換を GUI で定義でき、その後繰り返し必要となるであろうデータ取り込みを 1 クリックで行えます。あまりに便利で、手作業でデータをコピペしたりマクロを駆使したりしてレポートを作りこんでいたのは何だったのか…という気分になります。今回はデータ加工に苦労されている方にぜひお試しいただきたい機能の一つである [列のピボット解除] と [列のピボット] について、Power BI Desktop (2016年6月バージョン) を使ってご紹介します。

0

SQL Server R Services を初めて使う人のための Tips 集 (環境構築・パッケージ管理編)

  Microsoft Japan Data Platform Tech Sales Team 倉重 秀昭 / Hideaki Kurashige   こちらの記事でもご紹介させていただいている通り、SQL Server 2016 では 新たに SQL Server R Services という R の実行基盤が加わりました。 この SQL Server R Services について、マイクロソフト米国本社の Customer Advisory Team ( 通称 CAT ) が 、彼らの Blog 上で SQL Server R Services を利用するにあたっての Tips をまとめています。今回はその中から特に役に立つと思われる項目を取り上げ、付加情報も加えて詳しく解説していきたいと思います。 (1) SQL Server R Services…

0

[Power BI] DAX入門(3) 相対日付 (Relative date) の実装 -地震速報の可視化-

Power BI
Power BI

Microsoft Japan Data Platform Tech Sales Team 土井 DAX 入門 第 3 回目では、前回の応用として、相対日付の実装について触れます。 今回は 地震速報 データを使って、今日何時に地震が起きたか? 昨日起きた地震の最大震度は? 直近一週間何件地震があったか?といった形で相対日付で可視化するレポートを作ってみます。

0

まず始めよう!Cortana Intelligence ギャラリーを使って統計分析・機械学習を10分で始める方法

Microsoft Japan Data Platform Tech Sales Team 阪本 真悟 以前のエントリでマイクロソフトの統計分析・機械学習ソリューションの紹介をしましたが、エンタープライズ IT 系のニュースでも統計分析や、機械学習に関する記事を目にする機会も増えてきました。 企業の中でも自社システム内に蓄積されている情報を活用し、「統計分析」「機械学習」を使って未来のビジネスに活かしたい!と考える方も増えてきています。 一方で「統計分析」「機械学習」をビジネスに活かすと言っても具体的なイメージがつかめなくて何をどうすればいいのか分からなかったり、最初の一歩が踏み出せなかったりといった悩みもあるのではないでしょうか。 これらの技術を学び・活用することは難しい面もありますが、Azure Machine Learning(機械学習)とマイクロソフトが提供するデータ分析テンプレートを活用することで、より早く・簡単に機械学習を使った統計分析ソリューションを活用できるようになります。   <Cortana Intelligence ギャラリーのご紹介> 今回は業務で使える様々なテンプレートを集めて公開している Cortana Intelligence ギャラリーと今すぐ使えるテンプレートをご紹介します! Cortana Intelligence ギャラリーを使うとこんなメリットがあります。 ・業務活用を想定した興味深いソリューション・テンプレートが見つかる ・テンプレートを Azure ポータル画面、Machine Learning Studio ワークスペースにデプロイして、すぐに使える ・デプロイされたテンプレートを見て、機械学習を含む Azure の様々なサービスの使い方を学べる ・Power BI を使って様々な最新のデータ視覚化を試すことができる ・予測分析など自作のテンプレートを投稿して公開できる(他のユーザから学べる)   現在、データの作成からリアルタイム分析・機械学習によるバッチ分析、さらにデータ利用者への可視化サービスまで全てを包含したソリューション・テンプレートとして以下 3 種類の業務テンプレートを公開しています。 自動車のテレメトリー分析 飛行機の予兆保全 エネルギーの需要予測   それぞれ、こんなことが出来ます。 自動車のテレメトリー分析 車両に取り付けたセンサから数秒毎に収集したデータをリアルタイム分析することで現在の車両の状態確認を行う。また蓄積データと合わせた機械学習により車両のメンテナンス予測、リコール予測、運転習慣による洞察を Power BI…

0

SQL Server R Services のサンプル デモのご紹介

  Microsoft Japan Data Platform Tech Sales Team 坂本 禎尚   SQL Server 2016 では R Services という新たなサービスが仲間入りしました。 R Services の R は統計解析言語として有名なプログラミング言語の R です。SQL Server 2016 では、この R が SQL Server 上で使えるようになります。しかもただ R が使えるだけでなく、Revolution Analytics 社(2015 年 4 月にマイクロソフトが買収完了)が持っていた並列分散処理による大量データ処理の高速化手法を利用することができるようになっていて、オープンソースの R と比較して機能、性能面で大きなアドバンテージを持っています。 こちらの記事でも紹介されていますので、是非ご覧下さい。   この R Services を使ったシナリオ ベースのサンプルが GitHub で公開されています。 https://github.com/Microsoft/SQL-Server-R-Services-Samples     現状、このサンプルの中には…

0

ODBC Driver for Linux での API パラメータの文字コードについて

Microsoft Japan Data Platform Tech Sales Team 中川 先日、とあるパートナー様より標題の件についてご質問をいただきました。例えば SQLGetDiagRec 関数のマニュアルを見ますと ”MessageText” の型は SQLCHAR となっております。そして、Microsoft ODBC Driver for SQL Server on Linux のプログラミングガイドラインには以下のような記述がございます。 文字のサポート SQLCHAR データは、UTF-8 である必要があります。 SQLWCHAR データは UTF 16LE (リトル エンディアン) である必要があります。 Microsoft ODBC Driver for SQL Server on Linux の ODBC API のパラメータの内、 文字列部分の多くは SQLCHAR で定義されております。よって標題のご質問に対する回答は UTF-8 ということになります。 以上です、で終わってしまっては寂しいので実機にて確認してみました。   [実機環境] APサーバー…

4

[Power BI] DAX入門(2) カレンダーテーブルの作成

Power BI
Power BI

Microsoft Japan Data Platform Tech Sales Team 土井 DAX 入門 第二回目では、カレンダーテーブルを生成するための日付と時刻の関数と、それに付随して文字列関数と論理関数について具体的に触れていきます。 (本記事で作成するサンプルファイルは こちら からダウンロードいただけます。)

0