Spark pour Azure HDInsight et Power BI – 2nde partie

J’ai le plaisir de publier dans ce blog la seconde partie du billet rédigé par Romain Casteres , Microsoft Premier Field Engineer (PFE) - SQL Server & BI chez Microsoft France et également du membre du bureau du Groupe des Utilisateurs francophones de SQL Server ( GUSS) .

Après une première partie dédiée à Apache Spark pour Azure HDInsight en version préliminaire publique le 11 juillet dernier, ce second volet s’intéresse à l’utilisation de Power BI avec Spark.

Je vous souhaite une bonne lecture de ce billet fort intéressant et n’hésitez pas à consulter sur le blog de Romain tous ses autres billets déjà publiés ! ;-) Vous pouvez aussi retrouver Romain bien évidemment sur Twitteret LinkedIn .

--Philippe

_____________________________________________________________________________________________

Power BI avec Spark

Microsoft Power BI est un ensemble de services et de fonctionnalités en ligne qui vous permettent de rechercher et de visualiser des données, de partager des découvertes et de collaborer en utilisant de nouvelles méthodes intuitives.

Depuis le 24 Juillet dernier, la dernière version de Power BI est en GA, je vous invite à essayer le Designer, le nouveau Portail ou encore les applications mobiles et Desktop.

Voici le portail Power BI :

image

Depuis le portail il est possible de récupérer un jeu de données provenant de :

  • Votre organisation
  • Services externes comme Github, MailChimp, Google Analytics, etc.
  • Fichiers locaux, OneDrive
  • Services comme Azure SQL Database, Azure SQL Data Warehouse, SQL Server Analysis et depuis un cluster HDInsight Spark (via le driver Spark ODBC)

Je vais donc me connecter au cluster HDInsight Spark depuis le portail Power BI :

clip_image002[6]

clip_image004[6]

clip_image006[6]

clip_image008[6]

Après avoir enregistré le rapport, il est possible de publier les différents éléments de celui-ci dans un Dashboard :

clip_image010[6]

En guise de conclusion

Il est de plus en plus aisé d’analyser de grosse volumétrie de données et ceux avec des temps d’exécutions de moins en moins longs !

HDInsight Spark vient compléter les services Big Data dans Azure, il faut le voir comme un complément et non comme un remplaçant de HDInsight Hadoop. Dans Hadoop vous stockez toutes vos données semi-structurées dans un HDFS et profitez de la flexibilité du Map Reduce pour les requêter. HDInsight quant à lui tire parti de l’In-Memory pour exécuter des algorithmes de Datamining, pour effectuer des analyses interactives ou encore du streaming.

Voici un tableau récapitulatif des outils évoqués et leurs utilisations :

 

Hadoop

Spark

Microsoft

Exécution de tâches en parallèle

Map Reduce ou Tez

Spark

(APS)

Exécution de tâches de type SQL

Hive

Spark

Polybase

Stockage de données non structurées

HDFS

(HDFS via Hadoop)

Azure Blobs

Stockage NoSQL

HBase

 

Document DB

Machine Learning

Mahout

Spark MLlib

Azure ML

Streaming data

Storm

Spark Streaming

Stream Analytics

Et quelques ressources pour la route des vacances ;-)

Voici quelques ressources sur les sujets abordés :