Spark pour Azure HDInsight et Power BI – 2nde partie

Article
08/05/2015

J’ai le plaisir de publier dans ce blog la seconde partie du billet rédigé par Romain Casteres , Microsoft Premier Field Engineer (PFE) - SQL Server & BI chez Microsoft France et également du membre du bureau du Groupe des Utilisateurs francophones de SQL Server ( GUSS) .

Après une première partie dédiée à Apache Spark pour Azure HDInsight en version préliminaire publique le 11 juillet dernier, ce second volet s’intéresse à l’utilisation de Power BI avec Spark.

Je vous souhaite une bonne lecture de ce billet fort intéressant et n’hésitez pas à consulter sur le blog de Romain tous ses autres billets déjà publiés ! ;-) Vous pouvez aussi retrouver Romain bien évidemment sur Twitteret LinkedIn .

--Philippe

_____________________________________________________________________________________________

Power BI avec Spark

Microsoft Power BI est un ensemble de services et de fonctionnalités en ligne qui vous permettent de rechercher et de visualiser des données, de partager des découvertes et de collaborer en utilisant de nouvelles méthodes intuitives.

Depuis le 24 Juillet dernier, la dernière version de Power BI est en GA, je vous invite à essayer le Designer, le nouveau Portail ou encore les applications mobiles et Desktop.

Voici le portail Power BI :

Depuis le portail il est possible de récupérer un jeu de données provenant de :

Votre organisation
Services externes comme Github, MailChimp, Google Analytics, etc.
Fichiers locaux, OneDrive
Services comme Azure SQL Database, Azure SQL Data Warehouse, SQL Server Analysis et depuis un cluster HDInsight Spark (via le driver Spark ODBC)

Je vais donc me connecter au cluster HDInsight Spark depuis le portail Power BI :

Après avoir enregistré le rapport, il est possible de publier les différents éléments de celui-ci dans un Dashboard :

En guise de conclusion

Il est de plus en plus aisé d’analyser de grosse volumétrie de données et ceux avec des temps d’exécutions de moins en moins longs !

HDInsight Spark vient compléter les services Big Data dans Azure, il faut le voir comme un complément et non comme un remplaçant de HDInsight Hadoop. Dans Hadoop vous stockez toutes vos données semi-structurées dans un HDFS et profitez de la flexibilité du Map Reduce pour les requêter. HDInsight quant à lui tire parti de l’In-Memory pour exécuter des algorithmes de Datamining, pour effectuer des analyses interactives ou encore du streaming.

Voici un tableau récapitulatif des outils évoqués et leurs utilisations :

	Hadoop	Spark	Microsoft
Exécution de tâches en parallèle	Map Reduce ou Tez	Spark	(APS)
Exécution de tâches de type SQL	Hive	Spark	Polybase
Stockage de données non structurées	HDFS	(HDFS via Hadoop)	Azure Blobs
Stockage NoSQL	HBase		Document DB
Machine Learning	Mahout	Spark MLlib	Azure ML
Streaming data	Storm	Spark Streaming	Stream Analytics

Et quelques ressources pour la route des vacances ;-)

Voici quelques ressources sur les sujets abordés :

Spark pour Azure HDInsight et Power BI – 2nde partie

Power BI avec Spark

En guise de conclusion

Et quelques ressources pour la route des vacances ;-)

Additional resources