Le Machine Learning avec Spark grâce à HDInsight

Le service Azure HDInsight qui vous permet de disposer à la demande d'un cluster Hadoop et Spark dans le Cloud.

Ainsi, A ce jour encore, Azure HDInsight est la seule offre de cloud Apache Hadoop entièrement gérée qui vous offre des clusters d'analyse open source optimisés pour Spark, Hive, MapReduce, HBase, Storm, Kafka et Microsoft R Server, avec un contrat SLA proposant une disponibilité de 99,9 %.

Point d'intérêt spécifique dans le cadre de ce blog vis-à-vis des éclairages technologiques que nous souhaitons partager depuis ses débuts, Apache Spark pour Azure HDInsight permet l'implémentation de modèles d'apprentissage automatique (Machine Learning).

Le billet éponyme publié sur le blog MSDN « cousin » Big Data France revient dans une première partie sur le déploiement d'un cluster Spark en tant que tel avec le service Azure HDInsight.

Une seconde partie s'intéresse plus particulièrement à l'utilisation de ce cluster Spark pour mettre en place un modèle de Machine Learning en Python.

Enfin, une troisième et dernière partie revient sur la nouvelle bibliothèque Microsoft Machine Learning pour Apache Spark (MMLSpark) dans ce contexte.

Je vous souhaite fidèle lectrice ou un fidèle lecteur de ce blog une excellente lecture de ce billet.

J'en profite pour remercier très sincèrement Anaig Maréchal actuellement en stage au sein de l'équipe pour cette contribution :-)