Quoi de neuf sur Azure HDInsight ? – 2nde partie

Ce billet est l’occasion de faire le point ensemble sur les évolutions majeures intervenues sur l’offre Azure HDInsight (Hadoop) et de revenir notamment sur les annonces faites lors de la récente conférence Strata + Hadoop World 2015 vis-à-vis du service Azure HDInsight à l’image de la version préliminaire publique d’Azure HDInsight s’exécutant sous Linux comme vous allez le voir dans ce billet.

La première partie de ce billet s’est plus particulièrement intéressée aux évolutions fonctionnelles de l’offre. Nous vous proposons de couvrir à présent les évolutions relatives aux machines virtuelles (VM) et aux clusters Hadoop en tant que tels.

Prise en compte de tailles additionnelles de VMs

Afin de mieux vous accompagner vis-à-vis de l’exécution de charges de travail Big Data en expansion constante, Azure HDInsight est disponible sur plus de tailles de machines virtuelles (VM) au sein des diverses possibilités proposées par Azure. Ainsi, HDInsight peut maintenant utiliser :

  • Des tailles d’A5 à A7 à destination d’usages génériques des fins générales,
  • Des nœuds de série D qui disposent de processeurs 60% plus rapides et de disques SSD,
  • Ainsi que les tailles A8 et A9 qui intègrent une prise en charge d’Infiniband pour de la haute-performance réseau.

Apache HBase évoqué ci-avant dans la liste des composants déployés tire bénéfice des configurations mémoire plus évoluées de la série D pour augmenter les performances. De même, Apache Storm bénéficie de cette capacité mémoire supplémentaire pour le chargement des plus grands jeux de données de référence, ainsi que des processeurs plus rapides pour un débit plus élevé.

Evolutivité des clusters

Avec cette fonctionnalité très demandée, vous pouvez modifier le nombre de nœuds d'un cluster en cours d'exécution de HDInsight sans avoir à supprimer ou de le recréer :)

Actuellement, seuls Hadoop Query et Apache Storm ont cette capacité, mais Apache HBase va bientôt suivre.

Azure HDInsight en version préliminaire publique sous Linux

Comme mentionné en introduction de ce billet, vous pouvez désormais exécuter Azure HDInsight sur des clusters Linux en plus de Windows, avec, à la clé, un déploiement simple, un contrat de niveau de service (SLA) géré et un support technique complet.

Les clusters HDInsight Linux sont mis à jour, monitorés et opéré par la plateforme Azure, vous permettant de vous concentrer sur vos données et les requêtes/traitements associées et non pas sur la gestion des machines du cluster Hadoop.

Conçus sur Ubuntu et sur la distribution Hortonworks HDP 2.2, les clusters HDInsight Linux peuvent être déployés dès aujourd'hui en vous inscrivant à la version préliminaire publique via la page Fonctionnalités préliminaires du site Azure ici.

Cette nouvelle proposition peut s’avérer particulièrement attrayante si vous utilisez déjà Hadoop sous Linux dans votre environnement à demeure comme le permet notamment Hortonworks HDP, vous offrant ainsi la capacité :

  • D’utiliser des outils Linux, des modèles et de la documentation communs,
  • D’étendre le cas échéant votre environnement sur Azure avec des connexions Cloud hybrides,
  • De déplacer des charges de travail Apache Hadoop existantes vers le Cloud tout en ayant accès à un jeu étendu de composants à exécuter dans le service comme évoqué en introduction.

image

HDP 2.2 sur la galerie Azure

Dans le même temps, et depuis le 15 octobre 2014, la distribution Hortonworks HDP constitue la première plateforme Hadoop certifiée pour l’infrastructure Azure. Cette certification se traduit par la disponibilité de la distribution Hortonworks HDP 2.2 au sein de la place de marché Azure et de sa galerie ici pour être déployée sous forme de VMs prêtes à l’emploi que vous gérez.

image

Vous pouvez dès lors opter pour l’approche qui vous convient le mieux :-) tout en disposant d’une interopérabilité entre plateformes basée sur 100% d’Apache Hadoop open source.

Dans la pratique, résultat du partenariat entre Microsoft et Hortonworks, vous disposez ainsi potentiellement d’un choix entre 4 plateformes pour ce qui concerne ces acteurs, avec 2 plateformes dans le Cloud Azure :

  • Azure HDInsight, un service Hadoop géré sous Linux ou sous Windows objet de ce billet,
  • Hortonworks HDP 2.2 sous forme de déploiement de VMs Linux hébergées dans Azure, objet de cette section

Et 2 autres dans votre environnement à demeure :

  • Hortonworks HDP 2.2 sous Linux ou sous Windows avec le contrôle complet de la configuration logicielle selon vos souhaits,
  • Microsoft Analytics Platform System (APS), un système de plateforme d'analyse qui réunit la technologie de stockage de données et de traitement massif (MPP) de Microsoft, SQL Server Parallel Data Warehouse (PDW), et HDInsight, la distribution 100 % Apache Hadoop de Microsoft, et qui fournit le tout en tant qu'application clés en main. Pour intégrer des données provenant de SQL Server PDW avec des données provenant de Hadoop, APS propose la technologie de recherche de données PolyBase.

Nous en avons à présent terminé de notre tour d’horizon des évolutions et nouveautés. Nous espérons que vous disposez à présent d’une meilleure appréhension des apports récents de cette offre Azure HDInsight.

Pour plus d’informations sur Azure HDInsight ou pour vous rafraichir la mémoire, nous vous invitons à aller lire ou relire les billets de ce blog, ceux publiés sur le Blog Microsoft Azure, ainsi qu’à consulter la documentation Azure HDInsight disponible.

N’oubliez pas non plus le Forum MSDN Azure HDInsight qui est là pour faciliter la création d’une communauté d’échanges sur le sujet.