Souhaitons la bienvenue au nouveau blog MSDN Machine Learning France ! :)

Depuis 2 ans, ce blog essaie de démystifier ce que l’on appelle aujourd’hui les Big Data ou déluge de données. Nous avons ainsi commencé par nous intéresser à Hadoop et à son écosystème, ce dernier étant reconnu comme étant l’un des plus aboutis et surtout le plus utilisé concernant le traitement de grands volumes de données. Nous avons ainsi détaillé comment l’installer et l’utiliser sur différentes plateformes ou sous forme de service à la demande avec Azure HDInsight, en proposant plusieurs cas d’utilisation.

Plus récemment, nous avons plutôt orienté notre vision vers l’exploitation de la donnée en général au travers des billets détaillant l’offre proposée par Microsoft et des différents billets concernant l’apprentissage automatique, domaine plus fréquemment désigné par sa traduction anglaise : le Machine Learning.

Dans ce contexte, nous remarquons qu’aujourd’hui, de plus en plus, les termes Big Data et Machine Learning sont employés à tort et utilisés de manière interchangeable.

Si savoir accéder à et traiter ces grands volumes de données de manière efficace (Big Data) s’avère nécessaire, tout l’enjeu de l’analyse de données réside dans l’art de tirer du sens de ces données.

« D'ailleurs nous devrions plus parler de "Machine Learning" que de Big Data. »

Bernard Ourghanlian, Directeur technique Microsoft France

Cette discipline est appelée fouille de données (Data Mining) ou plus récemment apprentissage automatique (Machine Learning) :

  • Le Data Mining s’attache à tirer de l’information des données. (Les Analytics sont des outils qui permettent de faire dans la pratique de la fouille de données.)
  • Le Machine Learning désigne une branche de l’intelligence artificielle, qui tente de créer une forme d’intelligence à partir de données.

Si Data Mining et Machine Learning correspondent à une discipline similaire dans notre contexte, nous garderons cependant le terme Machine Learning, rappelant souvent des méthodes plus avancées et plus dans l’ère du temps.

Cette « clarification » étant faite, Big Data et Machine Learning désignent dans les faits deux domaines différents qu’il convient de traiter de manière différente. Toutefois, la confusion générale entre ces deux disciplines n’est pas due au hasard. Il existe un lien fort entre elles et souvent il s’avère intéressant de faire des Big Data et du Machine Learning en même temps, mais dans la plupart des cas il est question de Machine Learning sans parler de Big Data, et inversement, on peut parler de Big Data sans parler de Machine Learning.

Si l’on admet que la compréhension du monde pour le Machine Learning est stockée sous forme de modèle et est réutilisable sur de nouveaux jeux de données afin de faire des prédictions, il s’avère ainsi possible de comprendre le lien entre Big Data et Machine Learning de la manière suivante :

Concevoir un modèle en Machine Learning nécessite des données, et c’est à partir des informations extraites de ces données que l’on peut prendre une décision. Plus les données d’entraînement sont complètes, plus la décision prise est fine. Les Big Data interviennent donc en complément du Machine Learning, car ils permettent d’appliquer les méthodes de Machine Learning sur de grands volumes de données, en espérant qu’augmenter le volume de données apporte plus d’informations pour la prise de décision.

Dans des études de Machine Learning, afin d’obtenir un modèle prédictif performant, on sera souvent tentés d’analyser de très grandes sources de données, typiquement des réseaux sociaux, bien que le volume de données ne soit pas une nécessité, loin s’en faut.

Pour dissiper la confusion générale, ce blog continuera à traiter des Big Data et laissera au nouveau blog MSDN Machine Learning France (aka.ms/MLFrance) la charge de traiter les sujets propres au Machine Learning.

Nous espérons que cette nouvelle organisation apportera une clarification sur les domaines traités et permettra aux acteurs des différents domaines de trouver leur bonheur plus rapidement :)