Hadoop : Comment réduire ses coûts HDInsight pour le développement

  Comme on le voit dans ce diagramme, HDInsight est au cœur de la plateforme Big Data de Microsoft. L’offre Azure Data Lake Analytics et l’offre HDInsight ont un positionnement similaire. Suivant que vous préférez utiliser un code portable tout en bénéficiant d’un service géré, d’une part ou que vous voulez être dans un monde…


start a Pig + Jython job in HDInsight thru WebHCat

You can also use HDInsight with Hive + Python. The drawback of the latter is that you use streaming between Hive and Python. In Hadoop streaming is just a way to call stdin/stdout inter process communication. So if you just do simple operations like string concatenations between two fields in Python it may be slow….


HDInsight + PowerBI: un exemple simple

En octobre dernier, j’ai eu l’occasion de montrer comment analyser des données venant de logs Web et Twitter avec PIG et HIVE dans Hadoop, puis de croiser les résultats dans Excel, ce qui permet de décliner le résultat dans Power BI. Je mets ici les diapos et les vidéos (les vidéos sont les vidéos de…


How to deploy a Python module to Windows Azure HDInsight

Introduction In a previous post, I explained how to run Hive + Python in HDInsight (Hadoop as a service in Windows Azure). The sample showed a Python script using standard modules such as hashlib. In real life, modules need to be installed on the machine before they can be used. Recently, I had to use…


How to use HDInsight from Linux

HDinsight is very easy to use from PowerShell, but how would you create and delete a cluster from Linux? How would you submit a job and get the result? Here is is a simple sample and pointers to further documentation. 1. Create a cluster You can create a cluster with the Windows Azure Command Line…


How to install Hadoop on Windows Azure Linux virtual machines

Windows Azure HDInsight is the simplest option to get a Hadoop cluster up and running very quickly in a Windows Azure environment. Among other numerous advantages, this service allows to use Windows Azure blob storage (ASV or Azure Storage Vault for short) exactly as HDFS (Hadoop distributed file system). In its public beta version, Windows…


Installing HDInsight (Hadoop) on a single Windows box | Installation d’HDInsight (Hadoop) sur une machine Windows

Announced at the //build conference, HDInsight is available as a Web Platform Installer installation. This allows to have Hadoop on a Windows box (like a laptop) without requiring cygwin. Comme annoncé à la conférence //build, HDInsight est disponible à l’installation depuis Web Platform Installer. Cela permet d’avoir Hadoop sur une machine Windows (un portable par…


Hadoop + SSIS, SSIS + Windows Azure Blob Storage

I worked on a white paper which has just been published on MSDN J’ai travaillé sur un livre blanc qui vient d’être publié sur MSDN Leveraging a Hadoop cluster from SQL Server Integration Services (SSIS) I’d like to point out that the paper comes with sample code (thanks Rémi!) that can also be used besides…


TechDays 2012: JavaScript aussi sur le serveur et jusque dans le cloud?

The session about server side JavaScript is available online with its slides and its video. Here are the links (NB: the content is in French) La session “JavaScript aussi sur le serveur et jusque dans le cloud?” est disponible en ligne https://aka.ms/wd3afq JavaScript becomes more and more important and Microsoft makes its execution very efficient….


HADOOP, HIVE, ODBC, SSIS, SQL Azure, SQL Azure Reporting

  In a previous post, I talked about analyzing 1 TB of IIS logs with JavaScript thru Hadoop Map/Reduce. In this post, let’s see how to copy and use the result of these jobs to SQL Azure. Dans un billet précédent, il a été question de l’analyse d’1 To de logs IIS avec JavaScript dans…