BigData y Hadoop en Windows Azure por Ibon Landa


Me van a permitir que escriba un pequeño post que sirva de homenaje y al mismo tiempo de índice de una serie de artículos impagables escritos por el maestro de Windows Azure Ibon Landa, de nuestro socio Plain Concepts.

HadoopPost 1: la serie se inicia con los conceptos iniciales, explicando lo que es BigData y trayendo a colación algunos ejempos de los más habituales. También introduce por primera vez de manera ordenada los primeros términos que tenemos que conocer: Hadoop, MapReduce, Hive, Sqoop…

Post 2: Resumen rápido de qué aporta Microsoft en todo el proyecto, y muy especialmente desde el punto de vista del desarrollador (C#, JavaScript…), y del usuario final, el de negocio (noticia, podemos conectar Hadoop con Excel).

Post 3: Un paseo por las pantallas por las que hay que ir pasando para provisionar una instancia de Hadoop como servicio en Windows Azure, las distintas funcionalidades que están accesibles. Se puede crear un cluster en minutos, y el aspecto gráfico te sorprenderá, porque usamos el estilo Metro (el de Windows 8, Windows Phone 7 y la XBOX) para los paneles de control.

Post 4: Conjunto de pantallazos necesarios para conectar Hadoop con Excel y Power Pivot, que permite poner toda la potencia del big data en las manos de los usuarios de negocio que van a ser capaces de poner en contexto y comprender al máximo la información contenida en nuestro sistema.

Post 5: Un programa que se puede ejecutar. Un ejemplo fácil de entender aplicado a un entorno real, y que permite sacar las diez palabras que aparecen más veces en un texto de Da Vinci.

Post 6: Cortito y al pie, un ejemplo sobre cómo podemos utilizar Sqoop para conectar a Hadoop los datos contenidos en SQL Server o SQL Azure. Este es uno de los temas de conversación siempre: hay cargas de trabajo que se ejecutan mejor en una base de datos relacional, y seguramente siempre será así. Lo interesante es favorecer la convivencia entre los dos mundos.

Parte 7: para aprovechar la información existente en un cluster Hadoop se creó para su uso en Facebook un componente llamado Hive, que permite funcionar de una manera parecida a un data warehouse. En el post tenemos un ejemplo de cómo cargar un weblog, realizar una consulta, y posteriormente conectarlo otra vez con Excel para que un usuario pueda usar las consultas en un entorno conocido.

No sé si habrá más post sobre este tema en el futuro, pero espero que Ibon nos siga ilustrando.


Comments (0)

Skip to main content