31 ENE 2018

Hadoop, como gestionar y analizar los Big Data

Hadoop, qué es y cómo funciona

Hadoop es una plataforma para procesar grandes cantidades de datos, cuya análisis ayuda en los negocios. Hadoop es uno de los primeros entornos de trabajo para analizar Big Datos y sigue siendo uno de los más afidables.

Hadoop es una implementación de código abierto de una plataforma que pertenece a Google, MapReduce. Su funcionamiento, por eso, refleja lo de MapReduce que, resumiendo, reduce el procesamiento de los datos en dos fases diferentes que deben sus nombres a dos ordenes del lenguaje Lisp: Map y Reduce. En la fase Map los datos son elaborados individualmente, mientras que en la fase Reduce los datos que tienen algunas “afinidades” (que dependen del tipo de cálculo que se quiere hacer) se elaboran juntos.

¿Cuáles son los componentes de Hadoop?

En Hadoop hay tres componentes principales:

  • HDFS: un sistema de archivos distribuido, es decir diseñado para un uso en ordenadores conectados entre ellos en la red;
  • MapReduce: que es el entorno verdadero;
  • YARN: que se ocupa de gestionar los recursos y controla la esecución.

¿Cuáles son las analíticas de Hadoop?

Hadoop tiene muchísimas analíticas, cuyo uso depende de las específicas funcionalidades pedidas. Entre las muchas citamos HIVE y PIG. Hive es una infraestructura de almacén de datos que permite el resumen de los datos, las interrogaciones y los análisis. PIG, en cambio, es una plataforma que ofrece un lenguaje de alto nivel para interrogar los datos, junto a la infraestructura para elaborar los programas.

Distribuciones comerciales de Hadoop, ¿cuáles son los instrumentos incluidos?

Las distribuciones incluyen muchos instrumentos entre los cuales:

  1. Spark: se trata de un motor de elaboración de grandes cantidades de datos;
  2. Kafka: un motor en tiempo real;
  3. Impala: es la base de datos analítica nativa de Hadoop;
  4. Flume: colecciona y elabora Log.

De Hadoop a Spark: ¿qué evolución?

Spark, como ya señalado antes, es un motor de elaboración de grandes cantidades de datos alternativo a Hadoop. Spark procesa los datos que tiene en su memoria y ha sido demostrado que, para algunas tipologías de tareas, logra ser incluso 100 veces más rápido de Hadoop.

Elaborado por Lucia D’Adamo, en colaboración con Luigi Laura, supervisado por Marco Pirrone

Últimas Noticias