¿Qué es Hortonworks y en qué consiste?

hortonworks

Hortonworks  es una compañía de software de inteligencia de datos (big data), que se encarga de crear, distribuir y soportar plataformas de datos abiertas listas para la empresa y aplicaciones de datos modernas.

Su enfoque se centra en impulsar la innovación en comunidades de código abierto como Apache Hadoop, NiFi y Spark.

Historia

Hortonworks fue fundada en junio del año 2011, financiada por $ 23 millones de capital de riesgo de Yahoo! y Benchmark Capital.

Su primera oficina se encontraba en Sunnyvale, California. La compañía se basa en el empleo de software de código abierto como Apache Hadoop. El producto Hortonworks Data Platform (HDP) incluye Apache Hadoop y se utiliza para almacenar, procesar y analizar grandes volúmenes de datos.

La plataforma está hecha para tratar datos provenientes de diversas fuentes y formatos.

La plataforma incluye tecnología Hadoop, como Hadoop Distributed File System, MapReduce, Pig, Hive, HBase, ZooKeeper y componentes adicionales.

hortonworks

Plataforma de datos de Hortonworks (HDP)

La plataforma de datos de Hortonworks, cuanta con la tecnología de Apache Hadoop, que es una plataforma altamente escalable para almacenar, procesar y analizar volúmenes grandes de datos.

Hortonworks Data Platform consiste en el conjunto básico de proyectos de Apache Hadoop que incluyen: MapReduce, Hadoop Distributed File System (HDFS), HCatalog, Pig, Hive, HBase, Zookeeper y Ambari.

Hortonworks es el principal proveedor de código y parches para muchos de esos proyectos.

La distribución HDP consta de los siguientes componentes: [38]


Componentes de la Plataforma de datos de Hortonworks (HDP)

1.- Plataforma Core Hadoop (Hadoop HDFS y Hadoop MapReduce)
2.- Base de datos no relacional (Apache HBase)
3.- Servicios de metadatos (Apache HCatalog)
4.- Plataforma de scripts (Apache Pig)
5.- Acceso a datos y consulta (Apache Hive)
6.- Planificador de flujo de trabajo (Apache Oozie)
7.- Coordinación del clúster (Apache Zookeeper)
8.- Gestión y monitoreo (Apache Ambari)
9.- Servicios de integración de datos (API de HCatalog, WebHDFS, Talend              Open Studio para Big Data y Apache Sqoop)
10.- Servicios de gestión de registros distribuidos (Apache Flume)
11.- Biblioteca de aprendizaje de máquinas (Mahout)

 

 

Comentarios

Puedes compartir este post si te gustó!