¿Qué es Hortonworks y en qué consiste?

Hortonworks  es una compañía de software de inteligencia de datos (big data), que se encarga de crear, distribuir y soportar plataformas de datos abiertas listas para la empresa y aplicaciones de datos modernas.

Su enfoque se centra en impulsar la innovación en comunidades de código abierto como Apache Hadoop, NiFi y Spark.

Historia

Hortonworks fue fundada en junio del año 2011, financiada por $ 23 millones de capital de riesgo de Yahoo! y Benchmark Capital.

Su primera oficina se encontraba en Sunnyvale, California. La compañía se basa en el empleo de software de código abierto como Apache Hadoop. El producto Hortonworks Data Platform (HDP) incluye Apache Hadoop y se utiliza para almacenar, procesar y analizar grandes volúmenes de datos.

La plataforma está hecha para tratar datos provenientes de diversas fuentes y formatos.

La plataforma incluye tecnología Hadoop, como Hadoop Distributed File System, MapReduce, Pig, Hive, HBase, ZooKeeper y componentes adicionales.

hortonworks

Plataforma de datos de Hortonworks (HDP)

La plataforma de datos de Hortonworks, cuanta con la tecnología de Apache Hadoop, que es una plataforma altamente escalable para almacenar, procesar y analizar volúmenes grandes de datos.

Hortonworks Data Platform consiste en el conjunto básico de proyectos de Apache Hadoop que incluyen: MapReduce, Hadoop Distributed File System (HDFS), HCatalog, Pig, Hive, HBase, Zookeeper y Ambari.

Hortonworks es el principal proveedor de código y parches para muchos de esos proyectos.

La distribución HDP consta de los siguientes componentes: [38]


Componentes de la Plataforma de datos de Hortonworks (HDP)

1.- Plataforma Core Hadoop (Hadoop HDFS y Hadoop MapReduce)
2.- Base de datos no relacional (Apache HBase)
3.- Servicios de metadatos (Apache HCatalog)
4.- Plataforma de scripts (Apache Pig)
5.- Acceso a datos y consulta (Apache Hive)
6.- Planificador de flujo de trabajo (Apache Oozie)
7.- Coordinación del clúster (Apache Zookeeper)
8.- Gestión y monitoreo (Apache Ambari)
9.- Servicios de integración de datos (API de HCatalog, WebHDFS, Talend              Open Studio para Big Data y Apache Sqoop)
10.- Servicios de gestión de registros distribuidos (Apache Flume)
11.- Biblioteca de aprendizaje de máquinas (Mahout)

 

 

Todo lo que debes saber sobre MongoDB

MongoDB es una base de datos NoSQL de código abierto que utiliza un modelo de datos orientado a documentos. Es uno de los sistemas y bases de datos NoSQL más importantes y potentes en la actualidad. Conoce aquí todos los aspectos que tienes que saber sobre este fabuloso sistema.

¿Qué es MongoDB?

Es uno de las bases de datos NoSQL más importantes hoy en día. Siendo una base de datos NoSQL, no usa filas y columnas habituales que tanto asociamos con la gestión de bases de datos relacionales. Su arquitectura se basa en colecciones y documentos. La unidad básica de datos en esta base de datos consiste en un conjunto de pares clave-valor.

  • MongoDB  nos proporciona una interesante combinación entre tecnología y datos para una obtener una adecuada ventaja competitiva.
  • Es el más idóneo para aplicaciones de misión crítica, ya que hace reducir considerablemente los riesgos.
  • Aumenta progresivamente el tiempo de valuación y disminuye el costo total de propiedad
  • Construye aplicaciones que regularmente no podría ser posible con las bases de datos tradicionales.

Historia de MongoDB

Su origen se remonta a mediados del año 2000 como parte de un intento de descifrar todos los registros NoSQL llegando espeso y rápido.

La razón por la cual esta tecnología nació se debió a los problemas de escalabilidad con los sistemas de bases de datos tradicionales al crear aplicaciones web por parte de los fundadores de MongoDB. MongoDB fue de código abierto en el año 2009 y la última versión de MongoDB es 3.6.

MongoDB

Escalabilidad de los datos en MongoDB

Es excepcional la escalabilidad de MongoDB, cuenta con la opción de escalar sus datos a través de múltiples centros de datos distribuidos en ubicaciones geográficamente diversas, de igual manera facilita cada vez más la obtención de datos y la escalabilidad a demanda.

MongoDB tiene un conjunto integrado de funciones que le permite derivar análisis y visualización de datos, realizar procesamiento en memoria, procesamiento de gráficos, búsqueda de texto y replicación global, ofreciendo una amplia variedad de aplicaciones en tiempo real usando solo la aplicación MongoDB.

Además uno de los atributos que más gustan a las empresas es el hecho de que el costo total de MongoDB es bastante económico. Se puede ejecutar fácilmente en hardware básico y, el costo incluso es hasta diez veces menos en comparación con las bases de datos relacionales.

La arquitectura de MongoDB 

La base de datos: Cada una de las bases de datos tiene un conjunto propio de archivos en el sistema de archivos con diversas bases de datos existentes en un solo servidor.

La colección: un conjunto de documentos de base de datos se puede llamar como una colección. El equivalente RDBMS de la colección es una tabla. Toda la colección existe dentro de una única base de datos. No hay esquemas cuando se trata de colecciones. Dentro de la colección, los diversos documentos pueden tener campos variados, pero la mayoría de los documentos dentro de una colección tienen el mismo objetivo o tienen el mismo objetivo final.

El documento: un conjunto de pares clave-valor puedes ser designado como un documento. Los documentos están asociados con esquemas dinámicos. La ventaja de tener esquemas dinámicos es que el documento en una sola colección no tiene que tener la misma estructura o campos. De igual forma los campos comunes en el documento de una colección pueden tener varios tipos de datos.

Configurando MongoDB

El proceso de configuración implica la descarga del archivo binario MongoDB para la plataforma Windows. Después debe extraer e instalar el archivo MongoDB. Luego de este paso, debe configurar los parámetros de configuración e iniciar / detener MongoDB, ya sea mediante línea de comando o mediante el uso de servicios de Windows.

¿Por qué necesitamos MongoDB?

El almacenamiento de datos está orientado a documentos y se realiza en documentos de estilo JSON.

MongoDB, Ofrece el beneficio de replicación y disponibilidad alta. Los datos se pueden indexar en función de cualquier atributo. Es posible realizar autodescripciones de datos. Ofrece opciones de consultas ricas y rápidas en el lugar.

Mongodb

Características de MongoDB

– Cualquier campo en el documento puede ser indexado
– Compatibilidad con la replicación del esclavo maestro.
– La base de datos puede ejecutarse en varios servidores. Los datos se duplican para proteger el sistema en caso de falla del hardware.
– Admisión de MapReduce y herramientas de agregación
– Fácil administración en caso de fallas
– Está sin esquema escrito en C ++
– La combinación de MongoDB y JavaScript funciona bien ya que la base de datos usa el lenguaje en lugar de los procedimientos.

¿Cuáles son las ventajas de MongoDB?

A continuación analizaremos los 5 aspectos a través de los cuales podemos darnos cuenta de los beneficios de MongoDB:

  • Plataforma de datos distribuidos: MongoDB se puede ejecutar en todos los centros de datos distribuidos, para garantizar nuevos niveles de disponibilidad y escalabilidad.
  • Desarrollo rápido e iterativo: Un modelo de datos flexible con esquema dinámico, con una poderosa interfaz gráfica de usuario y herramientas de línea de comando facilitan a los desarrolladores la creación y evolución de aplicaciones.
  • Modelo de datos flexible: Permite el almacenamiento de datos en documentos flexibles similares a JSON, lo que hace que la persistencia de los datos y la combinación sean fáciles.
  • TCO reducido (costo total de propiedad): los desarrolladores de aplicaciones pueden hacer su trabajo mucho mejor cuando se usa MongoDB. El equipo de operaciones también puede realizar bien su trabajo gracias al servicio en la nube de Atlas. Los costos se reducen significativamente ya que MongoDB se ejecuta en hardware básico.
  • Conjunto de características integrado: se pueden obtener diversas aplicaciones en tiempo real gracias a análisis y visualización de datos, canalizaciones de datos de transmisión por eventos, búsqueda de texto y geoespacial, procesamiento de gráficos, rendimiento en memoria y replicación global de manera confiable y segura.

¿Qué es Apache Storm? Conoce todos los detalles

Apache Storm es un sistema utilizado para procesar datos en tiempo real. Es de fuente abierta y gratuita. Este gran sistema facilita el procesamiento de flujos ilimitados de datos. Además, su uso resulta muy simple, y puede ser utilizado con cualquier lenguaje de programación.

¿Cómo funciona Storm?

Storm cuenta con tres conjuntos de nodos:

  1. Nodo Nimbus (nodo principal): carga los cálculos para la ejecución, distribuye el código en el clúster, lanza trabajadores en todo el clúster y monitorea el cálculo y reasigna trabajadores según sea necesario
  2. Nodos ZooKeeper: coordina el clúster Storm
  3. Nodos de supervisor: se comunica con Nimbus a través de Zookeeper, inicia y detiene a los trabajadores según las señales de Nimbus.

Storm

¿Qué nos ofrece Apache Storm?

Storm es un sistema extremadamente rápido y es capaz de procesar hasta más de un millón de registros por segundo por nodo en un clúster de modesto tamaño.

El usuario tiene la posibilidad de aprovechar esta gran velocidad y combinarla con otras aplicaciones de acceso a datos en hadoop, y así evitar sucesos indeseables y obtener resultados positivos.

Storm nos ofrece oportunidades comerciales muy específicas que incluyen:

  • Administración de servicio al cliente en tiempo real
  • Monetización de datos
  • Cuadros de mando operativos o análisis de seguridad cibernética
  • Detección de amenazas.

 

Casos de “prevención” y “optimización” para Storm

A continuación te presentamos Casos de uso del Storm

Usos de Storm

Storm es ideal para el procesamiento de datos en tiempo real

Te presentamos 5 Cinco características que convierten a Storm en el ideal para cargas de trabajo de procesamiento de datos en tiempo real.

Rápido: evaluado como procesamiento de un millón de mensajes de 100 bytes por segundo por nodo
Escalable: con cálculos paralelos que se ejecutan en un conjunto de máquinas
Tolerante a fallas: cuando los trabajadores mueren, Storm los reinicia automáticamente. Si un nodo muere, el trabajador se reiniciará en otro nodo.
Confiable: garantiza que cada unidad de datos se procesará al menos una vez. Los mensajes solo se reproducen cuando hay fallas.
Fácil de operar: las configuraciones estándar son las idóneas para la producción incluso desde el primer día.

¿Qué es Tableau Software? La poderosa herramienta del Big data

Tableau es de las mejores herramientas de inteligencia para negocios y visualización de datos. Incluso Gartner Inc. la ha posicionado por quinto años consecutivo como la más alta en capacidad para plataformas de analítica e inteligencia empresarial.

Tableau Public

Si bien es cierto que Tableau es una herramienta cuyo costo no es bajo, existe una versión gratuita de Tableau llamada Tableau Public. Dentro de este producto público de Tableau contamos con estos dos:

A) Tableau Public Desktop: 

Presenta algunas limitaciones en comparación con Tableau Desktop que se paga como si su libro de trabajo de Tableau tuviera que guardarse en Tableau Public Cloud. Otra limitación es que puede trabajar únicamente con los datos locales.

B) Tableau Public Server:

Está alojado en la nube por la empresa Tableau. Todos sus libros de trabajo y datos están disponibles gratuitamente a través de Tableau Public Cloud. Cuando se trata de fuentes de datos, todas deben ser extractos y no puede tener filas que excedan el millón.

Tableau Reader

Tableau Reader es una aplicación de escritorio gratuita que se puede implementar directamente para trabajar con la visualización de varios datos de Tableau.

Tableau Reader está integrado directamente en Tableau Desktop. Con Tableau Reader puede realizar muchas tareas, como por ejemplo profundizar datos, descubrir datos y realizar filtrado de datos.

Se trata de en un libro de trabajo de Tableau que es un archivo que tiene los guardados los datos con él. Al tener acceso al libro de trabajo en el servidor, es posible descargarlo junto con los datos. De esta manera, puede trabajar directamente con Tableau Reader. Sin embargo Tableau Reader no se puede conectar a Tableau Server.

Tableau

Es muy fácil usar Tableau

No se necesita el apoyo del equipo técnico para comprender adecuadamente el producto Tableau. Es la verdadera democratización de los datos y todos los niveles de la organización pueden acceder a los datos sin problema alguno. Todo esto da a lugar a una sensación de transparencia, agilidad y una toma de decisiones acertadas.

Independientemente de si se usa Tableau Public o la versión paga de Tableau, todo lo que hay que hacer es completar la descarga de Tableau y posteriormente, realizar una mínima configuración y poner manos a la obra.

Tableau es una auténtica maravilla pues la visualización de los datos es fácil, simple y rápida.

Tableau

¿Porque Tableau trabaja de una forma tan intuitiva?

Tableau se diferencia de cualquier otra herramienta de inteligencia de negocios y visualización de datos en el mercado.

Tiene un enfoque muy amigable para trabajar con datos. Es fácil aprender a usar Tableau. Esto se debe a que los fundadores de Tableau se se han preocupado por imitar la forma en que la mente humana entiende los datos y los pone en práctica visualizando los datos a través de Tableau

Combina perfectamente las tecnologías de base de datos, los gráficos informáticos y, por consiguiente, ayuda a responder las preguntas de datos más urgentes.

Trabajando con Tableau Dashboard

Con Tableau Dashboard se pueden realizar acciones como:

  • Creación de historias con Dashboard
  • Agregar objetos y vistas a paneles
  • Desplegar filtros en tableros
  • Experimentar con diferentes formatos y diseños
  • Hacer que el tablero sea interactivo

Tableau vs Microsoft Excel, ¿Cómo se diferencian?

Una de las aplicaciones de hojas de cálculo más utilizadas sin duda es Microsoft Excel. Por lo tanto, es se suele confundir la aplicación Tableau con la de las aplicaciones Excel, sobre todo los principiantes.

Las dos herramientas son útiles para crear visualización de datos y análisis de datos. Sin embargo, la manera en que se construyen estas dos herramientas es muy diferente.

Tableau es prácticamente una herramienta de visualización de datos y debido a esto las representaciones pictóricas son muy importantes.

En cambio Excel es básicamente una hoja de cálculo para trabajar con datos en filas y columnas.

Cuando se trata de Excel, debe tener un conocimiento previo de la información que desee y luego trabajar con las diversas fórmulas para llegar allí junto con la tabulación necesaria.

Sin embargo, con Tableau es distinto ya que puedes llegar a ideas que nunca creíste posibles. Puede jugar con las visualizaciones interactivas, implementar las herramientas de exploración de datos y explorar los diversos datos que están disponibles y no necesita tener el conocimiento específico de la información que está buscando de antemano.

Tableau

Ventajas de usar Tableau

Las visualizaciones fantásticas:

Es uno de los puntos fuertes de esta herramienta. Posee la capacidad de trabajar con unas grandes cantidades de datos, y crear un rango de visualizaciones.

Información detallada:

Tableau apoya a las empresas a analizar los datos sin tener en cuenta objetivos específicos. Puede explorar las visualizaciones y mirar los mismos datos desde diferentes ángulos. Puede encuadrar las consultas “qué pasa si” y trabajar con datos visualizando hipotéticamente los datos de manera diferente y agregando componentes dinámicamente para su comparación y análisis. Cuando trabajas con datos en tiempo real, estas capacidades se acentúan de una manera muy grande.

Enfoque fácil de usar:

Tableau está construido desde cero para las personas que no tienen ninguna habilidad técnica o experiencia de codificación para el caso. Entonces todo puede ser hecho por cualquier persona sin ningún conjunto previo de habilidades.

Trabajar con fuentes de datos dispares:

Tableau tiene una ventaja sobre otras herramientas de análisis e inteligencia comercial. Tableau le permite trabajar conectándose a varias fuentes de datos, almacenes de datos, archivos que existen en la nube, big data, datos que existen en las hojas de cálculo, datos no relacionales entre otros tipos de datos.

Tableau combina sin esfuerzo todos los diferentes tipos de datos para ayudar a las organizaciones a presentar visualizaciones atractivas.

¿Qué es Hadoop? ¿Para qué se usa y como se usa?

¿Qué es exactamente Hadoop? En pocas palabras, Hadoop es un conjunto de programas y procedimientos de código abierto que cualquiera puede usar como la “columna vertebral” de sus operaciones de Big Data.

¿Cuál es la historia de hadoop?

A medida que la World Wide Web creció a principios de este siglo, los motores de búsqueda y los índices fueron creados para ayudar a localizar información relevante.

A medida que la web fue creciendo, se fue  necesitando automatización. Entonces se crearon rastreadores web, algunos como proyectos de investigación dirigidos por algunas universidades y arrancaron los motores de búsqueda como: Yahoo, AltaVista, etc.

Uno de esos proyectos fue un motor de búsqueda web de código abierto llamado Nutch, creación de Doug Cutting y Mike Cafarella. Ellos pretendían devolver resultados de búsqueda web más rápido distribuyendo datos y cálculos entre diferentes computadoras para que se pudieran realizar múltiples tareas simultáneamente. Durante este tiempo, otro proyecto de motor de búsqueda llamado Google estaba en progreso. Se basaba en el mismo concepto: almacenar y procesar datos de forma distribuida y automatizada para que los resultados de búsqueda web relevantes pudieran devolverse más rápidamente.

Para el año 2006, Cutting decidió unirse a Yahoo y se llevó consigo el proyecto Nutch, así como ideas basadas en los primeros trabajos de Google con la automatización del almacenamiento y procesamiento de datos distribuidos.

hadoop

El proyecto de Nutch se dividió: la parte del rastreador web permaneció como Nutch y la porción de procesamiento y computación distribuida se convirtió en Hadoop (que lleva el nombre del elefante de juguete del hijo de Cutting).

En 2008, Yahoo lanzó al mundo Hadoop como un proyecto de código abierto. En la actualidad,  Apache Software Foundation (ASF), una comunidad global de desarrolladores de software y colaboradores, gestiona y mantiene el marco y el ecosistema de tecnologías de Hadoop.

¿Por qué es importante Hadoop? 

Hadoop nos presenta múltiples características que lo hacen único y especial:

  • Capacidad para almacenar y procesar cantidades grandes de cualquier tipo de datos, y además de forma rápida: Con volúmenes y variedades de datos en constante aumento, especialmente desde las redes sociales y el Internet de las cosas (IoT), esa es una consideración clave.
  • Cuenta con Poder computacional: El modelo de computación distribuida de Hadoop es capaz de procesar grandes cantidades de datos rápidamente. Cuantos más nodos de computación use, más poder de procesamiento tendrá.
  • Tolerante a fallos: El procesamiento de aplicaciones y datos está protegido contra fallas del hardware. Si un nodo se cae, los trabajos se redirigen de forma automática a otros nodos para asegurarse de que la informática distribuida no falle. Varias copias de todos los datos se almacenan automáticamente.
  • Es muy Flexible: A diferencia de las bases de datos tradicionales, no es necesario procesar previamente los datos antes de almacenarlos. Puede almacenar tantos datos como usted guste y decidir cómo usarlos más adelante. Eso incluye datos no estructurados como imágenes, textos o vídeos.
  • Es de bajo costo: El marco de código abierto es totalmente gratuito y utiliza hardware básico para almacenar grandes cantidades de datos.
  • Es escalable: Puede hacer crecer fácilmente su sistema para manejar más datos simplemente agregando nodos. Se requiere poca administración.

Hadoop

¿Cómo se usa Hadoop? 

Los usos más populares de Apache Hadoop incluyen:

Almacenamiento con un costo bajo y archivado de datos 

El bajo costo del hardware básico hace que Hadoop sea muy útil para almacenar y combinar datos como transaccionales, redes sociales, sensores, máquinas, científicos, transmisiones de clics, etc. El almacenamiento de bajo costo le permite mantener información que no se considera actualmente crítica pero con la posibilidad de que usted la analice después.

Sandbox para descubrimiento y análisis 

Debido a que Hadoop fue diseñado para manipular volúmenes de datos en diversas formas, es capaz de ejecutar algoritmos analíticos. El análisis de Big Data en Hadoop puede ayudar a que su organización funcione de manera muy eficiente, y a la vez  pueda descubrir nuevas oportunidades y obtenga una ventaja competitiva. El enfoque de sandbox  le brinda la oportunidad de innovar con tan solo una pequeña inversión

Lago de datos 

Data Lakes admite el almacenamiento de datos ya sea en su formato original o exacto. Su objetivo es ofrecer una vista de datos sin procesar a los especialistas de datos para su descubrimiento y análisis. Les permite hacer preguntas nuevas o difíciles sin restricciones.

Complementación de almacén de datos 

Apache Hadoop comienza a sentarse junto a los entornos de almacenamiento de datos, así como a ciertos conjuntos de datos que se descargan del almacén de datos en Hadoop o a nuevos tipos de datos que van directamente a Hadoop. El objetivo de cada organización es contar con una plataforma idónea para almacenar y procesar datos de diferentes esquemas, formatos, etc. para admitir diferentes casos de uso que se pueden integrar en diferentes niveles.

Internet de las cosas y Hadoop

Las cosas en el Internet de las cosas, necesitan saber qué comunicar y cuándo actuar. En el centro del IoT está la transmisión, siempre en torrente de datos.

Se suele usar Hadoop como almacén de datos para millones de transacciones. La gran capacidad de procesamiento y almacenamiento masivo también le permiten usar a Hadoop como un entorno limitado para la definición de patrones a monitorear para la instrucción prescriptiva.

Apache Hadoop

Nuevos desafíos para de usar Hadoop

La programación de MapReduce no es buena opción para todos los problemas: Si bien es cierto que es bueno para solicitudes de información simples y problemas divisibles en unidades independientes, también es cierto que no es eficiente para tareas analíticas iterativas e interactivas.

MapReduce necesita mucha utilización de archivos. Debido a que los nodos no se comunican entre sí, los algoritmos iterativos necesitan que se completen múltiples fases de desplazamiento de mapa / ordenación. Esto crea múltiples archivos entre las fases de MapReduce y no son eficaces para la computación analítica avanzada.

Existe una brecha de talento ampliamente reconocida: Puede ser difícil a veces encontrar programadores que tengan habilidades suficientes en Java para y que sean productivos con MapReduce.

Es una de las razones por las que los proveedores de distribución intentan darse prisa en poner la tecnología relacional (SQL) encima de Hadoop. Es mucho más fácil encontrar programadores que sepan de SQL que habilidades de MapReduce.

Seguridad de datos: Un gran desafió se encuentra en los problemas de seguridad de datos fragmentados, aunque están surgiendo nuevas herramientas y tecnologías. El protocolo de autenticación Kerberos es un gran paso para hacer que los entornos de Hadoop sean seguros.

Gestión de datos en toda regla: Hadoop no posee herramientas completas y fáciles de utilizar para la administración de datos, limpieza de datos, y metadatos. Más deficientes son sus herramientas para la calidad y estandarización de los datos.