Cloudera vs Hortonworks. ¿Cuál es la mejor?

Cada día se originan conjuntos masivos de datos provenientes de diferentes organizaciones o empresas, y cuya gestión resulta ser muy compleja. Razón por la cual nació Apache Hadoop, la cual nos da la facilidad para el almacenamiento distribuido y posterior procesamiento de grandes conjuntos de datos.

Tan grande es la magnitud y el potencial de Hadoop, que se estima que para el año 2021 tenga un crecimiento medio de 43.4%

En la actualidad existen varias opciones para explotar todo el potencial que nos proporciona Hadoop, las más utilizadas son: Hortonworks y Cloudera.

A continuación, analizaremos sus características, similitudes y sus notables diferencias

Similitudes entre Cloudera y Hortonworks

Tanto Cloudera como Hortonworks se basan en el mismo núcleo de Apache Hadoop. Por consiguiente, es entendible que ambas distribuciones tengan más similitudes que diferencias.

Las similitudes entre Cloudera y Hortonworks más notables son:

  • Ambos ofrecen distribuciones de Hadoop listas para las organizaciones.
  • Las distribuciones otorgadas por ambos proveedores dan garantía, seguridad y estabilidad.
  • Tanto Cloudera como Hortonworks ofrecen capacitación y soporte para la familiarización de los profesionales con las herramientas.
  • Ambas distribuciones poseen una arquitectura maestro-esclavo.
  • Ambos proveedores admiten MapReduce y YARN.

Cloudera vs Hortonworks

Diferencias: Cloudera vs Hortonworks

Si bien es cierto que existen varias similitudes, Cloudera y Hortonworks también presentan notables diferencias. Demos un vistazo a sus aspectos diferenciadores:

  • Cloudera y Hortonworks poseen estrategias de productos muy opuestas.  Cloudera vende software comercial, además de su distribución de código abierto Hadoop, mientras que Hortonworks es un purista de código abierto y únicamente ofrece software certificado por la empresa Apache.
  • La estrategia en cuanto al crecimiento empresarial de Hortonworks se enfoca en incorporar Hadoop a las plataformas de datos existentes, mientras que Cloudera adopta el enfoque de un proveedor de software tradicional que se beneficia de las ventas de productos y compite con otros proveedores de software comercial.
  • HDP está incluido como un componente nativo en el servidor de Windows. Por otro lado, Cloudera CDH no es un componente nativo, pero se puede ejecutar en el servidor de Windows.
  • Hortonworks no viene con ningún software propio, por lo tanto, usa Ambari para administración, Stinger para manejo de consultas y Apache Solr para las búsquedas de datos. En cambio, Cloudera tiene un software de administración patentado, Cloudera Manager, Cloudera Search para el acceso en tiempo real de productos e Impala, una interfaz de manejo de consultas SQL.
  • Cloudera cuenta con una licencia comercial, mientras que Hortonworks tiene una licencia de código abierto.
  • Hortonworks es totalmente gratuito y Cloudera brinda servicios pagados. pero, ofrece una versión de prueba gratuita durante 60 días.

Cloudera vs Hortonworks

Conclusión:
Aunque se presentan varias similitudes entre Cloudera y Hortonworks, ambas tienen sus propias fortalezas y debilidades. Entonces, al elegir la distribución adecuada para su negocio, es importante tener en cuenta el valor agregado que pueda ofrecer cada uno.

Las organizaciones o empresas deben analizar el rendimiento, la escalabilidad, la capacidad de administración, la confiabilidad y el acceso a los datos, para ambas opciones, tomando muy en cuenta los objetivos a corto como a largo plazo.

Cloudera y Hortonworks son líderes del mercado en las distribuciones de Hadoop.

Si Cloudera proporciona componentes pagos sofisticados, Hortonworks es un purista. Ambas compañías son innovadores en el mundo de Hadoop y ambas están revolucionando el espacio de Big Data.

 

 

Grandes Datos (Big Data) vs Minería de Datos (Data Mining). ¿Porqué no es lo mismo?

 

Big Data y  minería de datos o data mining suelen relacionarse muy a menudo hoy en día, sin embargo, existen claras e importantes diferencias  entre ambos términos, y que a continuación vamos a explicar.

Antes de empezar el análisis de las diferencias recordaremos un poco la utilidad, tanto de Big data  como de Data mining.

Diferencias entre Big Data y Data Mining

¿Qué es Big Data?

Se refiere a un volumen grande de datos que pueden ser estructurados, semiestructurados y no estructurados. Comprende de 5 Vs, es decir

Volumen: se refiere a una cantidad de datos o tamaño de datos que puede estar en quintillón cuando se trata de big data.
Variedad: se refiere a diferentes tipos de datos como redes sociales, registros del servidor web, etc.
Velocidad: se refiere a qué tan rápido crecen los datos, los datos crecen exponencialmente y a un ritmo muy rápido.
Veracidad: se refiere a la incertidumbre de los datos como las redes sociales significa si los datos pueden ser confiables o no.
Valor: se refiere a los datos que estamos almacenando y si el procesamiento vale la pena y cómo nos estamos beneficiando de esta gran cantidad de datos.
Los datos grandes se pueden analizar en busca de ideas que conducen a mejores decisiones y movimientos comerciales estratégicos.

¿Cuántos datos se requieren para llamarse Big Data?

Regularmente, datos que son iguales o mayores a 1 Tb  son conocidos como Big Data. Algunos especialistas predicen que para el 2020, habrá 5,200 Gb de datos en cada persona en el mundo.

data mining

¿Por qué se considera importante el Big Data?

La importancia de Big Data no radica en cuántos datos tenemos, sino en lo que podemos obtener de esos datos. Podemos analizar datos para reducir costos y tiempo, tomar las mejores decisiones.

¿Qué es la Minería de Datos?

La extracción de datos también conocida como descubrimiento de conocimiento de los datos se refiere a la extracción de conocimiento de una gran cantidad de datos, es decir, Big Data. Se usa principalmente en la estadística, el aprendizaje automático e inteligencia artificial.

Los componentes de la minería de datos consisten principalmente en 5 niveles, que son:

  • Extraer, transformar y cargar datos en el almacén
  • Almacenar y administrar
  • Proporcionar acceso a datos (Comunicación)
  • Analizar (Proceso)
  • Interfaz de usuario (presentar datos al usuario.

Necesidad de Minería de Datos

La minería de datos nos brinda ayuda en las calificaciones de crédito, marketing, detección de fraude, como qué tipos de transacciones son como un fraude al verificar las transacciones pasadas de un usuario, verificar la relación del cliente, como qué clientes son leales y cuáles no.

Minería de datos

Big Data vs Data Mining: Diferencias

Data Mining y Big data son 2 conceptos diferentes.

Big data  se refiere a una gran cantidad de datos mientras que data mining se refiere a un drive profundo en los datos para extraer el conocimiento clave o información de una determinada cantidad de datos.

El concepto principal en Data Mining es profundizar en el análisis de los patrones y las relaciones de los datos que pueden usarse más en Inteligencia Artificial, Análisis Predictivo, etc. Pero el concepto principal en Big Data es la fuente, variedad, volumen de datos y cómo almacenar y procesar esta cantidad de datos.

Se puede decir que Data Mining no necesita depender de Big Data, ya que se puede hacer sobre la cantidad pequeña o grande de datos, pero los big data seguramente si dependen de Data Mining porque si no podemos encontrar el valor o importancia de una gran cantidad de datos, entonces esos datos no habrán servido.

En resumen, los grandes datos son los activos y la minería de datos es el administrador que se utiliza para proporcionar resultados beneficiosos.

 

 

Big Data vs Data Science ¿Cuáles son sus diferencias?

Existe compatibilidad entre Big Data y Ciencia de datos (Data Science)

Todos hemos sido testigos del crecimiento sorprendente de la información generada en todo el mundo y en Internet para dar como resultado el tan sonado concepto de Big Data.

Big data se refiere a una gran colección de datos procedentes de distintas fuentes y, por lo regular, no está disponible en formatos de bases de datos estándar de los que generalmente somos conscientes. Los datos grandes abarcan todos los tipos de datos, a saber, información estructurada, semiestructurada y no estructurada.

Sin embargo, el procesamiento de grandes datos no se puede lograr con facilidad utilizando métodos tradicionales de análisis de datos.

Los datos no estructurados requieren técnicas, herramientas y sistemas de modelado de datos especializados para extraer información según se vaya necesitando.

La ciencia de datos es un enfoque científico que aplica ideas matemáticas y estadísticas y herramientas informáticas para procesar datos grandes.

La ciencia de datos o Data Science, es un campo especializado que combina áreas múltiples como estadísticas, matemáticas, técnicas de captura de datos, limpieza de datos, minería y programación para preparar y alinear grandes datos para un inteligente análisis para obtener información.

Data Science es un área con grandes desafíos debido a las complejidades involucradas en la combinación y aplicación de diferentes métodos, algoritmos y complejas técnicas de programación para realizar análisis inteligentes en grandes volúmenes de datos.

Es un hecho que el campo de la ciencia de datos ha evolucionado a raíz del big data. Podemos asegurar que el big data y data science son inseparables. Sin embargo, existen varias diferencias entre ellas que a continuación analizaremos.

big data vs data science

Diferencias claves. Big Data vs Data Science

  • Las organizaciones necesitan grandes datos para mejorar la eficiencia, comprender mercados nuevos e incrementar la competitividad, Entonces la ciencia de datos proporciona los métodos para comprender y utilizar el potencial del big data de manera óptima.
  • Hoy en día, para las organizaciones, no hay límite para la cantidad de datos  que se pueden recopilar, sin embargo, para usar toda esta información para extraer información significativa para las decisiones de la organización, se necesita ciencia de datos.
  • Los datos grandes se caracterizan por su velocidad, variedad y volumen (popularmente conocidos como 3V), mientras que la ciencia de datos otorga las técnicas para analizar datos caracterizados por 3V.
  • Big data proporciona el potencial de rendimiento. Sin embargo, extraer información de Big Data para utilizar su potencial para mejorar el rendimiento es un desafío significativo. La ciencia de los datos o Data science usa enfoques teóricos y experimentales además del razonamiento deductivo. Tiene la gran tarea de descubrir toda la información perspicaz escondida de una compleja red de datos no estructurados, lo que ayuda a las organizaciones a darse cuenta del potencial del big data.
  • El análisis de Big Data realiza la extracción de información útil de grandes volúmenes de conjuntos de datos. Contrario al análisis, la ciencia de datos hace uso de algoritmos de aprendizaje automático y métodos estadísticos para entrenar a la computadora para aprender sin mucha programación para hacer predicciones a partir de datos masivos. Por lo tanto, la ciencia de los datos no se debe confundir con el análisis de big data.
  • Big data se relaciona más con la tecnología (Hadoop, Java, Hive, etc.), informática distribuida y herramientas y software de análisis. Esto se opone a la ciencia de datos que se centra en las estrategias para las decisiones comerciales, la diseminación de datos utilizando las matemáticas, las estadísticas y las estructuras y métodos de datos

Spark vs Hadoop, ¿Cuál es la mejor opcion?

Una pregunta muy frecuente a la hora de elegir una herramienta para procesar grandes datos es ¿usar Hadoop o Spark? Aquí te mostraremos un análisis en donde examinamos un conjunto común de atributos para cada plataforma, valorando el rendimiento, tolerancia a fallas, costo, facilidad de uso, procesamiento de datos, compatibilidad y seguridad.

Antes de iniciar el análisis comparativo es importante recordar y definir cada una de las herramientas por separado.

Usos de Hadoop

Es un proyecto de Apache.org. Hadoop puede escalar desde sistemas informáticos individuales hasta miles de sistemas básicos que ofrecen almacenamiento local y capacidad de cálculo.

Las empresas que usan grandes conjuntos de datos y análisis usan Hadoop. Se ha convertido en una aplicación importante de big data. Hadoop originalmente fue diseñado para manejar el rastreo y la búsqueda de miles de millones de páginas web y recopilar su información en una base de datos. El resultado del deseo de rastrear y buscar en la web fue HDFS de Hadoop y su motor de procesamiento distribuido, MapReduce.

Apache Hadoop

Usos de Spark

Aunque los críticos del procesamiento en memoria de Spark admiten que Spark es muy rápido, pues es hasta 100 veces más rápido que Hadoop MapReduce. Spark también puede realizar el procesamiento por lotes, pero, realmente se destaca en las cargas de trabajo de transmisión, las consultas interactivas y el aprendizaje basado en máquinas.

Comparación: Spark vs Hadoop

La causa de que Spark sea tan rápido es porque procesa todo en la memoria.  El procesamiento en memoria de Spark otorga un análisis casi en tiempo real para datos de campañas de marketing, aprendizaje automático, sensores de Internet de las cosas, monitoreo de registros, análisis de seguridad y sitios de redes sociales.

Mientras que, MapReduce alternativamente utiliza un procesamiento por lotes y en realidad nunca fue construido para una velocidad asombrosa. Inicialmente, se configuró para recopilar información de sitios web y no hubo algún requisito para estos datos en tiempo real o casi en tiempo real.

Spark vs Hadoop: Facilidad de uso

Apache Spark es muy conocido por su facilidad de uso, ya que viene con API fáciles de usar para Scala, Java, Python y Spark SQL.

Spark también cuenta con un modo interactivo para que tanto los desarrolladores como los usuarios puedan tener comentarios inmediatos sobre consultas y otras acciones.

En cambio, Hadoop MapReduce no tiene modo interactivo, sin embargo, los complementos como Hive y Pig hacen que trabajar con MapReduce sea un poco más fácil para los adoptantes.

Hadoop vs Spark: Costos

Es importante recordar que tanto Hadoop MapReduce como Spark son proyectos de Apache, lo que significa que son productos de software libre y de código abierto. Si bien es cierto que no existe costo para el software, existen costos asociados con la ejecución de cualquiera de las plataformas en el personal y en el hardware. Los 2 productos están diseñados para funcionar en hardware básico.

MapReduce y Apache Spark se ejecutan en el mismo hardware, pero, entonces, ¿Cuáles son las diferencias de costos?

MapReduce utiliza cantidades estándar de memoria porque su procesamiento está basado en disco, por lo que una empresa tendrá que comprar discos más rápidos y mucho espacio en disco para ejecutar MapReduce. MapReduce de igual forma necesita más sistemas para distribuir la E / S del disco en múltiples sistemas.

Los sistemas Spark cuestan más debido a las grandes cantidades de RAM que se necesita para ejecutar todo en la memoria. Pero la ventaja es que la tecnología de Spark disminuye la cantidad de sistemas requeridos.

Spark vs Hadoop

Compatibilidad entre Spark y Hadoop

MapReduce y Spark son compatibles entre sí.

Spark comparte todas las compatibilidades de MapReduce para orígenes de datos, formatos de archivo y herramientas de inteligencia empresarial a través de JDBC y ODBC.

Spark vs Hadoop: Procesamiento de datos

MapReduce es un motor donde se procesa por lotes. MapReduce opera en pasos secuenciales al leer datos del clúster, realizar su operación en los datos, escribir los resultados nuevamente en el clúster, leer datos actualizados del clúster, realizar la siguiente operación de datos, escribir esos resultados nuevamente en el clúster, etc. .

Apache Spark realiza operaciones similares, sin embargo, lo hace en un solo paso y en la memoria. Lee datos del clúster, realiza su operación en los datos y luego los escribe de nuevo en el clúster.

Spark cuenta con su propia biblioteca de cálculo de gráficos, GraphX. GraphX, y permite a los usuarios ver los mismos datos como gráficos y colecciones. Los usuarios también pueden transformar y unir gráficas con conjuntos de datos distribuidos resilientes (RDD), discutidos en la sección Tolerancia a errores.

Spark vs Hadoop

Hadoop vs Spark: Tolerancia a fallos

MapReduce y Spark resuelven el problema desde dos direcciones diferentes. MapReduce utiliza TaskTrackers que brindan latidos al JobTracker. Si se pierde un latido, JobTracker reprograma todas las operaciones pendientes y en curso a otro TaskTracker. Este método es eficaz para proporcionar tolerancia a fallas, sin embargo, puede aumentar significativamente los tiempos de finalización para operaciones que tienen incluso un solo error.

Spark utiliza Datasets Distribuidos Resistentes (RDD), que son conjuntos de elementos tolerantes a fallas que pueden ser operados en paralelo. Los RDD pueden hacer referencia a un conjunto de datos en un sistema de almacenamiento externo, como un sistema de archivos compartido, HDFS, HBase o cualquier fuente de datos que ofrezca un Hadoop InputFormat. Spark puede crear RDD desde cualquier fuente de almacenamiento compatible con Hadoop, incluidos los sistemas de archivos locales o uno de los enumerados anteriormente.

Spark vs Hadoop: Escalabilidad

Tanto MapReduce como Apache Spark son escalables usando HDFS.

Informes indican que Yahoo tiene un clúster Hadoop de 42.000 nodos, por lo que tal vez el límite es interminable.

El clúster de Spark más grande conocido es de 8,000 nodos, pero a medida que crecen los grandes datos, se espera que los tamaños de clúster aumenten para mantener las expectativas de rendimiento.

Hadoop vs Spark: Seguridad

Hadoop admite la autenticación Kerberos, que es algo doloroso de administrar. Sin embargo, los proveedores externos han permitido a las organizaciones aprovechar Active Directory Kerberos y LDAP para la autenticación. Esos mismos proveedores de terceros también ofrecen cifrado de datos para vuelos y datos en reposo.

El Sistema de archivos distribuidos de Hadoop admite listas de control de acceso (ACL) y un modelo de permisos de archivos tradicional. Para el control del usuario en el envío de trabajos, Hadoop proporciona la Autorización de nivel de servicio, lo que garantiza que los clientes tengan los permisos adecuados.

La seguridad de Spark es un poco escasa al admitir actualmente solo la autenticación a través de un secreto compartido. La bonificación de seguridad que Spark puede disfrutar es que si ejecuta Spark en HDFS, puede usar ACL de HDFS y permisos de nivel de archivo. Además, Spark puede ejecutarse en YARN dándole la capacidad de usar la autenticación Kerberos.

Conclusiones: 

A simple vista, pareciera que el uso de Spark sería la opción predeterminada para cualquier aplicación de big data. Sin embargo, ese no es el caso. MapReduce ha incursionado en el mercado de big data para las empresas que necesitan grandes conjuntos de datos controlados por los sistemas de productos básicos. La velocidad, la agilidad y la  facilidad de uso de Spark son complementos perfectos del bajo costo de operación de MapReduce.

Hadoop nos ofrece características que Spark no posee, como un sistema de archivos distribuido y Spark proporciona procesamiento en tiempo real en la memoria para aquellos conjuntos de datos que lo requieren. El escenario perfecto de Big Data es exactamente como lo diseñaron los diseñadores, para que Hadoop y Spark trabajen juntos en el mismo equipo.