Searching...
martes, 10 de diciembre de 2019

Un Vistazo a Cloudera en la Nube: CDP

Cloudera ha lanzado recientemente Cloudera Data Platform (CDP), su nueva plataforma de datos insignia que permite a los clientes gestionar y gobernar sus datos de manera segura mientras implementan aplicaciones analíticas y de inteligencia artificial en una plataforma enfocada como servicio (PaaS) en la nube.

CDP es una combinación y sustitución directa de las dos distribuciones de Hadoop heredadas de Cloudera, incluyendo la Distribución de Hadoop de Cloudera (CDH) y la Plataforma de datos de Hortonworks (HDP). Pero CDP difiere en gran medida de las plataformas orientadas a las instalaciones (on-premise), incluyendo la eliminación de YARN a favor de Kubernetes para la gestión de contenedores, y sustituyendo HDFS por almacenes de objetos en la nube pública, incluyendo Amazon S3. El soporte para Microsoft Azure y Google Cloud y sus almacenes de objetos vendrá más tarde.

Cloudera tiene actualmente tres aplicaciones CDP disponibles, además de dos herramientas administrativas. Las aplicaciones PaaS incluyen Cloudera Data Warehouse, que incluye motores SQL para Hive e Impala; Cloudera Machine Learning, que incluye las soluciones de ciencia de datos de la compañía para Python, R y Spark; y Cloudera Data Hub, un entorno gestionado por YARN donde los usuarios pueden ejecutar cargas de trabajo tradicionales de Hadoop, como MapReduce y Spark.

Cloudera tiene tres aplicaciones más en proceso, para streaming, ingeniería de datos y bases de datos operacionales. También está trabajando para ofrecer la vista previa de una versión local llamada CDP Data Center, con una disponibilidad general prevista para el próximo año.

Además de las tres aplicaciones en la nube, Cloudera ofrece dos piezas adicionales, incluyendo la Experiencia de Datos Compartidos (SDX), que proporciona seguridad, gobernanza y linaje a los datos almacenados en todas las soluciones de Cloudera, incluyendo los clústeres de CDH y HDP en la nube y locales, así como implementaciones híbridas que combinan ambos. El segundo complemento es Control Plane, que funciona como un "panel único" para que los administradores puedan subir y bajar clusters en escenarios en la nube, locales e híbridos.


Con CDP, Cloudera ofrece a los clientes acceso a soluciones analíticas y de gestión de big data potentes, pero dejando de lado la complejidad tecnológica por la que Hadoop se ha hecho conocido. El software gestiona u opera la plataforma por nosotros (SaaS).

Nueva Simplicidad

Cloudera sigue desarrollando una distribución compleja de Hadoop, repleta de más de 50 proyectos que brindan una amplia gama de servicios. Pero la suerte está echada: los clientes no quieren enfrentarse al galimatías técnico que ha marcado a Hadoop hasta este momento. Solo quieren analizar sus datos.

El valor [de CDP] para el cliente, desde el punto de vista de la línea de negocio, es que no necesitan saber que existe un clúster Hadoop. Solo quieren ejecutar una consulta SQL. Solo quieren un extremo JDBC donde puedan apuntar con su herramienta de BI. Lo que ocurra por debajo, les importa menos.

Esta es una dinámica que los grandes proveedores de la nube pública han estado explotando durante algún tiempo, en detrimento de los distribuidores de Hadoop, que se han centrado principalmente en entregar software local a las empresas más grandes del mundo. La ironía es que, a pesar de las proclamas de que "Hadoop ha muerto", la tecnología de Hadoop sigue muy viva en la nube, donde forma la base de Elastic MapReduce (EMR) de Amazon, Azure HDInsight de Microsoft y Google Cloud DataProc. (Para una mejor perspectiva, lee la historia de Murthy "Hadoop ha Muerto. Larga Vida a Hadoop").

Cloudera está respondiendo al cambio en el mercado, seguramente más tarde de lo que debería, pero no obstante está progresando.

Cargas Híbridas de Trabajo

Pero el objetivo de Cloudera no es solo compararse con EMR, HDInsight o Google Cloud DataProc, todas las distribuciones de Hadoop, sino que, según afirma la empresa de California, la idea es superar esas soluciones ofreciendo capacidades híbridas y multicloud que permitan a los clientes ejecutar sus cargas de trabajo de big data donde ellos quieran. Eso es algo que las nubes públicas no pueden ofrecer.

Los clientes de CDP podrán mover datos y cargas de trabajo desde las instalaciones locales a la nube y viceversa. También podrán mover datos y cargas de trabajo de una nube a otra, puesto que las aplicaciones CDP serán básicamente idénticas en AWS, Azure y GCP.

Tendremos una aplicación para mover datos de CDH a S3. Luego tendremos una aplicación para mover esa carga de trabajo desde el CDH local a Amazon. Al fin y al cabo, una consulta SQL sigue siendo una consulta SQL, una aplicación Spark sigue siendo una aplicación Spark. La plataforma se ocupa de gestionar las diferencias ocultas entre HDFS y S3, etc.


Y puesto que SDX utiliza metadatos para rastrear el linaje e impone políticas de autenticación y acceso a clústeres locales y en la nube, los clientes tendrán la confianza de saber que sus políticas de seguridad y acceso a datos se aplican de manera consistente en estos entornos variados. Eso es un gran problema, y es algo que los proveedores de la nube no pueden hacer.

Cuando se utilice la aplicación para mover datos de CDH con HDFS a CDP con S3, se copian los datos. Pero también se copian los metadatos y las políticas de seguridad, el gobierno y el linaje. Por lo tanto, cuando los datos aterrizan, no son solo algunos bits que aterrizan en un cubo S3. Son los datos completos junto con los metadatos. Así que al instante está listo para funcionar.

Próximamente la versión on-premise

Las cargas de trabajo de data warehousing y de aprendizaje automático se ejecutarán de forma idéntica en las instalaciones locales y en las nubes públicas. Desde la perspectiva del usuario final, es la misma carga de trabajo, el hecho de que se esté ejecutando en S3 y Kubernetes está oculto para el usuario final. Y, francamente, hay mucho que está oculto para el propio administrador.

Cloudera está trabajando con IBM para permitir que la futura versión local de CDP se ejecute en un entorno Kubernetes, específicamente el software OpenShift de Red Hat. La combinación de Cloudera Data Platform e IBM Cloud Pak for Data puede ofrecer una arquitectura completa de respuesta / solución / información".

Cloudera parece que está respondiendo al impulso que experimenta Kubernetes, que se está convirtiendo en el planificador de cargas de trabajo estándar de facto en la nube. Se ha hecho el trabajo para reemplazar a Kubernetes en su pila mientras se encuentra un lugar para las aplicaciones YARN existentes. Cuando se trata de almacenamiento, la compañía está involucrada en el proyecto Ozone, que espera combinar lo mejor de HDFS con una capa compatible con S3 para Hadoop.

Los precios en la nube están diseñados para ser competitivos con otras ofertas en la nube. La solución Data Warehouse costará $0.72/hora en una instancia AWS r5d.2xlarge (una instancia de 4 núcleos y 8 VCPU con 64 GB de RAM). La solución Machine Learning costará $0.68/hora en una instancia de AWS m5.2xlarge, una instancia de 4 núcleos y 8 vCPU con 32 GB de RAM. La oferta de Data Hub cuesta $0.24/hora en una instancia de AWS m5.2xlarge (una instancia de 4 núcleos de 8 VCPU con 32 GB de RAM. La tarifa de usuario es de $399 por mes. La versión local costará $10,000 por nodo.








0 comentarios:

Publicar un comentario

Gracias por participar en esta página.

 
Back to top!