Cloudera ha
lanzado recientemente Cloudera Data Platform (CDP), su nueva plataforma de datos
insignia que permite a los clientes gestionar y gobernar sus datos de
manera segura mientras implementan aplicaciones analíticas y de
inteligencia artificial en una plataforma enfocada como servicio
(PaaS) en la nube.
Cloudera tiene actualmente tres aplicaciones CDP
disponibles, además de dos herramientas administrativas. Las
aplicaciones PaaS incluyen Cloudera
Data Warehouse, que incluye motores SQL para Hive e Impala;
Cloudera
Machine Learning, que incluye las soluciones de ciencia de datos
de la compañía para Python, R y Spark; y Cloudera
Data Hub, un entorno gestionado por YARN donde los usuarios
pueden ejecutar cargas de trabajo tradicionales de Hadoop, como
MapReduce y Spark.
Cloudera tiene tres aplicaciones más en proceso,
para streaming, ingeniería de datos y bases de datos operacionales.
También está trabajando para ofrecer la vista previa de una versión
local llamada CDP
Data Center, con una disponibilidad general prevista para el
próximo año.
Además de las tres aplicaciones en la nube,
Cloudera ofrece dos piezas adicionales, incluyendo la Experiencia
de Datos Compartidos (SDX), que proporciona seguridad, gobernanza
y linaje a los datos almacenados en todas las soluciones de Cloudera,
incluyendo los clústeres de CDH y HDP en la nube y locales, así
como implementaciones híbridas que combinan ambos. El segundo
complemento es Control Plane, que funciona como un "panel único"
para que los administradores puedan subir y bajar clusters en
escenarios en la nube, locales e híbridos.
Con CDP, Cloudera ofrece a los clientes acceso a
soluciones analíticas y de gestión de big data potentes, pero
dejando de lado la complejidad tecnológica por la que Hadoop se ha
hecho conocido. El software gestiona u opera la plataforma por
nosotros (SaaS).
Nueva Simplicidad
Cloudera sigue desarrollando una distribución
compleja de Hadoop, repleta de más de 50 proyectos que brindan una
amplia gama de servicios. Pero la suerte está echada: los clientes
no quieren enfrentarse al galimatías técnico que ha marcado a
Hadoop hasta este momento. Solo quieren analizar sus datos.
El valor [de CDP] para el cliente, desde el punto de
vista de la línea de negocio, es que no necesitan saber que existe
un clúster Hadoop. Solo quieren ejecutar una consulta SQL. Solo
quieren un extremo JDBC donde puedan apuntar con su herramienta de
BI. Lo que ocurra por debajo, les importa menos.
Esta es una dinámica que los grandes proveedores de
la nube pública han estado explotando durante algún tiempo, en
detrimento de los distribuidores de Hadoop, que se han centrado
principalmente en entregar software local a las empresas más grandes
del mundo. La ironía es que, a pesar de las proclamas de que "Hadoop
ha muerto", la tecnología de Hadoop sigue muy viva en la
nube, donde forma la base de Elastic
MapReduce (EMR) de Amazon, Azure
HDInsight de Microsoft y Google
Cloud DataProc. (Para una mejor perspectiva, lee la historia de
Murthy "Hadoop
ha Muerto. Larga Vida a Hadoop").
Cloudera está respondiendo al cambio en el mercado,
seguramente más tarde de lo que debería, pero no obstante está
progresando.
Cargas Híbridas de Trabajo
Pero el objetivo de Cloudera no es solo compararse
con EMR, HDInsight o Google Cloud DataProc, todas las distribuciones
de Hadoop, sino que, según afirma la empresa de California, la
idea es superar esas soluciones ofreciendo capacidades híbridas y
multicloud que permitan a los clientes ejecutar sus cargas de
trabajo de big data donde ellos quieran. Eso es algo que las nubes
públicas no pueden ofrecer.
Los clientes de CDP podrán mover datos y cargas de
trabajo desde las instalaciones locales a la nube y viceversa.
También podrán mover datos y cargas de trabajo de una nube a otra,
puesto que las aplicaciones CDP serán básicamente idénticas en
AWS, Azure y GCP.
Tendremos una aplicación para mover datos de CDH a
S3. Luego tendremos una aplicación para mover esa carga de trabajo
desde el CDH local a Amazon. Al fin y al cabo, una consulta SQL sigue
siendo una consulta SQL, una aplicación Spark sigue siendo una
aplicación Spark. La plataforma se ocupa de gestionar las
diferencias ocultas entre HDFS y S3, etc.
Y puesto que SDX utiliza metadatos para rastrear el
linaje e impone políticas de autenticación y acceso a clústeres
locales y en la nube, los clientes tendrán la confianza de saber que
sus políticas de seguridad y acceso a datos se aplican de manera
consistente en estos entornos variados. Eso es un gran problema, y es
algo que los proveedores de la nube no pueden hacer.
Cuando se utilice la aplicación para mover datos de
CDH con HDFS a CDP con S3, se copian los datos. Pero también se
copian los metadatos y las políticas de seguridad, el gobierno y el
linaje. Por lo tanto, cuando los datos aterrizan, no son solo algunos
bits que aterrizan en un cubo S3. Son los datos completos junto con
los metadatos. Así que al instante está listo para funcionar.
Próximamente la versión on-premise
Las cargas de trabajo de data warehousing y de
aprendizaje automático se ejecutarán de forma idéntica en las
instalaciones locales y en las nubes públicas. Desde la perspectiva
del usuario final, es la misma carga de trabajo, el hecho de que se
esté ejecutando en S3 y Kubernetes está oculto para el usuario
final. Y, francamente, hay mucho que está oculto para el propio
administrador.
Cloudera está trabajando con IBM
para permitir que la futura versión local de CDP se ejecute en un
entorno Kubernetes, específicamente el software OpenShift de Red
Hat. La combinación de Cloudera Data Platform e IBM Cloud Pak for
Data puede ofrecer una arquitectura completa de respuesta / solución
/ información".
Cloudera parece que está respondiendo al impulso
que experimenta Kubernetes, que se está convirtiendo en el
planificador de cargas de trabajo estándar de facto en la nube. Se
ha hecho el trabajo para reemplazar a Kubernetes en su pila mientras
se encuentra un lugar para las aplicaciones YARN existentes. Cuando
se trata de almacenamiento, la compañía está involucrada en el
proyecto Ozone, que
espera combinar lo mejor de HDFS con una capa compatible con S3 para
Hadoop.
Los precios en la nube están diseñados para ser
competitivos con otras ofertas en la nube. La solución Data
Warehouse costará $0.72/hora en una instancia AWS r5d.2xlarge (una
instancia de 4 núcleos y 8 VCPU con 64 GB de RAM). La solución
Machine Learning costará $0.68/hora en una instancia de AWS
m5.2xlarge, una instancia de 4 núcleos y 8 vCPU con 32 GB de RAM. La
oferta de Data Hub cuesta $0.24/hora en una instancia de AWS
m5.2xlarge (una instancia de 4 núcleos de 8 VCPU con 32 GB de RAM.
La tarifa de usuario es de $399 por mes. La versión local costará
$10,000 por nodo.
0 comentarios:
Publicar un comentario
Gracias por participar en esta página.