Searching...
domingo, 29 de mayo de 2016

Características de Big Data

Hasta ahora hemos visto que Big Data es un concepto genérico que se utiliza para referirnos a una colección de datos tan grande y compleja que excede la capacidad de procesamiento de los sistemas de gestión de datos y técnicas convencionales. Las aplicaciones de Big Data son infinitas. Todas las áreas de la empresa y de la sociedad están cambiando delante de nuestras narices por el hecho de disponer de más datos y de la capacidad para analizarlos. Pero, ¿Cómo podemos caracterizar los Big Data?
Las 5 Vs de Big Data

Introducción a las características de Big Data


Los Big Data suelen caracterizarse usando un número de Vs, donde las tres primeras serían el volumen, la velocidad y la variedad.

  • El volumen se refiere a la cantidad enorme de datos que se generan cada segundo, minuto, hora y día en nuestro mundo digital.
  • La variedad se refiere a las diferentes formas en que pueden llegar cada vez los datos, como el texto, imágenes, voz, y datos geoespaciales.
  • La velocidad se refiere a la velocidad a la que se generan los datos y el ritmo al que los datos se mueven de un lugar a otro.
El volumen, la variedad y la velocidad son las tres dimensiones principales que caracterizan a los Big Data y que describen sus desafíos. Se deben procesar de manera eficiente cantidades enormes de datos en diferentes formatos y con una calidad variable.

Se han introducido nuevas Vs a medida que la comunidad de Big Data ha ido descubriendo nuevos retos y formas de definir los Big Data. La veracidad y la valencia son dos de estas Vs adicionales a las que vamos a prestar especial atención en este curso.
  • La veracidad se refiere al sesgo, ruido y anormalidad de los datos, o mejor dicho, se refiere a las incertidumbres que suelen ser imposibles de medir y a la integridad y fiabilidad de los datos.
  • La valencia se refiere a la conectividad de los grandes volúmenes de datos en forma de grafos, de manera similar a los átomos.
Además, debemos asegurarnos de no olvidarnos nunca de nuestra sexta V, el valor. ¿Qué beneficio obtenemos nosotros y nuestra organización de los Big Data? Sin una estrategia ni un objetivo claro sobre el valor esperado de Big Data, es fácil que todos estos desafíos acaben frenando a las organizaciones y que estas no sean capaces de convertirlos en oportunidades.

Características de Big Data - Volumen


El volumen es la dimensión relacionada con el gran tamaño de los Big Data. Este volumen puede proceder de conjuntos grandes de datos compartidos o de muchas piezas pequeñas de datos y eventos que se recogen con el tiempo. Cada minuto se envían 204 millones de mensajes de correo electrónico, se suben 200.000 fotos y se generan 1,8 millones de "Me gusta" en Facebook. En YouTube se visualizan 1,3 millones de vídeos y se suben 72 horas de vídeo por minuto.

Pero, ¿de qué cantidad de datos estamos hablando? El tamaño y la escala de almacenamiento de Big Data puede ser masiva. Ya he mencionado palabras que empiezan por peta, exa y yoda, para definir el tamaño, pero ¿qué quiere decir realmente todo esto? A modo de comparación, en 100 megabytes pueden caber dos enciclopedias, un DVD tiene alrededor de 5 GBs y en 1 TB cabrían aproximadamente 300 horas de vídeo de buena calidad. Un negocio basado en datos recoge datos en el orden de terabytes, pero los petabytes se están volviendo cada vez más comunes en nuestra vida cotidiana. Por ejemplo, el acelerador de partículas del CERN genera 15 petabytes al año.

Según las predicciones de un informe de IDC patrocinado por una compañía de Big Data denominada EMC, los datos digitales crecerán en un factor de 44 hasta el año 2020. Se trata de un crecimiento que va desde 0,8 zetabytes en 2009, a 35,2 zetabytes en 2020. Un zetabyte es un trillón de gigabytes, que es 10 elevado a la potencia de 21. ¡ Su efecto será descomunal ! Piensa en todo el tiempo, coste y energía que se va a emplear para guardar y dar sentido a una cantidad de datos como esta. La siguiente era sera el yottabyte, 10 elevado a la potencia de 24, y los brontobytes, 10 elevado a la potencia de 27, que para la mayoría de nosotros resulta muy difícil de imaginar en este momento. Esto es también es lo que se conoce como datos a una escala astronómica

Todo esto apunta a un crecimiento exponencial en el volumen y el almacenamiento de datos. ¿Cual es la relevancia de esta cantidad de datos en nuestro mundo? ¿Te acuerdas de los aviones que recogen Big Data? Como pasajeros abrigamos la esperanza de que los datos signifiquen una seguridad mejor en vuelo. La idea es entender que las empresas y las organizaciones aprovechan los grandes volúmenes de datos para mejorar sus productos finales, ya sea en seguridad, fiabilidad, salud o gobierno. La cuestión es: ¿cómo utilizamos los grandes volúmenes de datos para mejorar la calidad de nuestro producto final

Existen un conjunto de desafíos relacionados con los volúmenes masivos de Big Data. El más evidente es obviamente el almacenamiento. A medida que aumenta el tamaño de los datos, también aumenta la cantidad de espacio de almacenamiento necesario para guardar los datos de manera eficiente. Sin embargo, también tenemos que ser capaces de recuperar esa gran cantidad de datos con la suficiente rapidez y moverlos a las unidades de proceso a su debido tiempo para obtener resultados cuando realmente los necesitamos. Esto trae consigo retos adicionales como la gestión de redes (networking), el ancho de banda, el coste de almacenamiento de datos, ya sea almacenamiento interno (in-house) frente a almacenamiento en la nube (cloud), etc.

Surgen problemas adicionales durante el procesamiento de estos datos de gran tamaño. La mayor parte de los métodos de análisis actuales no serán escalables a dichas cantidades de datos en términos de necesidades de memoria, procesamiento o E/S, lo que significa que su rendimiento disminuirá. Podemos obtener un buen rendimiento para datos de cientos de clientes, pero ¿qué pasará cuando ampliemos nuestra solución de 1.000 a 10.000 clientes? A medida que aumenta el volumen, el rendimiento y el coste empieza a convertirse en un problema. Las empresas necesitan una estrategia global para gestionar el procesamiento de datos a gran escala y sacarle el mayor rendimiento posible de la manera más rentable. Evaluar las opciones en las dimensiones mencionadas aquí es el primer paso cuando se trata de aumentar constantemente el tamaño de los datos.

Características de Big Data - Variedad


Ahora voy a hablar de una forma de escalabilidad denominada variedad. En este caso la escala no se refiere a la amplitud de los datos, sino al aumento de la diversidad, que supone un tema importante en el que debemos pensar. Cuando pensamos científicamente en la gran heterogeneidad de los datos, pensamos en la complejidad adicional que conlleva la necesidad de almacenar, procesar y combinar más tipos de datos.

Desde que estudiaba en la Universidad siempre he pensado en los datos como en tablas. Estas tablas podían estar en hojas de cálculo, en bases de datos o en ficheros, pero de alguna manera se diseñan y manipulan como filas y columnas de tablas. Actualmente las tablas siguen siendo muy importantes y son las que más se utilizan. Sin embargo, hoy en día se recoge, almacena y analiza una variedad mucho más amplia de datos para resolver problemas del mundo real. Algunos tipos de datos con los que nos encontramos todos los días incluyen las imágenes, textos, redes, mapas geográficos y simulaciones generadas por ordenador.

La heterogeneidad de los datos puede clasificarse de acuerdo a varias dimensiones, básicamente alrededor de cuatro ejes.

  • La variedad estructural se refiere a la diferencia en la representación de los datos. Por ejemplo, una señal de un electrocardiograma (ECG) es muy diferente de un artículo de prensa. Una imagen por satélite tomada por la NASA de los incendios forestales es muy diferente a los tweets enviados por personas que están viendo como se propaga el fuego.
  • La variedad del medio se refiere al soporte por el que se entregan los datos. El audio de un discurso frente a la transcripción del discurso puede representar la misma información en dos medios diferentes. Los objetos de datos como los vídeos de noticias pueden tener múltiples medios: una secuencia de imágenes, un audio y el texto de los títulos, todos sincronizados entre sí.
  • La variedad semántica la podemos describir mejor a través de dos ejemplos. A menudo usamos diferentes unidades para las cantidades que medimos. A veces también usamos mediciones cualitativas frente a las cuantitativas. Por ejemplo, la edad puede ser un número o representarse mediante conceptos como bebe, menor o adulto. Otro tipo de variedad semántica proviene de diferentes supuestos de condiciones sobre los datos. Por ejemplo, si realizamos dos encuestas sobre los ingresos a dos grupos diferentes de personas, es posible que no podamos compararlas o combinarlas sin saber más sobre las poblaciones.
  • La variación y la disponibilidad puede adoptar muchas formas. Por un lado, los datos pueden estar disponibles en tiempo real, como los datos de sensores, o se pueden almacenar, como los registros de pacientes. De manera similar, se puede acceder a los datos de forma ininterrumpida, por ejemplo a los de una cámara de tráfico, o bien de manera intermitente, por ejemplo solo cuando el satélite está sobre la región de interés. Esto marca la diferencia entre las operaciones que uno puede hacer con los datos, especialmente si el volumen de datos es grande. Voy a cubrir esto con más detalle en el curso cuando exploremos los diferentes géneros de datos y como modelarlos.
No debemos pensar que un único objeto de datos, o una colección de objetos de datos similares, sea siempre uniforme de por sí. El correo electrónico, por ejemplo, es una entidad híbrida. Parte de esta información puede ser una tabla, pero el cuerpo del correo electrónico normalmente incluye texto. Sin embargo, parte del texto puede estar rodeado con adornos, por ejemplo, mediante algún tipo de lenguaje de marcado.

Los correos electrónicos contienen datos adjuntos, sean estos ficheros o imágenes incrustadas, u otros objetos multimedia que permita el gestor de correo, como por ejemplo una imagen escaneada de una nota escrita a mano. Cuando extraemos una colección de todos los correos electrónicos de nuestro buzón de correo, o del de una organización, comprobamos que los remitentes y receptores forman una red de comunicación. En 2001 hubo un famoso escándalo en torno a una compañía llamada Enron que fue involucrada en prácticas fraudulentas de reporting financiero. Los científicos de datos han estudiado su red de correo electrónico para detectar patrones de conexión normales e inusuales entre personas de la organización.

Una colección de correo electrónico también puede tener su propia semántica. Por ejemplo, un correo electrónico no puede hacer referencia a un correo anterior, lo que significa que no se puede copiar o reenviar.

Por último, un servidor de correo electrónico es una fuente de datos en tiempo real, a diferencia de un repositorio de correo electrónico.

¿Demuestra el correo electrónico y las colecciones de correo electrónico una variación significativa interna en la estructura, en el medio, en la semántica y en la disponibilidad?

Características de Big Data - Velocidad


La velocidad se refiere a la rapidez a la que se crean los Big Data y a la rapidez cada vez mayor a la que necesitan almacenarse y analizarse los datos. Un objetivo específico del análisis de grandes volúmenes de datos es que el tratamiento de los datos en tiempo real se corresponda con su tasa de producción. Este tipo de funcionalidad permite, por ejemplo, personalizar la publicidad de las páginas web que visitamos en base a las búsquedas recientes, la visualización y el historial de compra.

Si una empresa no puede obtener ventaja de los datos a medida que se generan o a la velocidad de análisis requerida, puede perder oportunidades.

Con objeto de construir un caso para ilustrar la importancia de esta dimensión de los Big Data, supongamos que queremos hacer un viaje en coche y que estamos buscando información un poco mejor para comenzar a hacer el equipaje. En este caso, cuanto más reciente sea la información, mayor es su relevancia a la hora de decidir como hacemos el equipaje. ¿Utilizarías los datos meteorológicos del mes pasado o datos del año pasado por estas fechas? O, ¿Usarías información sobre el clima de esta semana, de ayer, o mejor, de hoy? Tiene sentido conseguir la información más actualizada sobre el tiempo y procesarla de una manera que facilite nuestras decisiones. Si la información es antigua, no importa su precisión.

Si somos capaces de ponernos al día con la velocidad de los Big Data y de analizar estos datos a medida que se generan, podemos incluso tener un efecto en la calidad de la vida de las personas. Los sensores y los dispositivos inteligentes que monitorizan el cuerpo humano pueden detectar anomalías en tiempo real y desencadenar una acción inmediata que podría salvar la vida. Este tipo de procesamiento se denomina procesamiento en tiempo real.

El procesamiento en tiempo real es muy diferente del procesamiento batch remoto. El procesamiento batch era el estándar hasta hace un par de años. Se aprovisionan grandes cantidades de datos en máquinas de gran tamaño y se procesan a la vez durante días. Si bien este tipo de procesamiento es todavía muy común hoy en día, las decisiones basadas en información que tiene unos cuantos días de antigüedad pueden ser catastróficas en algunos negocios.

Las organizaciones que toman decisiones con los datos más recientes tienen más probabilidades de lograr el objetivo. Por esta razón es importante ajustar la velocidad de procesamiento a la velocidad de generación de la información y lograr la potencia de tomar decisiones en tiempo real. Además, el ambiente socio-económico actual requiere de decisiones rápidas. Por lo tanto, no podemos esperar a que se generen todos los datos en primer lugar y luego se introduzcan en una máquina. 

Existen muchas aplicaciones en la que fluye información reciente y que tiene que integrarse con datos ya existentes para generar decisiones como planes de emergencia en un huracán, o decidir estrategias de negociación en tiempo real o generar estimaciones en publicidad. Tenemos que digerir fragmentos de datos a medida que se producen y dar resultados significativos. A medida que se introduzcan más datos, nuestros resultados tendrán que adaptarse para reflejar este cambio en la entrada.

Las decisiones basadas en el procesamiento de datos ya adquiridos, tales como el procesamiento batch, puede proporcionar una foto incompleta y, por lo tanto, las aplicaciones necesitan el estado en tiempo real del contexto en cuestión, es decir, el análisis de streaming. Afortunadamente, con la reducción de precios en tecnología de sensores, teléfonos móviles y redes sociales, es mucho más asequible que hace unos años la capacidad de obtener información más reciente a una gran velocidad y en tiempo real.

Entonces, ¿Cómo nos aseguramos de igualar la velocidad de las expectativas para obtener insights (conocimiento) a partir de Big Data? Con la velocidad de los grandes volúmenes de datos, la tasa de generación, recuperación o procesamiento de los datos es específica de la aplicación. La necesidad de adoptar medidas (acciones) basadas en datos en tiempo real dentro de un modelo de negocio es lo que al final determina la velocidad de la analítica de Big Data. A veces se necesita una precisión de un minuto y, en ocasiones, de medio día.

Vamos a ver cuatro opciones y cual es la más adecuada para realizar el análisis:
Cuando la temporalidad de la información procesada no juega ningún papel importante en la toma de decisiones, la velocidad a la que se generan los datos se vuelve irrelevante. En otras palabras, se puede esperar el tiempo que sea necesario para procesar los datos (días, semanas o meses) y, una vez que se ha terminado el procesamiento veremos los resultados y posiblemente los compartiremos con alguien.

Cuando la temporalidad no es un problema, podemos elegir cualquier opción. Posiblemente, elegiremos la opción más económica.

Cuando la temporalidad del resultado final es un problema, decidir cual de las opciones elegir no es tan sencillo. Tendremos que tomar una decisión basada en el coste del hardware, en la sensibilidad al tiempo de la información y en escenarios futuros. En otras palabras, esto se convierte en una cuestión basada en el negocio. Por ejemplo, si la velocidad es muy importante a toda costa, elegiremos la cuarta opción.


Características de Big Data - Veracidad


La veracidad de los Big Data se refiere a la calidad de los datos. A veces se denomina validez o volatilidad en referencia a la vida útil de los datos. La veracidad es muy importante para hacer operativos los Big Data. Dado que los Big Data pueden tener ruido o incertidumbre, pueden estar llenos de sesgos, anomalías o imprecisiones. Los datos no tienen ningún valor si no son precisos. Los resultados de los análisis de Big Data son solo tan buenos como los datos que se analizan. Esto suele describirse en la analítica como "la basura que entra por la basura que sale".

Así que podemos decir que aunque los Big Data ofrecen muchas oportunidades para tomar decisiones activadas por los datos, la evidencia proporcionada por los datos solo tiene valor si los datos son de una calidad satisfactoria. Existen muchas maneras diferentes de definir la calidad de los datos. En el contexto de Big Data la calidad se puede definir como una función de un par de variables diferentes. La precisión de los datos, la fiabilidad de la fuente datos y como se generaron los datos son todos factores importantes que afectan a la calidad de los datos.

Además, es un factor importante el cómo de significativos sean los datos con respecto al programa que los analiza, lo que hace que el contexto forme parte de la calidad.

En este gráfico de 2015 vemos que están aumentando los volúmenes de datos, desde pequeñas cantidades de datos de empresas, hasta datos más grandes de voz sobre IP y datos de redes sociales generados por personas, e incluso datos mayores de sensores generados por máquinas. 
También observamos que la incertidumbre de los datos aumenta a medida que pasamos de datos de empresa a datos de sensores, que es lo que cabría esperar. Los datos de empresa tradicionales en data warehouses han estandarizado soluciones de calidad como los procesos maestros ETL. A medida que las empresas comenzaron a incorporar datos de personas y de máquinas menos estructurados y desestructurados a sus grandes soluciones de datos, los datos se iban volviendo más sucios y más inciertos. Hay muchas razones para esto. En primer lugar, los datos desestructurados en Internet son imprecisos e inestables. Además, la alta velocidad de Big Data deja poco o ningún tiempo al ETL y dificulta los procesos de aseguramiento de calidad de los datos.

Echemos un vistazo a unas reseñas de producto de una máquina cortadora de plátanos en Amazon. En uno de los comentarios de cinco estrellas alguien dice que salvó su matrimonio y lo compara con los grandes inventos de la historia. Otra crítica de cinco estrellas dice que su agente de libertad condicional le recomendó la cortadora porque no le permitían estar cerca de cuchillos. Se trata obviamente de reseñas falsas. Pensemos ahora en una evaluación automatizada de producto que revise estas reseñas espléndidas y estime una gran cantidad de ventas de la cortadora de plátanos y que a su vez sugiera aprovisionar más stock de este producto en el inventario. Amazon tendría problemas.

Veamos un caso más grave, que es el de las tendencias sobre la gripe de Google. En la red social Google Friends se estimaron para Enero de 2013 casi el doble de casos de gripe de los que fueron reportados por el CDC (Centro de Control y prevención de enfermedades). La razón principal de esto es que las tendencias de la gripe de Google utilizaron unos Big Data de Internet y no tuvieron en cuenta adecuadamente las incertidumbres sobre los datos. Es posible que la atención de las noticias y los medios de comunicación al nivel especialmente grave de gripe ese año afectara a la estimación y diera lugar a lo que denominamos una sobreestimación. Este es un ejemplo perfecto de lo imprecisos que pueden ser los resultados si solo se utiliza Big Data en el análisis. Imagina el gran impacto económico de hacer preparativos de atención médica para el doble de cantidad de casos de gripe. El ejemplo de las tendencias sobre la gripe de Google también nos lleva a la necesidad de ser capaz de identificar de donde proceden exactamente los Big Data que utilizaron. ¿Que transformaciones sufrieron los Big Data hasta el momento en que se utilizaron para realizar una estimación? Esto es lo que denominamos la providencia de los datos, igual que nos referimos a la procedencia de algunos objetos.

Características de Big Data - Valencia


Sobre esta cualidad, que se refiere en pocas palabras a la conectividad, no se suele hablar mucho. Cuanto más conectado esté un dato, más alta es su valencia. Es un término que procede de la Química, en donde se habla de electrones del núcleo y de electrones de valencia. Los electrones de valencia son los que se encuentran en los mayores niveles de energía del revestimiento exterior, siendo los responsables de la interacción con otros átomos.

Esta idea se incorpora a nuestra definición del concepto de valencia en el contexto de Big Data. Los elementos de datos suelen conectarse directamente entre si. Una ciudad se conecta con el país al que pertenece. Dos usuarios de Facebook se conectan porque son amigos. Un empleado se conecta a su centro de trabajo. Los datos también pueden conectarse indirectamente. Dos científicos se conectan porque ambos son físicos. La valencia de una colección de datos mide la tasa de elementos de datos realmente conectados con respecto al número posible de conexiones que pueden ocurrir dentro de la colección.

El aspecto más importante de la valencia es que la conectividad de datos aumenta con el tiempo. La serie de gráficos de red procede de un experimento social en el que se pidió a los científicos que asistían a una conferencia que se reunieran con otros científicos que no conocían de antes. Después de varias rondas de reuniones, encontraron nuevas conexiones que se muestran con bordes rojos. El aumento de la valencia puede derivar en nuevos comportamientos de grupo en las redes de personas, como la creación de nuevos grupos y las coaliciones que tienen valores y objetivos compartidos. Un conjunto de datos de alta valencia es más denso, lo que hace que muchas críticas analíticas habituales sean muy ineficientes.

Deben adoptarse métodos de análisis más complejos para tener en cuenta el aumento de la densidad. Surgen dificultades más interesantes debido al comportamiento dinámico de los datos. Ahora existe una necesidad de modelar y predecir como cambia la valencia de un conjunto de datos conectado con el tiempo y con el volumen.

El comportamiento dinámico también conduce al problema de la detección de eventos, como las ráfagas en la cohesión local de parte de los datos, y el comportamiento emergente de todo el conjunto de datos, como el aumento de la polarización de una comunidad.

La Sexta V - Valor


En este módulo hemos descrito las cinco Vs que se consideran las dimensiones de los Big Data. Cada una de las Vs ha expuesto una dimensión de Big Data, concretamente, el tamaño, la complejidad, la velocidad, la calidad y la conectividad. Si bien podemos enumerar algunas otras Vs en función del contexto, prefiero centrarme en estas cinco dimensiones fundamentales en las que vamos a trabajar durante este curso. Sin embargo, el objetivo del desafío de Big Data es convertir todas las demás dimensiones en un valor empresarial verdaderamente útil. La idea principal que subyace en el procesamiento de todos estos grandes volúmenes de datos consiste en aportar valor al problema que nos ocupa.

En próximos artículos vamos a explorar como dar los primeros pasos para comenzar a generar valor a partir de Big Data.

Ahora que hemos visto todas las Vs, vamos a centrarnos en un ejemplo de una aplicación compleja de Big Data. Supongamos que estamos en una empresa llamada Eglence Inc que tiene un producto muy popular de juego para móviles llamado "Catch the Pink Flamingo". Es un juego multiusuario donde los usuarios tienen que atrapar unos flamencos de color rosa que aparecen aleatoriamente en el mapamundi de sus pantallas en función de la misión que se actualiza de forma aleatoria. Millones de personas juegan a este juego online en todo el mundo. Uno de los objetivos del juego es configurar una red de jugadores que cubran en conjunto el mapamundi con avistamientos de flamencos de color rosa y que compitan con otros grupos. Los usuarios pueden elegir sus grupos basándose en estadísticas de los jugadores. La página web del juego envía cosas interesantes de manera gratuita a los usuarios registrados. El registro requiere que los usuarios introduzcan información demográfica como el sexo, año de nacimiento, ciudad, nivel mayor de estudios, y cosas por el estilo. Sin embargo, la mayoría de los usuarios introducen información imprecisa sobre sí mismos, como hacemos casi todos.

Para ayudar a mejorar el juego, el juego captura los datos de actividad de uso en tiempo real de cada jugador y los alimenta en sus servidores de datos. Los usuarios de este juego son muy activos en las redes sociales y se relacionan mucho con el juego. Un hashtag popular de Twitter para este juego es #CatchThePinkFlamingo, que recibe más de 200.000 menciones al día en todo el mundo. Existen comunidades bien asentadas de usuarios que se reúnen a través de las redes sociales para jugar.

Ahora, imagina que eres el arquitecto de soluciones Big Data de Fun Games Inc. Sin duda, en este ejemplo se dan los tres tipos de fuentes de datos. La App móvil genera datos para el análisis de la actividad del usuario. Las conversaciones en Twitter de los jugadores configuran una fuente abundante de datos desestructurados generados por personas, y los registros de clientes y del juego son ejemplos de datos recogidos por la organización. Este es un ejemplo complejo de Big Data donde están representadas todas las características de los grandes volúmenes de datos. Hay una gran volumen de datos de jugadores, del juego y de Twitter, que también habla de la variedad de los datos; los flujos de datos de la App móvil, del sitio web y de las redes sociales en tiempo real, que se pueden definir como datos de alta velocidad. La calidad de los datos demográficos introducidos por el usuario no queda clara y hay redes de jugadores que están relacionadas con la valencia de Big Data.

Resumiendo:

  • El volumen es la dimensión de Big Data relacionada con el tamaño y con su crecimiento exponencial. Los desafíos de trabajar con grandes volúmenes de datos incluyen el coste, la escalabilidad y el rendimiento relacionado con su almacenamiento, acceso y procesamiento.
  • Tenemos que prestar atención a la velocidad de los Big Data:
  1. Los datos de streaming nos dan información sobre lo que está pasando en este momento.
  2. Los datos de streaming se generan a diferentes velocidades.
  3. El análisis de datos en tiempo real ofrece agilidad y adaptabilidad para conseguir los máximos beneficios que queremos extraer.
  • Los torrentes crecientes de Big Data presionan para que las soluciones rápidas los utilicen en las soluciones analíticas. Esto crea dificultades para hacer un seguimiento de la calidad de los datos, acerca de lo que se ha recogido, de donde procede y la forma en que se analizó antes de su uso. Esto es similar a un objeto artístico que tiene providencia de todo lo que ha pasado, pero que resulta todavía más complicado de conseguir con grandes volúmenes de datos que vienen en distinta variedad y velocidad.

0 comentarios:

Publicar un comentario

Gracias por participar en esta página.

 
Back to top!