Big Data generada por personas

Las personas están generando cantidades masivas de datos cada día a través de sus actividades en diversos sitios de redes sociales como Facebook, Twitter y LinkedIn, o compartiendo fotos online en sitios como Instagram, Flickr o Picasa, y compartiendo vídeos en sitios como YouTube o Vimeo. Además, se genera una enorme cantidad de información en blogs y en comentarios, búsquedas en Internet, y se están utilizando cada vez más los mensajes de texto, el correo electrónico y los documentos personales.

La mayor parte de estos datos son ficheros grandes de texto desestructurado que no se ajustan a un modelo de datos determinado. De vez en cuando también podemos considerar que es suficiente con que estos datos lleven asignada una descripción. Toda esta actividad provoca que los datos crezcan exponencialmente. ¿Sabías que un solo día los usuarios de Facebook generan más datos que todas las bibliotecas de investigación académica de Estados Unidos?

En la siguiente tabla podemos ver algunos números similares de volúmenes de datos diarios de algunas de las plataformas más grandes online. Resulta increíble que algunos de estos números estén en el rango de petabytes para la actividad diaria. Un petabyte son mil terabytes. Este gran tamaño de los datos desestructurados generados por personas conlleva muchos retos.

Los datos desestructurados se refieren a datos que no se ajustan a un modelo de datos predeterminado, por lo que no hay un modelo relacional ni SQL. Son principalmente cualquier cosa que no almacenamos en un Sistema tradicional de Gestión de Base de Datos Relacional (SGBDR). Supongamos por ejemplo un recibo de compra que nos dan en un supermercado: tiene una sección para la fecha, una sección para el nombre de la tienda y una sección para el importe. Este es un ejemplo de estructura.

Las personas generamos una gran cantidad de datos desestructurados sin ningún formato. Fíjate, por ejemplo, en todos los documentos que has escrito a mano hasta la fecha. En conjunto, forman un banco de datos desestructurados que hemos generado personalmente. De hecho, entre un 80% y un 90% de todos los datos del mundo son desestructurados y este número está aumentando cada vez más rápido. Algunos ejemplos de datos desestructurados generados por personas incluyen textos, imágenes, vídeos, audio, búsquedas en Internet y correos electrónicos. Además de su rápido crecimiento, entre los principales retos de los datos desestructurados se incluyen los formatos múltiples de datos, como las páginas web, las imágenes, los PDFs, Power Point, XML, y otros formatos que se construyeron principalmente para el consumo humano.

Piensa en ello un momento: aunque pueda ordenar mi correo por fecha, remitente y asunto, sería muy difícil escribir un programa que clasifique y organice todos mis mensajes de correo electrónico en función de su contenido.

Otro de los retos de los datos generados por las personas es el volumen y la generación rápida de datos, que es lo que llamamos velocidad. Detente un momento para estudiar la siguiente infografía publicada en un artículo del diario Expansión, que muestra lo que ocurre en la Red en sólo 60 segundos, y reflexiona sobre en que medida contribuyes a lo que se expone.

Por otra parte, la validación de datos desestructurados suele ser lenta y costosa. Los costes y la duración de los procesos invertidos en capturar, almacenar, depurar, reparar y procesar los datos desestructurados pueden ir acumulándose antes de que podamos comenzar a aportar valor. Puede ser bastante difícil encontrar las herramientas y las personas adecuadas que pongan en práctica este proceso y acaben aportado valor.

Vamos a ver ahora algunas de las tecnologías emergentes que están haciendo frente a estos desafíos y lo voy a ilustrar con algunos ejemplos que conviertan datos desestructurados en información valiosa (insights) - que es lo que perseguimos para optimizar nuestro negocio -.

Aunque los datos desestructurados generados por las personas presentan una serie de desafíos específicos, lo bueno es que la cultura empresarial de hoy en día está cambiando para hacer frente a estos desafíos y sacar el máximo provecho a estos datos. Como se suele decir a menudo, un reto es una oportunidad perfecta, y este es sin duda el caso de Big Data, donde estos desafíos han creado una industria tecnológica propia. Esta industria tecnológica está en su mayor parte centrada o construida por capas alrededor de unos frameworks fundamentales de Big Data de Código Abierto.

Se necesitan herramientas de Big Data que estén diseñadas desde cero para gestionar y analizar la información desestructurada. La mayoría de estas herramientas se basan en un framework de Big Data de Código Abierto llamado Hadoop. Hadoop está diseñado para soportar el procesamiento de grandes conjuntos de datos en un entorno de computación distribuida. Esta definición ya nos da una pista sobre lo que aborda el primer desafío, es decir, el volumen de la información desestructurada.

Hadoop puede gestionar grandes lotes de información distribuida en modo batch, pero cada vez existe una mayor necesidad de procesar en tiempo real datos generados por las personas, como actualizaciones en Twitter o Facebook. El Control Financiero es otro área donde se necesita este tipo de procesamiento, en especial para reducir los datos de mercado. Las redes sociales y los datos de mercado son tipos de datos que llamamos "datos de alta velocidad". Storm y Spark son otros frameworks de Código Abierto que gestionan este tipo de datos en tiempo real generados a gran velocidad. Tanto Storm como Spark pueden integrar datos con cualquier tecnología de base de datos o de almacenamiento de datos.

Como hemos destacado antes, los datos desestructurados no tienen un modelo de datos relacional, por lo que en general no se ajustan al modelo tradicional de "data warehouse" basado en bases de datos relacionales.

Los data warehouses (DWH) son repositorios centrales de datos integrados a partir de una o más fuentes. Los datos que se almacenan en los DWHs se extraen de múltiples fuentes, se transforman a una forma común estructurada y se cargan en una base de datos central, a donde accederán los trabajadores para crear informes y realizar análisis a nivel de empresa. Este proceso se denomina ETL (de las siglas Extract-Transform-Load). Esta técnica estaba bastante estandarizada hasta hace poco en los sistemas de información empresariales, pero sin duda es bastante estática y no encaja bien con el mundo dinámico de Big Data de hoy en día.

Entonces, ¿que hacen las empresas actualmente para solucionar este problema? Muchas empresas actuales están utilizando un enfoque híbrido donde mantienen los datos estructurados más pequeños en bases de datos relacionales y los grandes conjuntos de datos desestructurados se almacenan en bases de datos NoSQL en la nube. Las tecnologías de datos NoSQL están basadas en conceptos no relacionales y proporcionan opciones de almacenamiento de datos normalmente en "nubes de procesamiento" además de los data warehouses tradicionales basados en bases de datos relacionales. La principal ventaja de utilizar soluciones NoSQL es su capacidad de organizar los datos para el acceso escalable y adaptarse al problema y los objetivos correspondientes al modo en que se utilizarán los datos.

Por ejemplo, si vamos a utilizar los datos en un análisis para encontrar conexiones entre conjuntos de datos, entonces la mejor solución es una base de datos de grafo. Neo4j es un ejemplo de base de datos de grafo. En cambio, si accedemos mejor a los datos utilizando parejas de clave-valor como en el caso de un motor de búsqueda, probablemente la mejor solución sea una base de datos dedicada de parejas clave-valor. Cassandra es un ejemplo de base de datos clave-valor. En este curso explicaremos más en profundidad estos y otros tipos de sistemas NoSQL.

Muy bien, ahora ya confiamos en que existen tecnologías emergentes para abordar los desafíos de gestionar los datos desestructurados generados por personas. Pero, ¿como sacamos provecho de estas tecnologías para generar valor? Como ya hemos visto, los datos Big Data deben atravesar una serie de pasos antes de generar valor, a saber, el acceso, el almacenamiento, la depuración y el análisis. Un enfoque para resolver este problema es ejecutar cada paso en una capa diferente y utilizar las herramientas disponibles para adaptarse al problema en cuestión, y escalar las soluciones analíticas hacia Big Data. En próximos artículos vamos a ver herramientas importantes que se pueden utilizar para solucionar nuestros problemas de Big Data, además de las que hemos visto aquí.

Ahora voy a dar un paso atrás para recordar los valores que generaban estos Big Data.

¿Te acuerdas como las empresas pueden escuchar la voz real de los clientes (VoC) utilizando Big Data? Esto es posible gracias a la generación de este tipo de datos. El análisis de sentimientos analiza las redes sociales y otros datos para saber si la gente se asocia al negocio de manera positiva o negativa. Las organizaciones utilizan el procesamiento de datos personales para comprender las verdaderas preferencias de sus clientes.

Otra área de aplicación de ejemplo de los datos generados por personas es el modelado y predicción del comportamiento del cliente. Amazon, Netflix y muchas otras organizaciones utilizan la analítica para analizar las preferencias de sus clientes. En función del comportamiento del consumidor, las organizaciones sugieren mejores productos a sus clientes, y a su vez tienen clientes más satisfechos y mayores beneficios.

Otra área de aplicación donde el valor se presenta en forma de impacto y bienestar social es la gestión de catástrofes. Como ya hemos visto en un artículo anterior sobre los incendios forestales, hay muchos tipos de grandes volúmenes de datos que pueden ayudar en la respuesta a catástrofes. Los datos en forma de imágenes y tweets ayudan a facilitar una respuesta colectiva a situaciones de catástrofes, como por ejemplo evacuaciones o desalojos a través de la ruta más segura en función de las reacciones de la comunidad en las redes sociales. También existen redes que convierten la información del público (crowd-sourcing) y la analítica de Big Data en herramientas colectivas de respuesta a catástrofes.

La Red Internacional Crisis Mappers es un proyecto tecnológico humanitario que incluye una comunidad internacional activa de voluntarios. Crisis Mappers utiliza Big Data en forma de imágenes aéreas y de satélites, mapas participativos y actualizaciones en directo de Twitter para analizar los datos utilizando plataformas geoespaciales, visualización avanzada, simulación en vivo y modelos estadísticos por ordenador. Una vez analizados, los resultados son reportados para respuesta rápida a agencias humanitarias en forma de aplicaciones móviles y web. En 2015, justo después de los terremotos de Nepal, Crisis Mappers difundió el análisis de tweets y de los principales medios de comunicación para tener un acceso rápido a los daños y a las necesidades del desastre y para identificar donde se necesitaba ayuda humanitaria. Este ejemplo es impresionante y muestra como Big Data puede tener un impacto enorme en el bienestar social en tiempos de necesidad. Si te interesa, puedes aprender más acerca de esta historia aquí.

Resumiendo:

Aunque las personas generamos una cantidad enorme de datos, la mayor parte de estos datos son desestructurados, lo cual conlleva una serie de desafíos tecnológicos que no se deben tomar a la ligera.

Aunque existan desafíos a la hora de trabajar con datos desestructurados generados por personas a la escala y velocidad que requieren las aplicaciones, también existen tecnologías emergentes y soluciones que muchas aplicaciones están utilizando para generar valor a partir de las fuentes valiosas de información disponibles.

Big Data generada por personas

Entradas Relacionadas

0 comentarios:

Publicar un comentario