Searching...
jueves, 19 de mayo de 2016

Integración de Big Data en organizaciones

El último tipo de Big Data del que voy a hablar es el que generan las organizaciones. Este es el tipo de datos que más se acerca a lo que tienen actualmente la mayoría de las empresas. Pero está considerado como algo desfasado, o a veces se le llama "tradicional", cuando se compara con los demás tipos de Big Data. Sin embargo, es como mínimo igual de importante que el resto de tipos de Big Data.

En la mayor parte de los casos de uso, una única fuente de datos por si sola no resulta útil, sino que el valor real suele conseguirse combinando todos los flujos de fuentes de Big Data entre sí (de sensores, personas y organizaciones) y analizándolos para generar nuevos insights (conocimiento), los cuales vuelven luego a ser también Big Data. Una vez que dispongamos de estos insights, esto nos facilita posteriormente la optimización del proceso de toma de decisiones y llevar a cabo las acciones adecuadas.


Cómo generan datos las organizaciones


La respuesta a esta pregunta es muy singular a la organización y al contexto. Cada organización tiene diferentes prácticas operativas y modelos de negocio, lo que se traduce en una diversidad de plataformas de generación de datos. Por ejemplo, el tipo y fuente de datos que se obtiene en un banco es muy diferente del que obtiene un fabricante de equipos de hardware. Algunos tipos comunes de Big Data organizativos proceden de transacciones comerciales, tarjetas de crédito, instituciones gubernamentales, comercio electrónico, registros bancarios o de almacén, registros médicos, sensores, transacciones, clicks, etc. Es posible almacenar casi cualquier evento.

Las organizaciones almacenan estos datos para uso actual y futuro, así como para el análisis histórico. Imagina que eres una organización que recoge las operaciones de venta. Podemos utilizar estos datos para detectar patrones de productos correlacionados, para estimar la demanda de productos susceptibles de incrementar las ventas y para capturar la actividad fraudulenta. Por otra parte, cuando conocemos el record de ventas y podemos correlacionarlo con nuestros registros de marketing, podemos descubrir que campañas han tenido un impacto real. Como organización ya estamos empezando a tomar decisiones inteligentes basadas en datos.

Ahora piensa en reunir tus datos de ventas con otros datos abiertos externos, como los principales sucesos mundiales de las noticias. Podemos hacernos la siguiente pregunta: ¿ha sido un marketing inteligente o la consecuencia de acontecimientos externos que han activado las ventas? Utilizando la analítica adecuada ahora podemos construir inventarios para comparar el crecimiento con la demanda prevista.

Además, las organizaciones construyen y aplican procesos para registrar y supervisar eventos de negocio de interés, como el registro de un cliente, la fabricación de un producto o la recepción de un pedido. Estos procesos recopilan datos muy bien estructurados que incluyen transacciones, tablas de referencia y relaciones, así como los metadatos que definen su contexto. Por lo general, los datos estructurados se almacenan en Sistemas de Gestión de Bases de Datos Relacionales (SGBDR). Sin embargo, consideramos dato estructurado a cualquier dato que tenga la forma de registro localizado en un campo o fichero fijo. Esta definición también incluye las hojas de cálculo. Como he mencionado antes, tradicionalmente este tipo de datos bien estructurado supone la mayor parte de lo que gestiona y procesa el departamento de TI tanto en los sistemas operacionales como en los sistemas de Business Intelligence (BI).


Ejemplo de modelo E-R comparado con dimensional
Vamos a fijarnos en los datos de las operaciones de ventas de nuestro ejemplo anterior. Las tabla relacionales están organizadas para almacenar datos utilizando una estructura definida por un modelo. Cada columna se etiqueta para indicarnos el dato que se pretende almacenar en esa columna. Esto es lo que llamamos un modelo de datos. Un modelo de datos define cada una de las columnas y los campos de la tabla, y define las relaciones entre ellas. Por ejemplo, en una columna del ID del producto solo se incluyen identificadores que pueden estar vinculados potencialmente a otra tabla que define estos productos. La capacidad de definir este tipo de relaciones es lo que ha facilitado que muchas organizaciones hayan adoptado los datos estructurados o, en este caso, las bases de datos relacionales. Existen lenguajes estandarizados como el SQL que permiten extraer o consultar los datos de interés a partir de dichas tablas.
Diseño de datos de un sistema de BI en una organización
No obstante, puede ser todavía un desafió integrar estos datos estructurados. Existen numerosas tecnologías para modelar, reunir y consultar datos desestructurados procedentes de componentes de software y de hardware dentro de una organización. En el pasado, estos desafíos condujeron a que la información se almacenara en los llamados silos, incluso dentro de una organización.
Silos de información en una organización
De hecho, la realidad actual de muchas configuraciones de datos en la empresa son los silos de datos que incluyen DWs que se solapan entre sí y son redundantes, ODSs (Operational Data Stores), datamarts dependientes e independientes, cubos OLAP, otras bases de datos de reporting y sistemas clandestinos de datos.


Implementación de múltiples silos con diferentes herramientas de BI

El método de captura de datos tradicional en muchas organizaciones se ha realizado a nivel de departamento, sin la infraestructura ni los procedimientos adecuados para compartir e integrar estos datos. Esto ha dificultado el aumento de un reconocimiento de patrones escalable a nivel general de la organización. Dado que ningún sistema tiene acceso a todos los datos que la organización posee, cada uno de los conjuntos de datos está compartimentado. Si no se modifican estos silos, las organizaciones corren el riesgo de quedarse obsoletas, desincronizadas, e incluso los conjuntos de datos pueden hacerse invisibles. Las organizaciones se están dando cuenta de los resultados perjudiciales que conlleva esta estructura rígida, y están cambiando los procedimientos y la infraestrctura para permitir un procesamiento integrado de todos los datos enfocando al beneficio a nivel general de la organización. Las soluciones basadas en la nube se consideran soluciones ágiles y rentables en este campo.

Como obtienen beneficios las organizaciones de Big Data


Vamos a ver ejemplos del mundo real para ver las ventajas que extraen las organizaciones a partir de Big Data. Una de estas empresas es UPS, que dispone la entrega de 16 millones de envíos al día, con alrededor de 40 millones de solicitudes de seguimiento y una estimación de 16 petabytes de datos en sus operaciones. ¡Increíble! ¿Puedes imaginarte cuanto dinero podría ahorrarse UPS reduciendo un kilómetro la ruta de cada conductor? Si pudieran reducir la distancia que recorre cada camión en solo un kilómetro, UPS podría ahorrarse la friolera de 45 millones de euros al año. Aquí es donde interviene Big Data. Utilizando técnicas complejas de optimización sobre grandes conjuntos de datos se pueden descubrir rutas óptimas que antes no eran visibles para la empresa. Combinando Big Data con un procesamiento inteligente, UPS puede llegar a gestionar miles de optimizaciones de rutas.

Vamos a movernos ahora desde las agencias de paquetería al dominio del retail o venta al por menor. Una organización del sector de retail que hace un uso intensivo de Big Data es Walmart. Walmart es una gran compañía que cuenta con 250 millones de clientes en 10.000 tiendas. ¿Sabías que recogen 2,5 petabytes de datos a la hora? Capturan datos a partir de tweets, eventos locales, datos del clima local, compras en tiendas, clicks y muchas otras ventas online y datos relacionados con clientes y productos. Utilizan estos datos para buscar patrones como que productos suelen comprarse juntos, cuales son los mejores productos nuevos a introducir en sus almacenes, para predecir la demanda en un lugar específico y para personalizar recomendaciones de los clientes. En general, aprovechando el análisis de Big Data, Walmart ha podido mantener su posición de liderazgo en el sector de retail.

Los casos de UPS y Walmart son solo dos ejemplos de compañías que utilizan Big Data. Big Data está generando resultados para empresas de todos los sectores. Los estudios pronostican que el gasto en tecnologías de Big Data aumentará radicalmente en los próximos cinco años. Un estudio llevado a cabo por Bane & Company indica que los primeros en adoptar el análisis de Big Data han adquirido una ventaja significativa sobre el resto del mundo empresarial. Algunos estudios indican que las empresas que utilizan la analítica tienen el doble de probabilidades de estar en el cuartil superior de rendimiento financiero dentro de sus industrias, cinco veces más probabilidades de tomar decisiones mucho más rápido que la competencia, tres veces más probabilidades de ejecutar las decisiones de la forma prevista y el doble de probabilidades de utilizar los datos con mucha frecuencia cuando se toman decisiones. Esto apunta al crecimiento de la demanda de personas y tecnología relacionada o especializada en aplicaciones de Big Data.


La clave es la integración de datos heterogéneos


Sea cual sea nuestra aplicación de Big Data y los tipos de Big Data que estemos utilizando, el valor real procederá de la integración de diferentes tipos de fuentes de datos y de su análisis a gran escala.

Entonces, ¿Cómo empezamos a obtener este valor? En ocasiones todo lo que se necesita es estudiar los datos que ya hemos recogido de una manera diferente y esto puede suponer una gran diferencia en el retorno de inversión (ROI).

Voy a mencionar el caso de la compañía de cruceros Carnival Cruise Lines, que utiliza datos estructurados y desestructurados de diversas fuentes desde Junio de 2015 y los convierte en beneficio aplicando técnicas de optimización de precios sobre los datos integrados. Para poder alcanzar el éxito necesitamos incluir la integración de datos en nuestras prácticas de Big Data. Sin embargo, hay algunos desafíos particulares cuando se intentan integrar estas fuentes heterogéneas de datos y escalar las soluciones, de los que hablaré en próximos artículos del curso.

Vamos a definir ahora porque es necesaria la integración de datos. La integración de datos se refiere a reunir datos de diversas fuentes y convertirlos en información coherente y más útil, a la que llamamos también conocimiento. El objetivo principal es dominar o gestionar más técnicamente los datos y convertirlos en algo que podamos utilizar mediante programación. Un proceso de integración de datos implica muchas partes, empezando con el descubrimiento, el acceso y la supervisión de datos y siguiendo con el modelado y la transformación de datos de diversas fuentes.

Pero, ¿Por qué necesitamos integrar los datos en primer lugar? Vamos a empezar centrándonos en las diferencias entre grandes conjuntos de datos procedentes de distintas fuentes. Puede que tengamos datos de ficheros planos, de bases de datos relacionales, o datos codificados en XML o JSON, ambos generados habitualmente en la Red. Estos formatos y modelos diferentes son útiles porque están diseñados para expresar datos diferentes de maneras exclusivas. En cierto modo, los formatos y los modelos de datos diferentes aportan simultáneamente más utilidad y más complejidad a Big Data.

Cuando integramos datos en diferentes formatos, enriquecemos el producto final en el número de características con que describimos los datos. Por ejemplo, integrando datos de sensores ambientales y cámaras con datos del sistema GIS (Información Geográfica), como en la aplicación de predicción de incendios forestales sobre la que hemos hablado en un artículo anterior, podemos utilizar capacidades geoespaciales de los datos junto con datos no espaciales para ejecutar simulaciones de incendios con mayor precisión. Aunque antes podíamos ver imágenes del fuego desde cámaras ubicadas en la cima de la montaña, todavía no éramos capaces de decir de manera automática la ubicación exacta del incendio. Ahora, cuando se detecta un incendio desde una cámara situada en la cima de la montaña, se utilizan los paisajes para estimar la localización del incendio. Esta información de ubicación se puede introducir en el simulador de incendios tan pronto como se detecte para predecir con mayor precisión y más rápido el tamaño y la localización del incendio en la siguiente hora.

Del mismo modo podemos utilizar datos en tiempo real con los conjuntos de datos y usarlos todos a la vez. Además, reuniendo los datos y proporcionando acceso programable a ellos, ahora hacemos cada conjunto de datos más accesible. Por otra parte, la integración de los diversos conjuntos de datos reduce significativamente la complejidad general de los datos del producto. Los datos resultan más disponibles para su uso y más unificados como sistema propio.

Hay una ventaja de esta integración que no se menciona muy a menudo, y es que un sistema de datos tan optimizados e integrados puede aumentar la colaboración entre las diferentes partes de los sistemas de datos. Ahora cada parte puede visualizar claramente como sus datos se integran en el sistema global, incluyendo los escenarios de los usuarios y los procesos de seguridad y privacidad a su alrededor.

Resumiendo:
  • Si bien los datos bien estructurados de una organización son muy útiles y fiables y, por lo tanto, una fuente valiosa de información, las organizaciones deben prestar especial atención a la ruptura de los silos de información para explotar todo su potencial.
  • Las organizaciones están obteniendo un beneficio importante al integrar prácticas de Big Data en su cultura y romper sus silos. Algunos de los principales beneficios para las organizaciones son la eficacia operacional, la mejora de los resultados de marketing, mayores beneficios y mayor satisfacción del cliente.
  • La integración general de flujos de datos heterogéneos aporta valor a los Big Data y optimiza el negocio incluso antes de que empecemos a analizarlo.

0 comentarios:

Publicar un comentario

Gracias por participar en esta página.

 
Back to top!