El primer paso del proceso de Ciencia de Datos consiste en adquirir los datos (puedes ver un resumen de esto en este artículo anterior). Es necesario obtener el material de origen antes de analizarlo o actuar sobre el. El primer paso al adquirir los datos es determinar cuales de ellos están disponibles. No debemos escatimar esfuerzos a la hora de investigar las fuentes de datos adecuadas. Queremos identificar los datos adecuados relacionados con nuestro problema y aprovechar todos los datos que sean relevantes para el análisis del problema. Omitir solamente una pequeña cantidad de datos importante puede conducir a conclusiones incorrectas.
Los datos pueden proceder de muchos lugares, locales y remotos, y venir en formatos heterogéneos, tanto de forma estructurada como desestructurada, y con diferentes velocidades. Hay muchas técnicas y tecnologías de acceso a estos diferentes tipos de datos. Vamos a ver algunos ejemplos.
Fase de Adquisición del Proceso de Ciencia de Datos |
Los datos pueden proceder de muchos lugares, locales y remotos, y venir en formatos heterogéneos, tanto de forma estructurada como desestructurada, y con diferentes velocidades. Hay muchas técnicas y tecnologías de acceso a estos diferentes tipos de datos. Vamos a ver algunos ejemplos.
Existen una gran cantidad de datos en bases de datos relacionales convencionales, como Big Data estructurada de organizaciones. La herramienta ideal para acceder a datos de bases de datos es el lenguaje de consulta estructurado o SQL, que está soportado por todos los sistemas de gestión de bases de datos relacionales. Además, la mayoría de los sistemas de bases de datos cuentan con un entorno gráfico que nos permite consultar y explorar los conjuntos de datos de la base de datos.
Los datos también pueden existir en distintos ficheros, como ficheros de texto y hojas de cálculo Excel. Generalmente se utilizan lenguajes de script para obtener datos de los ficheros. Un lenguaje de script es un lenguaje de programación de alto nivel que puede ser de propósito general o especializado en determinadas funciones. Entre los muchos lenguajes de script comunes que cuentan con soporte para el procesamiento de ficheros se encuentran Java Script, Python, PHP, Perl, R y MATLAB.
Una forma cada vez más popular de obtener datos es a partir de los sitios web. Las páginas web están escritas utilizando un conjunto de normas aprobadas por un consorcio mundial abreviado como W3C, el cual incluye diversos formatos y servicios. Un formato común es el Lenguaje de Marcado Extensible, o XML, que utiliza símbolos de marcado o etiquetas para describir el contenido de una página web. Muchos sitios web también alojan servicios web que generan el acceso del programa a sus datos. Hay varios tipos de servicios web. El más popular es REST porque es muy fácil de usar. REST es sinónimo de Transferencia de Estado Representacional y es una técnica para la implementación de servicios web orientada al rendimiento, escalabilidad y facilidad de mantenimiento. Los servicios WebSocket también se están haciendo cada vez más populares ya que permiten notificaciones en tiempo real de sitios web.
Se utilizan cada vez más los sistemas de almacenamiento NoSQL para manipular diversos tipos de datos de Big Data. Estos almacenes de datos son bases de datos que no representan los datos en un formato tabular de filas y columnas como sucede en las bases de datos relacionales convencionales. Como ejemplos de estos almacenes de datos podemos incluir Cassandra, MongoDB y HBASE. Los almacenes NoSQL proporcionan APIs para permitir a los usuarios acceder a los datos. Estas APIs se pueden utilizar directamente o en una aplicación que necesita acceder a los datos. Además, la mayoría de los sistemas NoSQL proporcionan acceso a datos a través de una interfaz de servicio web, como por ejemplo REST.
Ahora vamos a hablar de nuestro caso de estudio de los incendios forestales como un proyecto real que adquiere datos mediante varios mecanismos diferentes. El proyecto WIFIRE almacena datos de sensores de estaciones meteorológicas en una base de datos relacional. Utilizamos SQL para recuperar estos datos de la base de datos y crear modelos que identifican patrones climáticos asociados a las condiciones de la provincia de estudio. Para determinar si una estación meteorológica en particular está experimentando actualmente las condiciones de la provincia de estudio, accedemos a datos en tiempo real utilizando un servicio WebSocket. Una vez que empezamos la escucha de este servicio, recibimos las mediciones de las estaciones meteorológicas a medida que ocurren. Luego se procesan estos datos y se comparan con los patrones encontrados en nuestros modelos para determinar si una estación meteorológica está experimentando las condiciones de la provincia de estudio. Al mismo tiempo se recuperan tweets usando hashtags relacionados con cualquier incendio que se esté produciendo en la región. Estos tweets se recuperan utilizando el servicio REST de Twitter. La idea es determinar el sentimiento de estos tweets para ver si la gente está expresando miedo, ira o son simplemente indiferentes al incendio circundante. La combinación de los datos de los sensores y de los sentimientos de los tweets puede ayudarnos a detectar la urgencia de la situación del incendio.
Resumiendo:
Los grandes volúmenes de datos proceden de muchos lugares. Encontrar y evaluar los datos útiles para nuestros análisis de Big Data es importante antes de comenzar con la adquisición de datos. Dependiendo de la fuente y de la estructura de los datos, existen formas alternativas de acceder a ellos.
Ahora vamos a hablar de nuestro caso de estudio de los incendios forestales como un proyecto real que adquiere datos mediante varios mecanismos diferentes. El proyecto WIFIRE almacena datos de sensores de estaciones meteorológicas en una base de datos relacional. Utilizamos SQL para recuperar estos datos de la base de datos y crear modelos que identifican patrones climáticos asociados a las condiciones de la provincia de estudio. Para determinar si una estación meteorológica en particular está experimentando actualmente las condiciones de la provincia de estudio, accedemos a datos en tiempo real utilizando un servicio WebSocket. Una vez que empezamos la escucha de este servicio, recibimos las mediciones de las estaciones meteorológicas a medida que ocurren. Luego se procesan estos datos y se comparan con los patrones encontrados en nuestros modelos para determinar si una estación meteorológica está experimentando las condiciones de la provincia de estudio. Al mismo tiempo se recuperan tweets usando hashtags relacionados con cualquier incendio que se esté produciendo en la región. Estos tweets se recuperan utilizando el servicio REST de Twitter. La idea es determinar el sentimiento de estos tweets para ver si la gente está expresando miedo, ira o son simplemente indiferentes al incendio circundante. La combinación de los datos de los sensores y de los sentimientos de los tweets puede ayudarnos a detectar la urgencia de la situación del incendio.
Resumiendo:
Los grandes volúmenes de datos proceden de muchos lugares. Encontrar y evaluar los datos útiles para nuestros análisis de Big Data es importante antes de comenzar con la adquisición de datos. Dependiendo de la fuente y de la estructura de los datos, existen formas alternativas de acceder a ellos.
0 comentarios:
Publicar un comentario
Gracias por participar en esta página.