Fase de Análisis de Big Data

Ahora que ya tenemos bien preparados nuestros datos, la siguiente fase consiste en analizar los datos. El análisis de datos implica construir un modelo a partir de los datos de entrada utilizando una técnica de análisis para generar los datos de salida. Existen diferentes tipos de problemas y, por tanto, distintos tipos diferentes de técnicas de análisis: clasificación, regresión, clustering, análisis de asociación y análisis gráfico. Vamos a describir cada una de ellas.

Fase de Análisis del Proceso de Ciencia de Datos

* Puedes consultar aquí el artículo sobre la fase de procesamiento previo del proceso de ciencia de datos.

En la clasificación, el objetivo es predecir la categoría de los datos de entrada. Un ejemplo de esto es predecir el tiempo como soleado, lluvioso, con viento o nublado. Otro ejemplo puede ser clasificar un tumor como benigno o maligno. En este caso, la clasificación se denomina clasificación binaria, puesto que solo hay dos categorías. Pero también podemos tener muchas categorías, como en este problema de predicción del tiempo, que tiene cuatro categorías. Otro ejemplo es el de identificar dígitos escritos a mano que están en una de las diez categorías de cero a nueve.

Cuando nuestro modelo tiene que predecir un valor numérico en lugar de una categoría, entonces la tarea se convierte en un problema de regresión. Un ejemplo de regresión es predecir el precio de una acción. El precio de la acción es un valor numérico, no una categoría, por lo que es una tarea de regresión en lugar de una tarea de clasificación. Otros ejemplos de regresión pueden ser estimar las ventas semanales de un nuevo producto y predecir las notas de un examen.

En el clustering, el objetivo es organizar elementos similares en grupos. Un ejemplo es agrupar la base de clientes de una empresa en distintos segmentos para un marketing dirigido más eficaz, como las personas mayores, los adultos y los adolescentes. Otro ejemplo de este tipo puede ser identificar áreas de topografías similares, como montañas, desiertos o llanuras, para aplicaciones de uso del terreno. Otro ejemplo adicional consiste en determinar diferentes grupos de patrones climáticos, como de lluvia, frío o nieve.

El objetivo del análisis de asociación consiste en elaborar un conjunto de reglas para capturar asociaciones dentro de elementos o eventos. Las reglas se utilizan para determinar cuando los elementos o eventos ocurren al mismo tiempo. Una aplicación común del análisis de asociación se conoce como análisis de la cesta de la compra, que se utiliza para entender el comportamiento de compra de los clientes. Por ejemplo, el análisis de asociación puede revelar que los clientes de banca que tienen certificado de cuentas de depósito (certificados de depósito de garantía) también tienden a estar interesados en otros instrumentos de inversión, tales como las cuentas del mercado de valores. Esta información puede ser utilizada para la venta cruzada (cross-selling). Si publicitamos cuentas del mercado de valores a nuestros clientes con certificados de depósito, es probable que abran una cuenta de este tipo. Según la leyenda urbana de la minería de datos, una cadena de supermercados utilizó el análisis de asociación para descubrir una conexión entre dos productos aparentemente no relacionados. Descubrieron que muchos clientes que van al supermercado a última hora del domingo por la noche para comprar pañales también tienden a comprar cerveza, quienes son probablemente padres. Esta información se utilizó posteriormente para colocar juntos la cerveza y los pañales, tras lo cual observaron un incremento en las ventas de ambos artículos. Esta es la famosa conexión cerveza-pañal.

Cuando los datos se pueden transformar en una representación gráfica con nodos y enlaces, entonces necesitamos utilizar el análisis gráfico para analizar los datos. Este tipo de información se produce cuando tenemos una gran cantidad de entidades y de conexiones entre dichas entidades, como en las redes sociales. Algunos ejemplos en los que el análisis gráfico puede resultar útil pueden ser el estudio de la propagación de una enfermedad o epidemia mediante el análisis de los registros de los hospitales y de los médicos, la identificación de amenazas de seguridad mediante la monitorización de datos de redes sociales, de correo electrónico y de texto, así como la optimización del tráfico de la red de telecomunicaciones móviles para garantizar la calidad de las llamadas y reducir los cortes en las llamadas.

El Modelado comienza con la selección de una de las técnicas que hemos enumerado como técnica adecuada para el análisis, dependiendo del tipo de problema que tengamos. A continuación construimos el modelo utilizando los datos que hemos preparado. Para validar el modelo, lo aplicamos a nuevas muestras de datos. Se trata de evaluar cómo se comporta el modelo con los datos que se han utilizado para construirlo. La práctica común consiste en dividir los datos preparados en un conjunto de datos para la construcción del modelo y reservar parte de los datos para evaluar el modelo una vez construido. También podemos utilizar los nuevos datos preparados de la misma manera que con los datos que se han utilizado para construir el modelo.

La evaluación de los resultados depende del tipo de técnicas de análisis que hemos utilizado. Veamos brevemente como evaluamos cada técnica.

Para la clasificación y la regresión, tendremos la salida correcta para cada muestra de los datos de entrada. Comparar la salida correcta con la salida prevista por el modelo proporciona una manera de evaluar el modelo.

Para el clustering debemos examinar los grupos resultantes para ver si tienen sentido para nuestra aplicación. Por ejemplo, ¿reflejan los segmentos de clientes nuestra base de clientes? ¿Son útiles para utilizarlos en nuestras campañas de marketing dirigido?

Para el análisis de asociación y el análisis gráfico se requerirá cierta investigación para determinar si los resultados son correctos. Por ejemplo, tenemos que investigar los retrasos en el tráfico de red para ver si lo que pronostica el modelo está sucediendo realmente y si las fuentes de los retrasos están donde se han previsto en el modelo real.

Una vez que hayamos evaluado nuestro modelo para tener una idea de su rendimiento con nuestros datos, estaremos en condiciones de decidir los próximos pasos. Algunas preguntas a considerar son: ¿Debe llevarse a cabo el análisis con más datos con el fin de obtener un mejor rendimiento del modelo? ¿Ayudaría utilizar diferentes tipos de datos? Por ejemplo, ¿Es difícil distinguir en los resultados del clustering a clientes de distintas regiones? ¿Ayudaría añadir el código postal a los datos de entrada para generar segmentos de cliente de mayor granularidad? ¿Sugieren los resultados del análisis una visión más detallada de algunos aspectos del problema? Por ejemplo, la predicción del tiempo soleado da muy buenos resultados, pero las predicciones meteorológicas de lluvia no son tan buenas. Esto significa que deberíamos examinar con más detenimiento nuestras muestras de tiempo lluvioso. Puede que solo necesitemos más muestras para tiempo lluvioso, o puede que haya algunas anomalías en dichas muestras, o tal vez nos falten algunos datos que tengamos que incluir con el fin de capturar completamente el tiempo lluvioso. La situación ideal sería que nuestro modelo rinda muy bien con respecto a los criterios de éxito que se definieron al comienzo del proyecto. En ese caso estamos preparados para avanzar con la comunicación y acción sobre los resultados que hemos obtenido en el análisis.

Resumiendo:

El análisis de datos implica la selección de la técnica adecuada para el problema, la construcción del modelo y, a continuación, la evaluación de los resultados. Como existen diferentes tipos de problemas, también hay diferentes tipos de técnicas de análisis.

Fase de Análisis de Big Data

Entradas Relacionadas

0 comentarios:

Publicar un comentario