Después de haber recopilado los datos que necesitamos para nuestra aplicación podríamos tener la tentación de construir modelos de inmediato para analizar los datos (revisar artículo anterior). Debemos evitar esta tentación. El primer paso después de conseguir los datos es explorarlos, estudiarlos, indagar en ellos. Esta exploración de datos es parte del proceso de preparación de datos en dos fases.
|
Fase de Exploración del Proceso de Ciencia de Datos |
Necesitamos realizar una investigación preliminar con el fin de entender mejor las características específicas de nuestros datos. En esta fase buscaremos correlaciones, tendencias y valores atípicos. Sin esta fase, no podríamos utilizar los datos de manera eficaz.
Se pueden utilizar gráficos de correlación para explorar las dependencias entre las distintas variables de datos. Representar gráficamente las tendencias generales de las variables nos mostrará si los valores de estas variables se están desplazando hacia una dirección coherente, como las subidas y bajadas en los precios de venta. En estadística, un valor atípico es un punto de datos alejado de los demás puntos de datos. Diagramar los valores atípicos nos ayudará a volver a comprobar errores en los datos debidos a las mediciones. En algunos casos, los valores atípicos que no sean errores puede hacer que detectemos un evento excepcional (poco común).
|
Gráfico de Correlaciones |
Además, la estadística general proporciona valores numéricos que describen los datos a través de cifras que capturan diversas características de un conjunto de valores con un número único o un conjunto pequeño de números. Algunas estadísticas básicas de este tipo que debemos calcular para nuestro conjunto de datos son la media, mediana, el rango y la desviación estándar. La media y la mediana son medidas de la ubicación de un conjunto de valores. La moda es el valor que ocurre con mayor frecuencia en el conjunto de datos. El rango y la desviación estándar son medidas de la dispersión de los datos. Examinar estas mediciones nos dará una idea de la naturaleza de los datos. De esta manera podemos saber si algo anda mal con nuestros datos. Por ejemplo, si el rango de valores de la edad en nuestros datos incluye números negativos, o un número mucho mayor de 100, hay algo sospechoso en los datos que tenemos que examinar.
Las técnicas de visualización también proporcionan una manera rápida y eficaz y, en general muy útil, de observar los datos en esta fase de análisis preliminar. Un mapa de calor nos puede dar rápidamente una idea de donde están los focos de conflicto. Se pueden utilizar muchos tipos diferentes de gráficos. Los histogramas muestran la distribución de los datos y pueden presentar sesgo o dispersión anormal. Los diagramas de cajas son otro tipo de gráficos que muestran la distribución de los datos. Los gráficos de líneas se utilizan para ver como cambian los valores de los datos con el tiempo. Los picos en los datos también son fáciles de detectar. Los diagramas de dispersión pueden mostrar la correlación entre dos variables. En general, existen muchos tipos de gráficos para visualizar los datos que son muy útiles para ayudarnos a entender los datos disponibles.
|
Mapa de calor de España (AEMET) |
Resumiendo:
Lo que conseguimos mediante la exploración y el estudio de los datos es entender mejor la complejidad de los datos con los que tenemos que trabajar, lo que a su vez nos guiará en el resto del proceso.
0 comentarios:
Publicar un comentario
Gracias por participar en esta página.