Searching...
sábado, 9 de julio de 2016

Fase de Procesamiento Previo de Big Data

Los datos en bruto que obtenemos directamente de las fuentes nunca están en el formato que necesitamos para llevar a cabo los análisis. Hay dos objetivos principales en la fase de procesamiento previo de los datos. El primero de ellos consiste en depurar los datos (pulirlos, mejorarlos) para hacer frente a los problemas de calidad de datos, y el segundo consiste en transformar los datos en bruto para adaptarlos al análisis.
Fase de Procesamiento previo del Proceso de Ciencia de Datos
Una parte muy importante de la preparación de datos consiste en abordar las cuestiones de calidad de los datos. Los datos del mundo real son turbios. Hay muchos ejemplos de problemas de calidad con datos de aplicaciones reales incluyendo datos inconsistentes, como un cliente con dos direcciones diferentes, registros duplicados, por ejemplo, la dirección del cliente grabada en dos lugares de venta diferentes en dos registros que no coinciden, la falta de datos demográficos o de estudios de clientes, valores no disponibles (missing) como la falta de la edad de un cliente en los estudios demográficos, datos inválidos como un código postal erróneo, por ejemplo, un código de seis dígitos, y los valores atípicos como una sensación de fracaso que provoca que los valores sean mucho más altos o más bajos de lo esperado durante un periodo de tiempo. Dado que se obtienen los datos con el flujo por lo general tenemos poco control sobre como se recogen los datos. Prevenir problemas de calidad de datos a medida que los datos se están recogiendo no suele ser una opción. Así que tenemos los datos que nos llegan y tenemos que afrontar los problemas de calidad mediante la detección y corrección de los mismos.

Se pueden seguir varios métodos para abordar estas cuestiones de calidad. Podemos eliminar los registros de datos con valores no disponibles. Podemos combinar registros duplicados. Esto requerirá una forma de decidir como resolver los valores conflictivos. Tal vez tenga sentido mantener el valor más reciente cada vez que haya un conflicto. En el caso de los valores inválidos, se puede utilizar como sustituto la mejor estimación de un valor razonable. Por ejemplo, para un valor de edad que falta para un empleado puede estimarse un valor razonable en base a la antigüedad del empleado. Los valores atípicos también se pueden eliminar si no son importantes para la tarea. Para abordar los problemas de calidad de datos de manera eficaz, el conocimiento de la aplicación es importante, como por ejemplo, como se han recopilado los datos, la población de usuarios y el uso previsto de la aplicación. Este conocimiento del dominio es esencial para tomar decisiones informadas sobre como tratar datos incompletos o incorrectos.

La segunda parte de la preparación de datos consiste en manipular los datos depurados para convertirlos al formato necesario para el análisis. A esta fase se le da múltiples nombres: manipulación de datos, pre-procesamiento de datos, data wrangling o data munging. Algunas operaciones de esta fase incluyen el escalado, la transformación, la selección de características, la reducción de la dimensionalidad y la manipulación de datos.
Preparación de datos para el análisis
El escalado implica cambiar el rango de valores para que esté dentro de un rango especificado, como por ejemplo de cero a uno. Esto se hace para evitar que ciertas características con valores grandes dominen los resultados. Por ejemplo, en el análisis de datos con una altura y peso, la magnitud de los valores de peso es mucho mayor que la de los valores de altura, de modo que escalar todos los valores entre cero y uno equiparará las contribuciones de ambas características de peso y altura.

Se pueden realizar diversas transformaciones en los datos para eliminar el ruido y la variabilidad. Una de estas transformaciones son los agregados. Agregar los datos generalmente da como resultado datos con menos variabilidad que pueden ayudar en nuestro análisis. Por ejemplo, las cifras de ventas diarias pueden tener muchos periodos de validez. Agregar los valores a cifras de ventas semanales o mensuales se traducirá en datos semejantes. Se pueden utilizar otras técnicas de filtrado para eliminar la variabilidad en los datos. Obviamente, esto viene a costa de un menor detalle de los datos, por lo que debemos sopesar estos factores según la aplicación específica.

La selección de características puede implicar la eliminación de características redundantes o irrelevantes, la combinación de características y la creación de nuevas características. Durante la fase de exploración de datos es posible que hayamos descubierto que dos características están correlacionadas. En ese caso se puede eliminar una de estas características sin afectar negativamente a los resultados del análisis. Por ejemplo, el precio de compra de un producto y el importe pagado del IVA probablemente estén correlacionados, por lo que será útil eliminar el importe del IVA. La eliminación de características redundantes o irrelevantes hará que el análisis posterior sea mucho más simple. En otros casos, puede que queramos combinar características o crear otras nuevas. Por ejemplo, tendría sentido añadir el nivel educativo del solicitante como una característica para la aprobación de un préstamo. También existen algoritmos para determinar automáticamente las características más relevantes en función de diversas propiedades matemáticas.

La reducción de la dimensionalidad es útil cuando el conjunto de datos tiene un gran número de dimensiones. Se trata de encontrar un subconjunto más pequeño de dimensiones que capture la mayor parte de la variación en los datos. Esto reduce las dimensiones de los datos a la vez que elimina características irrelevantes y simplifica el análisis. Una técnica muy utilizada para la reducción dimensional se denomina análisis de componentes principales o PCA.

Muchas veces los datos en bruto deben ser manipulados para estar en el formato correcto para el análisis. Por ejemplo, a partir de muestras que registran cambios diarios en los precios de las acciones, es posible que queramos capturar los cambios en los precios para un segmento determinado del mercado como el sector inmobiliario o el sanitario. Para ello sería necesario determinar que acciones pertenecen a cada segmento de mercado, agruparlos y puede que calcular la media, el rango y la desviación estándar para cada grupo.

Resumiendo:

La preparación de datos es una parte muy importante del proceso de ciencia de datos. De hecho, aquí es donde vamos a pasar la mayor parte del tiempo en cualquier iniciativa de ciencia de datos. Puede ser un proceso tedioso, pero es una fase crucial. Recuerda siempre: la basura que entra por la basura que sale. Si no dedicamos tiempo y esfuerzo en crear buenos datos para el análisis no obtendremos buenos resultados independientemente de lo sofisticada que sea la técnica de análisis que utilicemos.

0 comentarios:

Publicar un comentario

Gracias por participar en esta página.

 
Back to top!