Searching...
domingo, 26 de junio de 2016

Pasos del Proceso de Ciencia de Datos

Ya hemos visto una forma lineal simple del proceso de ciencia de datos (ver artículo anterior), que incluye cinco actividades distintas que dependen unas de otras. Voy a hacer un resumen de cada actividad antes de entrar en los detalle de cada una de ellas.
Proceso iterativo de Ciencia de Datos
El paso de adquisición incluye todo lo que nos haga recuperar los datos, incluyendo el descubrimiento, acceso, adquisición y transferencia de datos. Incluye la identificación y el acceso autenticado a todos los datos relacionados y el transporte de datos procedentes de las fuentes a los sistemas de fichero distribuidos. Incluye el subconjunto residual para emparejar los datos con regiones o momentos de interés, por lo que nos referimos en ocasiones a esto como consulta geo-espacial.

La siguiente actividad consiste en la preparación de datos, que se divide a su vez en dos pasos en función de la naturaleza de la actividad, en concreto, "explorar los datos" y "pre-procesar los datos". El primer paso de la preparación de datos implica, literalmente, examinar los datos para entender su naturaleza, lo que significa su calidad y formato. A menudo se necesita un análisis preliminar de los datos, o muestras de datos, para entenderla. Por este motivo este paso se denomina "explorar".

Una vez que sabemos más acerca de los datos a través del análisis exploratorio, el siguiente paso es el pre-procesamiento de datos para el análisis. El pre-procesamiento incluye la depuración, filtrado y creación de datos que los programas puedan leer y entender, como por ejemplo la conversión del modelado de datos en bruto en un modelo de datos más definido o su empaquetado utilizando un formato de datos específico. Si hay múltiples conjuntos de datos involucrados, este paso también incluye la integración de múltiples fuentes de datos, o flujos.

A continuación se pasarían los datos preparados a la etapa de análisis, lo que implica la selección de técnicas analíticas a utilizar, la construcción de un modelo de datos y el análisis de resultados. Solo este paso puede consumir un par de iteraciones o puede requerir que los científicos de datos vuelvan a los pasos uno y dos para obtener más datos o empaquetar los datos de una manera diferente.

El cuarto paso para la comunicación de los resultados incluye la evaluación de los resultados analíticos, presentándolos de una manera visual, creando informes que incluyan una evaluación de los resultados con respecto a los criterios de éxito. Las actividades de esta etapa se pueden designar con términos como interpretar, resumir, visualizar y pos-procesar.

El último paso nos lleva de vuelta a la primera razón por la que hacemos ciencia de datos, el propósito. Reportar los conocimientos (insights) y definir las acciones a partir del conocimiento en función del propósito definido inicialmente es lo que se denomina la etapa de acción.

Hasta aquí hemos visto todas las etapas de un proceso convencional de ciencia de datos. Hay que tener en cuenta que este es un proceso iterativo y los resultados de un paso pueden requerir repetir el paso anterior con nueva información.

0 comentarios:

Publicar un comentario

Gracias por participar en esta página.

 
Back to top!