La gestión de datos se ocupa básicamente de almacenar los datos de manera eficiente, pero ¿es esto suficiente? ¿Existe alguna manera de saber si los datos están potencialmente libre de errores y son útiles para los fines previstos? De esto se ocupa la calidad de datos. Hay muchas razones por las que cualquier aplicación de datos, especialmente las aplicaciones más grandes, deben tener en cuenta la calidad de los datos. En este artículo expongo tres razones, aunque obviamente hay otras que no menciono.
Gestión de la calidad de Big Data |
2 - La segunda razón se refiere a los datos relacionados con los sectores de la industria regulados en áreas como los ensayos clínicos de las compañías farmacéuticas o los datos financieros de los bancos y de las compañías de seguros. Los errores de datos en estas industrias pueden infringir las normativas regulatorias y tener consecuencias legales.
3 - El tercer factor es diferente de los dos primeros. Nos indica que si otras personas o un software de terceros tienen que utilizar nuestros grandes volúmenes de datos, es muy importante que los datos sean de buena calidad para generar confianza como proveedor de datos. Una categoría de aplicaciones de Big Data es la científica, en las que algunas personas expertas crean grandes colecciones integradas de datos para comprender cuestiones científicas. Asegurar la precisión de los datos dará lugar a una colaboración e interacción humana adecuada con las entidades externas.
Gartner, la conocida empresa de investigación y asesoramiento de tecnología creo un informe sectorial sobre cuestiones de calidad de Big Data. En este informe se identifican diferentes métodos para cumplir con los requisitos de calidad de datos en la industria. Estos métodos incluyen la adherencia a los estándares en los casos en los que aplique. También se hace referencia a la necesidad de crear las reglas en el sistema de datos que se puedan utilizar para comprobar si los datos pasan un conjunto de cualidades de precisión, como puede ser los empleados de más de 18 años. También incluye métodos para pulir los datos si hemos detectado que poseen errores o inconsistencias. Además, la gestión de la calidad de los datos debe incluir un flujo de trabajo sobre la forma en la que deben corregirse los datos de baja calidad para restablecerlos a un nivel alto de calidad.
- Perfilado de datos y medición de la calidad de datos.
- Análisis sintáctico y normalización.
- Depuración generalizada.
- Ajustes o cotejo.
- Monitorización.
- Resolución y flujo de trabajo para problemas en los datos.
- Enriquecimiento.
0 comentarios:
Publicar un comentario
Gracias por participar en esta página.