En este modulo voy a hablar de los modelos de datos. Si has seguido el curso de introducción en mi blog, puede que recuerdes el artículo sobre la heterogeneidad de los datos. Una forma de caracterizar la heterogeneidad de los datos es identificar los diferentes modelos de datos que se utilizan en cualquier aplicación. ¿Que es un modelo de datos y cómo los utilizamos en el contexto de Big Data? En esta serie de artículos te presento los tres componentes de un modelo de datos y lo que estos nos dicen sobre los datos, de manera que al final seas capaz de distinguir entre datos estructurados y no estructurados, describir las cuatro operaciones básicas sobre los datos, a saber, selección, proyección, unión y mezcla (join), y enumerar los diferentes tipos de restricciones sobre los datos, cómo las restricciones de tipo, valor y de estructura. También podrás explicar porqué son útiles las restricciones para especificar la semántica de los datos.
Independientemente de si los datos son "grandes" o "pequeños", se necesita conocer o determinar las características de los datos antes de poder manipularlos o analizarlos de manera significativa. Voy a utilizar un ejemplo sencillo. Imagínate que tienes datos en un archivos de registros con los campos Nombre, Apellido y Fecha de Nacimiento de los empleados de la empresa. El hecho de que este archivo este compuesto de registros con campos, y no, por ejemplo, de texto plano, nos da una visión más clara de la organización de los datos del fichero y, por lo tanto, forma parte del modelo de datos. Esta característica se denomina Estructura.
Secuencia de diseño de modelos de datos en un proyecto de BI |
Del mismo modo, el hecho de que podamos realizar operaciones aritméticas con campos de datos cómo la fecha de nacimiento, y no con el campo del nombre, también forma parte de la manera cómo entendemos el modelo de datos. Estas son las llamadas Operaciones.
Por último, podemos saber que en la empresa nadie puede tener una edad inferior a 18 años, donde ya sabemos que la edad se calcula restando la fecha de nacimiento a la fecha actual. Esto es lo que denominamos Restricciones, que nos ofrecen una manera de detectar registros erróneos, en este caso, fechas de nacimiento manifiestamente inválidas.
0 comentarios:
Publicar un comentario
Gracias por participar en esta página.