En el mundo de Big Data escuchamos frecuentemente el término "datos estructurados", es decir, datos que tienen una estructura que es bastante diferente a la de los llamados "datos no estructurados". Pero, ¿Qué es una estructura?
|
Datos estructurados frente a Datos no estructurados |
Analicemos el archivo 1 del gráfico de abajo. Es un archivo CSV típico que tiene tres líneas con diferente contenido, pero el contenido del archivo es uniforme en el sentido de que cada linea, llamémosla registro, tiene exactamente tres campos, que a veces llamamos propiedades de los datos o atributos. Además, los dos primeros campos son cadenas y el tercero es una fecha. Se pueden añadir más registros al fichero de la misma forma, es decir, como lineas que siguen el mismo patrón de datos. El contenido crecerá pero el patrón de organización de los datos seguirá siendo idéntico. Este patrón reproducible de organización de los datos es lo que dota de estructura al archivo.
|
Datos estructurados |
Vamos a analizar ahora el archivo 2, que tiene cuatro registros de cinco campos cada uno, excepto que al tercer registro parece que le falta la última entrada. ¿Puede considerarse estructurado este archivo? Podemos argumentar que sí debido a qué el valor que falta hace que el tercer registro esté incompleto, pero no se rompe la estructura o el patrón de organización de los datos.
Vamos a examinar estos dos archivos conjuntamente. Es evidente que el archivo 2 tiene más campos y por lo tanto es de un tipo más ancho que el primer archivo. ¿Dirías que tienen la misma estructura? Aparentemente no, pero si pensamos de forma más amplia nos damos cuenta que ambos son colecciones de k campos. El tamaño de la colección es diferente (tres y cuatro respectivamente), y k vale 3 en el primer caso y 5 en el segundo. Pero se puede pensar en estos valores de k cómo parámetros. En ese caso diremos que estos archivos se han generado por una estructura organizativa similar y por lo tanto tienen el mismo modelo de datos.
Y ahora vamos a comparar el caso anterior con el análisis del siguiente archivo.
|
Datos No Estructurados |
Nada más examinarlo vemos que resulta imposible averiguar como están organizados los datos y como identificar sus subpartes. Llamamos a estos datos desestructurados o no estructurados. Casos de datos no estructurados suelen ser los datos comprimidos como las imágenes JPEG, los archivos de audio MP3, los archivos de video MPEG3 y los datos encriptados. En posteriores artículos voy a analizar detenidamente los modelos de datos que no son totalmente estructurados o que se estructuran de manera diferente.
0 comentarios:
Publicar un comentario
Gracias por participar en esta página.