Searching...
martes, 6 de septiembre de 2016

Almacenamiento de Datos

Obviamente, el objetivo de una infraestructura de almacenamiento es almacenar los datos. Aquí voy a considerar dos cuestiones relacionadas con el almacenamiento. La primera es la que se refiere a la capacidad. ¿Cuanto espacio de almacenamiento debemos asignar? Es decir, ¿Cual debe ser el tamaño de la memoria? ¿Cuál debe ser la capacidad y el número de nuestras unidades de disco? También está el tema de la escalabilidad. ¿Deberíamos conectar directamente los dispositivos de almacenamiento a los ordenadores para acelerar la E/S (Entrada/Salida) directa aunque esto sea menos escalable? ¿O deberíamos conectar el almacenamiento a la red que interconecta los equipos del cluster? Esto ralentiza un poco el acceso a disco pero facilita la incorporación de una mayor capacidad de almacenamiento al sistema.
Jerarquía de almacenamiento en memoria
Estas preguntas no tienen una respuesta sencilla. Si estas interesado, puedes consultar este enlace donde se hace un estudio de las diferentes opciones de almacenamiento.

Una clase diferente de cuestiones se refieren a la velocidad del procesamiento de E/S. Este problema suele abordarse con un tipo de diagrama denominado jerarquía de memoria, jerarquía de almacenamiento o algunas veces jerarquía de almacenamiento en memoria. La parte superior de la estructura de la pirámide muestra una parte de la memoria llamada memoria caché, que reside dentro de la CPU y es muy rápida. Hay diferentes niveles de caché denominadas L1, L2 y L3, donde la L3 es la más lenta pero aún así es más rápida que la que solemos nombrar como memoria. En este gráfico se muestra en  naranja cerca del centro. En la figura se muestra su velocidad en función de los tiempos de respuesta. Observa que la velocidad de transferencia de la memoria en este caso es de 65 nanosegundos por acceso. Por el contrario, la velocidad del disco duro tradicional es del orden de 10 milisegundos. Esta brecha ha impulsado el diseño de muchas estructuras de datos y algoritmos que utilizan el disco duro pero tratan de minimizar el coste de las operaciones de E/S entre la memoria de alta velocidad y el disco más lento.

Sin embargo, recientemente ha surgido un nuevo tipo de almacenamiento muy similar a las unidades flash o memorias USB que usamos habitualmente. Estos dispositivos se denominan SSDs o dispositivos de estado sólido (Solid State Devices) y resultan mucho más rápidos que hacer girar los discos duros.

Una incorporación todavía más reciente es el método denominado NVMe. NVM significa memoria no volátil (Non-Volatile Memory), que acelera notablemente la transferencia de datos entre los dispositivos SSDs y la memoria.
Memoria rápida no volátil (NVMe) 
Lo que todo esto significa en un sistema Big Data es que ahora tenemos la posibilidad de diseñar la arquitectura de una infraestructura de almacenamiento eligiendo la cantidad de cada tipo de almacenamiento que necesitamos tener. En algunas investigaciones con grandes volúmenes de datos se ha encontrado que utilizar los dispositivos SSD acelera todas las operaciones de consulta sobre los datos al menos en un factor de diez más que en los discos duros. Obviamente, la otra cara de la moneda es el factor de coste. Los componentes se vuelven cada vez más caros a medida que avanzamos desde las capas inferiores de la pirámide hacia las capas superiores. Así que, en última instancia, se convierte en un tema de compensación de coste-beneficio.

0 comentarios:

Publicar un comentario

Gracias por participar en esta página.

 
Back to top!