Gestión de almacenamiento jerárquica

La gestión de almacenamiento jerárquico ( HSM ) es una técnica de almacenamiento de datos que mueve automáticamente los datos entre medios de almacenamiento de alto y bajo costo . Los sistemas HSM existen porque los dispositivos de almacenamiento de alta velocidad, como las matrices de unidades de estado sólido , son más costosos (por byte almacenado) que los dispositivos más lentos, como las unidades de disco duro , los discos ópticos y las unidades de cinta magnética .. Si bien sería ideal tener todos los datos disponibles en dispositivos de alta velocidad todo el tiempo, esto es prohibitivamente costoso para muchas organizaciones. En cambio, los sistemas HSM almacenan la mayor parte de los datos de la empresa en dispositivos más lentos y luego copian los datos en unidades de disco más rápidas cuando es necesario. En efecto, HSM convierte las unidades de disco rápidas en cachés para los dispositivos de almacenamiento masivo más lentos. El sistema HSM monitorea la forma en que se usan los datos y hace las mejores conjeturas sobre qué datos se pueden mover de manera segura a dispositivos más lentos y qué datos deben permanecer en los dispositivos rápidos.

HSM también se puede utilizar cuando se dispone de un almacenamiento más sólido para el archivo a largo plazo, pero su acceso es lento. Esto puede ser tan simple como una copia de seguridad fuera del sitio , para protección contra un incendio en el edificio.

HSM es un concepto establecido desde hace mucho tiempo, que se remonta a los inicios del procesamiento de datos comerciales. Sin embargo, las técnicas utilizadas han cambiado significativamente a medida que se dispone de nueva tecnología, tanto para el almacenamiento como para la comunicación a larga distancia de grandes conjuntos de datos. La escala de medidas como "tamaño" y "tiempo de acceso" ha cambiado drásticamente. A pesar de esto, muchos de los conceptos subyacentes siguen volviendo a ser populares años después, aunque a escalas mucho mayores o más rápidas. ^[1]

En un escenario típico de HSM, los archivos de datos ^[i] que se utilizan con frecuencia se almacenan en unidades de disco, pero eventualmente se migran a cinta si no se utilizan durante un cierto período de tiempo, normalmente unos meses. Si un usuario reutiliza un archivo que está en cinta, se vuelve a mover automáticamente al almacenamiento en disco. La ventaja es que la cantidad total de datos almacenados puede ser mucho mayor que la capacidad de almacenamiento en disco disponible, pero dado que solo los archivos que se usan raramente están en cinta, la mayoría de los usuarios generalmente no notarán ninguna desaceleración.

IBM Hierarchical Storage Manager (HSM, luego DFHSM y finalmente DFSMShsm ) fue implementado por primera vez ^{[ cita requerida ]} por IBM el 31 de marzo de 1978 para que MVS redujera el costo del almacenamiento de datos y simplificara la recuperación de datos de medios más lentos. El usuario no necesitaría saber dónde se almacenaron los datos y cómo recuperarlos; la computadora recuperaría los datos automáticamente. La única diferencia para el usuario era la velocidad a la que se devolvían los datos. HSM originalmente podía migrar conjuntos de datos solo a volúmenes de disco y volúmenes virtuales en una instalación de almacenamiento masivo IBM 3850 , pero una última versión admitía volúmenes de cinta magnética para el nivel de migración 2 (ML2).

Más tarde, IBM portó HSM a su sistema operativo AIX y luego a otros sistemas operativos similares a Unix como Solaris , HP-UX y Linux .