La gestión de almacenamiento jerárquico ( HSM ) es una técnica de almacenamiento de datos que mueve automáticamente los datos entre medios de almacenamiento de alto y bajo costo . Los sistemas HSM existen porque los dispositivos de almacenamiento de alta velocidad, como las matrices de unidades de estado sólido , son más costosos (por byte almacenado) que los dispositivos más lentos, como las unidades de disco duro , los discos ópticos y las unidades de cinta magnética.. Si bien sería ideal tener todos los datos disponibles en dispositivos de alta velocidad todo el tiempo, esto es prohibitivamente costoso para muchas organizaciones. En cambio, los sistemas HSM almacenan la mayor parte de los datos de la empresa en dispositivos más lentos y luego copian los datos en unidades de disco más rápidas cuando es necesario. En efecto, HSM convierte las unidades de disco rápidas en cachés para los dispositivos de almacenamiento masivo más lentos. El sistema HSM monitorea la forma en que se usan los datos y hace las mejores conjeturas sobre qué datos se pueden mover de manera segura a dispositivos más lentos y qué datos deben permanecer en los dispositivos rápidos.
HSM también se puede utilizar cuando se dispone de un almacenamiento más sólido para el archivo a largo plazo, pero su acceso es lento. Esto puede ser tan simple como una copia de seguridad fuera del sitio , para protección contra un incendio en un edificio.
HSM es un concepto establecido desde hace mucho tiempo, que se remonta a los inicios del procesamiento de datos comerciales. Sin embargo, las técnicas utilizadas han cambiado significativamente a medida que se dispone de nueva tecnología, tanto para el almacenamiento como para la comunicación a larga distancia de grandes conjuntos de datos. La escala de medidas como "tamaño" y "tiempo de acceso" ha cambiado drásticamente. A pesar de esto, muchos de los conceptos subyacentes siguen volviendo a ser populares años después, aunque a escalas mucho mayores o más rápidas. [1]
Implementación
En un escenario típico de HSM, los archivos de datos [i] que se utilizan con frecuencia se almacenan en unidades de disco, pero eventualmente se migran a cinta si no se utilizan durante un cierto período de tiempo, normalmente unos meses. Si un usuario reutiliza un archivo que está en cinta, se vuelve a mover automáticamente al almacenamiento en disco. La ventaja es que la cantidad total de datos almacenados puede ser mucho mayor que la capacidad de almacenamiento en disco disponible, pero dado que solo los archivos que se usan raramente están en cinta, la mayoría de los usuarios no notarán ninguna ralentización.
En ocasiones, HSM se denomina almacenamiento por niveles . [1]
HSM (originalmente DFHSM, ahora DFSMShsm) fue el primero [ cita requerida ] implementado por IBM en sus ordenadores centrales a reducir el costo de almacenamiento de datos, y para simplificar la recuperación de datos desde medios más lentos. El usuario no necesitaría saber dónde se almacenaron los datos y cómo recuperarlos; la computadora recuperaría los datos automáticamente. La única diferencia para el usuario era la velocidad a la que se devolvían los datos.
La División de Investigación en Computación de CSIRO Australia implementó un HSM en su sistema operativo DAD (Drums and Display) con su Región de Documentos en la década de 1960, con copias de documentos que se escribieron en una cinta de 7 pistas y se recuperaron automáticamente al acceder a los documentos.
HSM en la forma de IBM 3850 Mass Storage Facility se anunció (según IBM) en 1974.
Más tarde, IBM portó HSM a su sistema operativo AIX y luego a otros sistemas operativos similares a Unix como Solaris , HP-UX y Linux .
HSM también se implementó en los sistemas DEC VAX / VMS y los sistemas Alpha / VMS. La primera fecha de implementación debe determinarse fácilmente a partir de los manuales de implementación del sistema VMS o los folletos de descripción del producto VMS.
Recientemente, el desarrollo de discos Serial ATA (SATA) ha creado un mercado significativo para HSM de tres etapas: los archivos se migran desde dispositivos de red de área de almacenamiento Fibre Channel de alto rendimiento a matrices de discos SATA algo más lentas pero mucho más baratas que suman varios terabytes o más. y luego, finalmente, de los discos SATA a la cinta.
El desarrollo más reciente en HSM es con unidades de disco duro y memoria flash , siendo la memoria flash más de 30 veces más rápida que los discos, pero los discos son considerablemente más baratos.
Conceptualmente, HSM es análogo al caché que se encuentra en la mayoría de las CPU de las computadoras , donde se utilizan pequeñas cantidades de memoria SRAM costosa que se ejecuta a velocidades muy altas para almacenar datos de uso frecuente, pero los datos usados menos recientemente se expulsan a la DRAM principal más lenta pero mucho más grande memoria cuando haya que cargar nuevos datos.
En la práctica, HSM se realiza normalmente mediante un software específico, como por ejemplo IBM Tivoli Storage Manager , Oracle SAM-QFS , Versity Storage Manager , Quantum , Tecnología de almacenamiento dinámico de Novell (DST) en Open Enterprise Server (OES) Plataforma Linux, HPE Marco de Gestión de Datos (DMF, anteriormente SGI Data Migration Facility), StorNext o EMC Legato OTG DiskXtender .
La eliminación de archivos de un nivel superior de la jerarquía (por ejemplo, disco magnético) después de que se hayan movido a un nivel inferior (por ejemplo, medios ópticos) a veces se denomina preparación de archivos . [2]
Casos de uso
HSM se utiliza a menudo para el almacenamiento profundo de datos que se mantendrán a largo plazo a bajo costo. Los robots de cinta automatizados pueden almacenar grandes cantidades de datos de manera eficiente con un bajo consumo de energía.
Algunos productos de software HSM permiten al usuario colocar partes de archivos de datos en la memoria caché de disco de alta velocidad y el resto en cinta. Esto se usa en aplicaciones que transmiten video a través de Internet; la porción inicial de un video se entrega inmediatamente desde el disco mientras un robot encuentra, monta y transmite el resto del archivo al usuario final. Un sistema de este tipo reduce en gran medida el costo del disco para los grandes sistemas de suministro de contenido.
Algoritmos
El factor clave detrás de HSM es una política de migración de datos que controla las transferencias de archivos en el sistema. Más precisamente, la política decide en qué nivel se debe almacenar un archivo, de modo que todo el sistema de almacenamiento pueda estar bien organizado y tener el menor tiempo de respuesta a las solicitudes. Hay varios algoritmos que realizan este proceso, como el reemplazo menos usado recientemente (LRU), [3] reemplazo tamaño-temperatura (STP), umbral heurístico (STEP) [4], etc. En la investigación de los últimos años, también hay algunos surgen políticas inteligentes mediante el uso de tecnologías de aprendizaje automático.
Almacenamiento por niveles
El almacenamiento por niveles es un entorno de almacenamiento de datos que consta de dos o más tipos de almacenamiento delimitados por diferencias en al menos uno de estos cuatro atributos: precio, rendimiento, capacidad y función. [1]
Cualquier diferencia significativa en uno o más de los cuatro atributos definitorios puede ser suficiente para justificar un nivel de almacenamiento separado.
Ejemplos:
- Disco y cinta : dos niveles de almacenamiento separados identificados por diferencias en los cuatro atributos definitorios.
- Disco de tecnología antigua y disco de nueva tecnología: dos niveles de almacenamiento separados identificados por diferencias en uno o más de los atributos.
- Almacenamiento en disco de alto rendimiento y disco más lento y menos costoso de la misma capacidad y función: dos niveles separados.
- Disco de clase empresarial idéntico configurado para utilizar diferentes funciones, como el nivel RAID o la replicación: un nivel de almacenamiento separado para cada conjunto de funciones únicas.
Nota: Los niveles de almacenamiento no están delineados por diferencias en el proveedor, la arquitectura o la geometría, excepto cuando esas diferencias dan como resultado cambios claros en el precio, el rendimiento, la capacidad y la función.
Implementaciones
- Alluxio
- Glaciar Amazonas
- IBM 3850 IBM 3850 Instalación de almacenamiento masivo
- IBM Tivoli Storage Manager for Space Management (HSM disponible en UNIX ( IBM AIX , HP UX , Solaris ) y Linux )
- IBM Tivoli Storage Manager HSM para Windows anteriormente OpenStore para servidores de archivos (OS4FS) (HSM disponible en Microsoft Windows Server )
- Colaboración HPSS by HPSS
- Infinite Disk , uno de los primeros sistemas de PC (desaparecido)
- EMC DiskXtender , anteriormente Legato DiskXtender, anteriormente OTG DiskXtender
- Moonwalk para Windows, NetApp, OES Linux
- Oracle SAM-QFS (código abierto bajo Opensolaris, [5] luego propietario)
- Oracle HSM (propietario, renombrado de SAM-QFS)
- Versity Storage Manager para Linux, licencia de modelo de núcleo abierto
- Progresión de datos Dell Compellent
- Zarafa Archiver (componente de ZCP, solución de archivo específica de la aplicación comercializada como una solución 'HSM')
- Marco de gestión de datos de HPE (DMF, anteriormente SGI Data Migration Facility) para SLES y RHEL
- Stor de QuantumNext
- Apple Fusion Drive para macOS
- Microsoft Storage Spaces desde la versión enviada con Windows Server 2012 R2 . Un producto de Microsoft más antiguo era el almacenamiento remoto , incluido con Windows 2000 y Windows 2003 . [6] [7]
Ver también
- Active Archive Alliance
- Archivo
- Almacenamiento por niveles automatizado
- Respaldo
- Almacenamiento de datos informáticos
- Proliferación de datos
- Almacenamiento de disco
- Gestión del ciclo de vida de la información
- Repositorio de información
- Almacenamiento de datos en cinta magnética
- Jerarquía de memoria
- Repositorio (desambiguación)
- Virtualización de almacenamiento
- Inventario físico
Referencias
- ^ Un ejemplo de alrededor de 2000, que incluso ahora parece anticuado, ya que la cinta pierde popularidad.
- ^ a b c Larry Freeman. "Lo viejo es nuevo de nuevo: niveles de almacenamiento" (PDF) .
- ^ Patrick M. Dillon; David C. Leonard (1998). Multimedia y la web de la A a la Z . ABC-CLIO. pag. 116. ISBN 978-1-57356-132-7.
- ^ O'Neil, Elizabeth J .; O'Neil, Patrick E .; Weikum, Gerhard (1 de junio de 1993). "El algoritmo de sustitución de páginas LRU-K para el almacenamiento en búfer del disco de la base de datos" . Registro ACM SIGMOD . 22 (2): 297-306. doi : 10.1145 / 170036.170081 . ISSN 0163-5808 .
- ^ Verma, A .; Pease, D .; Sharma, U .; Kaplan, M .; Rubas, J .; Jain, R .; Devarakonda, M .; Beigi, M. (2005). "Una arquitectura para la gestión del ciclo de vida en sistemas de archivos muy grandes" . 22ª IEEE / 13ª Conferencia Goddard de la NASA sobre tecnologías y sistemas de almacenamiento masivo (MSST'05) . Monterey, CA, EE. UU .: IEEE: 160–168. doi : 10.1109 / MSST.2005.4 . ISBN 978-0-7695-2318-7.
- ^ [SAM / QFS en OpenSolaris.org [1]
- ^ Rand Morimoto; Michael Noel; Omar Droubi; Ross Mistry; Chris Amaris (2008). Windows Server 2008 desatado . Sams Publishing. pag. 938. ISBN 978-0-13-271563-8.
- ^ http://windowsitpro.com/storage/remote-storage-service