En informática , el control de recuperación de errores ( ERC ) ( Western Digital : recuperación de errores por tiempo limitado ( TLER ), Samsung / Hitachi : límite de tiempo de finalización de comandos ( CCTL )) es una función de los discos duros que permite al administrador del sistema configurar la cantidad de tiempo que se permite que el firmware de una unidad dedique a recuperarse de un error de lectura o escritura. Limitar el tiempo de recuperación permite mejorar el manejo de errores en RAID de hardware o softwareAmbientes. En algunos casos, existe un conflicto en cuanto a si el manejo de errores debe ser realizado por el disco duro o por la implementación de RAID, lo que lleva a que las unidades se marquen como inutilizables y una degradación significativa del rendimiento, cuando de otro modo esto podría haberse evitado.
Descripción general
Los discos duros modernos tienen la capacidad de recuperarse de algunos errores de lectura / escritura mediante la reasignación interna de sectores y la realización de otras formas de autocomprobación y recuperación. El proceso para esto a veces puede tardar varios segundos o (en condiciones de uso intensivo) minutos, durante los cuales la unidad no responde. Los controladores RAID de hardware y las implementaciones de RAID de software están diseñados para reconocer una unidad que no responde en unos pocos segundos y marcarla como no confiable, lo que indica que debe retirarse del uso y reconstruirse la matriz a partir de los datos de paridad . Este es un proceso largo, degrada el rendimiento y, si fallan más unidades con la carga de trabajo adicional resultante, puede ser catastrófico.
Si la unidad en sí es intrínsecamente confiable pero tiene algunos sectores defectuosos, TLER y características similares evitan que un disco se marque innecesariamente como 'fallado' al limitar el tiempo dedicado a corregir los errores detectados antes de avisar al controlador de la matriz de una operación fallida. El controlador de matriz puede manejar la recuperación de datos por la cantidad limitada involucrada, en lugar de marcar la unidad completa como defectuosa.
Computadoras de escritorio y TLER
Efectivamente, TLER y características similares limitan el rendimiento del manejo de errores en la unidad, para permitir que los controladores RAID de hardware y las implementaciones de RAID de software manejen el error si es problemático.
Generalmente, las unidades empresariales de Western Digital como Raptor , Caviar RE2 y RE2-GP (RAID Edition) vienen con TLER Read "Enabled" (7 segundos) y TLER Write "Enabled" (7 segundos) mientras que las unidades de escritorio como Caviar SE, SE16 , y GP vienen con TLER Read and Write Disabled (configurado en 0 segundos, para deshabilitar).
Consideraciones independientes frente a RAID
Es mejor que TLER esté "habilitado" cuando se encuentra en una matriz RAID para evitar que el tiempo de recuperación de un error de lectura o escritura del disco exceda el umbral de tiempo de espera de la implementación RAID. Si se agota el tiempo de espera de una unidad, será necesario volver a agregar manualmente el disco duro a la matriz, lo que requerirá una reconstrucción y sincronización del disco duro. La habilitación de TLER busca evitar esto al interrumpir la corrección de errores antes del tiempo de espera, para informar fallas solo para segmentos de datos. El resultado es una mayor confiabilidad en una matriz RAID.
En una configuración autónoma, TLER debe estar deshabilitado. Como la unidad no es redundante, informar los segmentos como fallidos solo aumentará la intervención manual. Sin un controlador RAID de hardware o una implementación RAID de software para colocar el disco, la capacidad de recuperación normal (sin TLER) es más estable.
En una configuración RAID de software, si TLER es útil o no depende del sistema operativo. Por ejemplo, en FreeBSD, la pila ATA / CAM controla los tiempos de espera y está configurada para aumentar progresivamente los tiempos de espera a medida que ocurren. Por lo tanto, si un disco de escritorio sin TLER comienza a retrasar una respuesta a la lectura de un sector, FreeBSD volverá a intentar la lectura con tiempos de espera sucesivamente más largos para evitar que el disco se caiga prematuramente de la matriz.
Modelo | TLER predeterminado (lectura / escritura) | Recomendación independiente | Recomendación de RAID |
---|---|---|---|
Caviar, SE, SE16, GP, Raptor | Deshabilitado (0s / 0s) | Defecto | Habilitado (si es posible) |
Caviar RE2, RE2-GP, Rojo | Habilitado (7 s / 7 s) | Discapacitado | Defecto |
Interacción de TLER con el sistema de archivos ZFS avanzado
El sistema de archivos ZFS se escribió para escribir datos de inmediato en un sector que se informa como defectuoso o que tarda demasiado en leerse (como las unidades que no son TLER); esto normalmente forzará una reasignación de sector inmediata en un sector débil en la mayoría de las unidades.
Utilidad Western Digital Time Limit Error Recovery
La utilidad WDTLER.EXE permite habilitar o deshabilitar el parámetro TLER en la configuración del firmware del disco duro, lo que permite al usuario determinar la mejor configuración para su uso particular como unidad independiente o RAID. Esta utilidad está escrita para DOS y necesitará un disco de arranque de DOS con esta utilidad para usarla.
La utilidad funciona y realiza cambios en todas las unidades de disco duro Western Digital compatibles conectadas a la computadora. Es importante recordar que cualquier cambio afectará a todos los discos duros. Si solo desea cambiar discos duros específicos en su computadora, entonces debe desconectar los otros discos duros antes de usar esta utilidad, luego volver a conectarlos cuando haya terminado.
La utilidad viene con tres archivos por lotes, TLERSCAN.BAT para obtener el estado actual de la configuración de TLER en todos los discos duros, TLER-ON.BAT para habilitar TLER y TLER-OFF.BAT para deshabilitar TLER. El incluido TLER-ON.BAT establecerá el tiempo de lectura y escritura de TLER en siete segundos. Si desea utilizar un valor de tiempo de espera personalizado, puede utilizar el La utilidad WDTLER.EXE directamente con los -r# -w#
parámetros para especificar cuántos segundos debe ser el valor del límite de tiempo.
Western Digital afirma que el uso de La utilidad WDTLER.EXE en unidades más nuevas puede dañar el firmware e inutilizar el disco. La utilidad ya no está disponible en Western Digital y las nuevas unidades no podrán cambiar la configuración de TLER. Los discos RE solo son adecuados para matrices RAID y Caviar solo son adecuados para uso no RAID. La utilidad todavía [ ¿cuándo? ] funciona para unidades más antiguas.
utilidad smartctl
La La utilidad smartctl (parte del paquete smartmontools) se puede usar [1] en unidades de disco duro que implementan completamente el estándar ATA-8 [2] para controlar el comportamiento de TLER configurando el parámetro SCT Error Recovery Control (scterc).
Controlar el comportamiento de TLER a través del La utilidad smartctl puede no funcionar en todas las unidades de disco duro porque algunos fabricantes han cambiado sus unidades de escritorio para no incluir el soporte para el parámetro ERC, [3] [4] supuestamente para forzar las ventas de sus modelos RAID / empresariales más costosos. [ cita requerida ]
Controladores RAID
Los valores de tiempo de espera de desconexión para diferentes controladores RAID de hardware pueden variar entre proveedores; por lo tanto, TLER debería dispararse antes de que el controlador agote el tiempo del variador. Por ejemplo, 3ware 9650SE usa 20 segundos como tiempo de espera, [5] mientras que para la lógica LSI usada en IBM x-series es 10 segundos. [6]
La tecnología Intel Matrix RAID / Intel Rapid Storage ampliamente disponible , integrada en las placas base de servidor Intel y placas base de escritorio modernas, es un controlador de pseudo-hardware, no un controlador RAID de hardware real.
RAID de software
Linux mdadm simplemente sostiene y deja que la unidad complete su recuperación; sin embargo, el tiempo de espera del comando predeterminado para la capa de disco SCSI (/ sys / block / sd? / Device / timeout) es de 30 segundos, [7] después de lo cual intentará reiniciar la unidad y, si eso falla, desconecte la unidad. [8]
Referencias
- ^ "Descripción del autor del parche original para smartctl que implementó esa característica" . Archivado desde el original el 10 de septiembre de 2013 . Consultado el 15 de febrero de 2013 .
- ^ AT Adjunto 8 - Conjunto de comandos ATA / ATAPI (ATA8-ACS)
- ^ "Re: md RAID con unidades SATA o SAS de clase empresarial" . spinics.net .
- ^ "Preguntas frecuentes de Seagate: ¿Qué es el control de recuperación de errores?" . seagate.com .
- ^ "Guía del usuario para 9650SE 9690SA de 9.5.2 Conjunto de códigos completo" . lsi.com . Archivado desde el original el 3 de febrero de 2012 . Consultado el 10 de junio de 2015 .
- ^ Disponible en BIOS Raid Config Utility> Propiedades avanzadas del dispositivo
- ^ "linux / sd.h en master · torvalds / linux · GitHub" . GitHub .
- ^ "kernel / git / torvalds / linux.git - árbol de fuentes del kernel de Linux" . kernel.org .