Los sistemas Lockstep son sistemas informáticos tolerantes a fallas que ejecutan el mismo conjunto de operaciones al mismo tiempo en paralelo . [1] La redundancia (duplicación) permite la detección de errores y la corrección de errores: la salida de las operaciones sincronizadas se puede comparar para determinar si ha habido una falla si hay al menos dos sistemas ( redundancia modular dual ), y el error puede ser automáticamente corregido si hay al menos tres sistemas ( triple redundancia modular ), por mayoría de votos. El término "paso a paso " se origina en el uso del ejército, donde se refiere a la marcha sincronizada, en la que los manifestantes caminan tan cerca como sea físicamente práctico.
Para funcionar al mismo tiempo, cada sistema está configurado para progresar de un estado bien definido al siguiente estado bien definido. Cuando un nuevo conjunto de entradas llega al sistema, las procesa, genera nuevas salidas y actualiza su estado. Se considera que este conjunto de cambios (nuevas entradas, nuevas salidas, nuevo estado) define ese paso y debe tratarse como una transacción atómica; en otras palabras, o sucede todo, o no ocurre nada, pero no algo intermedio. A veces, se establece un cambio de tiempo (retardo) entre sistemas, lo que aumenta la probabilidad de detección de errores inducidos por influencias externas (por ejemplo , picos de voltaje , radiación ionizante o ingeniería inversa in situ ).
Memoria bloqueada
Algunos proveedores, incluido Intel, utilizan el término memoria bloqueada para describir un diseño de memoria multicanal en el que las líneas de caché se distribuyen entre dos canales de memoria, por lo que la mitad de la línea de caché se almacena en un DIMM en el primer canal, mientras que el segundo la mitad va a un DIMM en el segundo canal. Al combinar las capacidades de corrección de error simple y detección de error doble (SECDED) de dos DIMM habilitados para ECC en un diseño sincronizado, su naturaleza de corrección de datos de dispositivo único (SDDC) se puede extender a corrección de datos de dispositivo doble (DDDC), brindando protección contra la falla de cualquier chip de memoria. [2] [3] [4] [5]
Las desventajas del diseño de memoria bloqueada de Intel son la reducción de la cantidad de RAM efectivamente utilizable (en el caso de un diseño de memoria de tres canales, la cantidad máxima de memoria se reduce a un tercio del máximo disponible físicamente) y el rendimiento reducido del subsistema de memoria. [2] [4]
Redundancia modular dual
Cuando los sistemas informáticos están duplicados, pero ambos procesan activamente cada paso, es difícil arbitrar entre ellos si sus resultados difieren al final de un paso. Por esta razón, es una práctica común ejecutar sistemas DMR como configuraciones "maestro / esclavo" con el esclavo como un "hot-standby" para el maestro, en lugar de hacerlo en sincronía. Dado que no hay ninguna ventaja en que la unidad esclava procese activamente cada paso, un método común de trabajo es que el maestro copie su estado al final del procesamiento de cada paso al esclavo. Si el maestro falla en algún momento, el esclavo está listo para continuar desde el paso previo conocido como bueno.
Si bien el enfoque lockstep o DMR (cuando se combina con algunos medios para detectar errores en el maestro) puede proporcionar redundancia contra fallas de hardware en el maestro, no protegen contra fallas de software. Si el maestro falla debido a un error de software, es muy probable que el esclavo, al intentar repetir la ejecución del paso que falló, simplemente repita el mismo error y falle de la misma manera, un ejemplo de una falla de modo común. .
Redundancia modular triple
Cuando los sistemas informáticos se triplican, es posible tratarlos como sistemas de "votación". Si la salida de una unidad no coincide con las otras dos, se detecta que ha fallado. La salida coincidente de los otros dos se trata como correcta.
Ver también
Referencias
- ^ Stefan Poledna (1996). Sistemas en tiempo real tolerantes a fallas: el problema del determinismo de réplica . books.google.com . pag. 80. ISBN 9780585295800. Consultado el 8 de septiembre de 2014 .
- ^ a b Sree Syamalakumari (18 de febrero de 2014). "Descripción técnica de la familia de procesadores Intel Xeon E7 V2, sección 3.1: Búfer de memoria escalable Intel C104 / 102" . Intel . Consultado el 9 de septiembre de 2014 .
- ^ Thomas Willhalm (11 de julio de 2014). "Canal independiente frente al modo Lockstep: impulsa tu memoria de forma más rápida o segura" . Intel . Consultado el 9 de septiembre de 2014 .
- ^ a b "Pautas de mejores prácticas para servidores ProLiant con el informe técnico de ingeniería de la serie de procesadores Intel Xeon 5500, primera edición" (PDF) . HP . Mayo de 2009. págs. 8–9 . Consultado el 9 de septiembre de 2014 .
- ^ "Hoja de datos del búfer de memoria escalable Intel C102 / C104, sección 1.3.1.2.2: Modo Lockstep de subcanal 1: 1" (PDF) . Intel . Febrero de 2014. p. 9 . Consultado el 25 de enero de 2015 .