Una falla intermitente , a menudo llamada simplemente "intermitente", es un mal funcionamiento de un dispositivo o sistema que ocurre a intervalos, generalmente irregulares, en un dispositivo o sistema que funciona normalmente en otros momentos. Las fallas intermitentes son comunes a todas las ramas de la tecnología , incluido el software de computadora . Una falla intermitente es causada por varios factores contribuyentes, algunos de los cuales pueden ser efectivamente aleatorios , que ocurren simultáneamente. Cuanto más complejo sea el sistema o mecanismo involucrado, mayor será la probabilidad de una falla intermitente.
Las fallas intermitentes no se pueden repetir fácilmente debido a sus complicados patrones de comportamiento. Estos también se denominan a veces fallas “suaves”, ya que no se manifiestan todo el tiempo y desaparecen de manera impredecible. En contraste, las fallas “duras” son fallas permanentes que ocurren durante un período de tiempo (o que a veces son instantáneas). Tienen un sitio de falla específico (ubicación de falla), modo (cómo se manifiesta la falla) y mecanismo, y no hay una recuperación impredecible para el sistema fallado. Dado que las fallas intermitentes no se pueden repetir fácilmente, es más difícil realizar un análisis de fallas, comprender sus causas raíz o aislar el sitio de fallas que para las fallas permanentes. [1]
Las fallas intermitentes pueden ser una causa de ocurrencias sin fallas encontradas (NFF) en productos y sistemas electrónicos. NFF implica que ocurrió una falla (falla) o se informó que ocurrió durante el uso de un producto. El producto fue analizado o probado para confirmar la falla, pero no se pudo encontrar “una falla o falla”. Un ejemplo común del fenómeno NFF ocurre cuando su computadora “cuelga”. Claramente, se ha producido un "fracaso". Sin embargo, si la computadora se reinicia, a menudo vuelve a funcionar. El impacto de las NFF y las fallas intermitentes puede ser profundo. Debido a sus características, los fabricantes pueden asumir una (s) causa (s) en lugar de gastar el tiempo y el costo para determinar una causa raíz. Por ejemplo, un proveedor de discos duros afirmó que los NFF no eran fallas y permitió que todos los productos NFF fueran devueltos al campo. Más tarde se determinó que estos productos tenían una tasa de retorno significativamente más alta, lo que sugiere que la condición NFF era en realidad el resultado de fallas intermitentes en el producto. El resultado fue un aumento de los costos de mantenimiento, una disminución de la disponibilidad de los equipos, un aumento de las molestias para el cliente, una reducción de la confianza del cliente, un daño a la reputación de la empresa y, en algunos casos, posibles peligros de seguridad. [2]
Un ejemplo simple de una causa efectivamente aleatoria en un sistema físico es una conexión eléctrica límite en el cableado o un componente de un circuito , donde ( causa 1 , la causa que debe identificarse y rectificarse) dos conductores pueden tocar sujetos a ( causa 2 , que no es necesario identificar) un cambio menor en la temperatura, vibración, orientación, voltaje, etc. (A veces esto se describe como una "conexión intermitente" en lugar de "falla"). En el software de computadora, un programa puede fallar ( causa 1 ) para inicializar una variable que debe ser inicialmente cero; Si el programa se ejecuta en circunstancias tales que la memoria casi siempre está limpia antes de comenzar, funcionará mal en las raras ocasiones en que ( causa 2 ) la memoria donde se almacena la variable no sea cero de antemano.
Las fallas intermitentes son notoriamente difíciles de identificar y reparar (" solucionar problemas ") porque cada factor individual no crea el problema por sí solo, por lo que los factores solo pueden identificarse mientras la falla está ocurriendo. La persona capaz de identificar y resolver el problema rara vez es el operador habitual. Debido a que el momento del mal funcionamiento es impredecible, y tanto el tiempo de inactividad del dispositivo o sistema como el tiempo de los ingenieros incurren en costos , la falla a menudo se tolera simplemente, si no es demasiado frecuente, a menos que cause problemas o peligros inaceptables. Por ejemplo, algunas fallas intermitentes en equipos críticos, como los equipos médicos de soporte vital , podrían provocar la muerte de un paciente o, en aeronáutica, provocar la interrupción de un vuelo o, en algunos casos, un accidente.
Si se produce una falla intermitente durante el tiempo suficiente durante la resolución de problemas, se puede identificar y resolver de la manera habitual.
Técnicas de resolución de problemas
Algunas técnicas para resolver fallas intermitentes son:
- El registro automático de los parámetros relevantes durante un tiempo suficiente para que se manifieste la falla puede ayudar; Los valores de los parámetros en el momento de la falla pueden identificar la causa de modo que se puedan tomar las medidas correctivas adecuadas.
- Cambiar las circunstancias de funcionamiento mientras la falla está presente para ver si la falla desaparece o cambia temporalmente. Por ejemplo, tocar componentes, enfriarlos con spray para congelador, calentarlos. Golpear el gabinete puede eliminar temporalmente la falla.
- una base de datos de averías similares que se hayan resuelto en equipos idénticos o similares [3]
- cambios de precaución, sin intentar identificar la falla. Por ejemplo, los condensadores electrolíticos sujetos a altas corrientes de ondulación se pueden cambiar como medida de rutina, sin molestarse en solucionar la falla en absoluto. Los conectores se pueden desconectar y volver a colocar. A veces, esto es una medida de desesperación; las cosas se cambian hasta que la falla deja de ocurrir, y se espera que realmente se resuelva en lugar de estar inactiva.
- En sistemas eléctricos y sistemas de cables, se pueden utilizar técnicas de reflectometría en el dominio del tiempo: se envían pulsos por el cableado eléctrico y se examinan los pulsos reflejados en busca de anomalías, por ejemplo, fugas intermitentes durante las tensiones de la operación de la aeronave; esto solo se puede hacer para un canal de prueba a la vez y generalmente se limita a fallas intermitentes> 100 milisegundos. [4]
- En sistemas complejos de múltiples canales, donde la falla puede estar en una interconexión, el método ideal para encontrar una falla intermitente es poder monitorear, detectar y aislar todos los canales o rutas eléctricas de manera continua y simultánea. Esta metodología permite que el sistema bajo prueba se beneficie de una cobertura de prueba continua y completa mientras se realiza cualquier estrés ambiental del sistema. Este tipo no se puede realizar mediante tecnología de prueba de escaneo, pero debe tener algún tipo de red neuronal electrónica que pueda realizar estas pruebas sin necesidad de escaneo y / o promediado digital; Este régimen de prueba está cubierto por MIL-PRF-32516 del DoD publicado en marzo de 2015 y exige que la tecnología de prueba opere en la categoría de Clase 1 para combatir las fallas intermitentes de manera efectiva. [5]
- Tres metodologías principales para mitigar el comportamiento intermitente en circuitos integrados son el retardo dinámico de instrucción, el escalado de frecuencia del núcleo y la migración de subprocesos. Cuando el procesador incurre en más tiempo del esperado para ejecutar un proceso, se produce un retraso de tiempo y una violación de tiempo. Esta falla puede evitarse mediante el uso de técnicas como el retardo dinámico de instrucciones. Este es un tipo de algoritmo que calcula las prioridades de programación durante la ejecución del sistema. El objetivo es responder dinámicamente a las condiciones cambiantes y formar una configuración optimizada y autosostenida. Otro enfoque para mitigar el retraso es el escalado de frecuencia central, que reduce el rendimiento de la CPU a una frecuencia más baja cuando se necesita menos y lo escala a una frecuencia más alta cuando se necesita más. La migración de subprocesos es otra técnica utilizada para superar las fallas intermitentes. Un hilo es un conjunto ordenado de instrucciones que le dice a una computadora exactamente qué hacer. Cuando un hilo específico encuentra fallas, el contenido del hilo dentro del núcleo de la computadora defectuoso se transfiere a otro hilo dentro de un núcleo inactivo, donde se aborda y resuelve el problema. [1]
Referencias
- ^ a b Bakhshi, Roozbeh; Kunche, Surya; Pecht, Michael (18 de febrero de 2014). "Fallos intermitentes en hardware y software". Revista de envases electrónicos . 136 (1): 011014. doi : 10.1115 / 1.4026639 . ISSN 1043-7398 .
- ^ Qi, H .; Ganesan, S .; Pecht, M. (mayo de 2008). "Fallos intermitentes y sin fallos en productos electrónicos". Fiabilidad de la microelectrónica . 48 (5): 663–674. doi : 10.1016 / j.microrel.2008.02.003 .
- ^ Ejemplo de una falla de TV intermitente en una base de datos "Copia archivada" . Archivado desde el original el 13 de abril de 2009 . Consultado el 19 de julio de 2010 .CS1 maint: copia archivada como título ( enlace ): "CHASIS Z3T - SIN ARRANQUE - INTERMITENTE. D1124 (5.1V) FUGAS ZENER"
- ^ "Reflectometría de dominio de tiempo de espectro extendido para localizar fallas intermitentes Archivado el 1 de mayo de 2010 en archive.today " Furse, Cynthia; Smith, Paul; DIARIO DE SENSORES DEL IEEE, VOL. 5, NO. 6 DE DICIEMBRE DE 2005 "
- ^ "¿No se encontró ninguna falla, repita la prueba, no se puede duplicar o no se encontró la falla? - Hacia una taxonomía estandarizada [1] " Samir Khan, Paul Phillips, Chris Hockley, Ian Jennions "