La identificación del sistema es un método para identificar o medir el modelo matemático de un sistema a partir de las mediciones de las entradas y salidas del sistema. Las aplicaciones de la identificación de sistemas incluyen cualquier sistema en el que se puedan medir las entradas y salidas e incluyen procesos industriales , sistemas de control , datos económicos , biología y ciencias de la vida , medicina , sistemas sociales y muchos más.
Un sistema no lineal se define como cualquier sistema que no es lineal, es decir, cualquier sistema que no satisface el principio de superposición . Esta definición negativa tiende a ocultar que existen muchos tipos diferentes de sistemas no lineales. Históricamente, la identificación de sistemas para sistemas no lineales [1] [2] se ha desarrollado centrándose en clases específicas de sistema y se puede categorizar ampliamente en cinco enfoques básicos, cada uno definido por una clase de modelo:
- Modelos de la serie Volterra ,
- Modelos estructurados en bloques,
- Modelos de redes neuronales ,
- Modelos NARMAX, y
- Modelos de espacio de estados .
Hay cuatro pasos a seguir para la identificación del sistema: recopilación de datos, postulado del modelo, identificación de parámetros y validación del modelo. La recopilación de datos se considera la primera y esencial parte de la terminología de identificación, y se utiliza como entrada para el modelo que se prepara posteriormente. Consiste en seleccionar un conjunto de datos apropiado, preprocesar y procesar. Implica la implementación de los algoritmos conocidos junto con la transcripción de cintas de vuelo, almacenamiento y gestión de datos, calibración, procesamiento, análisis y presentación. Además, la validación del modelo es necesaria para ganar confianza en un modelo en particular o rechazarlo. En particular, la estimación de parámetros y la validación del modelo son partes integrales de la identificación del sistema. La validación se refiere al proceso de confirmar el modelo conceptual y demostrar una correspondencia adecuada entre los resultados computacionales del modelo y los datos reales. [3]
Métodos de la serie Volterra
El trabajo inicial estuvo dominado por métodos basados en la serie de Volterra , que en el caso del tiempo discreto puede expresarse como
donde u ( k ), y ( k ); k = 1, 2, 3, ... son la entrada y la salida medidas respectivamente yes el núcleo de Volterra de l -ésimo orden, o la respuesta de impulso no lineal de l -ésimo orden. La serie Volterra es una extensión de la integral de convolución lineal . La mayoría de los algoritmos de identificación anteriores asumían que solo los dos primeros núcleos de Volterra, lineales y cuadráticos, están presentes y utilizaron entradas especiales como el ruido blanco gaussiano y métodos de correlación para identificar los dos núcleos de Volterra. En la mayoría de estos métodos, la entrada tiene que ser gaussiana y blanca, lo cual es una restricción severa para muchos procesos reales. Estos resultados se ampliaron posteriormente para incluir los primeros tres núcleos de Volterra, para permitir diferentes entradas y otros desarrollos relacionados, incluida la serie Wiener . Wiener, Lee, Bose y sus colegas del MIT desarrollaron un cuerpo de trabajo muy importante desde la década de 1940 hasta la de 1960, incluido el famoso método Lee y Schetzen. [4] [5] Si bien estos métodos todavía se estudian activamente en la actualidad, existen varias restricciones básicas. Estos incluyen la necesidad de conocer el número de términos de la serie de Volterra a priori, el uso de entradas especiales y la gran cantidad de estimaciones que deben identificarse. Por ejemplo, para un sistema en el que el kernel de Volterra de primer orden se describe mediante, por ejemplo, 30 muestras, se requerirán 30x30 puntos para el kernel de segundo orden, 30x30x30 para el tercer orden, etc. excesivamente grande. [6] Estos números pueden reducirse aprovechando ciertas simetrías, pero los requisitos siguen siendo excesivos independientemente del algoritmo que se utilice para la identificación.
Sistemas estructurados por bloques
Debido a los problemas de identificación de los modelos de Volterra, se investigaron otras formas de modelos como base para la identificación de sistemas para sistemas no lineales. Se han introducido o reintroducido varias formas de modelos no lineales estructurados en bloques. [6] [7] El modelo de Hammerstein consiste en un elemento no lineal estático de valor único seguido de un elemento dinámico lineal. [8] El modelo de Wiener es el reverso de esta combinación, de modo que el elemento lineal ocurre antes que la característica estática no lineal. [9] El modelo de Wiener-Hammerstein consiste en un elemento no lineal estático intercalado entre dos elementos lineales dinámicos, y hay varias otras formas de modelo disponibles. El modelo de Hammerstein-Wiener consiste en un bloque dinámico lineal intercalado entre dos bloques no lineales estáticos. [10] El modelo de Urysohn [11] [12] es diferente de otros modelos de bloques, no consta de secuencia de bloques lineales y no lineales, pero describe no linealidades tanto dinámicas como estáticas en la expresión del kernel de un operador. [13] Todos estos modelos pueden ser representados por una serie de Volterra pero en este caso los kernels de Volterra toman una forma especial en cada caso. La identificación consiste en métodos de estimación de parámetros y basados en la correlación. Los métodos de correlación explotan ciertas propiedades de estos sistemas, lo que significa que si se utilizan entradas específicas, a menudo ruido gaussiano blanco, los elementos individuales pueden identificarse uno a la vez. Esto da como resultado requisitos de datos manejables y, en ocasiones, los bloques individuales pueden relacionarse con componentes del sistema en estudio.
Los resultados más recientes se basan en la estimación de parámetros y en soluciones basadas en redes neuronales. Se han presentado muchos resultados y estos sistemas continúan siendo estudiados en profundidad. Un problema es que estos métodos solo son aplicables a una forma de modelo muy especial en cada caso y, por lo general, esta forma de modelo debe conocerse antes de la identificación.
Redes neuronales
Las redes neuronales artificiales tratan de imitar libremente la red de neuronas en el cerebro donde se realiza la computación a través de una gran cantidad de elementos de procesamiento simples. Una red neuronal típica consta de varias unidades de procesamiento simples interconectadas para formar una red compleja. Las capas de dichas unidades están dispuestas de modo que los datos se ingresen en la capa de entrada y pasen a través de una o varias capas intermedias antes de llegar a la capa de salida. En el aprendizaje supervisado, la red se entrena operando sobre la diferencia entre la salida real y la salida deseada de la red, el error de predicción, para cambiar la intensidad de la conexión entre los nodos. Al iterar, los pesos se modifican hasta que el error de salida alcanza un nivel aceptable. Este proceso se denomina aprendizaje automático porque la red ajusta los pesos para que se reproduzca el patrón de salida. Las redes neuronales se han estudiado extensamente y hay muchos libros de texto excelentes dedicados a este tema en general, [1] [14] y libros de texto más enfocados que enfatizan las aplicaciones de control y sistemas. [1] [15] Hay dos tipos de problemas principales que se pueden estudiar utilizando redes neuronales: problemas estáticos y problemas dinámicos. Los problemas estáticos incluyen el reconocimiento , la clasificación y la aproximación de patrones . Los problemas dinámicos involucran variables rezagadas y son más apropiados para la identificación del sistema y aplicaciones relacionadas. Dependiendo de la arquitectura de la red, el problema de entrenamiento puede ser no lineal en los parámetros, lo que implica optimización, o lineal en los parámetros, que se puede resolver utilizando enfoques clásicos. Los algoritmos de entrenamiento se pueden clasificar en aprendizaje supervisado, no supervisado o por refuerzo. Las redes neuronales tienen excelentes propiedades de aproximación, pero generalmente se basan en resultados de aproximación de funciones estándar utilizando, por ejemplo, el teorema de Weierstrass que se aplica igualmente bien a polinomios, funciones racionales y otros modelos bien conocidos. Las redes neuronales se han aplicado ampliamente a los problemas de identificación de sistemas que involucran relaciones dinámicas y no lineales. Sin embargo, las redes neuronales clásicas son máquinas de aproximación estáticas puramente brutas. No hay dinámica dentro de la red. Por lo tanto, cuando se ajustan modelos dinámicos, toda la dinámica surge al asignar entradas y salidas retrasadas a la capa de entrada de la red. El procedimiento de entrenamiento luego produce la mejor aproximación estática que relaciona las variables rezagadas asignadas a los nodos de entrada con la salida. Hay arquitecturas de red más complejas, incluidas las redes recurrentes, [1] que producen dinámicas al introducir órdenes crecientes de variables retrasadas en los nodos de entrada. Pero en estos casos es muy fácil sobreespecificar los retrasos y esto puede conducir a propiedades de generalización deficientes y de ajuste excesivo. Las redes neuronales tienen varias ventajas; son conceptualmente simples, fáciles de entrenar y usar, tienen excelentes propiedades de aproximación, el concepto de procesamiento local y paralelo es importante y esto proporciona integridad y comportamiento tolerante a fallas. La mayor crítica a los modelos clásicos de redes neuronales es que los modelos producidos son completamente opacos y, por lo general, no se pueden escribir ni analizar. Por lo tanto, es muy difícil saber qué está causando qué, analizar el modelo o calcular las características dinámicas del modelo. Algunos de estos puntos no serán relevantes para todas las aplicaciones, pero son para el modelado dinámico.
Métodos NARMAX
El n onlinear un uto r egressive m oving un modelo verage con e x entradas exógenos (modelo NARMAX) puede representar una amplia clase de sistemas no lineales, [2] y se define como
donde y ( k ), u ( k ) ye ( k ) son las secuencias de salida, entrada y ruido del sistema, respectivamente;, , y son los retardos máximos para la salida, la entrada y el ruido del sistema; F [•] es una función no lineal, d es un retardo de tiempo típicamente establecido en d = 1. El modelo es esencialmente una expansión de entradas, salidas y términos de ruido pasados. Debido a que el ruido se modela explícitamente, se pueden obtener estimaciones insesgadas del modelo del sistema en presencia de ruido no lineal y altamente correlacionado no observado. Volterra, los modelos estructurados en bloques y muchas arquitecturas de redes neuronales pueden considerarse como subconjuntos del modelo NARMAX. Desde que se introdujo NARMAX, al probar qué clase de sistemas no lineales pueden ser representados por este modelo, se han derivado muchos resultados y algoritmos basados en esta descripción. La mayor parte del trabajo inicial se basó en expansiones polinomiales del modelo NARMAX. Estos siguen siendo los métodos más populares en la actualidad, pero se han introducido otras formas más complejas basadas en ondículas y otras expansiones para representar sistemas no lineales severamente no lineales y altamente complejos. Una proporción significativa de sistemas no lineales se puede representar mediante un modelo NARMAX que incluye sistemas con comportamientos exóticos como caos , bifurcaciones y subarmónicos . Si bien NARMAX comenzó como el nombre de un modelo, ahora se ha convertido en una filosofía de identificación de sistemas no lineales. [2] El enfoque NARMAX consta de varios pasos:
- Detección de estructuras: qué términos están en el modelo
- Estimación de parámetros: determinar los coeficientes del modelo
- Validación del modelo: ¿el modelo es imparcial y correcto?
- Predicción: cuál es la salida en algún momento futuro
- Análisis: ¿cuáles son las propiedades dinámicas del sistema?
La detección de estructuras forma la parte más fundamental de NARMAX. Por ejemplo, un modelo NARMAX que consta de una entrada rezagada y un término de salida rezagado, tres términos de ruido rezagados, expandidos como un polinomio cúbico constaría de ochenta y dos términos candidatos posibles. Este número de términos candidatos surge porque la expansión por definición incluye todas las combinaciones posibles dentro de la expansión cúbica. Proceder ingenuamente a estimar un modelo que incluye todos estos términos y luego podar causará problemas numéricos y computacionales y siempre debe evitarse. Sin embargo, solo unos pocos términos suelen ser importantes en el modelo. La detección de estructuras, que tiene como objetivo seleccionar términos uno a la vez, es por lo tanto de vital importancia. Estos objetivos se pueden lograr fácilmente utilizando el algoritmo Orthogonal Least Squares [2] y sus derivados para seleccionar los términos del modelo NARMAX uno a la vez. Estas ideas también se pueden adaptar para el reconocimiento de patrones y la selección de características y proporcionan una alternativa al análisis de componentes principales, pero con la ventaja de que las características se revelan como funciones básicas que se relacionan fácilmente con el problema original.
Los métodos NARMAX están diseñados para hacer mucho más que simplemente encontrar el mejor modelo aproximado. La identificación del sistema se puede dividir en dos objetivos. La primera implica una aproximación en la que el objetivo clave es desarrollar un modelo que se aproxime al conjunto de datos de manera que se puedan hacer buenas predicciones. Hay muchas aplicaciones en las que este enfoque es apropiado, por ejemplo, en la predicción de series de tiempo del tiempo, precios de acciones, voz, seguimiento de objetivos, clasificación de patrones, etc. En tales aplicaciones, la forma del modelo no es tan importante. El objetivo es encontrar un esquema de aproximación que produzca los errores mínimos de predicción. Un segundo objetivo de la identificación del sistema, que incluye el primer objetivo como un subconjunto, implica mucho más que simplemente encontrar un modelo para lograr los mejores errores cuadráticos medios. Este segundo objetivo es la razón por la que se desarrolló la filosofía NARMAX y está vinculada a la idea de encontrar la estructura del modelo más simple. El objetivo aquí es desarrollar modelos que reproduzcan las características dinámicas del sistema subyacente, para encontrar el modelo más simple posible y, si es posible, relacionarlo con los componentes y comportamientos del sistema en estudio. El objetivo central de este segundo enfoque de identificación es, por lo tanto, identificar y revelar la regla que representa el sistema. Estos objetivos son relevantes para el diseño de sistemas de control y simulación de modelos, pero cada vez más para aplicaciones en medicina, neurociencia y ciencias de la vida. Aquí el objetivo es identificar modelos, a menudo no lineales, que se pueden utilizar para comprender los mecanismos básicos de cómo operan y se comportan estos sistemas para que podamos manipularlos y utilizarlos. Los métodos NARMAX también se han desarrollado en los dominios de frecuencia y espacio-temporales.
Modelos estocásticos no lineales
En una situación general, podría darse el caso de que alguna perturbación incierta exógena atraviese la dinámica no lineal e influya en las salidas. Una clase de modelo que es lo suficientemente general como para capturar esta situación es la clase de modelos de espacio de estados estocásticos no lineales . Un modelo de espacio de estados generalmente se obtiene utilizando leyes de primer principio, [16] tales como leyes físicas mecánicas, eléctricas o termodinámicas, y los parámetros a identificar generalmente tienen algún significado o significado físico.
Un modelo de espacio de estados de tiempo discreto puede definirse mediante las ecuaciones en diferencias:
en el cual es un número entero positivo que se refiere al tiempo. Las funciones y son funciones generales no lineales. La primera ecuación se conoce como ecuación de estado y la segunda se conoce como ecuación de salida. Todas las señales se modelan mediante procesos estocásticos . El proceso se conoce como el proceso estatal, y generalmente se asumen independientes y mutuamente independientes, de. El parámetrosuele ser un parámetro de dimensión finita (real) que se va a estimar (utilizando datos experimentales). Observe que el proceso de estado no tiene que ser una señal física y normalmente no se observa (no se mide). El conjunto de datos se da como un conjunto de pares de entrada y salida. por para algún valor entero positivo finito .
Desafortunadamente, debido a la transformación no lineal de variables aleatorias no observadas, la función de verosimilitud de las salidas es analíticamente intratable; se da en términos de una integral de marginación multidimensional. En consecuencia, los métodos de estimación de parámetros comúnmente utilizados, como el método de máxima verosimilitud o el método de error de predicción, basados en el predictor óptimo de un paso adelante [16], son analíticamente intratables. Recientemente, se han utilizado algoritmos basados en métodos secuenciales de Monte Carlo para aproximar la media condicional de las salidas o, junto con el algoritmo Expectativa-Maximización , para aproximar el estimador de máxima verosimilitud. [17] Estos métodos, aunque asintóticamente óptimos, son computacionalmente exigentes y su uso se limita a casos específicos en los que se pueden evitar las limitaciones fundamentales de los filtros de partículas empleados. Una solución alternativa es aplicar el método de error de predicción utilizando un predictor subóptimo. [18] [19] [20] Se puede demostrar que el estimador resultante es fuertemente consistente y asintóticamente normal y se puede evaluar usando algoritmos relativamente simples. [21] [20]
Ver también
- Modelo caja gris
- Modelo estadístico
Referencias
- ^ a b c d Nelles O. "Identificación del sistema no lineal: de enfoques clásicos a redes neuronales". Springer Verlag, 2001
- ^ a b c d Billings SA "Identificación del sistema no lineal: métodos NARMAX en el tiempo, la frecuencia y los dominios espacio-temporales". Wiley, 2013
- ^ Nesaei, Sepehr; Raissi, Kamran (1 de diciembre de 2011). Das, Vinu V .; Ariwa, Ezendu; Rahayu, Syarifah Bahiyah (eds.). Consideración del procesamiento de datos y validación de modelos en la identificación de sistemas de vehículos de vuelo . Notas de la conferencia del Instituto de Ciencias de la Computación, Informática Social e Ingeniería de Telecomunicación. Springer Berlín Heidelberg. págs. 269-274. doi : 10.1007 / 978-3-642-32573-1_46 . ISBN 978-3-642-32572-4.
- ^ Schetzen M. "Las teorías de sistemas no lineales de Volterra y Wiener". Wiley, 1980
- ^ Rugh WJ "Teoría de sistemas no lineales - El enfoque de Volterra Wiener". Prensa de la Universidad Johns Hopkins, 1981
- ^ a b Billings SA " Identificación de sistemas no lineales: una encuesta ". Actas de la IEE Parte D 127 (6), 272–285, 1980
- ^ Haber R., Keviczky L "Enfoque de modelado de entrada y salida de identificación de sistema no lineal". Vols I y II, Kluwer, 1980
- ↑ Hammerstein (Acta Math 1930) no se preocupó por el análisis de sistemas sino por los problemas de valores en la frontera y los valores propios de los operadores no lineales.
- ^ Este término es de uso común pero es bastante inexacto ya que Wiener nunca usó este modelo simple. Su modelo fue el que se dio inmediatamente después de la p.50 en la encuesta de Billings 1980 mencionada en las referencias siguientes.
- ^ A.Wills, T.Schön, L.Ljung, B.Ninness, Identificación de modelos Hammerstein-Wiener, Automatica 29 (2013), 70-81
- ^ M.Poluektov y A.Polar. Modelado de sistemas de control no lineales utilizando el operador discreto urysohn . 2018. Enviado arXiv: 1802.01700.
- ^ A.Polar. http://ezcodesample.com/urysohn/urysohn.html
- ^ M.Poluektov y A.Polar. Filtro Adaptativo Urysohn . 2019.
- ^ Haykin S. "Redes neuronales: una base integral". McMillan, 1999
- ^ Warwick K, Irwin GW, Hunt KJ "Redes neuronales para control y sistemas". Peter Peregrinus, 1992
- ^ a b Lennart., Ljung (1999). Identificación del sistema: teoría para el usuario (2ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall PTR. ISBN 978-0136566953. OCLC 38884169 .
- ^ Schön, Thomas B .; Lindsten, Fredrik; Dahlin, Johan; Wågberg, Johan; Naesseth, Christian A .; Svensson, Andreas; Dai, Liang (2015). "Métodos secuenciales de Monte Carlo para la identificación de sistemas ** Este trabajo fue apoyado por los proyectos Aprendizaje de sistemas dinámicos complejos (número de contrato: 637-2014-466) y modelado probabilístico de sistemas dinámicos (número de contrato: 621-2013-5524), ambos financiado por el Consejo Sueco de Investigación ". IFAC-PapersOnLine . 48 (28): 775–786. arXiv : 1503.06058 . doi : 10.1016 / j.ifacol.2015.12.224 .
- ^ M. Abdalmoaty, 'Aprendizaje de sistemas dinámicos no lineales estocásticos usando predictores lineales no estacionarios' , Disertación de licenciatura, Estocolmo, Suecia, 2017. Urna: nbn: se: kth: diva-218100
- ^ Abdalmoaty, Mohamed Rasheed; Hjalmarsson, Håkan (2017). "Identificación simulada de pseudo máxima verosimilitud de modelos no lineales" . IFAC-PapersOnLine . 50 (1): 14058–14063. doi : 10.1016 / j.ifacol.2017.08.1841 .
- ^ a b Abdalmoaty, Mohamed (2019). "Identificación de modelos dinámicos no lineales estocásticos mediante funciones de estimación" . Diva .
- ^ Abdalmoaty, Mohamed Rasheed-Hilmy; Hjalmarsson, Håkan (2019). "Métodos de error de predicción lineal para modelos estocásticos no lineales" . Automatica . 105 : 49–63. doi : 10.1016 / j.automatica.2019.03.006 .
Otras lecturas
- Lennart Ljung: Identificación del sistema - Teoría para el usuario, 2a ed, PTR Prentice Hall, Upper Saddle River, Nueva Jersey, 1999.
- R. Pintelon, J. Schoukens, Identificación de sistemas: un enfoque de dominio de frecuencia, IEEE Press, Nueva York, 2001. ISBN 978-0-7803-6000-6
- T. Söderström, P. Stoica, Identificación del sistema, Prentice Hall, Upper Saddle River, Nueva Jersey, 1989. ISBN 0-13-881236-5
- RK Pearson: Modelos dinámicos de tiempo discreto . Prensa de la Universidad de Oxford, 1999.
- P. Marmarelis, V. Marmarelis, V.Análisis de sistemas fisiológicos , Plenum, 1978.
- K. Worden, GR Tomlinson, No linealidad en dinámica estructural, Institute of Physics Publishing, 2001.