El filtrado generalizado es un esquema de filtrado bayesiano genérico para modelos de espacio de estados no lineales. [1] Se basa en un principio variacional de mínima acción , formulado en coordenadas generalizadas. [2] Nótese que el concepto de "coordenadas generalizadas" como se usa aquí difiere del concepto de coordenadas generalizadas de movimiento como se usa en el análisis de sistemas dinámicos (multicuerpo). El filtrado generalizado proporciona densidades posteriores sobre estados ocultos (y parámetros) generando datos observados utilizando un descenso de gradiente generalizado en energía libre variacional, bajo el supuesto de Laplace . A diferencia de los clásicos (por ejemplo, Kalman-Bucy o partícula) filtrado, el filtrado generalizado evita las suposiciones de Markov sobre fluctuaciones aleatorias. Además, opera en línea, asimilando datos para aproximar la densidad posterior sobre cantidades desconocidas, sin necesidad de un pase hacia atrás. Los casos especiales incluyen filtrado variacional , [3] maximización de expectativa dinámica [4] y codificación predictiva generalizada .
Definición
Definición : el filtrado generalizado se basa en la tupla :
- Un espacio muestral de las cuales fluctuaciones aleatorias se dibujan
- Estados de control - que actúan como causas externas, insumos o términos forzosos
- Estados ocultos - que provocan estados sensoriales y dependen de estados de control
- Estados del sensor - un mapeo probabilístico de estados ocultos y de control
- Densidad generativa - sobre estados sensoriales, ocultos y de control bajo un modelo generativo
- Densidad variacional - sobre estados ocultos y de control con media
Aquí ~ denota una variable en coordenadas de movimiento generalizadas:
Filtrado generalizado
El objetivo es aproximar la densidad posterior sobre los estados ocultos y de control, dados los estados del sensor y un modelo generativo, y estimar la evidencia del modelo (integral de trayectoria de) para comparar diferentes modelos. Esto generalmente implica una marginación intratable sobre los estados ocultos, por lo que la evidencia del modelo (o probabilidad marginal) se reemplaza con un límite de energía libre variacional. [5] Dadas las siguientes definiciones:
Denote la entropía de Shannon de la densidad por . Entonces podemos escribir la energía libre variacional de dos maneras:
La segunda igualdad muestra que minimizar la energía libre variacional (i) minimiza la divergencia de Kullback-Leibler entre la densidad posterior variacional y la verdadera y (ii) hace que la energía libre variacional (una aproximación limitada a) la evidencia logarítmica negativa (porque la divergencia nunca puede ser menor que cero). [6] Bajo el supuesto de Laplace la densidad variacional es gaussiana y la precisión que minimiza la energía libre es . Esto significa que la energía libre se puede expresar en términos de la media variacional [7] (omitiendo las constantes):
Los medios variacionales que minimizan la (integral de trayectoria) de la energía libre ahora se pueden recuperar resolviendo el filtro generalizado:
dónde es un operador derivado de matriz de bloque de matrices de identificación tal que
Base variacional
El filtrado generalizado se basa en el siguiente lema: La solución autoconsistente para satisface el principio variacional de la acción estacionaria , donde la acción es la ruta integral de la energía libre variacional
Prueba : la autoconsistencia requiere que el movimiento de la media sea la media del movimiento y (por el lema fundamental del cálculo variacional )
En pocas palabras, las pequeñas perturbaciones en la trayectoria de la media no cambian la energía libre variacional y tiene la menor acción de todas las trayectorias (locales) posibles.
Observaciones : Heurísticamente, el filtrado generalizado realiza un descenso de gradiente sobre la energía libre variacional en un marco de referencia en movimiento:, donde el propio marco minimiza la energía libre variacional. Para un ejemplo relacionado en física estadística, vea Kerr y Graham [8] que usan dinámica de conjuntos en coordenadas generalizadas para proporcionar una versión generalizada de espacio de fase de Langevin y las ecuaciones de Fokker-Planck asociadas.
En la práctica, el filtrado generalizado utiliza la linealización local [9] en intervalos. para recuperar actualizaciones discretas
Esto actualiza las medias de las variables ocultas en cada intervalo (generalmente el intervalo entre observaciones).
Modelos generativos (espacio de estado) en coordenadas generalizadas
Por lo general, la densidad o modelo generativo se especifica en términos de un modelo de entrada-estado-salida no lineal con funciones no lineales continuas:
El modelo generalizado correspondiente (bajo supuestos de linealidad local) obtiene el de la regla de la cadena
Supuestos gaussianos sobre las fluctuaciones aleatorias luego prescriba la probabilidad y los antecedentes empíricos sobre el movimiento de los estados ocultos
Las covarianzas factorizar en una covarianza entre variables y correlaciones entre fluctuaciones generalizadas que codifica su autocorrelación :
Aquí, es la segunda derivada de la función de autocorrelación evaluada en cero. Ésta es una medida omnipresente de rugosidad en la teoría de los procesos estocásticos . [10] Fundamentalmente, la precisión (varianza inversa) de las derivadas de orden alto cae a cero con bastante rapidez, lo que significa que solo es necesario modelar un movimiento generalizado de orden relativamente bajo (normalmente entre dos y ocho) para cualquier función de autocorrelación dada o parametrizada.
Casos especiales
Filtrado de series de tiempo discretas
Cuando las series de tiempo se observan como una secuencia discreta de observaciones, el muestreo implícito se trata como parte del proceso generativo, donde (utilizando el teorema de Taylor )
En principio, la secuencia completa podría usarse para estimar variables ocultas en cada momento. Sin embargo, la precisión de las muestras en el pasado y el futuro cae rápidamente y puede ignorarse. Esto permite que el esquema asimile datos en línea, utilizando observaciones locales alrededor de cada punto de tiempo (típicamente entre dos y ocho).
Parámetros de modelo y filtrado generalizados
Para cualquier parámetro de modelo que varíe lentamente de las ecuaciones de movimiento o precisión El filtrado generalizado toma la siguiente forma (donde corresponde a la media variacional de los parámetros)
Aqui la solucion minimiza la energía libre variacional, cuando el movimiento de la media es pequeño. Esto se puede ver al señalar. Es sencillo demostrar que esta solución corresponde a una actualización clásica de Newton . [11]
Relación con el filtrado bayesiano y la codificación predictiva
Filtrado generalizado y filtrado de Kalman
El filtrado clásico bajo los supuestos de Markov o Wiener equivale a asumir que la precisión del movimiento de las fluctuaciones aleatorias es cero. En este caso límite, solo hay que considerar los estados y su primera derivada. Esto significa que el filtrado generalizado toma la forma de un filtro de Kalman-Bucy, con términos de predicción y corrección:
La sustitución de este filtrado de primer orden en el esquema de actualización discreto anterior da el equivalente al filtrado de Kalman (extendido). [12]
Filtrado generalizado y filtrado de partículas
El filtrado de partículas es un esquema basado en muestreo que relaja las suposiciones sobre la forma de la densidad posterior variacional o aproximada. El esquema de filtrado generalizado correspondiente se denomina filtrado variacional . [3] En el filtrado variacional, un conjunto de partículas se difunde sobre el paisaje de energía libre en un marco de referencia que se mueve con el movimiento esperado (generalizado) del conjunto. Esto proporciona un esquema relativamente simple que evita los supuestos gaussianos (unimodales). A diferencia del filtrado de partículas, no requiere la propuesta de densidades, ni la eliminación o creación de partículas.
Filtrado generalizado y bayes variacional
Bayes variacional se basa en una partición de campo media de la densidad variacional:
Esta partición induce una actualización variacional o un paso para cada densidad marginal, que generalmente se resuelve analíticamente usando priores conjugados. En el filtrado generalizado, esto conduce a la maximización dinámica de expectativas . [4] que comprende un paso D que optimiza las estadísticas suficientes de estados desconocidos, un paso E para parámetros y un paso M para precisiones.
Filtrado generalizado y codificación predictiva
El filtrado generalizado se usa generalmente para invertir modelos jerárquicos de la siguiente forma
El consiguiente descenso de gradiente generalizado en energía libre se puede expresar de forma compacta en términos de errores de predicción, donde (omitiendo términos de orden superior):
Aquí, es la precisión de las fluctuaciones aleatorias en el i -ésimo nivel. Esto se conoce como codificación predictiva generalizada [11], con la codificación predictiva lineal como un caso especial.
Aplicaciones
El filtrado generalizado se ha aplicado principalmente a series de tiempo biológicas, en particular, imágenes de resonancia magnética funcional y datos electrofisiológicos. Por lo general, esto ocurre en el contexto del modelado causal dinámico para hacer inferencias sobre las arquitecturas subyacentes de los sistemas (neuronales) que generan datos. [13] También se utiliza para simular inferencias en términos de codificación predictiva generalizada (jerárquica) en el cerebro. [14]
Ver también
Referencias
- ^ K Friston, K Stephan, B Li y J. Daunizeau, " Filtrado generalizado ", Problemas matemáticos en ingeniería , vol. vol., 2010, pág. 621670, 2010.
- ^ B Balaji y K Friston, " Estimación del estado bayesiano mediante coordenadas generalizadas ", Proc. SPIE, pág. 80501Y, 2011
- ^ a b K J Friston, " Filtrado variacional ", Neuroimage, vol. 41, no. 3, págs. 747-66, 2008.
- ^ a b K J Friston, N Trujillo-Barreto y J Daunizeau, " DEM: Un tratamiento variacional de sistemas dinámicos ", Neuroimage, vol. 41, no. 3, págs. 849-85, 2008
- ^ RP Feynman, Mecánica estadística. Reading MA: Benjamin, 1972
- ^ MJ Beal, " Algoritmos de variación para inferencia bayesiana aproximada ", PhD. Tesis, University College London, 2003.
- ^ K Friston, J Mattout, N Trujillo-Barreto, J Ashburner y W Penny, " Energía libre variacional y la aproximación de Laplace ", NeuroImage, vol. 34, no. 1, págs. 220-34, 2007
- ^ WC Kerr y AJ Graham, " Versión de espacio de fase generalizada de las ecuaciones de Langevin y ecuaciones de Fokker-Planck asociadas ", Eur. Phys. JB, vol. 15, págs. 305-11, 2000.
- ^ T Ozaki, " Un puente entre modelos de series de tiempo no lineales y sistemas dinámicos estocásticos no lineales: un enfoque de linealización local ", Statistica Sin., Vol. 2, págs.113-135, 1992
- ^ DR Cox y HD Miller, La teoría de los procesos estocásticos. Londres: Methuen, 1965.
- ^ K Friston, K Stephan, B Li y J. Daunizeau, "Filtrado generalizado", Problemas matemáticos en ingeniería, vol. vol., 2010, pág. 621670, 2010.
- ^ KJ Friston, N Trujillo-Barreto y J Daunizeau, "DEM: Un tratamiento variacional de sistemas dinámicos", Neuroimage, vol. 41, no. 3, págs. 849-85, 2008
- ^ J Daunizeau, O David y KE Stephan, " Modelado causal dinámico: una revisión crítica de los fundamentos biofísicos y estadísticos. Archivado el 7 de diciembre de 2012 en la Wayback Machine ", Neuroimage, vol. 58, no. 2, págs.312-22, 2011
- ^ K Friston, " Modelos jerárquicos en el cerebro ", PLoS Comput. Biol., Vol. 4, no. 11, pág. e1000211, 2008.
enlaces externos
- Las demostraciones y aplicaciones de software están disponibles como software gratuito académico (como código Matlab) en la caja de herramientas DEM de SPM
- artículos colección de artículos técnicos y de aplicación