En teoría de probabilidad y estadística , un proceso gaussiano es un proceso estocástico (una colección de variables aleatorias indexadas por tiempo o espacio), de modo que cada colección finita de esas variables aleatorias tiene una distribución normal multivariante , es decir, cada combinación lineal finita de ellas es normalmente repartido. La distribución de un proceso gaussiano es la distribución conjunta de todas esas (infinitas) variables aleatorias y, como tal, es una distribución sobre funciones con un dominio continuo, por ejemplo, tiempo o espacio.
El concepto de procesos gaussianos lleva el nombre de Carl Friedrich Gauss porque se basa en la noción de distribución gaussiana ( distribución normal ). Los procesos gaussianos pueden verse como una generalización de dimensiones infinitas de distribuciones normales multivariadas.
Los procesos gaussianos son útiles en el modelado estadístico , beneficiándose de las propiedades heredadas de la distribución normal. Por ejemplo, si un proceso aleatorio se modela como un proceso gaussiano, las distribuciones de varias cantidades derivadas se pueden obtener explícitamente. Tales cantidades incluyen el valor promedio del proceso en un rango de tiempos y el error al estimar el promedio usando valores de muestra en un pequeño conjunto de tiempos. Si bien los modelos exactos a menudo escalan mal a medida que aumenta la cantidad de datos, se han desarrollado múltiples métodos de aproximación que a menudo conservan una buena precisión al tiempo que reducen drásticamente el tiempo de cálculo.
Definición
Un proceso estocástico continuo en el tiempo es gaussiano si y solo si para cada conjunto finito de índices en el conjunto de índices
es una variable aleatoria gaussiana multivariante . [1] Eso es lo mismo que decir cada combinación lineal de tiene una distribución normal univariante (o gaussiana).
Usando funciones características de variables aleatorias, la propiedad gaussiana se puede formular de la siguiente manera: es gaussiano si y solo si, para cada conjunto finito de índices , hay valores reales , con tal que la siguiente igualdad se aplique a todos
- .
dónde denota la unidad imaginaria tal que.
Los números y se puede demostrar que son las covarianzas y medias de las variables del proceso. [2]
Diferencia
La varianza de un proceso gaussiano es finita en cualquier momento , formalmente [3] : pág. 515
- .
Estacionariedad
Para los procesos estocásticos generales, la estacionariedad en sentido estricto implica una estacionariedad en sentido amplio, pero no todos los procesos estocásticos estacionarios en sentido amplio son estacionarios en sentido estricto. Sin embargo, para un proceso estocástico gaussiano, los dos conceptos son equivalentes. [3] : pág. 518
Un proceso estocástico gaussiano es estacionario en sentido estricto si, y solo si, es estacionario en sentido amplio.
Ejemplo
Hay una representación explícita de los procesos gaussianos estacionarios. [4] Un ejemplo sencillo de esta representación es
dónde y son variables aleatorias independientes con la distribución normal estándar .
Funciones de covarianza
Un hecho clave de los procesos gaussianos es que pueden definirse completamente mediante sus estadísticas de segundo orden. [5] Por lo tanto, si se supone que un proceso gaussiano tiene media cero, definir la función de covarianza define completamente el comportamiento del proceso. Es importante destacar que la definición no negativa de esta función permite su descomposición espectral utilizando la expansión Karhunen-Loève . Los aspectos básicos que se pueden definir a través de la función de covarianza son la estacionariedad , isotropía , suavidad y periodicidad del proceso . [6] [7]
La estacionariedad se refiere al comportamiento del proceso con respecto a la separación de dos puntos cualesquiera y . Si el proceso es estacionario, depende de su separación,, mientras que si no está estacionario, depende de la posición real de los puntos y . Por ejemplo, el caso especial de un proceso de Ornstein-Uhlenbeck , un proceso de movimiento browniano , es estacionario.
Si el proceso depende solo de , la distancia euclidiana (no la dirección) entre y , entonces el proceso se considera isotrópico. Un proceso que es simultáneamente estacionario e isotrópico se considera homogéneo ; [8] en la práctica estas propiedades reflejan las diferencias (o más bien la falta de ellas) en el comportamiento del proceso dada la ubicación del observador.
En última instancia, los procesos gaussianos se traducen en la adopción de priores en funciones y la suavidad de estos priores puede ser inducida por la función de covarianza. [6] Si esperamos que para los puntos de entrada "cercanos" y sus puntos de salida correspondientes y para estar "cerca" también, entonces el supuesto de continuidad está presente. Si deseamos permitir un desplazamiento significativo, entonces podríamos elegir una función de covarianza más aproximada. Ejemplos extremos del comportamiento son la función de covarianza de Ornstein-Uhlenbeck y el cuadrado exponencial donde el primero nunca es diferenciable y el segundo infinitamente diferenciable.
La periodicidad se refiere a inducir patrones periódicos dentro del comportamiento del proceso. Formalmente, esto se logra mapeando la entrada a un vector bidimensional .
Funciones de covarianza habituales
Hay una serie de funciones de covarianza comunes: [7]
- Constante:
- Lineal:
- ruido gaussiano blanco:
- Exponencial al cuadrado:
- Ornstein – Uhlenbeck:
- Materia:
- Periódico:
- Cuadrática racional:
Aquí . El parámetro es la escala de longitud característica del proceso (prácticamente, "qué tan cerca" dos puntos y tienen que influir mutuamente de forma significativa), es el delta de Kronecker yla desviación estándar de las fluctuaciones del ruido. Es más,es la función de orden de Bessel modificada y es la función gamma evaluada en. Es importante destacar que una función de covarianza complicada se puede definir como una combinación lineal de otras funciones de covarianza más simples para incorporar diferentes conocimientos sobre el conjunto de datos en cuestión.
Claramente, los resultados inferenciales dependen de los valores de los hiperparámetros. (p.ej y ) definiendo el comportamiento del modelo. Una elección popular paraes proporcionar estimaciones máximas a posteriori (MAP) de la misma con algunas elegidas a priori. Si el a priori es casi uniforme, esto equivale a maximizar la probabilidad marginal del proceso; la marginación se realiza sobre los valores de proceso observados. [7] Este enfoque también se conoce como máxima verosimilitud II , maximización de la evidencia o Bayes empírico . [9]
Continuidad
Para un proceso gaussiano, la continuidad en la probabilidad es equivalente a la continuidad de la media cuadrática , [10] : 145 y la continuidad con la probabilidad uno es equivalente a la continuidad de la muestra . [11] : 91 "Los procesos gaussianos son discontinuos en puntos fijos". Esto último implica, pero no implica, continuidad en la probabilidad. La continuidad en la probabilidad se mantiene si y solo si la media y la autocovarianza son funciones continuas. Por el contrario, la continuidad de la muestra fue un desafío incluso para los procesos gaussianos estacionarios (como probablemente señaló primero Andrey Kolmogorov ), y más desafiante para los procesos más generales. [12] : Sect. 2.8 [13] : 69,81 [14] : 80 [15] Como es habitual, por un proceso continuo de muestra se entiende un proceso que admite una modificación continua de la muestra . [16] : 292 [17] : 424
Caja estacionaria
Para un proceso gaussiano estacionario algunas condiciones en su espectro son suficientes para la continuidad de la muestra, pero no son necesarias. Una condición necesaria y suficiente, a veces llamada teorema de Dudley-Fernique, involucra la función definido por
(el lado derecho no depende de debido a la estacionariedad). Continuidad de en probabilidad es equivalente a la continuidad de a Cuando la convergencia de a (como ) es demasiado lento, la continuidad de la muestra de Puede fallar. La convergencia de las siguientes integrales importa:
siendo estas dos integrales iguales según la integración por sustitución El primer integrando no necesita estar acotado como por lo tanto, la integral puede converger () o divergir (). Tomando por ejemplo para grande es decir, Para pequeños Se obtiene Cuándo y Cuándo En estos dos casos la función está aumentando en pero generalmente no lo es. Además, la condición
- existe tal que es monótono en
no se sigue de la continuidad de y las evidentes relaciones (para todos ) y
Teorema 1. Sea ser continuo y satisfactorio Entonces la condicion es necesario y suficiente para la continuidad de la muestra de
Algo de historia. [17] : 424 Xavier Fernique anunció la suficiencia en 1964, pero la primera prueba fue publicada por Richard M. Dudley en 1967. [16] : Teorema 7.1 La necesidad fue probada por Michael B. Marcus y Lawrence Shepp en 1970. [18] ] : 380
Existen muestras de procesos continuos tal que ellos violan la condición Un ejemplo encontrado por Marcus y Shepp [18] : 387 es una serie lacunar aleatoria de Fourier
dónde son variables aleatorias independientes con distribución normal estándar ; frecuenciasson una secuencia de rápido crecimiento; y coeficientes satisfacer La última relación implica De dónde casi seguro, lo que asegura una convergencia uniforme de la serie de Fourier casi con seguridad, y la continuidad de la muestra de
Su función de autocovariación
no es monótono en ninguna parte (ver la imagen), así como la función correspondiente
El movimiento browniano como integral de los procesos gaussianos
Un proceso de Wiener (también conocido como movimiento browniano) es la integral de un proceso gaussiano generalizado de ruido blanco . No es estacionario , pero tiene incrementos estacionarios.
El proceso de Ornstein-Uhlenbeck es un proceso gaussiano estacionario .
El puente browniano es (como el proceso de Ornstein-Uhlenbeck) un ejemplo de un proceso gaussiano cuyos incrementos no son independientes .
El movimiento browniano fraccional es un proceso gaussiano cuya función de covarianza es una generalización de la del proceso de Wiener.
Ley cero-uno de Driscoll
La ley cero-uno de Driscoll es un resultado que caracteriza las funciones de muestra generadas por un proceso gaussiano.
Dejar ser un proceso gaussiano de media cero con función de covarianza definida no negativa . DejarSer un espacio de Hilbert de núcleo de reproducción con núcleo definido positivo.
Luego
- ,
dónde y son las matrices de covarianza de todos los posibles pares de puntos, implica
- .
Y lo que es más,
implica
- . [19]
Esto tiene implicaciones significativas cuando , como
- .
Como tal, casi todas las rutas de muestra de un proceso gaussiano de media cero con kernel definido positivo estará fuera del espacio de Hilbert .
Procesos gaussianos linealmente restringidos
Para muchas aplicaciones de interés, ya se proporciona algún conocimiento preexistente sobre el sistema en cuestión. Considérese, por ejemplo, el caso en el que la salida del proceso gaussiano corresponde a un campo magnético; aquí, el campo magnético real está limitado por las ecuaciones de Maxwell y sería deseable una forma de incorporar esta restricción en el formalismo del proceso gaussiano, ya que esto probablemente mejoraría la precisión del algoritmo.
Ya existe un método sobre cómo incorporar restricciones lineales en los procesos gaussianos: [20]
Considere la función de salida (valorada por vectores) que se sabe que obedece a la restricción lineal (es decir, es un operador lineal)
Entonces la restricción se puede cumplir eligiendo , dónde se modela como un proceso gaussiano, y encontrar S t
Dado y utilizando el hecho de que los procesos gaussianos están cerrados bajo transformaciones lineales, el proceso gaussiano para obedeciendo a la restricción se convierte en
Por lo tanto, las restricciones lineales se pueden codificar en la función media y de covarianza de un proceso gaussiano.
Aplicaciones
Se puede utilizar un proceso gaussiano como distribución de probabilidad previa sobre funciones en la inferencia bayesiana . [7] [22] Dado cualquier conjunto de N puntos en el dominio deseado de sus funciones, tome una Gaussiana multivariante cuyo parámetro de matriz de covarianza sea la matriz Gram de sus N puntos con algún kernel deseado , y muestre a partir de esa Gaussiana. Para la solución del problema de predicción de múltiples salidas, se desarrolló la regresión del proceso gaussiano para la función con valores vectoriales. En este método, se construye una covarianza 'grande', que describe las correlaciones entre todas las variables de entrada y salida tomadas en N puntos en el dominio deseado. [23] Este enfoque se elaboró en detalle para los procesos gaussianos con valores matriciales y se generalizó a procesos con 'colas más pesadas' como los procesos t de Student . [24]
La inferencia de valores continuos con un proceso gaussiano previo se conoce como regresión del proceso gaussiano o kriging ; extender la regresión del proceso gaussiano a múltiples variables objetivo se conoce como cokriging . [25] Los procesos gaussianos son, por tanto, útiles como una poderosa herramienta de interpolación multivariante no lineal .
Los procesos gaussianos también se pueden utilizar en el contexto de modelos mixtos de expertos, por ejemplo. [26] [27] El fundamento subyacente de tal marco de aprendizaje consiste en la suposición de que un mapeo dado no puede ser capturado bien por un solo modelo de proceso gaussiano. En cambio, el espacio de observación se divide en subconjuntos, cada uno de los cuales se caracteriza por una función de mapeo diferente; cada uno de estos se aprende a través de un componente de proceso gaussiano diferente en la mezcla postulada.
Predicción del proceso gaussiano o Kriging
Cuando se trata de un problema de regresión del proceso gaussiano general (Kriging), se supone que para un proceso gaussiano observado en coordenadas , el vector de valores es solo una muestra de una distribución gaussiana multivariante de dimensión igual al número de coordenadas observadas . Por lo tanto, bajo el supuesto de una distribución de media cero,, dónde es la matriz de covarianza entre todos los pares posibles para un conjunto dado de hiperparámetros θ . [7] Como tal, la probabilidad marginal logarítmica es:
y maximizar esta probabilidad marginal hacia θ proporciona la especificación completa del proceso gaussiano f . En este punto, se puede notar brevemente que el primer término corresponde a un término de penalización por la falla de un modelo de ajustar los valores observados y el segundo término a un término de penalización que aumenta proporcionalmente a la complejidad de un modelo. Habiendo especificado θ , hacer predicciones sobre valores no observadosen las coordenadas x * es solo cuestión de extraer muestras de la distribución predictivadonde la estimación media posterior A se define como
y la estimación de la varianza posterior B se define como:
dónde es la covarianza entre la nueva coordenada de estimación x * y todas las demás coordenadas observadas x para un vector de hiperparámetro dado θ , y se definen como antes y es la varianza en el punto x * según lo dicta θ . Es importante señalar que prácticamente la estimación media posterior (la "estimación puntual") es solo una combinación lineal de las observaciones ; de manera similar la varianza de es realmente independiente de las observaciones . Un cuello de botella conocido en la predicción de procesos gaussianos es que la complejidad computacional de la evaluación de inferencia y verosimilitud es cúbica en el número de puntos | x |, y como tal puede volverse inviable para conjuntos de datos más grandes. [6] Los trabajos sobre procesos gaussianos dispersos, que generalmente se basan en la idea de construir un conjunto representativo para el proceso dado f , tratan de eludir este problema. [28] [29] El método kriging se puede utilizar en el nivel latente de un modelo de efectos mixtos no lineal para una predicción funcional espacial: esta técnica se denomina kriging latente. [30]
Problemas computacionales
En aplicaciones prácticas, los modelos de proceso gaussianos a menudo se evalúan en una cuadrícula que conduce a distribuciones normales multivariadas. El uso de estos modelos para la predicción o la estimación de parámetros utilizando la máxima verosimilitud requiere evaluar una densidad gaussiana multivariante, que implica calcular el determinante y la inversa de la matriz de covarianza. Ambas operaciones tienen una complejidad computacional cúbica, lo que significa que incluso para cuadrículas de tamaños modestos, ambas operaciones pueden tener un costo computacional prohibitivo. Este inconveniente condujo al desarrollo de múltiples métodos de aproximación .
Ver también
- Estadísticas lineales de Bayes
- Interpretación bayesiana de regularización
- Kriging
- Campo libre gaussiano
- Proceso de Gauss-Markov
- Kriging mejorado con gradiente (GEK)
- Proceso t de Student
Referencias
- ^ MacKay, David, JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje (PDF) . Prensa de la Universidad de Cambridge . pag. 540. ISBN 9780521642989.
La distribución de probabilidad de una función es un proceso gaussiano si para cualquier selección finita de puntos , la densidad es un gaussiano
- ^ Dudley, RM (1989). Análisis real y probabilidad . Wadsworth y Brooks / Cole.
- ^ a b Amos Lapidoth (8 de febrero de 2017). Una base en la comunicación digital . Prensa de la Universidad de Cambridge. ISBN 978-1-107-17732-1.
- ^ Kac, M .; Siegert, AJF (1947). "Una representación explícita de un proceso gaussiano estacionario" . Los Anales de Estadística Matemática . 18 (3): 438–442. doi : 10.1214 / aoms / 1177730391 .
- ^ Obispo, CM (2006). Reconocimiento de patrones y aprendizaje automático . Springer . ISBN 978-0-387-31073-2.
- ^ a b c Barbero, David (2012). Razonamiento bayesiano y aprendizaje automático . Prensa de la Universidad de Cambridge . ISBN 978-0-521-51814-7.
- ^ a b c d e Rasmussen, CE; Williams, CKI (2006). Procesos gaussianos para el aprendizaje automático . Prensa del MIT . ISBN 978-0-262-18253-9.
- ^ Grimmett, Geoffrey; David Stirzaker (2001). Probabilidad y procesos aleatorios . Prensa de la Universidad de Oxford . ISBN 978-0198572220.
- ^ Seeger, Matthias (2004). "Procesos gaussianos para el aprendizaje automático". Revista internacional de sistemas neuronales . 14 (2): 69-104. CiteSeerX 10.1.1.71.1079 . doi : 10.1142 / s0129065704001899 . PMID 15112367 .
- ^ Dudley, RM (1975). "El proceso gaussiano y cómo abordarlo" (PDF) . Actas del Congreso Internacional de Matemáticos . 2 . págs. 143-146.
- ^ Dudley, RM (1973). "Funciones de muestra del proceso gaussiano". Anales de probabilidad . 1 (1): 66–103. doi : 10.1007 / 978-1-4419-5821-1_13 . ISBN 978-1-4419-5820-4.
- ^ Talagrand, Michel (2014). Límites superior e inferior para procesos estocásticos: métodos modernos y problemas clásicos . Ergebnisse der Mathematik und ihrer Grenzgebiete. 3. Folge / Serie de encuestas modernas en matemáticas. Springer, Heidelberg. ISBN 978-3-642-54074-5.
- ^ Ledoux, Michel (1994). "Isoperimetría y análisis gaussiano". Apuntes de clase en matemáticas . 1648 . Springer, Berlín. págs. 165-294. doi : 10.1007 / BFb0095676 . ISBN 978-3-540-62055-6.
- ^ Adler, Robert J. (1990). "Una introducción a la continuidad, extremos y temas relacionados para los procesos gaussianos generales". Serie de notas de conferencias-monografías . Instituto de Estadística Matemática. 12 : i – 155. JSTOR 4355563 .
- ^ Berman, Simeon M. (1992). "Revisión de: Adler 1990 'Una introducción a la continuidad ... ' ". Revisiones matemáticas . Señor 1088478 .
- ^ a b Dudley, RM (1967). "Los tamaños de los subconjuntos compactos del espacio de Hilbert y la continuidad de los procesos gaussianos". Revista de análisis funcional . 1 (3): 290–330. doi : 10.1016 / 0022-1236 (67) 90017-1 .
- ^ a b Marcus, MB; Shepp, Lawrence A. (1972). "Ejemplo de comportamiento de los procesos gaussianos" . Actas del sexto simposio de Berkeley sobre estadística matemática y probabilidad, vol. II: teoría de la probabilidad . Univ. California, Berkeley. págs. 423–441.
- ^ a b Marcus, Michael B .; Shepp, Lawrence A. (1970). "Continuidad de los procesos gaussianos" . Transacciones de la American Mathematical Society . 151 (2): 377–391. doi : 10.1090 / s0002-9947-1970-0264749-1 . JSTOR 1995502 .
- ^ Driscoll, Michael F. (1973). "El núcleo de reproducción de la estructura espacial de Hilbert de las rutas de muestra de un proceso gaussiano". Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 26 (4): 309–316. doi : 10.1007 / BF00534894 . ISSN 0044-3719 . S2CID 123348980 .
- ^ Jidling, Carl; Wahlström, Niklas; Testamentos, Adrian; Schön, Thomas B. (19 de septiembre de 2017). "Procesos gaussianos linealmente restringidos". arXiv : 1703.00787 [ stat.ML ].
- ^ La documentación de scikit-learn también tiene ejemplos similares.
- ^ Liu, W .; Principe, JC; Haykin, S. (2010). Filtrado adaptativo de kernel: una introducción completa . John Wiley . ISBN 978-0-470-44753-6. Archivado desde el original el 4 de marzo de 2016 . Consultado el 26 de marzo de 2010 .
- ^ Álvarez, Mauricio A .; Rosasco, Lorenzo; Lawrence, Neil D. (2012). "Núcleos para funciones con valores vectoriales: una revisión" (PDF) . Fundamentos y Tendencias en Machine Learning . 4 (3): 195–266. doi : 10.1561 / 2200000036 . S2CID 456491 .
- ^ Chen, Zexun; Wang, Bo; Gorban, Alexander N. (2019). "Regresión multivariante del proceso Gaussian y Student-t para la predicción de múltiples salidas" . Computación neuronal y aplicaciones . 32 (8): 3005-3028. arXiv : 1703.04455 . doi : 10.1007 / s00521-019-04687-8 .
- ^ Stein, ML (1999). Interpolación de datos espaciales: alguna teoría para Kriging . Springer .
- ^ Platanios, Emmanouil A .; Chatzis, Sotirios P. (2014). "Heteroscedasticidad condicional de mezcla de proceso gaussiano". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 36 (5): 888–900. doi : 10.1109 / TPAMI.2013.183 . PMID 26353224 . S2CID 10424638 .
- ^ Chatzis, Sotirios P. (2013). "Un modelo de proceso Gaussiano de variable latente con procesos previos de Pitman-Yor para clasificación multiclase". Neurocomputación . 120 : 482–489. doi : 10.1016 / j.neucom.2013.04.029 .
- ^ Smola, AJ; Schoellkopf, B. (2000). "Aproximación de matriz codiciosa escasa para el aprendizaje automático". Actas de la Decimoséptima Conferencia Internacional sobre Aprendizaje Automático : 911–918. CiteSeerX 10.1.1.43.3153 .
- ^ Csato, L .; Opper, M. (2002). "Procesos gaussianos en línea escasos". Computación neuronal . 14 (3): 641–668. CiteSeerX 10.1.1.335.9713 . doi : 10.1162 / 089976602317250933 . PMID 11860686 . S2CID 11375333 .
- ^ Lee, Se Yoon; Mallick, Bani (2021). "Modelado jerárquico bayesiano: aplicación hacia resultados de producción en Eagle Ford Shale del sur de Texas" . Sânkhya B . doi : 10.1007 / s13571-020-00245-8 .
enlaces externos
- El sitio web de procesos gaussianos, incluido el texto de los procesos gaussianos para el aprendizaje automático de Rasmussen y Williams
- Una suave introducción a los procesos gaussianos
- Una revisión de los campos aleatorios gaussianos y las funciones de correlación
- Aprendizaje por refuerzo eficiente mediante procesos gaussianos
Software
- GPML: una caja de herramientas integral de Matlab para regresión y clasificación GP
- STK: una pequeña caja de herramientas (Matlab / Octave) para modelado de Kriging y GP
- Módulo Kriging en el marco UQLab (Matlab)
- Función Matlab / Octave para campos gaussianos estacionarios
- Yelp MOE: un motor de optimización de caja negra que utiliza el proceso de aprendizaje gaussiano
- ooDACE : una caja de herramientas flexible de Kriging Matlab orientada a objetos.
- GPstuff: caja de herramientas de proceso gaussiano para Matlab y Octave
- GPy: un marco de procesos gaussianos en Python
- GSTools: una caja de herramientas geoestadísticas, que incluye la regresión del proceso gaussiano, escrita en Python
- Demostración interactiva de regresión del proceso gaussiano
- Biblioteca básica de procesos gaussianos escrita en C ++ 11
- scikit-learn : una biblioteca de aprendizaje automático para Python que incluye regresión y clasificación de procesos gaussianos
- [1] - El kit de herramientas Kriging (KriKit) se desarrolla en el Instituto de Biociencias y Geociencias 1 (IBG-1) de Forschungszentrum Jülich (FZJ)
Tutoriales en vídeo
- Conceptos básicos del proceso gaussiano por David MacKay
- Aprendiendo con procesos gaussianos por Carl Edward Rasmussen
- Inferencia bayesiana y procesos gaussianos por Carl Edward Rasmussen