Algoritmo de maximización de expectativas

En estadística , un algoritmo de expectativa-maximización ( EM ) es un método iterativo para encontrar estimaciones de máxima verosimilitud (local) o máxima a posteriori (MAP) de parámetros en modelos estadísticos , donde el modelo depende de variables latentes no observadas . La iteración EM alterna entre realizar un paso de expectativa (E), que crea una función para la expectativa de la probabilidad logarítmica evaluada utilizando la estimación actual para los parámetros, y un paso de maximización (M), que calcula los parámetros que maximizan el logaritmo esperado. probabilidad encontrada en el E paso. Estas estimaciones de parámetros se utilizan luego para determinar la distribución de las variables latentes en el siguiente paso E.

Agrupación EM de datos de erupciones Old Faithful . El modelo inicial aleatorio (que, debido a las diferentes escalas de los ejes, parece ser dos esferas muy planas y anchas) se ajusta a los datos observados. En las primeras iteraciones, el modelo cambia sustancialmente, pero luego converge a los dos modos del géiser . Visualizado usando ELKI .

Historia [ editar ]

El algoritmo EM fue explicado y recibió su nombre en un artículo clásico de 1977 de Arthur Dempster , Nan Laird y Donald Rubin . ^[1] Señalaron que el método había sido "propuesto muchas veces en circunstancias especiales" por autores anteriores. Uno de los primeros es el método de recuento de genes para estimar las frecuencias alélicas de Cedric Smith . ^[2] Rolf Sundberg publicó un tratamiento muy detallado del método EM para familias exponenciales en su tesis y varios artículos ^[3]^[4]^[5] tras su colaboración con Per Martin-Löf y Anders Martin-Löf . ^[6]^[7]^[8]^[9]^[10]^[11]^[12] El artículo de Dempster-Laird-Rubin en 1977 generalizó el método y esbozó un análisis de convergencia para una clase más amplia de problemas. El artículo de Dempster-Laird-Rubin estableció el método EM como una herramienta importante de análisis estadístico.

El análisis de convergencia del algoritmo Dempster-Laird-Rubin fue defectuoso y CF Jeff Wu publicó un análisis de convergencia correcto en 1983. ^[13] La prueba de Wu estableció la convergencia del método EM fuera de la familia exponencial , como afirma Dempster-Laird- Frotar. ^[13]

Introducción [ editar ]

El algoritmo EM se utiliza para encontrar parámetros de máxima verosimilitud (local) de un modelo estadístico en los casos en que las ecuaciones no se pueden resolver directamente. Por lo general, estos modelos involucran variables latentes además de parámetros desconocidos y observaciones de datos conocidos. Es decir, o existen valores perdidos entre los datos o el modelo se puede formular de manera más simple asumiendo la existencia de puntos de datos adicionales no observados. Por ejemplo, un modelo de mezcla se puede describir de manera más simple asumiendo que cada punto de datos observado tiene un punto de datos no observado correspondiente, o variable latente, especificando el componente de mezcla al que pertenece cada punto de datos.

Encontrar una solución de máxima verosimilitud normalmente requiere tomar las derivadas de la función de verosimilitud con respecto a todos los valores desconocidos, los parámetros y las variables latentes, y resolver simultáneamente las ecuaciones resultantes. En modelos estadísticos con variables latentes, esto suele ser imposible. En cambio, el resultado es típicamente un conjunto de ecuaciones entrelazadas en las que la solución de los parámetros requiere los valores de las variables latentes y viceversa, pero la sustitución de un conjunto de ecuaciones por el otro produce una ecuación sin solución.

El algoritmo EM procede de la observación de que existe una manera de resolver estos dos conjuntos de ecuaciones numéricamente. Uno puede simplemente elegir valores arbitrarios para uno de los dos conjuntos de incógnitas, usarlos para estimar el segundo conjunto, luego usar estos nuevos valores para encontrar una mejor estimación del primer conjunto, y luego seguir alternando entre los dos hasta que los valores resultantes sean ambos. convergen en puntos fijos. No es obvio que esto funcione, pero se puede probar que en este contexto sí, y que la derivada de la probabilidad es (arbitrariamente cercana a) cero en ese punto, lo que a su vez significa que el punto es un máximo o un punto de silla de montar . ^[13] En general, pueden ocurrir múltiples máximos, sin garantía de que se encuentre el máximo global. Algunas probabilidades también tienensingularidades en ellos, es decir, máximos sin sentido. Por ejemplo, una de las soluciones que puede encontrar EM en un modelo mixto implica establecer uno de los componentes para que tenga varianza cero y el parámetro medio para el mismo componente sea igual a uno de los puntos de datos.

Descripción [ editar ]

Dado el modelo estadístico que genera un conjunto de datos observados, un conjunto de datos latentes no observados o valores perdidos , y un vector de parámetros desconocidos , junto con una función de verosimilitud , la estimación de máxima verosimilitud (MLE) de los parámetros desconocidos se determina maximizando la probabilidad marginal de los datos observados ${\ Displaystyle \ mathbf {X}}$ ${\ Displaystyle \ mathbf {Z}}$ ${\ displaystyle {\ boldsymbol {\ theta}}}$ ${\ Displaystyle L ({\ boldsymbol {\ theta}}; \ mathbf {X}, \ mathbf {Z}) = p (\ mathbf {X}, \ mathbf {Z} \ mid {\ boldsymbol {\ theta}} )}$

L({\boldsymbol {\theta }};\mathbf {X} )=p(\mathbf {X} \mid {\boldsymbol {\theta }})=\int p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z}

Sin embargo, esta cantidad es a menudo intratable (por ejemplo, si es una secuencia de eventos, de modo que el número de valores crece exponencialmente con la longitud de la secuencia, el cálculo exacto de la suma será extremadamente difícil). $\mathbf {Z}$

El algoritmo EM busca encontrar el MLE de la probabilidad marginal aplicando iterativamente estos dos pasos:

Paso de expectativa (paso E) : Defina como el valor esperado de la función logarítmica de verosimilitud de , con respecto a la distribución condicional actual de los estimados dados y actuales de los parámetros :

Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})

{\boldsymbol {\theta }}

\mathbf {Z}

\mathbf {X}

{\boldsymbol {\theta }}^{(t)}

Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)}}\left[\log L({\boldsymbol {\theta }};\mathbf {X} ,\mathbf {Z} )\right]\,

Paso de maximización (paso M) : encuentre los parámetros que maximizan esta cantidad:

{\boldsymbol {\theta }}^{(t+1)}={\underset {\boldsymbol {\theta }}{\operatorname {arg\,max} }}\ Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})\,

Los modelos típicos a los que se aplica EM se utilizan como una variable latente que indica la pertenencia a uno de un conjunto de grupos: $\mathbf {Z}$

Los puntos de datos observados pueden ser discretos (tomando valores en un conjunto finito o infinito numerable) o continuos (tomando valores en un conjunto infinito incontable). Asociado con cada punto de datos puede haber un vector de observaciones. $\mathbf {X}$
Los valores perdidos (también conocidos como variables latentes ) son discretos , extraídos de un número fijo de valores y con una variable latente por unidad observada. $\mathbf {Z}$
Los parámetros son continuos y son de dos tipos: parámetros que están asociados con todos los puntos de datos y aquellos asociados con un valor específico de una variable latente (es decir, asociados con todos los puntos de datos cuya correspondiente variable latente tiene ese valor).

Sin embargo, es posible aplicar EM a otros tipos de modelos.

El motivo es el siguiente. Si se conoce el valor de los parámetros , generalmente el valor de las variables latentes se puede encontrar maximizando la probabilidad logarítmica sobre todos los valores posibles de , ya sea simplemente iterando sobre oa través de un algoritmo como el algoritmo de Baum-Welch para Markov oculto modelos . Por el contrario, si conocemos el valor de las variables latentes , podemos encontrar una estimación de los parámetros con bastante facilidad, por lo general simplemente agrupando los puntos de datos observados de acuerdo con el valor de la variable latente asociada y promediando los valores, o alguna función de la variable latente. valores, de los puntos en cada grupo. Esto sugiere un algoritmo iterativo, en el caso de que ambos y ${\boldsymbol {\theta }}$ $\mathbf {Z}$ $\mathbf {Z}$ $\mathbf {Z}$ $\mathbf {Z}$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}$ $\mathbf {Z}$ son desconocidos:

Primero, inicialice los parámetros a algunos valores aleatorios. ${\boldsymbol {\theta }}$
Calcule la probabilidad de cada valor posible de dado . $\mathbf {Z}$ ${\boldsymbol {\theta }}$
Luego, use los valores recién calculados de para calcular una mejor estimación de los parámetros . $\mathbf {Z}$ ${\boldsymbol {\theta }}$
Repita los pasos 2 y 3 hasta la convergencia.

El algoritmo que se acaba de describir se aproxima monótonamente a un mínimo local de la función de costo.

Propiedades [ editar ]

Hablar de un paso de expectativa (E) es un nombre poco apropiado . Lo que se calculan en el primer paso son los parámetros fijos, los datos que dependen de la función Q . Una vez que se conocen los parámetros de Q , se determina completamente y se maximiza en el segundo (M) paso de un algoritmo EM.

Aunque una iteración EM aumenta la función de verosimilitud de los datos observados (es decir, marginal), no existe garantía de que la secuencia converja a un estimador de máxima verosimilitud . Para distribuciones multimodales , esto significa que un algoritmo EM puede converger a un máximo local de la función de probabilidad de datos observados, dependiendo de los valores iniciales. Existe una variedad de enfoques heurísticos o metaheurísticos para escapar de un máximo local, como la escalada de colinas con reinicio aleatorio (comenzando con varias estimaciones iniciales aleatorias diferentes θ ^{( t )} ) o la aplicación de métodos de recocido simulados .

EM es especialmente útil cuando la probabilidad es una familia exponencial : el paso E se convierte en la suma de las expectativas de estadísticas suficientes y el paso M implica maximizar una función lineal. En tal caso, generalmente es posible derivar actualizaciones de expresión de forma cerrada para cada paso, usando la fórmula de Sundberg (publicada por Rolf Sundberg usando resultados no publicados de Per Martin-Löf y Anders Martin-Löf ). ^[4]^[5]^[8]^[9]^[10]^[11]^[12]

El método EM se modificó para calcular estimaciones máximas a posteriori (MAP) para la inferencia bayesiana en el artículo original de Dempster, Laird y Rubin.

Existen otros métodos para encontrar las estimaciones de máxima verosimilitud, como el descenso de gradiente , gradiente conjugado , o variantes del algoritmo de Gauss-Newton . A diferencia de EM, estos métodos normalmente requieren la evaluación de la primera y / o segunda derivada de la función de verosimilitud.

Prueba de corrección [ editar ]

La maximización de expectativas trabaja para mejorar en lugar de mejorar directamente . Aquí se muestra que las mejoras a las primeras implican mejoras a las segundas. ^[14] $Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})$ $\log p(\mathbf {X} \mid {\boldsymbol {\theta }})$

Para cualquiera con probabilidad distinta de cero , podemos escribir $\mathbf {Z}$ $p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }})$

\log p(\mathbf {X} \mid {\boldsymbol {\theta }})=\log p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})-\log p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}).

Tomamos la expectativa sobre los posibles valores de los datos desconocidos bajo la estimación del parámetro actual multiplicando ambos lados por y sumando (o integrando) . El lado izquierdo es la expectativa de una constante, por lo que obtenemos: $\mathbf {Z}$ $\theta ^{(t)}$ $p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)})$ $\mathbf {Z}$

{\begin{aligned}\log p(\mathbf {X} \mid {\boldsymbol {\theta }})&=\sum _{\mathbf {Z} }p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)})\log p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})-\sum _{\mathbf {Z} }p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)})\log p(\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }})\\&=Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})+H({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)}),\end{aligned}}

donde se define por la suma negada que está reemplazando. Esta última ecuación es válida para cada valor de incluir , $H({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}={\boldsymbol {\theta }}^{(t)}$

\log p(\mathbf {X} \mid {\boldsymbol {\theta }}^{(t)})=Q({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)})+H({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)}),

y restando esta última ecuación de la ecuación anterior da

\log p(\mathbf {X} \mid {\boldsymbol {\theta }})-\log p(\mathbf {X} \mid {\boldsymbol {\theta }}^{(t)})=Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})-Q({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)})+H({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})-H({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)}),

Sin embargo, la desigualdad de Gibbs nos dice eso , por lo que podemos concluir que $H({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})\geq H({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)})$

\log p(\mathbf {X} \mid {\boldsymbol {\theta }})-\log p(\mathbf {X} \mid {\boldsymbol {\theta }}^{(t)})\geq Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})-Q({\boldsymbol {\theta }}^{(t)}\mid {\boldsymbol {\theta }}^{(t)}).

En palabras, elegir mejorar causa mejorar al menos tanto. ${\boldsymbol {\theta }}$ $Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})$ $\log p(\mathbf {X} \mid {\boldsymbol {\theta }})$

Como procedimiento de maximización-maximización [ editar ]

El algoritmo EM puede verse como dos pasos de maximización alternos, es decir, como un ejemplo de descenso de coordenadas . ^[15]^[16] Considere la función:

F(q,\theta ):=\operatorname {E} _{q}[\log L(\theta ;x,Z)]+H(q),

donde q es una distribución de probabilidad arbitraria sobre los datos no observados z y H (q) es la entropía de la distribución q . Esta función se puede escribir como

F(q,\theta )=-D_{\mathrm {KL} }{\big (}q\parallel p_{Z\mid X}(\cdot \mid x;\theta ){\big )}+\log L(\theta ;x),

donde es la distribución condicional de los datos no observados dados los datos observados y es la divergencia Kullback-Leibler . $p_{Z\mid X}(\cdot \mid x;\theta )$ $x$ $D_{KL}$

Entonces, los pasos en el algoritmo EM pueden verse como:

Paso de expectativa : elija maximizar :

q

F

q^{(t)}=\operatorname {arg\,max} _{q}\ F(q,\theta ^{(t)})

Paso de maximización : elija maximizar :

\theta

F

\theta ^{(t+1)}=\operatorname {arg\,max} _{\theta }\ F(q^{(t)},\theta )

Aplicaciones [ editar ]

EM se utiliza con frecuencia para la estimación de parámetros de modelos mixtos , ^[17]^[18] especialmente en genética cuantitativa . ^[19]

En psicometría , la EM es una herramienta importante para estimar los parámetros de los ítems y las capacidades latentes de los modelos de teoría de respuesta a los ítems .

Con la capacidad de lidiar con datos faltantes y observar variables no identificadas, EM se está convirtiendo en una herramienta útil para valorar y administrar el riesgo de una cartera. ^{[ cita requerida ]}

El algoritmo EM (y su variante más rápido ordenó expectativa de maximización subconjunto ) también se usa ampliamente en imagen médica reconstrucción, sobre todo en la tomografía por emisión de positrones , tomografía computarizada por emisión de fotón único , y de rayos X de tomografía computarizada . Consulte a continuación otras variantes más rápidas de EM.

En ingeniería estructural , el algoritmo de Identificación Estructural usando la Maximización de Expectativas (STRIDE) ^[20] es un método de sólo salida para identificar las propiedades de vibración natural de un sistema estructural usando datos de sensores (ver Análisis Modal Operacional ).

EM también se utiliza con frecuencia para la agrupación de datos , la visión por computadora y el aprendizaje automático . En el procesamiento del lenguaje natural , dos ejemplos destacados del algoritmo son el algoritmo de Baum-Welch para modelos ocultos de Markov y el algoritmo de adentro hacia afuera para la inducción no supervisada de gramáticas probabilísticas libres de contexto .

Filtrado y suavizado de algoritmos EM [ editar ]

Un filtro de Kalman se usa típicamente para la estimación del estado en línea y se puede emplear un suavizador de varianza mínima para la estimación del estado fuera de línea o por lotes. Sin embargo, estas soluciones de varianza mínima requieren estimaciones de los parámetros del modelo de espacio de estado. Los algoritmos EM se pueden utilizar para resolver problemas de estimación de parámetros y estados conjuntos.

Los algoritmos EM de filtrado y suavizado surgen al repetir este procedimiento de dos pasos:

E-paso: Utilice un filtro de Kalman o un suavizador de varianza mínima diseñado con estimaciones de parámetros actuales para obtener estimaciones de estado actualizadas.

Paso M: Utilice las estimaciones de estado filtradas o suavizadas dentro de los cálculos de máxima verosimilitud para obtener estimaciones de parámetros actualizadas.

Suponga que un filtro de Kalman o un suavizador de varianza mínima opera en las mediciones de un sistema de entrada única y salida única que posee ruido blanco aditivo. Se puede obtener una estimación actualizada de la varianza del ruido de medición a partir del cálculo de máxima verosimilitud

{\widehat {\sigma }}_{v}^{2}={\frac {1}{N}}\sum _{k=1}^{N}{(z_{k}-{\widehat {x}}_{k})}^{2},

donde se calculan las estimaciones de salida escalares mediante un filtro o un suavizador a partir de N medidas escalares . La actualización anterior también se puede aplicar para actualizar la intensidad del ruido de una medición de Poisson. De manera similar, para un proceso autoregresivo de primer orden, se puede calcular una estimación actualizada de la varianza del ruido del proceso mediante ${\widehat {x}}_{k}$ $z_{k}$

{\widehat {\sigma }}_{w}^{2}={\frac {1}{N}}\sum _{k=1}^{N}{({\widehat {x}}_{k+1}-{\widehat {F}}{\widehat {x}}_{k})}^{2},

donde y son estimaciones de estado escalar calculadas por un filtro o un suavizador. La estimación del coeficiente del modelo actualizado se obtiene mediante ${\widehat {x}}_{k}$ ${\widehat {x}}_{k+1}$

{\widehat {F}}={\frac {\sum _{k=1}^{N}({\widehat {x}}_{k+1}-{\widehat {F}}{\widehat {x}}_{k})}{\sum _{k=1}^{N}{\widehat {x}}_{k}^{2}}}.

La convergencia de estimaciones de parámetros como las anteriores está bien estudiada. ^[21]^[22]^[23]^[24]

Variantes [ editar ]

Se han propuesto varios métodos para acelerar la convergencia, a veces lenta, del algoritmo EM, como los que utilizan el gradiente conjugado y los métodos de Newton modificados (Newton-Raphson). ^[25] Además, EM se puede utilizar con métodos de estimación restringidos.

El algoritmo de maximización de expectativas de parámetros expandidos (PX-EM) a menudo proporciona una aceleración al "usar un 'ajuste de covarianza' para corregir el análisis del paso M, capitalizando la información adicional capturada en los datos completos imputados". ^[26]

La maximización condicional de expectativa (ECM) reemplaza cada paso M con una secuencia de pasos de maximización condicional (CM) en la que cada parámetro θ _i se maximiza individualmente, condicionalmente en los otros parámetros que permanecen fijos. ^{[27] En} sí mismo se puede extender al algoritmo de maximización condicional de expectativa (ECME) . ^[28]

Esta idea se amplía aún más en el algoritmo de maximización de expectativas generalizadas (GEM) , en el que se busca solo un aumento en la función objetivo F tanto para el paso E como para el paso M, como se describe en la sección Como procedimiento de maximización-maximización . ^[15] GEM se sigue desarrollando en un entorno distribuido y muestra resultados prometedores. ^[29]

También es posible considerar el algoritmo EM como una subclase del algoritmo MM (Majorize / Minimize o Minorize / Maximize, dependiendo del contexto), ^[30] y por lo tanto utilizar cualquier maquinaria desarrollada en el caso más general.

Algoritmo α-EM [ editar ]

La función Q utilizada en el algoritmo EM se basa en la probabilidad logarítmica. Por lo tanto, se considera el algoritmo log-EM. El uso de la probabilidad logarítmica se puede generalizar al de la razón de probabilidad α-logarítmica. Entonces, la razón de probabilidad α-logarítmica de los datos observados se puede expresar exactamente como igualdad mediante el uso de la función Q de la razón de probabilidad α-logarítmica y la divergencia α. Obtener esta función Q es un paso E generalizado. Su maximización es un paso M generalizado. Este par se denomina algoritmo α-EM ^[31] que contiene el algoritmo log-EM como su subclase. Por lo tanto, el algoritmo α-EM de Yasuo Matsuyamaes una generalización exacta del algoritmo log-EM. No se necesita ningún cálculo de gradiente o matriz hessiana. El α-EM muestra una convergencia más rápida que el algoritmo log-EM al elegir un α apropiado. El algoritmo α-EM conduce a una versión más rápida del algoritmo de estimación del modelo Hidden Markov α-HMM.^[32]

Relación con los métodos variacionales de Bayes [ editar ]

EM es un método de máxima verosimilitud parcialmente no bayesiano. Su resultado final da una distribución de probabilidad sobre las variables latentes (en el estilo bayesiano) junto con una estimación puntual para θ (ya sea una estimación de máxima verosimilitud o un modo posterior). Se puede desear una versión completamente bayesiana de esto, dando una distribución de probabilidad sobre θ y las variables latentes. El enfoque bayesiano de la inferencia consiste simplemente en tratar a θ como otra variable latente. En este paradigma, la distinción entre los pasos E y M desaparece. Si usa la aproximación Q factorizada como se describe arriba ( Bayes variacional ), la resolución puede iterar sobre cada variable latente (ahora incluye θ) y optimizarlos uno a la vez. Ahora, se necesitan k pasos por iteración, donde k es el número de variables latentes. Para los modelos gráficos, esto es fácil de hacer, ya que la nueva Q de cada variable depende solo de su manto de Markov , por lo que el paso de mensajes locales se puede usar para una inferencia eficiente.

Interpretación geométrica [ editar ]

En geometría de la información , el paso E y el paso M se interpretan como proyecciones bajo conexiones afines duales , llamadas conexión e y conexión m; la divergencia Kullback-Leibler también puede entenderse en estos términos.

Ejemplos [ editar ]

Mezcla gaussiana [ editar ]

Comparación de k-medias y EM en datos artificiales visualizados con ELKI . Usando las varianzas, el algoritmo EM puede describir las distribuciones normales exactamente, mientras que k-means divide los datos en las celdas de Voronoi . El centro del grupo está indicado por el símbolo más grande y más claro.

Una animación que demuestra el algoritmo EM que ajusta un modelo de mezcla gaussiana de dos componentes al conjunto de datos Old Faithful . El algoritmo pasa de una inicialización aleatoria a la convergencia.

Sea una muestra de observaciones independientes de una mezcla de dos distribuciones normales multivariadas de dimensión , y sean las variables latentes las que determinan el componente del cual se origina la observación. ^[dieciséis] $\mathbf {x} =(\mathbf {x} _{1},\mathbf {x} _{2},\ldots ,\mathbf {x} _{n})$ $n$ $d$ $\mathbf {z} =(z_{1},z_{2},\ldots ,z_{n})$

X_{i}\mid (Z_{i}=1)\sim {\mathcal {N}}_{d}({\boldsymbol {\mu }}_{1},\Sigma _{1})

y

X_{i}\mid (Z_{i}=2)\sim {\mathcal {N}}_{d}({\boldsymbol {\mu }}_{2},\Sigma _{2}),

dónde

\operatorname {P} (Z_{i}=1)=\tau _{1}\,

y

\operatorname {P} (Z_{i}=2)=\tau _{2}=1-\tau _{1}.

El objetivo es estimar los parámetros desconocidos que representan el valor de mezcla entre los gaussianos y las medias y covarianzas de cada uno:

\theta ={\big (}{\boldsymbol {\tau }},{\boldsymbol {\mu }}_{1},{\boldsymbol {\mu }}_{2},\Sigma _{1},\Sigma _{2}{\big )},

donde la función de probabilidad de datos incompletos es

L(\theta ;\mathbf {x} )=\prod _{i=1}^{n}\sum _{j=1}^{2}\tau _{j}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j},\Sigma _{j}),

y la función de verosimilitud de datos completos es

L(\theta ;\mathbf {x} ,\mathbf {z} )=p(\mathbf {x} ,\mathbf {z} \mid \theta )=\prod _{i=1}^{n}\prod _{j=1}^{2}\ [f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j},\Sigma _{j})\tau _{j}]^{\mathbb {I} (z_{i}=j)},

o

L(\theta ;\mathbf {x} ,\mathbf {z} )=\exp \left\{\sum _{i=1}^{n}\sum _{j=1}^{2}\mathbb {I} (z_{i}=j){\big [}\log \tau _{j}-{\tfrac {1}{2}}\log |\Sigma _{j}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})^{\top }\Sigma _{j}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})-{\tfrac {d}{2}}\log(2\pi ){\big ]}\right\},

donde es una función indicadora y es la función de densidad de probabilidad de una normal multivariante. $\mathbb {I}$ $f$

En la última igualdad, para cada $i$ , un indicador es igual a cero y un indicador es igual a uno. La suma interna se reduce así a un término. $\mathbb {I} (z_{i}=j)$

E paso [ editar ]

Dada nuestra estimación actual de los parámetros θ ^{( t )} , el teorema de Bayes determina que la distribución condicional de Z _i es la altura proporcional de la densidad normal ponderada por τ :

T_{j,i}^{(t)}:=\operatorname {P} (Z_{i}=j\mid X_{i}=\mathbf {x} _{i};\theta ^{(t)})={\frac {\tau _{j}^{(t)}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j}^{(t)},\Sigma _{j}^{(t)})}{\tau _{1}^{(t)}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{1}^{(t)},\Sigma _{1}^{(t)})+\tau _{2}^{(t)}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{2}^{(t)},\Sigma _{2}^{(t)})}}.

Estos se denominan "probabilidades de pertenencia", que normalmente se consideran el resultado del paso E (aunque esta no es la función Q de abajo).

Este paso E corresponde a la configuración de esta función para Q:

{\begin{aligned}Q(\theta \mid \theta ^{(t)})&=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} ,\mathbf {\theta } ^{(t)}}[\log L(\theta ;\mathbf {x} ,\mathbf {Z} )]\\&=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} ,\mathbf {\theta } ^{(t)}}[\log \prod _{i=1}^{n}L(\theta ;\mathbf {x} _{i},Z_{i})]\\&=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} ,\mathbf {\theta } ^{(t)}}[\sum _{i=1}^{n}\log L(\theta ;\mathbf {x} _{i},Z_{i})]\\&=\sum _{i=1}^{n}\operatorname {E} _{Z_{i}\mid \mathbf {X} ;\mathbf {\theta } ^{(t)}}[\log L(\theta ;\mathbf {x} _{i},Z_{i})]\\&=\sum _{i=1}^{n}\sum _{j=1}^{2}P(Z_{i}=j\mid X_{i}=\mathbf {x} _{i};\theta ^{(t)})\log L(\theta _{j};\mathbf {x} _{i},j)\\&=\sum _{i=1}^{n}\sum _{j=1}^{2}T_{j,i}^{(t)}{\big [}\log \tau _{j}-{\tfrac {1}{2}}\log |\Sigma _{j}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})^{\top }\Sigma _{j}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})-{\tfrac {d}{2}}\log(2\pi ){\big ]}.\end{aligned}}

La expectativa de dentro de la suma se toma con respecto a la función de densidad de probabilidad , que puede ser diferente para cada conjunto de entrenamiento. Todo en el paso E se conoce antes de dar el paso excepto , que se calcula de acuerdo con la ecuación al comienzo de la sección del paso E. $\log L(\theta ;\mathbf {x} _{i},Z_{i})$ $P(Z_{i}\mid X_{i}=\mathbf {x} _{i};\theta ^{(t)})$ $\mathbf {x} _{i}$ $T_{j,i}$

Esta expectativa condicional completa no necesita calcularse en un solo paso, porque τ y μ / Σ aparecen en términos lineales separados y, por lo tanto, se pueden maximizar de forma independiente.

Paso M [ editar ]

Q ( θ | θ ^{( t )} ) siendo cuadrático en forma significa que determinar los valores maximizadores de θ es relativamente sencillo. Además, τ , ( μ ₁ , Σ ₁ ) y ( μ ₂ , Σ ₂ ) se pueden maximizar de forma independiente, ya que todos aparecen en términos lineales separados.

Para comenzar, considere τ , que tiene la restricción τ ₁ + τ ₂ = 1:

{\begin{aligned}{\boldsymbol {\tau }}^{(t+1)}&={\underset {\boldsymbol {\tau }}{\operatorname {arg\,max} }}\ Q(\theta \mid \theta ^{(t)})\\&={\underset {\boldsymbol {\tau }}{\operatorname {arg\,max} }}\ \left\{\left[\sum _{i=1}^{n}T_{1,i}^{(t)}\right]\log \tau _{1}+\left[\sum _{i=1}^{n}T_{2,i}^{(t)}\right]\log \tau _{2}\right\}.\end{aligned}}

Esto tiene la misma forma que el MLE para la distribución binomial , por lo que

\tau _{j}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{j,i}^{(t)}}{\sum _{i=1}^{n}(T_{1,i}^{(t)}+T_{2,i}^{(t)})}}={\frac {1}{n}}\sum _{i=1}^{n}T_{j,i}^{(t)}.

Para las próximas estimaciones de ( μ ₁ , Σ ₁ ):

{\begin{aligned}({\boldsymbol {\mu }}_{1}^{(t+1)},\Sigma _{1}^{(t+1)})&={\underset {{\boldsymbol {\mu }}_{1},\Sigma _{1}}{\operatorname {arg\,max} }}Q(\theta \mid \theta ^{(t)})\\&={\underset {{\boldsymbol {\mu }}_{1},\Sigma _{1}}{\operatorname {arg\,max} }}\sum _{i=1}^{n}T_{1,i}^{(t)}\left\{-{\tfrac {1}{2}}\log |\Sigma _{1}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1})^{\top }\Sigma _{1}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1})\right\}\end{aligned}}.

Esto tiene la misma forma que un MLE ponderado para una distribución normal, por lo que

{\boldsymbol {\mu }}_{1}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{1,i}^{(t)}\mathbf {x} _{i}}{\sum _{i=1}^{n}T_{1,i}^{(t)}}}

y

\Sigma _{1}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{1,i}^{(t)}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1}^{(t+1)})(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1}^{(t+1)})^{\top }}{\sum _{i=1}^{n}T_{1,i}^{(t)}}}

y, por simetría,

{\boldsymbol {\mu }}_{2}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{2,i}^{(t)}\mathbf {x} _{i}}{\sum _{i=1}^{n}T_{2,i}^{(t)}}}

y

\Sigma _{2}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{2,i}^{(t)}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{2}^{(t+1)})(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{2}^{(t+1)})^{\top }}{\sum _{i=1}^{n}T_{2,i}^{(t)}}}.

Terminación [ editar ]

Concluya el proceso iterativo si está por debajo de algún umbral preestablecido. $E_{Z\mid \theta ^{(t)},\mathbf {x} }[\log L(\theta ^{(t)};\mathbf {x} ,\mathbf {Z} )]\leq E_{Z\mid \theta ^{(t-1)},\mathbf {x} }[\log L(\theta ^{(t-1)};\mathbf {x} ,\mathbf {Z} )]+\varepsilon$ $\varepsilon$

Generalización [ editar ]

El algoritmo ilustrado anteriormente se puede generalizar para mezclas de más de dos distribuciones normales multivariadas .

Regresión truncada y censurada [ editar ]

El algoritmo EM se ha implementado en el caso donde existe un modelo de regresión lineal subyacente que explica la variación de alguna cantidad, pero donde los valores realmente observados son versiones censuradas o truncadas de los representados en el modelo. ^[33] Los casos especiales de este modelo incluyen observaciones censuradas o truncadas de una distribución normal . ^[33]

Alternativas [ editar ]

Los ME convergen típicamente a un óptimo local, no necesariamente al óptimo global, sin límite en la tasa de convergencia en general. Es posible que sea arbitrariamente pobre en grandes dimensiones y puede haber un número exponencial de óptimos locales. Por tanto, existe la necesidad de métodos alternativos para el aprendizaje garantizado, especialmente en entornos de alta dimensión. Existen alternativas a la EM con mejores garantías de coherencia, que se denominan enfoques basados en momentos ^[34] o las denominadas técnicas espectrales ^[35]^[36]^{[ cita requerida ]}. Los enfoques basados en momentos para aprender los parámetros de un modelo probabilístico son de interés creciente recientemente, ya que disfrutan de garantías como la convergencia global en ciertas condiciones, a diferencia de la EM, que a menudo se ve afectada por el problema de quedarse atascado en los óptimos locales. Se pueden derivar algoritmos con garantías de aprendizaje para varios modelos importantes, como modelos de mezcla, HMM, etc. Para estos métodos espectrales, no ocurren óptimos locales espurios y los parámetros verdaderos pueden estimarse consistentemente bajo algunas condiciones de regularidad ^{[ cita requerida ]} .

Ver también [ editar ]

distribución de la mezcla
distribución compuesta
estimación de densidad
espectroscopia de absorción total
El algoritmo EM puede verse como un caso especial del algoritmo de mayorización-minimización (MM) . ^[37]

Referencias [ editar ]

^ Dempster, AP ; Laird, NM ; Rubin, DB (1977). "Máxima probabilidad de datos incompletos a través del algoritmo EM". Revista de la Sociedad Real de Estadística, Serie B . 39 (1): 1–38. JSTOR 2984875 . Señor 0501537 .
↑ Ceppelini, RM (1955). "La estimación de frecuencias de genes en una población de apareamiento aleatorio". Ana. Tararear. Genet . 20 (2): 97-115. doi : 10.1111 / j.1469-1809.1955.tb01360.x . PMID 13268982 . S2CID 38625779 .
^ Sundberg, Rolf (1974). "Teoría de máxima verosimilitud para datos incompletos de una familia exponencial". Revista Escandinava de Estadística . 1 (2): 49–58. JSTOR 4615553 . Señor 0381110 .
↑ a b Rolf Sundberg. 1971. Teoría de máxima verosimilitud y aplicaciones de distribuciones generadas al observar una función de una variable familiar exponencial . Disertación, Instituto de Estadística Matemática, Universidad de Estocolmo.
↑ a b Sundberg, Rolf (1976). "Un método iterativo para la solución de las ecuaciones de probabilidad para datos incompletos de familias exponenciales". Comunicaciones en Estadística - Simulación y Computación . 5 (1): 55–64. doi : 10.1080 / 03610917608812007 . Señor 0443190 .
^ Vea el reconocimiento de Dempster, Laird y Rubin en las páginas 3, 5 y 11.
^ G. Kulldorff. 1961. Contribuciones a la teoría de la estimación a partir de muestras agrupadas y parcialmente agrupadas . Almqvist y Wiksell.
^ a b Anders Martin-Löf. 1963. "Utvärdering av livslängder i subnanosekundsområdet" ("Evaluación de vidas de sub-nanosegundos"). ("Fórmula de Sundberg")
^ a b Por Martin-Löf . 1966. Estadística desde el punto de vista de la mecánica estadística . Apuntes de conferencias, Instituto de Matemáticas, Universidad de Aarhus. ("Fórmula de Sundberg" atribuida a Anders Martin-Löf).
^ a b Por Martin-Löf . 1970. Statistika Modeller (Modelos estadísticos): Anteckningar från seminarier läsåret 1969–1970 (Notas de los seminarios del año académico 1969-1970), con la ayuda de Rolf Sundberg. Universidad de Estocolmo. ("Fórmula de Sundberg")
^ a b Martin-Löf, P. La noción de redundancia y su uso como medida cuantitativa de la desviación entre una hipótesis estadística y un conjunto de datos de observación. Con una discusión de F. Abildgård, AP Dempster , D. Basu , DR Cox , AWF Edwards , DA Sprott, GA Barnard , O. Barndorff-Nielsen, JD Kalbfleisch y G. Rasch y una respuesta del autor. Actas de la Conferencia sobre cuestiones fundamentales en la inferencia estadística (Aarhus, 1973), págs. 1-42. Memorias, nº 1, Dept. Theoret. Estadista., Inst. Math., Univ. Aarhus, Aarhus, 1974.
↑ a b Martin-Löf, Per (1974). "La noción de redundancia y su uso como medida cuantitativa de la discrepancia entre una hipótesis estadística y un conjunto de datos observacionales". Scand. J. Statist . 1 (1): 3–18.
↑ a b c Wu, CF Jeff (marzo de 1983). "Sobre las propiedades de convergencia del algoritmo EM" . Annals of Statistics . 11 (1): 95–103. doi : 10.1214 / aos / 1176346060 . JSTOR 2240463 . Señor 0684867 .
^ Pequeño, Roderick JA; Rubin, Donald B. (1987). Análisis estadístico con datos faltantes . Serie de Wiley en Probabilidad y Estadística Matemática. Nueva York: John Wiley & Sons. pp. 134 -136. ISBN 978-0-471-80254-9.
^ a b Neal, Radford; Hinton, Geoffrey (1999). Michael I. Jordan (ed.). Una vista del algoritmo EM que justifica incrementales, dispersos y otras variantes (PDF) . Aprendizaje en modelos gráficos . Cambridge, MA: MIT Press. págs. 355–368. ISBN 978-0-262-60032-3. Consultado el 22 de marzo de 2009 .
^ a b Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2001). "8.5 El algoritmo EM". Los elementos del aprendizaje estadístico . Nueva York: Springer. pp. 236 -243. ISBN 978-0-387-95284-0.
^ Lindstrom, Mary J; Bates, Douglas M (1988). "Newton-Raphson y algoritmos EM para modelos lineales de efectos mixtos para datos de medidas repetidas". Revista de la Asociación Estadounidense de Estadística . 83 (404): 1014. doi : 10.1080 / 01621459.1988.10478693 .
^ Van Dyk, David A (2000). "Ajuste de modelos de efectos mixtos utilizando algoritmos de tipo EM eficientes". Revista de Estadística Computacional y Gráfica . 9 (1): 78–98. doi : 10.2307 / 1390614 . JSTOR 1390614 .
^ Diffey, S. M; Smith, A. B; Galés, A. H; Cullis, B. R (2017). "Un nuevo algoritmo EM REML (parámetro expandido) para modelos lineales mixtos" . Revista de Estadísticas de Australia y Nueva Zelanda . 59 (4): 433. doi : 10.1111 / anzs.12208 .
^ Matarazzo, TJ y Pakzad, SN (2016). "STRIDE para la identificación estructural utilizando la maximización de expectativas: método iterativo de solo resultados para la identificación modal". Revista de Ingeniería Mecánica. http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951
^ Einicke, GA; Malos, JT; Reid, DC; Hainsworth, DW (enero de 2009). "Ecuación de Riccati y convergencia de algoritmos EM para alineación de navegación inercial". IEEE Trans. Proceso de señal . 57 (1): 370–375. Código bibliográfico : 2009ITSP ... 57..370E . doi : 10.1109 / TSP.2008.2007090 . S2CID 1930004 .
^ Einicke, GA; Falco, G .; Malos, JT (mayo de 2010). "Estimación de la matriz de estado del algoritmo EM para la navegación". Cartas de procesamiento de señales IEEE . 17 (5): 437–440. Código Bibliográfico : 2010ISPL ... 17..437E . doi : 10.1109 / LSP.2010.2043151 . S2CID 14114266 .
^ Einicke, GA; Falco, G .; Dunn, MT; Reid, DC (mayo de 2012). "Estimación iterativa de la varianza basada en más suave". Cartas de procesamiento de señales IEEE . 19 (5): 275–278. Código bibliográfico : 2012ISPL ... 19..275E . doi : 10.1109 / LSP.2012.2190278 . S2CID 17476971 .
^ Einicke, GA (septiembre de 2015). "Filtrado iterativo y suavizado de medidas que poseen ruido de Poisson". Transacciones IEEE en sistemas electrónicos y aeroespaciales . 51 (3): 2205–2011. Código bibliográfico : 2015ITAES..51.2205E . doi : 10.1109 / TAES.2015.140843 . S2CID 32667132 .
^ Jamshidian, Mortaza; Jennrich, Robert I. (1997). "Aceleración del algoritmo EM mediante el uso de métodos Quasi-Newton". Revista de la Sociedad Real de Estadística, Serie B . 59 (2): 569–587. doi : 10.1111 / 1467-9868.00083 . Señor 1452026 .
^ Liu, C (1998). "Expansión de parámetros para acelerar EM: el algoritmo PX-EM". Biometrika . 85 (4): 755–770. CiteSeerX 10.1.1.134.9617 . doi : 10.1093 / biomet / 85.4.755 .
^ Meng, Xiao-Li; Rubin, Donald B. (1993). "Estimación de máxima verosimilitud a través del algoritmo ECM: un marco general". Biometrika . 80 (2): 267–278. doi : 10.1093 / biomet / 80.2.267 . Señor 1243503 . S2CID 40571416 .
^ Liu, Chuanhai; Rubin, Donald B (1994). "El algoritmo ECME: una extensión simple de EM y ECM con convergencia monótona más rápida". Biometrika . 81 (4): 633. doi : 10.1093 / biomet / 81.4.633 . JSTOR 2337067 .
^ Jiangtao Yin; Yanfeng Zhang; Lixin Gao (2012). "Aceleración de algoritmos de expectativa-maximización con actualizaciones frecuentes" (PDF) . Actas de la IEEE International Conference on Cluster Computing .
^ Hunter DR y Lange K (2004), Un tutorial sobre algoritmos MM , The American Statistician, 58: 30-37
^ Matsuyama, Yasuo (2003). "El algoritmo α-EM: maximización de la probabilidad sustituta utilizando medidas de información α-logarítmica". Transacciones IEEE sobre teoría de la información . 49 (3): 692–706. doi : 10.1109 / TIT.2002.808105 .
^ Matsuyama, Yasuo (2011). "Estimación del modelo de Markov oculto basado en el algoritmo alfa-EM: alfa-HMMs discretos y continuos". Conferencia conjunta internacional sobre redes neuronales : 808–816.
↑ a b Wolynetz, MS (1979). "Estimación de máxima verosimilitud en un modelo lineal a partir de datos normales confinados y censurados". Revista de la Sociedad Real de Estadística, Serie C . 28 (2): 195–206. doi : 10.2307 / 2346749 . JSTOR 2346749 .
^ Pearson, Karl (1894). "Contribuciones a la teoría matemática de la evolución" . Philosophical Transactions de la Royal Society de Londres Una . 185 : 71-110. Código bibliográfico : 1894RSPTA.185 ... 71P . doi : 10.1098 / rsta.1894.0003 . ISSN 0264-3820 . JSTOR 90667 .
^ Shaban, Amirreza; Mehrdad, Farajtabar; Bo, Xie; Le, Song; Byron, Boots (2015). "Aprendizaje de modelos de variables latentes mejorando las soluciones espectrales con el método de punto exterior" (PDF) . AUI : 792–801.
↑ Balle, Borja Quattoni, Ariadna Carreras, Xavier (27 de junio de 2012). Optimización de pérdida local en modelos de operador: una nueva visión del aprendizaje espectral . OCLC 815865081 . CS1 maint: multiple names: authors list (link)
^ Lange, Kenneth. "El algoritmo MM" (PDF) .

Lectura adicional [ editar ]

Hogg, Robert; McKean, Joseph; Craig, Allen (2005). Introducción a la estadística matemática . Upper Saddle River, Nueva Jersey: Pearson Prentice Hall. págs. 359–364.
Dellaert, Frank (2002). "El algoritmo de maximización de expectativas". CiteSeerX 10.1.1.9.9735 . Cite journal requires |journal= (help) ofrece una explicación más sencilla del algoritmo EM en cuanto a la maximización del límite inferior.
Obispo, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Saltador. ISBN 978-0-387-31073-2.CS1 maint: ref duplicates default (link)
Gupta, MR; Chen, Y. (2010). "Teoría y uso del algoritmo EM". Fundamentos y tendencias en el procesamiento de señales . 4 (3): 223-296. CiteSeerX 10.1.1.219.6830 . doi : 10.1561 / 2000000034 . Un libro corto bien escrito sobre EM, que incluye una derivación detallada de EM para GMM, HMM y Dirichlet.
Bilmes, Jeff (1998). "Un suave tutorial del algoritmo EM y su aplicación a la estimación de parámetros para la mezcla gaussiana y modelos de Markov ocultos". CiteSeerX 10.1.1.28.613 . Cite journal requires |journal= (help) incluye una derivación simplificada de las ecuaciones EM para mezclas gaussianas y modelos de Markov ocultos de mezcla gaussiana.
McLachlan, Geoffrey J .; Krishnan, Thriyambakam (2008). El algoritmo EM y sus extensiones (2ª ed.). Hoboken: Wiley. ISBN 978-0-471-20170-0.

Enlaces externos [ editar ]

Se proporcionan varias demostraciones 1D, 2D y 3D de EM junto con el modelado de mezclas como parte de las actividades y subprogramas SOCR emparejados . Estos applets y actividades muestran empíricamente las propiedades del algoritmo EM para la estimación de parámetros en diversos entornos.
k-MLE: un algoritmo rápido para aprender modelos de mezcla estadística
Jerarquía de clases en C ++ (GPL), incluidas las mezclas gaussianas
El libro de texto en línea: Teoría de la información, inferencia y algoritmos de aprendizaje , de David JC MacKay, incluye ejemplos simples del algoritmo EM, como la agrupación en clústeres utilizando el algoritmo de k- medias suaves , y enfatiza la vista variacional del algoritmo EM, como se describe en Capítulo 33.7 de la versión 7.2 (cuarta edición).
Algoritmos Variacionales para Inferencia Bayesiana Aproximada , por MJ Beal incluye comparaciones de EM con EM Bayesiano Variacional y derivaciones de varios modelos, incluyendo HMMs Bayesianos Variacionales ( capítulos ).
El algoritmo de maximización de expectativas: un breve tutorial , una derivación autónoma del algoritmo EM por Sean Borman.
El algoritmo EM , por Xiaojin Zhu.
Algoritmo EM y variantes: un tutorial informal de Alexis Roche. Una descripción concisa y muy clara de EM y muchas variantes interesantes.

[Dempster1977-1] Dempster, AP ; Laird, NM ; Rubin, DB (1977). "Máxima probabilidad de datos incompletos a través del algoritmo EM". Revista de la Sociedad Real de Estadística, Serie B . 39 (1): 1–38. JSTOR 2984875 . Señor 0501537 .

[2] Ceppelini, RM (1955). "La estimación de frecuencias de genes en una población de apareamiento aleatorio". Ana. Tararear. Genet . 20 (2): 97-115. doi : 10.1111 / j.1469-1809.1955.tb01360.x . PMID 13268982 . S2CID 38625779 .

[Sundberg1974-3] Sundberg, Rolf (1974). "Teoría de máxima verosimilitud para datos incompletos de una familia exponencial". Revista Escandinava de Estadística . 1 (2): 49–58. JSTOR 4615553 . Señor 0381110 .

[Sundberg1971-4] Rolf Sundberg. 1971. Teoría de máxima verosimilitud y aplicaciones de distribuciones generadas al observar una función de una variable familiar exponencial . Disertación, Instituto de Estadística Matemática, Universidad de Estocolmo.

[Sundberg1976-5] Sundberg, Rolf (1976). "Un método iterativo para la solución de las ecuaciones de probabilidad para datos incompletos de familias exponenciales". Comunicaciones en Estadística - Simulación y Computación . 5 (1): 55–64. doi : 10.1080 / 03610917608812007 . Señor 0443190 .

[6] Vea el reconocimiento de Dempster, Laird y Rubin en las páginas 3, 5 y 11.

[7] G. Kulldorff. 1961. Contribuciones a la teoría de la estimación a partir de muestras agrupadas y parcialmente agrupadas . Almqvist y Wiksell.

[Martin-Löf1963-8] Anders Martin-Löf. 1963. "Utvärdering av livslängder i subnanosekundsområdet" ("Evaluación de vidas de sub-nanosegundos"). ("Fórmula de Sundberg")

[Martin-Löf1966-9] Por Martin-Löf . 1966. Estadística desde el punto de vista de la mecánica estadística . Apuntes de conferencias, Instituto de Matemáticas, Universidad de Aarhus. ("Fórmula de Sundberg" atribuida a Anders Martin-Löf).

[Martin-Löf1970-10] Por Martin-Löf . 1970. Statistika Modeller (Modelos estadísticos): Anteckningar från seminarier läsåret 1969–1970 (Notas de los seminarios del año académico 1969-1970), con la ayuda de Rolf Sundberg. Universidad de Estocolmo. ("Fórmula de Sundberg")

[Martin-Löf1974a-11] Martin-Löf, P. La noción de redundancia y su uso como medida cuantitativa de la desviación entre una hipótesis estadística y un conjunto de datos de observación. Con una discusión de F. Abildgård, AP Dempster , D. Basu , DR Cox , AWF Edwards , DA Sprott, GA Barnard , O. Barndorff-Nielsen, JD Kalbfleisch y G. Rasch y una respuesta del autor. Actas de la Conferencia sobre cuestiones fundamentales en la inferencia estadística (Aarhus, 1973), págs. 1-42. Memorias, nº 1, Dept. Theoret. Estadista., Inst. Math., Univ. Aarhus, Aarhus, 1974.

[Martin-Löf1974b-12] Martin-Löf, Per (1974). "La noción de redundancia y su uso como medida cuantitativa de la discrepancia entre una hipótesis estadística y un conjunto de datos observacionales". Scand. J. Statist . 1 (1): 3–18.

[Wu-13] Wu, CF Jeff (marzo de 1983). "Sobre las propiedades de convergencia del algoritmo EM" . Annals of Statistics . 11 (1): 95–103. doi : 10.1214 / aos / 1176346060 . JSTOR 2240463 . Señor 0684867 .

[Little1987-14] Pequeño, Roderick JA; Rubin, Donald B. (1987). Análisis estadístico con datos faltantes . Serie de Wiley en Probabilidad y Estadística Matemática. Nueva York: John Wiley & Sons. pp. 134 -136. ISBN 978-0-471-80254-9.

[neal1999-15] Neal, Radford; Hinton, Geoffrey (1999). Michael I. Jordan (ed.). Una vista del algoritmo EM que justifica incrementales, dispersos y otras variantes (PDF) . Aprendizaje en modelos gráficos . Cambridge, MA: MIT Press. págs. 355–368. ISBN 978-0-262-60032-3. Consultado el 22 de marzo de 2009 .

[hastie2001-16] Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2001). "8.5 El algoritmo EM". Los elementos del aprendizaje estadístico . Nueva York: Springer. pp. 236 -243. ISBN 978-0-387-95284-0.

[17] Lindstrom, Mary J; Bates, Douglas M (1988). "Newton-Raphson y algoritmos EM para modelos lineales de efectos mixtos para datos de medidas repetidas". Revista de la Asociación Estadounidense de Estadística . 83 (404): 1014. doi : 10.1080 / 01621459.1988.10478693 .

[18] Van Dyk, David A (2000). "Ajuste de modelos de efectos mixtos utilizando algoritmos de tipo EM eficientes". Revista de Estadística Computacional y Gráfica . 9 (1): 78–98. doi : 10.2307 / 1390614 . JSTOR 1390614 .

[19] Diffey, S. M; Smith, A. B; Galés, A. H; Cullis, B. R (2017). "Un nuevo algoritmo EM REML (parámetro expandido) para modelos lineales mixtos" . Revista de Estadísticas de Australia y Nueva Zelanda . 59 (4): 433. doi : 10.1111 / anzs.12208 .

[20] Matarazzo, TJ y Pakzad, SN (2016). "STRIDE para la identificación estructural utilizando la maximización de expectativas: método iterativo de solo resultados para la identificación modal". Revista de Ingeniería Mecánica. http://ascelibrary.org/doi/abs/10.1061/(ASCE)EM.1943-7889.0000951

[21] Einicke, GA; Malos, JT; Reid, DC; Hainsworth, DW (enero de 2009). "Ecuación de Riccati y convergencia de algoritmos EM para alineación de navegación inercial". IEEE Trans. Proceso de señal . 57 (1): 370–375. Código bibliográfico : 2009ITSP ... 57..370E . doi : 10.1109 / TSP.2008.2007090 . S2CID 1930004 .

[22] Einicke, GA; Falco, G .; Malos, JT (mayo de 2010). "Estimación de la matriz de estado del algoritmo EM para la navegación". Cartas de procesamiento de señales IEEE . 17 (5): 437–440. Código Bibliográfico : 2010ISPL ... 17..437E . doi : 10.1109 / LSP.2010.2043151 . S2CID 14114266 .

[23] Einicke, GA; Falco, G .; Dunn, MT; Reid, DC (mayo de 2012). "Estimación iterativa de la varianza basada en más suave". Cartas de procesamiento de señales IEEE . 19 (5): 275–278. Código bibliográfico : 2012ISPL ... 19..275E . doi : 10.1109 / LSP.2012.2190278 . S2CID 17476971 .

[24] Einicke, GA (septiembre de 2015). "Filtrado iterativo y suavizado de medidas que poseen ruido de Poisson". Transacciones IEEE en sistemas electrónicos y aeroespaciales . 51 (3): 2205–2011. Código bibliográfico : 2015ITAES..51.2205E . doi : 10.1109 / TAES.2015.140843 . S2CID 32667132 .

[25] Jamshidian, Mortaza; Jennrich, Robert I. (1997). "Aceleración del algoritmo EM mediante el uso de métodos Quasi-Newton". Revista de la Sociedad Real de Estadística, Serie B . 59 (2): 569–587. doi : 10.1111 / 1467-9868.00083 . Señor 1452026 .

[26] Liu, C (1998). "Expansión de parámetros para acelerar EM: el algoritmo PX-EM". Biometrika . 85 (4): 755–770. CiteSeerX 10.1.1.134.9617 . doi : 10.1093 / biomet / 85.4.755 .

[27] Meng, Xiao-Li; Rubin, Donald B. (1993). "Estimación de máxima verosimilitud a través del algoritmo ECM: un marco general". Biometrika . 80 (2): 267–278. doi : 10.1093 / biomet / 80.2.267 . Señor 1243503 . S2CID 40571416 .

[28] Liu, Chuanhai; Rubin, Donald B (1994). "El algoritmo ECME: una extensión simple de EM y ECM con convergencia monótona más rápida". Biometrika . 81 (4): 633. doi : 10.1093 / biomet / 81.4.633 . JSTOR 2337067 .

[29] Jiangtao Yin; Yanfeng Zhang; Lixin Gao (2012). "Aceleración de algoritmos de expectativa-maximización con actualizaciones frecuentes" (PDF) . Actas de la IEEE International Conference on Cluster Computing .

[30] Hunter DR y Lange K (2004), Un tutorial sobre algoritmos MM , The American Statistician, 58: 30-37

[31] Matsuyama, Yasuo (2003). "El algoritmo α-EM: maximización de la probabilidad sustituta utilizando medidas de información α-logarítmica". Transacciones IEEE sobre teoría de la información . 49 (3): 692–706. doi : 10.1109 / TIT.2002.808105 .

[32] Matsuyama, Yasuo (2011). "Estimación del modelo de Markov oculto basado en el algoritmo alfa-EM: alfa-HMMs discretos y continuos". Conferencia conjunta internacional sobre redes neuronales : 808–816.

[Wolynetz-33] Wolynetz, MS (1979). "Estimación de máxima verosimilitud en un modelo lineal a partir de datos normales confinados y censurados". Revista de la Sociedad Real de Estadística, Serie C . 28 (2): 195–206. doi : 10.2307 / 2346749 . JSTOR 2346749 .

[34] Pearson, Karl (1894). "Contribuciones a la teoría matemática de la evolución" . Philosophical Transactions de la Royal Society de Londres Una . 185 : 71-110. Código bibliográfico : 1894RSPTA.185 ... 71P . doi : 10.1098 / rsta.1894.0003 . ISSN 0264-3820 . JSTOR 90667 .

[35] Shaban, Amirreza; Mehrdad, Farajtabar; Bo, Xie; Le, Song; Byron, Boots (2015). "Aprendizaje de modelos de variables latentes mejorando las soluciones espectrales con el método de punto exterior" (PDF) . AUI : 792–801.

[36] Balle, Borja Quattoni, Ariadna Carreras, Xavier (27 de junio de 2012). Optimización de pérdida local en modelos de operador: una nueva visión del aprendizaje espectral . OCLC 815865081 . CS1 maint: multiple names: authors list (link)

[37] Lange, Kenneth. "El algoritmo MM" (PDF) .