Modelo de Markov oculto

El modelo oculto de Markov ( HMM ) es un modelo estadístico de Markov en el que se supone que el sistema que se está modelando es un proceso de Markov ; llámelo ${\ Displaystyle X}$ - con estados no observables (" ocultos "). HMM asume que hay otro proceso ${\ Displaystyle Y}$ cuyo comportamiento "depende" de ${\ Displaystyle X}$ . El objetivo es aprender sobre ${\ Displaystyle X}$ observando ${\ Displaystyle Y}$ . HMM estipula que, para cada instancia de tiempo ${\ Displaystyle n_ {0}}$ , la distribución de probabilidad condicional de ${\ Displaystyle Y_ {n_ {0}}}$ dada la historia ${\ Displaystyle \ {X_ {n} = x_ {n} \} _ {n \ leq n_ {0}}}$ no debe depender de ${\ Displaystyle \ {x_ {n} \} _ {n$ .

Los modelos ocultos de Markov son conocidos por sus aplicaciones a la termodinámica , mecánica estadística , física , química , economía , finanzas , procesamiento de señales , teoría de la información , reconocimiento de patrones , como voz , escritura a mano , reconocimiento de gestos , ^[1] etiquetado de parte del discurso , seguimiento de partituras musicales, ^[2] descargas parciales ^[3] y bioinformática . ^[4]^[5]

Definición

Dejar ${\ Displaystyle X_ {n}}$ y ${\ Displaystyle Y_ {n}}$ Ser procesos estocásticos de tiempo discreto y ${\ Displaystyle n \ geq 1}$ . El par ${\ Displaystyle (X_ {n}, Y_ {n})}$ es un modelo de Markov oculto si

${\ Displaystyle X_ {n}}$ es un proceso de Markov cuyo comportamiento no es directamente observable ("oculto");
${\ Displaystyle \ operatorname {\ mathbf {P}} {\ bigl (} Y_ {n} \ in A \ {\ bigl |} \ X_ {1} = x_ {1}, \ ldots, X_ {n} = x_ {n} {\ bigr)} = \ operatorname {\ mathbf {P}} {\ bigl (} Y_ {n} \ in A \ {\ bigl |} \ X_ {n} = x_ {n} {\ bigr) },}$

para cada

{\ Displaystyle n \ geq 1,}

{\ Displaystyle x_ {1}, \ ldots, x_ {n},}

y un conjunto arbitrario ( medible )

{\ Displaystyle A}

.

Terminología

Los estados del proceso ${\ Displaystyle X_ {n}}$ se llaman estados ocultos , y ${\ Displaystyle \ operatorname {\ mathbf {P}} {\ bigl (} Y_ {n} \ in A \ {\ bigl |} \ X_ {n} = x_ {n} {\ bigr)}}$ se llama probabilidad de emisión o probabilidad de salida .

Ejemplos de

Sacar bolas de urnas ocultas

Figura 1. Parámetros probabilísticos de un modelo de Markov oculto (ejemplo)
X - estados
y - posibles observaciones
a - probabilidades de transición de estados
b - probabilidades de salida

En su forma discreta, un proceso de Markov oculto se puede visualizar como una generalización del problema de la urna con reemplazo (donde cada elemento de la urna se devuelve a la urna original antes del siguiente paso). ^[6] Considere este ejemplo: en una habitación que no es visible para un observador hay un genio. La habitación contiene urnas X1, X2, X3, ... cada una de las cuales contiene una mezcla conocida de bolas, cada bola etiquetada como y1, y2, y3, .... El genio elige una urna en esa habitación y extrae al azar una bola de esa urna. Luego coloca la bola en una cinta transportadora, donde el observador puede observar la secuencia de las bolas, pero no la secuencia de urnas de las que fueron extraídas. El genio tiene algún procedimiento para elegir urnas; la elección de la urna para la n -ésima bola depende sólo de un número aleatorio y la elección de la urna para la ( n - 1)-ésima bola. La elección de la urna no depende directamente de las urnas elegidas antes de esta única urna anterior; por lo tanto, esto se denomina proceso de Markov . Puede describirse en la parte superior de la Figura 1.

El proceso de Markov en sí no puede observarse, solo la secuencia de bolas etiquetadas, por lo que esta disposición se denomina "proceso de Markov oculto". Esto se ilustra en la parte inferior del diagrama que se muestra en la Figura 1, donde se puede ver que las bolas y1, y2, y3, y4 se pueden dibujar en cada estado. Incluso si el observador conoce la composición de las urnas y acaba de observar una secuencia de tres bolas, por ejemplo , y1, y2 e y3 en la cinta transportadora, el observador aún no puede estar seguro de qué urna ( es decir , en qué estado) ha dibujado el genio. la tercera bola de. Sin embargo, el observador puede encontrar otra información, como la probabilidad de que la tercera bola provenga de cada una de las urnas.

Juego de adivinanzas del tiempo

Piense en dos amigos, Alice y Bob, que viven lejos el uno del otro y que hablan todos los días por teléfono sobre lo que hicieron ese día. Bob solo está interesado en tres actividades: caminar por el parque, ir de compras y limpiar su apartamento. La elección de qué hacer está determinada exclusivamente por el clima de un día determinado. Alice no tiene información definitiva sobre el clima, pero conoce las tendencias generales. Basándose en lo que Bob le dice que hizo cada día, Alice intenta adivinar cómo debe haber sido el clima.

Alice cree que el clima opera como una cadena de Markov discreta . Hay dos estados, "Lluvioso" y "Soleado", pero ella no puede observarlos directamente, es decir, están ocultos para ella. Cada día, existe una cierta probabilidad de que Bob realice una de las siguientes actividades, según el clima: "caminar", "comprar" o "limpiar". Dado que Bob le cuenta a Alice sobre sus actividades, esas son las observaciones . Todo el sistema es el de un modelo de Markov oculto (HMM).

Alice conoce las tendencias generales del clima en el área y lo que a Bob le gusta hacer en promedio. En otras palabras, se conocen los parámetros del HMM. Se pueden representar de la siguiente manera en Python :

estados  =  ( 'Lluvioso' ,  'Soleado' ) observaciones  =  ( 'caminar' ,  'comprar' ,  'limpiar' ) start_probability  =  { 'Lluvioso' :  0.6 ,  'Soleado' :  0.4 } transición_probabilidad  =  {  'Lluvioso'  :  { 'Lluvioso' :  0.7 ,  'Soleado' :  0.3 },  'Soleado'  :  { 'Lluvioso' :  0.4 ,  'Soleado' :  0.6 },  } mission_probability  =  {  'Rainy'  :  { 'walk' :  0.1 ,  'shop' :  0.4 ,  'clean' :  0.5 },  'Sunny'  :  { 'walk' :  0.6 ,  'shop' :  0.3 ,  'clean' :  0.1 } ,  }

En este fragmento de código, start_probabilityrepresenta la creencia de Alice sobre en qué estado se encuentra el HMM cuando Bob la llama por primera vez (todo lo que sabe es que, en promedio, tiende a llover). La distribución de probabilidad particular utilizada aquí no es la de equilibrio, que es (dadas las probabilidades de transición) aproximadamente {'Rainy': 0.57, 'Sunny': 0.43}. El transition_probabilityrepresenta el cambio del clima en la cadena de Markov subyacente. En este ejemplo, hay solo un 30% de probabilidad de que mañana esté soleado si hoy está lluvioso. El emission_probabilityrepresenta la probabilidad de que Bob realice una determinada actividad cada día. Si llueve, hay un 50% de probabilidad de que esté limpiando su apartamento; si hace sol, hay un 60% de probabilidad de que salga a caminar.

Graphical representation of the given HMM

Un ejemplo similar se desarrolla con más detalle en la página del algoritmo de Viterbi .

Arquitectura estructural

El siguiente diagrama muestra la arquitectura general de un HMM instanciado. Cada forma ovalada representa una variable aleatoria que puede adoptar cualquiera de varios valores. La variable aleatoria x ( t ) es el estado oculto en el tiempo $t$ (con el modelo del diagrama anterior, x ( t ) ∈ { x ₁ , x ₂ , x ₃ }). La variable aleatoria y ( t ) es la observación en el tiempo $t$ (con y ( t ) ∈ { y ₁ , y ₂ , y ₃ , y ₄ }). Las flechas en el diagrama (a menudo llamado diagrama de enrejado ) denotan dependencias condicionales.

A partir del diagrama, queda claro que la distribución de probabilidad condicional de la variable oculta x ( t ) en el tiempo $t$ , dados los valores de la variable oculta $x$ en todo momento, depende solo del valor de la variable oculta x ( t - 1 ); los valores en el tiempo t - 2 y antes no tienen influencia. Esto se llama propiedad de Markov . De manera similar, el valor de la variable observada y ( t ) solo depende del valor de la variable oculta x ( t ) (ambos en el tiempo $t$ ).

En el tipo estándar de modelo de Markov oculto que se considera aquí, el espacio de estado de las variables ocultas es discreto, mientras que las propias observaciones pueden ser discretas (normalmente generadas a partir de una distribución categórica ) o continuas (normalmente de una distribución gaussiana ). Los parámetros de un modelo de Markov oculto son de dos tipos, probabilidades de transición y probabilidades de emisión (también conocidas como probabilidades de salida ). Las probabilidades de transición controlan la forma en que se elige el estado oculto en el tiempo $t$ dado el estado oculto en el tiempo ${\ Displaystyle t-1}$ .

Se supone que el espacio de estado oculto consta de uno de $N$ valores posibles, modelado como una distribución categórica. (Consulte la sección siguiente sobre extensiones para conocer otras posibilidades). Esto significa que para cada uno de los $N$ estados posibles en los que puede estar una variable oculta en el tiempo $t$ , existe una probabilidad de transición de este estado a cada uno de los $N$ estados posibles del variable oculta en el momento ${\ Displaystyle t + 1}$ , para un total de ${\ Displaystyle N ^ {2}}$ probabilidades de transición. Tenga en cuenta que el conjunto de probabilidades de transición para las transiciones de cualquier estado dado debe sumar 1. Por lo tanto, el ${\ Displaystyle N \ times N}$ La matriz de probabilidades de transición es una matriz de Markov . Debido a que cualquier probabilidad de transición puede determinarse una vez que se conocen las demás, hay un total de ${\ Displaystyle N (N-1)}$ parámetros de transición.

Además, para cada uno de los $N$ estados posibles, existe un conjunto de probabilidades de emisión que gobiernan la distribución de la variable observada en un momento particular dado el estado de la variable oculta en ese momento. El tamaño de este conjunto depende de la naturaleza de la variable observada. Por ejemplo, si la variable observada es discreta con $M$ valores posibles, gobernada por una distribución categórica , habrá ${\ Displaystyle M-1}$ parámetros separados, para un total de ${\ Displaystyle N (M-1)}$ parámetros de emisión en todos los estados ocultos. Por otro lado, si la variable observada es un vector $M$ -dimensional distribuido de acuerdo con una distribución gaussiana multivariada arbitraria , habrá $M$ parámetros que controlen las medias y ${\ Displaystyle {\ frac {M (M + 1)} {2}}}$ parámetros que controlan la matriz de covarianza , para un total de ${\ Displaystyle N \ left (M + {\ frac {M (M + 1)} {2}} \ right) = {\ frac {NM (M + 3)} {2}} = O (NM ^ {2} )}$ parámetros de emisión. (En tal caso, a menos que el valor de $M$ sea pequeño, puede ser más práctico restringir la naturaleza de las covarianzas entre elementos individuales del vector de observación, por ejemplo, asumiendo que los elementos son independientes entre sí, o menos restrictivamente, son independientes de todos excepto un número fijo de elementos adyacentes).

Inferencia

La transición de estado y las probabilidades de salida de un HMM se indican mediante la opacidad de la línea en la parte superior del diagrama. Dado que hemos observado la secuencia de salida en la parte inferior del diagrama, es posible que nos interese la secuencia de estados más probable que podría haberla producido. Con base en las flechas que están presentes en el diagrama, las siguientes secuencias de estados son candidatas:
5 3 2 5 3 2
4 3 2 5 3 2
3 1 2 5 3 2
Podemos encontrar la secuencia más probable evaluando la probabilidad conjunta de ambas la secuencia de estados y las observaciones para cada caso (simplemente multiplicando los valores de probabilidad, que aquí corresponden a las opacidades de las flechas involucradas). En general, este tipo de problema (es decir, encontrar la explicación más probable para una secuencia de observación) se puede resolver de manera eficiente utilizando el algoritmo de Viterbi .

Varios problemas de inferencia están asociados con los modelos de Markov ocultos, como se describe a continuación.

Probabilidad de una secuencia observada

La tarea consiste en calcular de la mejor manera, dados los parámetros del modelo, la probabilidad de una secuencia de salida particular. Esto requiere la suma de todas las posibles secuencias de estados:

La probabilidad de observar una secuencia.

{\ Displaystyle Y = y (0), y (1), \ dots, y (L-1) \,}

de longitud L viene dada por

{\ Displaystyle P (Y) = \ sum _ {X} P (Y \ mid X) P (X), \,}

donde la suma corre sobre todas las posibles secuencias de nodos ocultos

{\ Displaystyle X = x (0), x (1), \ dots, x (L-1). \,}

Aplicando el principio de programación dinámica , este problema también se puede manejar de manera eficiente utilizando el algoritmo de avance .

Probabilidad de las variables latentes

Varias tareas relacionadas preguntan sobre la probabilidad de una o más de las variables latentes, dados los parámetros del modelo y una secuencia de observaciones. ${\ Displaystyle y (1), \ dots, y (t).}$

Filtración

La tarea consiste en calcular, dados los parámetros del modelo y una secuencia de observaciones, la distribución sobre los estados ocultos de la última variable latente al final de la secuencia, es decir, calcular ${\ Displaystyle P (x (t) \ | \ y (1), \ dots, y (t))}$ . Esta tarea se utiliza normalmente cuando la secuencia de variables latentes se considera como los estados subyacentes por los que se mueve un proceso en una secuencia de puntos de tiempo, con las correspondientes observaciones en cada punto en el tiempo. Entonces, es natural preguntar sobre el estado del proceso al final.

Este problema se puede manejar de manera eficiente utilizando el algoritmo de reenvío .

Suavizado

Esto es similar al filtrado, pero pregunta sobre la distribución de una variable latente en algún lugar en el medio de una secuencia, es decir, para calcular ${\ Displaystyle P (x (k) \ | \ y (1), \ dots, y (t))}$ para algunos ${\ Displaystyle k }>$ . Desde la perspectiva descrita anteriormente, esto se puede considerar como la distribución de probabilidad sobre estados ocultos para un punto en el tiempo k en el pasado, en relación con el tiempo t .

El algoritmo de avance-retroceso es un buen método para calcular los valores suavizados para todas las variables de estado ocultas.

Explicación más probable

La tarea, a diferencia de las dos anteriores, pregunta sobre la probabilidad conjunta de toda la secuencia de estados ocultos que generó una secuencia particular de observaciones (ver ilustración a la derecha). Esta tarea es generalmente aplicable cuando los HMM se aplican a diferentes tipos de problemas de aquellos para los que son aplicables las tareas de filtrado y suavizado. Un ejemplo es el etiquetado de parte del discurso , donde los estados ocultos representan las partes del discurso subyacentes correspondientes a una secuencia de palabras observada. En este caso, lo que interesa es la secuencia completa de partes del discurso, en lugar de simplemente la parte del discurso para una sola palabra, como se calcularía el filtrado o el suavizado.

Esta tarea requiere encontrar un máximo en todas las secuencias de estados posibles y puede resolverse de manera eficiente mediante el algoritmo de Viterbi .

Significancia estadística

Para algunos de los problemas anteriores, también puede ser interesante preguntar acerca de la significancia estadística . ¿Cuál es la probabilidad de que una secuencia extraída de alguna distribución nula tenga una probabilidad HMM (en el caso del algoritmo directo) o una probabilidad máxima de secuencia de estado (en el caso del algoritmo de Viterbi) al menos tan grande como la de un algoritmo particular? secuencia de salida? ^[7] Cuando se utiliza un HMM para evaluar la relevancia de una hipótesis para una secuencia de salida en particular, la significación estadística indica la tasa de falsos positivos asociada con no rechazar la hipótesis para la secuencia de salida.

Aprendiendo

La tarea de aprendizaje de parámetros en los HMM es encontrar, dada una secuencia de salida o un conjunto de tales secuencias, el mejor conjunto de probabilidades de emisión y transición de estado. La tarea suele ser derivar la estimación de máxima verosimilitud de los parámetros del HMM dado el conjunto de secuencias de salida. No se conoce ningún algoritmo manejable para resolver este problema con exactitud, pero se puede derivar una probabilidad máxima local de manera eficiente utilizando el algoritmo de Baum-Welch o el algoritmo Baldi-Chauvin. El algoritmo de Baum-Welch es un caso especial del algoritmo de maximización de expectativas . Si los HMM se utilizan para la predicción de series de tiempo, se ha demostrado que los métodos de inferencia bayesiana más sofisticados, como el muestreo de cadena de Markov Monte Carlo (MCMC), son favorables para encontrar un único modelo de máxima verosimilitud tanto en términos de precisión como de estabilidad. ^[8] Dado que MCMC impone una carga computacional significativa, en los casos en que la escalabilidad computacional también es de interés, se puede alternativamente recurrir a aproximaciones variacionales a la inferencia bayesiana, por ejemplo ^[9] De hecho, la inferencia variacional aproximada ofrece una eficiencia computacional comparable a la maximización de expectativas, produciendo un perfil de precisión sólo ligeramente inferior a la inferencia bayesiana de tipo MCMC exacta.

Aplicaciones

Un perfil HMM que modela una alineación de secuencia múltiple

Los HMM se pueden aplicar en muchos campos donde el objetivo es recuperar una secuencia de datos que no es inmediatamente observable (pero otros datos que dependen de la secuencia sí lo son). Las aplicaciones incluyen:

Finanzas computacionales ^[10]^[11]
Análisis cinético de una sola molécula ^[12]
Criptoanálisis
Reconocimiento de voz , incluido Siri ^[13]
Síntesis de voz
Etiquetado de parte de la voz
Separación de documentos en soluciones de escaneo
Máquina traductora
Descargo parcial
Predicción de genes
Reconocimiento de escritura a mano
Alineación de bio-secuencias
Análisis de series temporales
Reconocimiento de actividad
Plegado de proteínas ^[14]
Clasificación de secuencia ^[15]
Detección de virus metamórficos ^[16]
Descubrimiento de motivos de ADN ^[17]
Cinética de hibridación del ADN ^[18]^[19]
Descubrimiento del estado de la cromatina ^[20]
Previsión de transporte ^[21]
Variabilidad de la irradiancia solar ^[22]^[23]^[24]

Historia

Los modelos ocultos de Markov fueron descritos en una serie de artículos estadísticos por Leonard E. Baum y otros autores en la segunda mitad de la década de 1960. ^[25]^[26]^[27]^[28]^[29] Una de las primeras aplicaciones de los HMM fue el reconocimiento de voz , a partir de mediados de la década de 1970. ^[30]^[31]^[32]^[33]

En la segunda mitad de la década de 1980, los HMM comenzaron a aplicarse al análisis de secuencias biológicas ^[34], en particular al ADN . Desde entonces, se han vuelto omnipresentes en el campo de la bioinformática . ^[35]

Extensiones

En los modelos ocultos de Markov considerados anteriormente, el espacio de estado de las variables ocultas es discreto, mientras que las observaciones en sí pueden ser discretas (generalmente generadas a partir de una distribución categórica ) o continuas (típicamente a partir de una distribución gaussiana ). Los modelos ocultos de Markov también se pueden generalizar para permitir espacios de estado continuos. Ejemplos de tales modelos son aquellos donde el proceso de Markov sobre variables ocultas es un sistema dinámico lineal , con una relación lineal entre variables relacionadas y donde todas las variables ocultas y observadas siguen una distribución gaussiana . En casos simples, como el sistema dinámico lineal que acabamos de mencionar, la inferencia exacta es manejable (en este caso, usando el filtro de Kalman ); sin embargo, en general, la inferencia exacta en HMM con variables latentes continuas no es factible y se deben utilizar métodos aproximados, como el filtro de Kalman extendido o el filtro de partículas .

Los modelos ocultos de Markov son modelos generativos , en los que se modela la distribución conjunta de observaciones y estados ocultos o, de manera equivalente, tanto la distribución previa de estados ocultos (las probabilidades de transición ) como la distribución condicional de estados dados de las observaciones (las probabilidades de emisión ). Los algoritmos anteriores suponen implícitamente una distribución previa uniforme sobre las probabilidades de transición. Sin embargo, también es posible crear modelos de Markov ocultos con otros tipos de distribuciones previas. Un candidato obvio, dada la distribución categórica de las probabilidades de transición, es la distribución de Dirichlet , que es la distribución previa conjugada de la distribución categórica. Por lo general, se elige una distribución de Dirichlet simétrica, lo que refleja la ignorancia sobre qué estados son intrínsecamente más probables que otros. El único parámetro de esta distribución (denominado parámetro de concentración ) controla la densidad relativa o la escasez de la matriz de transición resultante. Una elección de 1 produce una distribución uniforme. Los valores superiores a 1 producen una matriz densa, en la que es probable que las probabilidades de transición entre pares de estados sean casi iguales. Los valores inferiores a 1 dan como resultado una matriz dispersa en la que, para cada estado de origen dado, solo un pequeño número de estados de destino tienen probabilidades de transición no despreciables. También es posible utilizar una distribución de Dirichlet previa de dos niveles, en la que una distribución de Dirichlet (la distribución superior) gobierna los parámetros de otra distribución de Dirichlet (la distribución inferior), que a su vez gobierna las probabilidades de transición. La distribución superior gobierna la distribución general de estados, determinando la probabilidad de que ocurra cada estado; su parámetro de concentración determina la densidad o escasez de estados. Una distribución anterior de dos niveles de este tipo, en la que ambos parámetros de concentración se establecen para producir distribuciones dispersas, podría ser útil, por ejemplo, en el etiquetado de parte del discurso no supervisado , donde algunas partes del discurso ocurren con mucha más frecuencia que otras; Los algoritmos de aprendizaje que asumen una distribución previa uniforme generalmente funcionan mal en esta tarea. Los parámetros de modelos de este tipo, con distribuciones previas no uniformes, se pueden aprender utilizando el muestreo de Gibbs o versiones extendidas del algoritmo de maximización de expectativas .

Una extensión de los modelos de Markov ocultos descritos anteriormente con priores de Dirichlet utiliza un proceso de Dirichlet en lugar de una distribución de Dirichlet. Este tipo de modelo permite un número desconocido y potencialmente infinito de estados. Es común utilizar un proceso de Dirichlet de dos niveles, similar al modelo descrito anteriormente con dos niveles de distribuciones de Dirichlet. Dicho modelo se denomina modelo de Markov oculto de proceso de Dirichlet jerárquico , o HDP-HMM para abreviar. Originalmente se describió con el nombre de "Modelo de Markov Oculto Infinito" ^[3] y se formalizó aún más en ^[4] .

Un tipo diferente de extensión utiliza un modelo discriminativo en lugar del modelo generativo de los HMM estándar. Este tipo de modelo modela directamente la distribución condicional de los estados ocultos dadas las observaciones, en lugar de modelar la distribución conjunta. Un ejemplo de este modelo es el llamado modelo de Markov de máxima entropía (MEMM), que modela la distribución condicional de los estados mediante regresión logística (también conocido como " modelo de máxima entropía "). La ventaja de este tipo de modelo es que se pueden modelar características arbitrarias (es decir, funciones) de las observaciones, lo que permite inyectar en el modelo un conocimiento específico del dominio del problema en cuestión. Los modelos de este tipo no se limitan a modelar dependencias directas entre un estado oculto y su observación asociada; más bien, características de observaciones cercanas, de combinaciones de la observación asociada y observaciones cercanas, o de hecho, de observaciones arbitrarias a cualquier distancia de un estado oculto dado, pueden incluirse en el proceso utilizado para determinar el valor de un estado oculto. Además, no es necesario que estas características sean estadísticamente independientes entre sí, como sería el caso si tales características se usaran en un modelo generativo. Por último, se pueden utilizar características arbitrarias sobre pares de estados ocultos adyacentes en lugar de simples probabilidades de transición. Las desventajas de tales modelos son: (1) Los tipos de distribuciones previas que pueden colocarse en estados ocultos son muy limitados; (2) No es posible predecir la probabilidad de ver una observación arbitraria. Esta segunda limitación a menudo no es un problema en la práctica, ya que muchos usos comunes de HMM no requieren tales probabilidades predictivas.

Una variante del modelo discriminativo descrito anteriormente es el campo aleatorio condicional de cadena lineal . Esto utiliza un modelo gráfico no dirigido (también conocido como campo aleatorio de Markov ) en lugar de los modelos gráficos dirigidos de MEMM y modelos similares. La ventaja de este tipo de modelo es que no sufre el llamado problema de sesgo de etiqueta de los MEMM y, por lo tanto, puede realizar predicciones más precisas. La desventaja es que el entrenamiento puede ser más lento que el de los MEMM.

Otra variante más es el modelo factorial oculto de Markov , que permite condicionar una sola observación a las correspondientes variables ocultas de un conjunto de ${\ Displaystyle K}$ cadenas de Markov independientes, en lugar de una sola cadena de Markov. Es equivalente a un solo HMM, con ${\ Displaystyle N ^ {K}}$ estados (asumiendo que hay ${\ Displaystyle N}$ estados para cada cadena), y por lo tanto, aprender en tal modelo es difícil: para una secuencia de longitud ${\ Displaystyle T}$ , un algoritmo de Viterbi sencillo tiene complejidad ${\ Displaystyle O (N ^ {2K} \, T)}$ . Para encontrar una solución exacta, se podría utilizar un algoritmo de árbol de unión, pero da como resultado un ${\ Displaystyle O (N ^ {K + 1} \, K \, T)}$ complejidad. En la práctica, se podrían utilizar técnicas aproximadas, como enfoques variacionales. ^[36]

Todos los modelos anteriores se pueden ampliar para permitir dependencias más distantes entre estados ocultos, por ejemplo, permitiendo que un estado dado dependa de los dos o tres estados anteriores en lugar de un solo estado anterior; es decir, las probabilidades de transición se amplían para abarcar conjuntos de tres o cuatro estados adyacentes (o en general ${\ Displaystyle K}$ estados adyacentes). La desventaja de tales modelos es que los algoritmos de programación dinámica para entrenarlos tienen un ${\ Displaystyle O (N ^ {K} \, T)}$ tiempo de ejecución, para ${\ Displaystyle K}$ estados adyacentes y ${\ Displaystyle T}$ observaciones totales (es decir, una longitud ${\ Displaystyle T}$ Cadena de Markov).

Otra extensión reciente es el modelo triplete de Markov , ^[37] en el que se agrega un proceso subyacente auxiliar para modelar algunas especificidades de los datos. Se han propuesto muchas variantes de este modelo. Cabe mencionar también el interesante vínculo que se ha establecido entre la teoría de la evidencia y los modelos triplete de Markov ^[38] y que permite fusionar datos en el contexto markoviano ^[39] y modelar datos no estacionarios. ^[40]^[41] Tenga en cuenta que en la literatura reciente también se han propuesto estrategias alternativas de fusión de datos de múltiples flujos, p. Ej. ^[42]

Finalmente, en 2012 se sugirió una justificación diferente para abordar el problema de modelar datos no estacionarios mediante modelos ocultos de Markov ^[43]. Consiste en emplear una pequeña red neuronal recurrente (RNN), específicamente una red de reservorios, ^[44] para capturar la evolución de la dinámica temporal en los datos observados. Esta información, codificada en forma de un vector de alta dimensión, se utiliza como una variable condicionante de las probabilidades de transición de estado de HMM. Bajo tal configuración, eventualmente obtenemos un HMM no estacionario cuyas probabilidades de transición evolucionan con el tiempo de una manera que se infiere de los datos mismos, a diferencia de algún modelo ad-hoc poco realista de evolución temporal.

El modelo adecuado en el contexto de datos longitudinales se denomina modelo de Markov latente. ^[45] La versión básica de este modelo se ha ampliado para incluir covariables individuales, efectos aleatorios y modelar estructuras de datos más complejas, como datos multinivel. En ^[46] se proporciona una descripción completa de los modelos latentes de Markov, con especial atención a los supuestos del modelo y a su uso práctico ^.

Ver también

Andrey Markov
Algoritmo de Baum-Welch
Inferencia bayesiana
Programación bayesiana
Campo aleatorio condicional
Teoría de la estimación
Servidor y software gratuitos HHpred / HHsearch para la búsqueda de secuencias de proteínas
HMMER , un programa modelo de Markov oculto gratuito para el análisis de secuencias de proteínas
Modelo de Bernoulli oculto
Modelo oculto de semi-Markov
Modelo de Markov oculto jerárquico
Modelo de Markov oculto en capas
Sistema dinámico secuencial
Gramática estocástica libre de contexto
Análisis de series de tiempo
Modelo de Markov de orden variable
Algoritmo de Viterbi

Referencias

^ Thad Starner, Alex Pentland. Real-Time americana del lenguaje de signos Reconocimiento Visual De vídeo utilizando modelos ocultos de Markov . Tesis de Maestría, MIT, febrero de 1995, Programa de Artes de los Medios
^ B. Pardo y W. Birmingham. Formulario de modelado para seguimiento on-line de actuaciones musicales . AAAI-05 Proc., Julio de 2005.
^ Satish L, Gururaj BI (abril de 2003). " Uso de modelos de Markov ocultos para la clasificación de patrones de descargas parciales ". Transacciones IEEE sobre dieléctricos y aislamiento eléctrico .
^ Li, N; Stephens, M (diciembre de 2003). "Modelado de desequilibrio de ligamiento e identificación de puntos calientes de recombinación utilizando datos de polimorfismo de un solo nucleótido" . Genética . 165 (4): 2213–33. doi : 10.1093 / genetics / 165.4.2213 . PMC 1462870 . PMID 14704198 .
^ Ernst, Jason; Kellis, Manolis (marzo de 2012). "ChromHMM: automatización del descubrimiento y caracterización del estado de cromatina" . Métodos de la naturaleza . 9 (3): 215–216. doi : 10.1038 / nmeth.1906 . PMC 3577932 . PMID 22373907 .
^ Lawrence R. Rabiner (febrero de 1989). "Un tutorial sobre modelos ocultos de Markov y aplicaciones seleccionadas en el reconocimiento de voz" (PDF) . Actas del IEEE . 77 (2): 257–286. CiteSeerX 10.1.1.381.3454 . doi : 10.1109 / 5.18626 . [1]
^ Newberg, L. (2009). "Estadísticas de error del modelo de Markov oculto y resultados del modelo de Boltzmann oculto" . BMC Bioinformática . 10 : 212. doi : 10.1186 / 1471-2105-10-212 . PMC 2722652 . PMID 19589158 .
^ Sipos, I. Róbert. Muestreo de MCMC estratificado paralelo de AR-HMM para la predicción estocástica de series de tiempo . En: Proceedings, 4th Stochastic Modelling Techniques and Data Analysis International Conference with Demographics Workshop (SMTDA2016), págs. 295-306. La Valeta, 2016. PDF
^ Chatzis, Sotirios P .; Kosmopoulos, Dimitrios I. (2011). "Una metodología bayesiana variacional para modelos ocultos de Markov utilizando mezclas de Student's-t" (PDF) . Reconocimiento de patrones . 44 (2): 295-306. CiteSeerX 10.1.1.629.6275 . doi : 10.1016 / j.patcog.2010.09.001 .
^ Sipos, I. Róbert; Ceffer, Atila; Levendovszky, János (2016). "Optimización paralela de carteras dispersas con AR-HMM". Economía Computacional . 49 (4): 563–578. doi : 10.1007 / s10614-016-9579-y . S2CID 61882456 .
^ Petropoulos, Anastasios; Chatzis, Sotirios P .; Xanthopoulos, Stylianos (2016). "Un novedoso sistema de calificación crediticia corporativa basado en modelos ocultos de Markov de Student's-t". Sistemas expertos con aplicaciones . 53 : 87-105. doi : 10.1016 / j.eswa.2016.01.015 .
^ NICOLAI, CHRISTOPHER (2013). "RESOLVER CINÉTICA DE CANALES DE IONES CON EL SOFTWARE QuB". Reseñas y cartas biofísicas . 8 (3n04): 191–211. doi : 10.1142 / S1793048013300053 .
^ Domingos, Pedro (2015). El algoritmo maestro: cómo la búsqueda de la máquina de aprendizaje definitiva reconstruirá nuestro mundo . Libros básicos. pag. 37 . ISBN 9780465061921.
^ Stigler, J .; Ziegler, F .; Gieseke, A .; Gebhardt, JCM; Rief, M. (2011). "La compleja red de plegamiento de moléculas individuales de calcodulina". Ciencia . 334 (6055): 512–516. Código Bibliográfico : 2011Sci ... 334..512S . doi : 10.1126 / science.1207598 . PMID 22034433 . S2CID 5502662 .
^ Blasiak, S .; Rangwala, H. (2011). "Una variante del modelo de Markov oculto para la clasificación de secuencia". Actas de la IJCAI-Conferencia conjunta internacional sobre inteligencia artificial . 22 : 1192.
^ Wong, W .; Sello, M. (2006). "Caza de motores metamórficos". Revista de Virología Informática . 2 (3): 211-229. doi : 10.1007 / s11416-006-0028-7 . S2CID 8116065 .
^ Wong, K.-C .; Chan, T. -M .; Peng, C .; Li, Y .; Zhang, Z. (2013). "Aclaración de motivos de ADN mediante propagación de creencias" . Investigación de ácidos nucleicos . 41 (16): e153. doi : 10.1093 / nar / gkt574 . PMC 3763557 . PMID 23814189 .
^ Shah, Shalin; Dubey, Abhishek K .; Reif, John (17 de mayo de 2019). "Multiplexación óptica mejorada con códigos de barras de ADN temporal". Biología sintética ACS . 8 (5): 1100–1111. doi : 10.1021 / acssynbio.9b00010 . PMID 30951289 .
^ Shah, Shalin; Dubey, Abhishek K .; Reif, John (10 de abril de 2019). "Programación de códigos de barras de ADN temporal para huellas dactilares de una sola molécula". Nano Letras . 19 (4): 2668–2673. Código Bib : 2019NanoL..19.2668S . doi : 10.1021 / acs.nanolett.9b00590 . ISSN 1530-6984 . PMID 30896178 .
^ "ChromHMM: descubrimiento y caracterización del estado de cromatina" . compbio.mit.edu . Consultado el 1 de agosto de 2018 .
^ El Zarwi, Feraz (mayo de 2011). "Modelado y pronóstico de la evolución de las preferencias a lo largo del tiempo: un modelo de comportamiento de viaje oculto de Markov". arXiv : 1707.09133 [ stat.AP ].
^ Morf, H. (febrero de 1998). "El modelo estocástico de irradiancia solar de dos estados (STSIM)". Energía solar . 62 (2): 101–112. Código Bibliográfico : 1998SoEn ... 62..101M . doi : 10.1016 / S0038-092X (98) 00004-8 .
^ Munkhammar, J .; Widén, J. (agosto de 2018). "Un enfoque de mezcla de distribución de probabilidad de cadena de Markov para el índice de cielo despejado". Energía solar . 170 : 174-183. Código bibliográfico : 2018SoEn..170..174M . doi : 10.1016 / j.solener.2018.05.055 .
^ Munkhammar, J .; Widén, J. (octubre de 2018). "Un modelo de distribución de mezcla de cadena de Markov de estado N del índice de cielo despejado". Energía solar . 173 : 487–495. Código Bib : 2018SoEn..173..487M . doi : 10.1016 / j.solener.2018.07.056 .
^ Baum, LE; Petrie, T. (1966). "Inferencia estadística para funciones probabilísticas de cadenas de Markov de estado finito" . Los Anales de Estadística Matemática . 37 (6): 1554-1563. doi : 10.1214 / aoms / 1177699147 . Consultado el 28 de noviembre de 2011 .
^ Baum, LE; Eagon, JA (1967). "Una desigualdad con aplicaciones a la estimación estadística de funciones probabilísticas de procesos de Markov y a un modelo para la ecología" . Boletín de la American Mathematical Society . 73 (3): 360. doi : 10.1090 / S0002-9904-1967-11751-8 . Zbl 0157.11101 .
^ Baum, LE; Vender, GR (1968). "Transformaciones de crecimiento para funciones en variedades" . Pacific Journal of Mathematics . 27 (2): 211-227. doi : 10.2140 / pjm.1968.27.211 . Consultado el 28 de noviembre de 2011 .
^ Baum, LE ; Petrie, T .; Soules, G .; Weiss, N. (1970). "Una técnica de maximización que ocurre en el análisis estadístico de funciones probabilísticas de cadenas de Markov" . Los Anales de Estadística Matemática . 41 (1): 164-171. doi : 10.1214 / aoms / 1177697196 . JSTOR 2239727 . Señor 0287613 . Zbl 0188.49603 .
^ Baum, LE (1972). "Una desigualdad y técnica de maximización asociada en la estimación estadística de funciones probabilísticas de un proceso de Markov". Desigualdades . 3 : 1–8.
^ Baker, J. (1975). "El sistema DRAGON: una descripción general". Transacciones IEEE sobre acústica, habla y procesamiento de señales . 23 : 24-29. doi : 10.1109 / TASSP.1975.1162650 .
^ Jelinek, F .; Bahl, L .; Mercer, R. (1975). "Diseño de un decodificador estadístico lingüístico para el reconocimiento de habla continua". Transacciones IEEE sobre teoría de la información . 21 (3): 250. doi : 10.1109 / TIT.1975.1055384 .
^ Xuedong Huang ; M. Jack; Y. Ariki (1990). Modelos ocultos de Markov para el reconocimiento de voz . Prensa de la Universidad de Edimburgo. ISBN 978-0-7486-0162-2.
^ Xuedong Huang ; Alex Acero; Hsiao-Wuen Hon (2001). Procesamiento del lenguaje hablado . Prentice Hall. ISBN 978-0-13-022616-7.
^ M. Bishop y E. Thompson (1986). "Alineación de máxima probabilidad de secuencias de ADN". Revista de Biología Molecular . 190 (2): 159-165. doi : 10.1016 / 0022-2836 (86) 90289-5 . PMID 3641921 . (requiere suscripción)
^ Durbin, Richard M .; Eddy, Sean R .; Krogh, Anders ; Mitchison, Graeme (1998), Análisis de secuencia biológica: Modelos probabilísticos de proteínas y ácidos nucleicos (1a ed.), Cambridge, Nueva York: Cambridge University Press , doi : 10.2277 / 0521629713 , ISBN 0-521-62971-3, OCLC 593254083
^ Ghahramani, Zoubin ; Jordan, Michael I. (1997). "Modelos factoriales ocultos de Markov" . Aprendizaje automático . 29 (2/3): 245–273. doi : 10.1023 / A: 1007425814087 .
^ Pieczynski, Wojciech (2002). "Trío Chaı̂nes de Markov". Comptes Rendus Mathématique . 335 (3): 275–278. doi : 10.1016 / S1631-073X (02) 02462-7 .
^ Pieczynski, Wojciech (2007). "Cadenas de Markov triplete multisensor y teoría de la evidencia" . Revista Internacional de Razonamiento Aproximado . 45 : 1-16. doi : 10.1016 / j.ijar.2006.05.001 .
^ Boudaren y col. , MY Boudaren, E. Monfrini, W. Pieczynski y A. Aissani, Dempster-Shafer fusión de señales multisensores en contexto markoviano no estacionario, EURASIP Journal on Advances in Signal Processing, No. 134, 2012.
^ Lanchantin y col. , P. Lanchantin y W. Pieczynski, Restauración no supervisada de la cadena de Markov oculta no estacionaria utilizando antecedentes probatorios, IEEE Transactions on Signal Processing, Vol. 53, núm. 8, págs. 3091-3098, 2005.
^ Boudaren y col. , MY Boudaren, E. Monfrini y W. Pieczynski, Segmentación no supervisada de datos discretos aleatorios ocultos con distribuciones de ruido de conmutación, IEEE Signal Processing Letters, vol. 19, núm. 10, págs. 619-622, octubre de 2012.
^ Sotirios P. Chatzis, Dimitrios Kosmopoulos, "Reconocimiento de flujo de trabajo visual utilizando un tratamiento bayesiano variacional de modelos de Markov ocultos fusionados de múltiples flujos", Transacciones IEEE en circuitos y sistemas para tecnología de video, vol. 22, no. 7, págs. 1076-1086, julio de 2012. [2]
^ Chatzis, Sotirios P .; Demiris, Yiannis (2012). "Un modelo de Markov oculto no estacionario impulsado por un yacimiento". Reconocimiento de patrones . 45 (11): 3985–3996. doi : 10.1016 / j.patcog.2012.04.018 . hdl : 10044/1/12611 .
^ M. Lukosevicius, H. Jaeger (2009) Enfoques de computación de reservorios para el entrenamiento de redes neuronales recurrentes, Computer Science Review 3 : 127-149.
^ Wiggins, LM (1973). Análisis de panel: modelos de probabilidad latente para procesos de actitud y comportamiento . Amsterdam: Elsevier.
^ Bartolucci, F .; Farcomeni, A .; Pennoni, F. (2013). Modelos de Markov latentes para datos longitudinales . Boca Raton: Chapman y Hall / CRC. ISBN 978-14-3981-708-7.

enlaces externos

Conceptos

Teif, VB; Rippe, K. (2010). "Modelos de celosía estadístico-mecánica para la unión de proteína-ADN en cromatina". J. Phys .: Condens. Materia . 22 (41): 414105. arXiv : 1004.5514 . Código bibliográfico : 2010JPCM ... 22O4105T . doi : 10.1088 / 0953-8984 / 22/41/414105 . PMID 21386588 . S2CID 103345 .
Una reveladora introducción a los modelos ocultos de Markov por Mark Stamp, Universidad Estatal de San José.
Adaptación de HMM con maximización de expectativas: derivación completa
Un tutorial paso a paso sobre HMM (Universidad de Leeds)
Modelos ocultos de Markov (una exposición que utiliza matemáticas básicas)
Modelos ocultos de Markov (por Narada Warakagoda)
Modelos ocultos de Markov: Fundamentos y aplicaciones Parte 1 , Parte 2 (por V. Petrushin)
Conferencia sobre una hoja de cálculo de Jason Eisner, video y hoja de cálculo interactiva

[1] Thad Starner, Alex Pentland. Real-Time americana del lenguaje de signos Reconocimiento Visual De vídeo utilizando modelos ocultos de Markov . Tesis de Maestría, MIT, febrero de 1995, Programa de Artes de los Medios

[2] B. Pardo y W. Birmingham. Formulario de modelado para seguimiento on-line de actuaciones musicales . AAAI-05 Proc., Julio de 2005.

[3] Satish L, Gururaj BI (abril de 2003). " Uso de modelos de Markov ocultos para la clasificación de patrones de descargas parciales ". Transacciones IEEE sobre dieléctricos y aislamiento eléctrico .

[4] Li, N; Stephens, M (diciembre de 2003). "Modelado de desequilibrio de ligamiento e identificación de puntos calientes de recombinación utilizando datos de polimorfismo de un solo nucleótido" . Genética . 165 (4): 2213–33. doi : 10.1093 / genetics / 165.4.2213 . PMC 1462870 . PMID 14704198 .

[5] Ernst, Jason; Kellis, Manolis (marzo de 2012). "ChromHMM: automatización del descubrimiento y caracterización del estado de cromatina" . Métodos de la naturaleza . 9 (3): 215–216. doi : 10.1038 / nmeth.1906 . PMC 3577932 . PMID 22373907 .

[6] Lawrence R. Rabiner (febrero de 1989). "Un tutorial sobre modelos ocultos de Markov y aplicaciones seleccionadas en el reconocimiento de voz" (PDF) . Actas del IEEE . 77 (2): 257–286. CiteSeerX 10.1.1.381.3454 . doi : 10.1109 / 5.18626 . [1]

[7] Newberg, L. (2009). "Estadísticas de error del modelo de Markov oculto y resultados del modelo de Boltzmann oculto" . BMC Bioinformática . 10 : 212. doi : 10.1186 / 1471-2105-10-212 . PMC 2722652 . PMID 19589158 .

[8] Sipos, I. Róbert. Muestreo de MCMC estratificado paralelo de AR-HMM para la predicción estocástica de series de tiempo . En: Proceedings, 4th Stochastic Modelling Techniques and Data Analysis International Conference with Demographics Workshop (SMTDA2016), págs. 295-306. La Valeta, 2016. PDF

[9] Chatzis, Sotirios P .; Kosmopoulos, Dimitrios I. (2011). "Una metodología bayesiana variacional para modelos ocultos de Markov utilizando mezclas de Student's-t" (PDF) . Reconocimiento de patrones . 44 (2): 295-306. CiteSeerX 10.1.1.629.6275 . doi : 10.1016 / j.patcog.2010.09.001 .

[10] Sipos, I. Róbert; Ceffer, Atila; Levendovszky, János (2016). "Optimización paralela de carteras dispersas con AR-HMM". Economía Computacional . 49 (4): 563–578. doi : 10.1007 / s10614-016-9579-y . S2CID 61882456 .

[11] Petropoulos, Anastasios; Chatzis, Sotirios P .; Xanthopoulos, Stylianos (2016). "Un novedoso sistema de calificación crediticia corporativa basado en modelos ocultos de Markov de Student's-t". Sistemas expertos con aplicaciones . 53 : 87-105. doi : 10.1016 / j.eswa.2016.01.015 .

[12] NICOLAI, CHRISTOPHER (2013). "RESOLVER CINÉTICA DE CANALES DE IONES CON EL SOFTWARE QuB". Reseñas y cartas biofísicas . 8 (3n04): 191–211. doi : 10.1142 / S1793048013300053 .

[13] Domingos, Pedro (2015). El algoritmo maestro: cómo la búsqueda de la máquina de aprendizaje definitiva reconstruirá nuestro mundo . Libros básicos. pag. 37 . ISBN 9780465061921.

[14] Stigler, J .; Ziegler, F .; Gieseke, A .; Gebhardt, JCM; Rief, M. (2011). "La compleja red de plegamiento de moléculas individuales de calcodulina". Ciencia . 334 (6055): 512–516. Código Bibliográfico : 2011Sci ... 334..512S . doi : 10.1126 / science.1207598 . PMID 22034433 . S2CID 5502662 .

[15] Blasiak, S .; Rangwala, H. (2011). "Una variante del modelo de Markov oculto para la clasificación de secuencia". Actas de la IJCAI-Conferencia conjunta internacional sobre inteligencia artificial . 22 : 1192.

[16] Wong, W .; Sello, M. (2006). "Caza de motores metamórficos". Revista de Virología Informática . 2 (3): 211-229. doi : 10.1007 / s11416-006-0028-7 . S2CID 8116065 .

[17] Wong, K.-C .; Chan, T. -M .; Peng, C .; Li, Y .; Zhang, Z. (2013). "Aclaración de motivos de ADN mediante propagación de creencias" . Investigación de ácidos nucleicos . 41 (16): e153. doi : 10.1093 / nar / gkt574 . PMC 3763557 . PMID 23814189 .

[18] Shah, Shalin; Dubey, Abhishek K .; Reif, John (17 de mayo de 2019). "Multiplexación óptica mejorada con códigos de barras de ADN temporal". Biología sintética ACS . 8 (5): 1100–1111. doi : 10.1021 / acssynbio.9b00010 . PMID 30951289 .

[19] Shah, Shalin; Dubey, Abhishek K .; Reif, John (10 de abril de 2019). "Programación de códigos de barras de ADN temporal para huellas dactilares de una sola molécula". Nano Letras . 19 (4): 2668–2673. Código Bib : 2019NanoL..19.2668S . doi : 10.1021 / acs.nanolett.9b00590 . ISSN 1530-6984 . PMID 30896178 .

[20] "ChromHMM: descubrimiento y caracterización del estado de cromatina" . compbio.mit.edu . Consultado el 1 de agosto de 2018 .

[21] El Zarwi, Feraz (mayo de 2011). "Modelado y pronóstico de la evolución de las preferencias a lo largo del tiempo: un modelo de comportamiento de viaje oculto de Markov". arXiv : 1707.09133 [ stat.AP ].

[22] Morf, H. (febrero de 1998). "El modelo estocástico de irradiancia solar de dos estados (STSIM)". Energía solar . 62 (2): 101–112. Código Bibliográfico : 1998SoEn ... 62..101M . doi : 10.1016 / S0038-092X (98) 00004-8 .

[23] Munkhammar, J .; Widén, J. (agosto de 2018). "Un enfoque de mezcla de distribución de probabilidad de cadena de Markov para el índice de cielo despejado". Energía solar . 170 : 174-183. Código bibliográfico : 2018SoEn..170..174M . doi : 10.1016 / j.solener.2018.05.055 .

[24] Munkhammar, J .; Widén, J. (octubre de 2018). "Un modelo de distribución de mezcla de cadena de Markov de estado N del índice de cielo despejado". Energía solar . 173 : 487–495. Código Bib : 2018SoEn..173..487M . doi : 10.1016 / j.solener.2018.07.056 .

[25] Baum, LE; Petrie, T. (1966). "Inferencia estadística para funciones probabilísticas de cadenas de Markov de estado finito" . Los Anales de Estadística Matemática . 37 (6): 1554-1563. doi : 10.1214 / aoms / 1177699147 . Consultado el 28 de noviembre de 2011 .

[26] Baum, LE; Eagon, JA (1967). "Una desigualdad con aplicaciones a la estimación estadística de funciones probabilísticas de procesos de Markov y a un modelo para la ecología" . Boletín de la American Mathematical Society . 73 (3): 360. doi : 10.1090 / S0002-9904-1967-11751-8 . Zbl 0157.11101 .

[27] Baum, LE; Vender, GR (1968). "Transformaciones de crecimiento para funciones en variedades" . Pacific Journal of Mathematics . 27 (2): 211-227. doi : 10.2140 / pjm.1968.27.211 . Consultado el 28 de noviembre de 2011 .

[28] Baum, LE ; Petrie, T .; Soules, G .; Weiss, N. (1970). "Una técnica de maximización que ocurre en el análisis estadístico de funciones probabilísticas de cadenas de Markov" . Los Anales de Estadística Matemática . 41 (1): 164-171. doi : 10.1214 / aoms / 1177697196 . JSTOR 2239727 . Señor 0287613 . Zbl 0188.49603 .

[29] Baum, LE (1972). "Una desigualdad y técnica de maximización asociada en la estimación estadística de funciones probabilísticas de un proceso de Markov". Desigualdades . 3 : 1–8.

[30] Baker, J. (1975). "El sistema DRAGON: una descripción general". Transacciones IEEE sobre acústica, habla y procesamiento de señales . 23 : 24-29. doi : 10.1109 / TASSP.1975.1162650 .

[31] Jelinek, F .; Bahl, L .; Mercer, R. (1975). "Diseño de un decodificador estadístico lingüístico para el reconocimiento de habla continua". Transacciones IEEE sobre teoría de la información . 21 (3): 250. doi : 10.1109 / TIT.1975.1055384 .

[32] Xuedong Huang ; M. Jack; Y. Ariki (1990). Modelos ocultos de Markov para el reconocimiento de voz . Prensa de la Universidad de Edimburgo. ISBN 978-0-7486-0162-2.

[33] Xuedong Huang ; Alex Acero; Hsiao-Wuen Hon (2001). Procesamiento del lenguaje hablado . Prentice Hall. ISBN 978-0-13-022616-7.

[34] M. Bishop y E. Thompson (1986). "Alineación de máxima probabilidad de secuencias de ADN". Revista de Biología Molecular . 190 (2): 159-165. doi : 10.1016 / 0022-2836 (86) 90289-5 . PMID 3641921 . (requiere suscripción)

[durbin-35] Durbin, Richard M .; Eddy, Sean R .; Krogh, Anders ; Mitchison, Graeme (1998), Análisis de secuencia biológica: Modelos probabilísticos de proteínas y ácidos nucleicos (1a ed.), Cambridge, Nueva York: Cambridge University Press , doi : 10.2277 / 0521629713 , ISBN 0-521-62971-3, OCLC 593254083

[36] Ghahramani, Zoubin ; Jordan, Michael I. (1997). "Modelos factoriales ocultos de Markov" . Aprendizaje automático . 29 (2/3): 245–273. doi : 10.1023 / A: 1007425814087 .

[TMM-37] Pieczynski, Wojciech (2002). "Trío Chaı̂nes de Markov". Comptes Rendus Mathématique . 335 (3): 275–278. doi : 10.1016 / S1631-073X (02) 02462-7 .

[TMMEV-38] Pieczynski, Wojciech (2007). "Cadenas de Markov triplete multisensor y teoría de la evidencia" . Revista Internacional de Razonamiento Aproximado . 45 : 1-16. doi : 10.1016 / j.ijar.2006.05.001 .

[JASP-39] Boudaren y col. , MY Boudaren, E. Monfrini, W. Pieczynski y A. Aissani, Dempster-Shafer fusión de señales multisensores en contexto markoviano no estacionario, EURASIP Journal on Advances in Signal Processing, No. 134, 2012.

[TSP-40] Lanchantin y col. , P. Lanchantin y W. Pieczynski, Restauración no supervisada de la cadena de Markov oculta no estacionaria utilizando antecedentes probatorios, IEEE Transactions on Signal Processing, Vol. 53, núm. 8, págs. 3091-3098, 2005.

[SPL-41] Boudaren y col. , MY Boudaren, E. Monfrini y W. Pieczynski, Segmentación no supervisada de datos discretos aleatorios ocultos con distribuciones de ruido de conmutación, IEEE Signal Processing Letters, vol. 19, núm. 10, págs. 619-622, octubre de 2012.

[42] Sotirios P. Chatzis, Dimitrios Kosmopoulos, "Reconocimiento de flujo de trabajo visual utilizando un tratamiento bayesiano variacional de modelos de Markov ocultos fusionados de múltiples flujos", Transacciones IEEE en circuitos y sistemas para tecnología de video, vol. 22, no. 7, págs. 1076-1086, julio de 2012. [2]

[Reservoir-HMM-43] Chatzis, Sotirios P .; Demiris, Yiannis (2012). "Un modelo de Markov oculto no estacionario impulsado por un yacimiento". Reconocimiento de patrones . 45 (11): 3985–3996. doi : 10.1016 / j.patcog.2012.04.018 . hdl : 10044/1/12611 .

[44] M. Lukosevicius, H. Jaeger (2009) Enfoques de computación de reservorios para el entrenamiento de redes neuronales recurrentes, Computer Science Review 3 : 127-149.

[45] Wiggins, LM (1973). Análisis de panel: modelos de probabilidad latente para procesos de actitud y comportamiento . Amsterdam: Elsevier.

[46] Bartolucci, F .; Farcomeni, A .; Pennoni, F. (2013). Modelos de Markov latentes para datos longitudinales . Boca Raton: Chapman y Hall / CRC. ISBN 978-14-3981-708-7.

[1]