Algoritmo de Baum-Welch

En ingeniería eléctrica , informática , computación estadística y bioinformática , el algoritmo de Baum-Welch es un caso especial del algoritmo EM utilizado para encontrar los parámetros desconocidos de un modelo de Markov oculto (HMM). Utiliza el algoritmo hacia adelante y hacia atrás para calcular las estadísticas del paso de expectativa.

Historia

El algoritmo de Baum-Welch lleva el nombre de sus inventores Leonard E. Baum y Lloyd R. Welch . El algoritmo y los modelos de Hidden Markov se describieron por primera vez en una serie de artículos de Baum y sus colegas del Instituto de Análisis de Defensa a fines de la década de 1960 y principios de la de 1970. ^[1] Una de las primeras aplicaciones importantes de los HMM fue el campo del procesamiento de voz . ^[2] En la década de 1980, los HMM surgieron como una herramienta útil en el análisis de información y sistemas biológicos y, en particular, de la información genética . ^[3] Desde entonces se han convertido en una herramienta importante en el modelado probabilístico de secuencias genómicas. ^[4]

Descripción

Un modelo de Markov oculto describe la probabilidad conjunta de una colección de variables aleatorias discretas " ocultas " y observadas. Se basa en el supuesto de que la i -ésima variable oculta dada la ( i - 1) -ésima variable oculta es independiente de las variables ocultas anteriores, y las variables de observación actuales dependen solo del estado oculto actual.

El algoritmo de Baum-Welch utiliza el conocido algoritmo EM para encontrar la estimación de máxima verosimilitud de los parámetros de un modelo de Markov oculto dado un conjunto de vectores de características observados.

Dejar ${\ Displaystyle X_ {t}}$ ser una variable aleatoria oculta discreta con ${\ Displaystyle N}$ valores posibles (es decir, asumimos que hay ${\ Displaystyle N}$ estados en total). Asumimos el ${\ Displaystyle P (X_ {t} \ mid X_ {t-1})}$ es independiente del tiempo ${\ Displaystyle t}$ , que conduce a la definición de la matriz de transición estocástica independiente del tiempo

{\ Displaystyle A = \ {a_ {ij} \} = P (X_ {t} = j \ mid X_ {t-1} = i).}

La distribución del estado inicial (es decir, cuando ${\ Displaystyle t = 1}$ ) es dado por

{\ Displaystyle \ pi _ {i} = P (X_ {1} = i).}

Las variables de observación ${\ Displaystyle Y_ {t}}$ puede tomar uno de ${\ Displaystyle K}$ valores posibles. También asumimos que la observación dada el estado "oculto" es independiente del tiempo. La probabilidad de una determinada observación. ${\ Displaystyle y_ {i}}$ en el momento ${\ Displaystyle t}$ para el estado ${\ Displaystyle X_ {t} = j}$ es dado por

{\ Displaystyle b_ {j} (y_ {i}) = P (Y_ {t} = y_ {i} \ mid X_ {t} = j).}

Teniendo en cuenta todos los posibles valores de ${\ Displaystyle Y_ {t}}$ y ${\ Displaystyle X_ {t}}$ , obtenemos el ${\ Displaystyle N \ times K}$ matriz ${\ Displaystyle B = \ {b_ {j} (y_ {i}) \}}$ dónde ${\ Displaystyle b_ {j}}$ pertenece a todos los estados posibles y ${\ Displaystyle y_ {i}}$ pertenece a todas las observaciones.

Una secuencia de observación viene dada por ${\ Displaystyle Y = (Y_ {1} = y_ {1}, Y_ {2} = y_ {2}, \ ldots, Y_ {T} = y_ {T})}$ .

Por tanto, podemos describir una cadena de Markov oculta por ${\ Displaystyle \ theta = (A, B, \ pi)}$ . El algoritmo de Baum-Welch encuentra un máximo local para ${\ Displaystyle \ theta ^ {*} = \ operatorname {arg \, max} _ {\ theta} P (Y \ mid \ theta)}$ (es decir, los parámetros HMM ${\ Displaystyle \ theta}$ que maximizan la probabilidad de la observación). ^[5]

Algoritmo

Colocar ${\ Displaystyle \ theta = (A, B, \ pi)}$ con condiciones iniciales aleatorias. También se pueden configurar utilizando información previa sobre los parámetros si está disponible; esto puede acelerar el algoritmo y también dirigirlo hacia el máximo local deseado.

Procedimiento de reenvío

Dejar ${\ Displaystyle \ alpha _ {i} (t) = P (Y_ {1} = y_ {1}, \ ldots, Y_ {t} = y_ {t}, X_ {t} = i \ mid \ theta)}$ , la probabilidad de ver las observaciones ${\ Displaystyle y_ {1}, y_ {2}, \ ldots, y_ {t}}$ y estar en estado ${\ Displaystyle i}$ en el momento ${\ Displaystyle t}$ . Esto se encuentra de forma recursiva:

${\ Displaystyle \ alpha _ {i} (1) = \ pi _ {i} b_ {i} (y_ {1}),}$
${\ Displaystyle \ alpha _ {i} (t + 1) = b_ {i} (y_ {t + 1}) \ sum _ {j = 1} ^ {N} \ alpha _ {j} (t) a_ { Ji}.}$

Dado que esta serie converge exponencialmente a cero, el algoritmo se subdesbordará numéricamente para secuencias más largas. ^[6] Sin embargo, esto se puede evitar en un algoritmo ligeramente modificado escalando ${\ Displaystyle \ alpha}$ en el delantero y ${\ Displaystyle \ beta}$ en el procedimiento hacia atrás a continuación.

Procedimiento hacia atrás

Dejar ${\ Displaystyle \ beta _ {i} (t) = P (Y_ {t + 1} = y_ {t + 1}, \ ldots, Y_ {T} = y_ {T} \ mid X_ {t} = i, \ theta)}$ esa es la probabilidad de la secuencia parcial final ${\ Displaystyle y_ {t + 1}, \ ldots, y_ {T}}$ dado el estado inicial ${\ Displaystyle i}$ en el momento ${\ Displaystyle t}$ . Calculamos ${\ Displaystyle \ beta _ {i} (t)}$ como,

${\ Displaystyle \ beta _ {i} (T) = 1,}$
${\ Displaystyle \ beta _ {i} (t) = \ sum _ {j = 1} ^ {N} \ beta _ {j} (t + 1) a_ {ij} b_ {j} (y_ {t + 1 }).}$

Actualizar

Ahora podemos calcular las variables temporales, según el teorema de Bayes:

{\ Displaystyle \ gamma _ {i} (t) = P (X_ {t} = i \ mid Y, \ theta) = {\ frac {P (X_ {t} = i, Y \ mid \ theta)} { P (Y \ mid \ theta)}} = {\ frac {\ alpha _ {i} (t) \ beta _ {i} (t)} {\ sum _ {j = 1} ^ {N} \ alpha _ {j} (t) \ beta _ {j} (t)}},}

cual es la probabilidad de estar en estado ${\ Displaystyle i}$ en el momento ${\ Displaystyle t}$ dada la secuencia observada ${\ Displaystyle Y}$ y los parámetros ${\ Displaystyle \ theta}$

{\ Displaystyle \ xi _ {ij} (t) = P (X_ {t} = i, X_ {t + 1} = j \ mid Y, \ theta) = {\ frac {P (X_ {t} = i , X_ {t + 1} = j, Y \ mid \ theta)} {P (Y \ mid \ theta)}} = {\ frac {\ alpha _ {i} (t) a_ {ij} \ beta _ { j} (t + 1) b_ {j} (y_ {t + 1})} {\ sum _ {k = 1} ^ {N} \ sum _ {w = 1} ^ {N} \ alpha _ {k } (t) a_ {kw} \ beta _ {w} (t + 1) b_ {w} (y_ {t + 1})}},}

cual es la probabilidad de estar en estado ${\ Displaystyle i}$ y ${\ Displaystyle j}$ a veces ${\ Displaystyle t}$ y ${\ Displaystyle t + 1}$ respectivamente dada la secuencia observada ${\ Displaystyle Y}$ y parámetros ${\ Displaystyle \ theta}$ .

Los denominadores de ${\ Displaystyle \ gamma _ {i} (t)}$ y ${\ Displaystyle \ xi _ {ij} (t)}$ son lo mismo ; representan la probabilidad de hacer la observación ${\ Displaystyle Y}$ dados los parámetros ${\ Displaystyle \ theta}$ .

Los parámetros del modelo oculto de Markov. ${\ Displaystyle \ theta}$ ahora se puede actualizar:

${\ Displaystyle \ pi _ {i} ^ {*} = \ gamma _ {i} (1),}$

que es la frecuencia esperada gastada en el estado ${\ Displaystyle i}$ en el momento ${\ Displaystyle 1}$ .

${\ Displaystyle a_ {ij} ^ {*} = {\ frac {\ sum _ {t = 1} ^ {T-1} \ xi _ {ij} (t)} {\ sum _ {t = 1} ^ {T-1} \ gamma _ {i} (t)}},}$

que es el número esperado de transiciones del estado i al estado j en comparación con el número total esperado de transiciones fuera del estado i . Para aclarar, el número de transiciones desde el estado i no significa transiciones a un estado diferente j , sino a cualquier estado, incluido él mismo. Esto es equivalente al número de veces que se observa el estado i en la secuencia de t = 1 a t = T - 1.

${\ Displaystyle b_ {i} ^ {*} (v_ {k}) = {\ frac {\ sum _ {t = 1} ^ {T} 1_ {y_ {t} = v_ {k}} \ gamma _ { i} (t)} {\ sum _ {t = 1} ^ {T} \ gamma _ {i} (t)}},}$

dónde

{\ Displaystyle 1_ {y_ {t} = v_ {k}} = {\ begin {cases} 1 & {\ text {if}} y_ {t} = v_ {k}, \\ 0 & {\ text {de lo contrario}} \ end {cases}}}

es una función indicadora, y ${\ Displaystyle b_ {i} ^ {*} (v_ {k})}$ es el número esperado de veces que las observaciones de salida han sido iguales a ${\ Displaystyle v_ {k}}$ mientras está en el estado ${\ Displaystyle i}$ sobre el número total esperado de veces en el estado ${\ Displaystyle i}$ .

Estos pasos ahora se repiten iterativamente hasta un nivel deseado de convergencia.

Nota: Es posible sobreajustar un conjunto de datos en particular. Es decir, ${\ Displaystyle P (Y \ mid \ theta _ {\ text {final}})> P (Y \ mid \ theta _ {\ text {true}})}$ . El algoritmo también hace no garantiza un máximo global.

Varias secuencias

El algoritmo descrito hasta ahora asume una única secuencia observada ${\ Displaystyle Y = y_ {1}, \ ldots, y_ {N}}$ . Sin embargo, en muchas situaciones, se observan varias secuencias: ${\ Displaystyle Y_ {1}, \ ldots, Y_ {R}}$ . En este caso, la información de todas las secuencias observadas debe utilizarse en la actualización de los parámetros. ${\ Displaystyle A}$ , ${\ Displaystyle \ pi}$ , y ${\ Displaystyle b}$ . Suponiendo que ha calculado ${\ Displaystyle \ gamma _ {ir} (t)}$ y ${\ Displaystyle \ xi _ {ijr} (t)}$ para cada secuencia ${\ Displaystyle y_ {1, r}, \ ldots, y_ {N_ {r}, r}}$ , los parámetros ahora se pueden actualizar:

${\ Displaystyle \ pi _ {i} ^ {*} = {\ frac {\ sum _ {r = 1} ^ {R} \ gamma _ {ir} (1)} {R}}}$
${\ Displaystyle a_ {ij} ^ {*} = {\ frac {\ sum _ {r = 1} ^ {R} \ sum _ {t = 1} ^ {T-1} \ xi _ {ijr} (t )} {\ sum _ {r = 1} ^ {R} \ sum _ {t = 1} ^ {T-1} \ gamma _ {ir} (t)}},}$
${\ Displaystyle b_ {i} ^ {*} (v_ {k}) = {\ frac {\ sum _ {r = 1} ^ {R} \ sum _ {t = 1} ^ {T} 1_ {y_ { tr} = v_ {k}} \ gamma _ {ir} (t)} {\ sum _ {r = 1} ^ {R} \ sum _ {t = 1} ^ {T} \ gamma _ {ir} ( t)}},}$

dónde

{\ Displaystyle 1_ {y_ {tr} = v_ {k}} = {\ begin {cases} 1 & {\ text {if}} y_ {t, r} = v_ {k}, \\ 0 & {\ text {de lo contrario }} \ end {cases}}}

es una función indicadora

Ejemplo

Supongamos que tenemos una gallina de la que recolectamos huevos al mediodía todos los días. Ahora bien, si la gallina ha puesto huevos para la recolección o no depende de algunos factores desconocidos que están ocultos. Sin embargo, podemos (para simplificar) suponer que solo hay dos estados que determinan si la gallina pone huevos. Ahora no conocemos el estado en el punto de partida inicial, no conocemos las probabilidades de transición entre los dos estados y no conocemos la probabilidad de que la gallina ponga un huevo dado un estado en particular. ^[7]^[8] Para empezar, primero adivinamos las matrices de transición y emisión.

Transición
	Estado 1	Estado 2
Estado 1	0,5	0,5
Estado 2	0,3	0,7

Emisión
	Sin huevos	Huevos
Estado 1	0,3	0,7
Estado 2	0,8	0,2

Inicial
Estado 1	0,2
Estado 2	0,8

Luego tomamos un conjunto de observaciones (E = huevos, N = sin huevos): N, N, N, N, N, E, E, N, N, N

Esto nos da un conjunto de transiciones observadas entre días: NN, NN, NN, NN, NE, EE, EN, NN, NN

El siguiente paso es estimar una nueva matriz de transición. Por ejemplo, la probabilidad de que la secuencia NN y el estado sean ${\ Displaystyle S_ {1}}$ luego ${\ Displaystyle S_ {2}}$ viene dado por lo siguiente, ${\ Displaystyle P (S_ {1}) * P (N | S_ {1}) * P (S_ {1} \ rightarrow S_ {2}) * P (N | S_ {2}).}$

Secuencia observada	Mayor probabilidad de observar esa secuencia si el estado es ${\ Displaystyle S_ {1}}$ luego ${\ Displaystyle S_ {2}}$	Mayor probabilidad de observar esa secuencia
NN	0,024 = 0,2 * 0,3 * 0,5 * 0,8	0.3584	${\ Displaystyle S_ {2}}$ , ${\ Displaystyle S_ {2}}$
NN	0,024 = 0,2 * 0,3 * 0,5 * 0,8	0.3584	${\ Displaystyle S_ {2}}$ , ${\ Displaystyle S_ {2}}$
NN	0,024 = 0,2 * 0,3 * 0,5 * 0,8	0.3584	${\ Displaystyle S_ {2}}$ , ${\ Displaystyle S_ {2}}$
NN	0,024 = 0,2 * 0,3 * 0,5 * 0,8	0.3584	${\ Displaystyle S_ {2}}$ , ${\ Displaystyle S_ {2}}$
nordeste	0,006 = 0,2 * 0,3 * 0,5 * 0,2	0.1344	${\ Displaystyle S_ {2}}$ , ${\ Displaystyle S_ {1}}$
EE	0,014 = 0,2 * 0,7 * 0,5 * 0,2	0.0490	${\ Displaystyle S_ {1}}$ , ${\ Displaystyle S_ {1}}$
ES	0,056 = 0,2 * 0,7 * 0,5 * 0,8	0.0896	${\ Displaystyle S_ {2}}$ , ${\ Displaystyle S_ {2}}$
NN	0,024 = 0,2 * 0,3 * 0,5 * 0,8	0.3584	${\ Displaystyle S_ {2}}$ , ${\ Displaystyle S_ {2}}$
NN	0,024 = 0,2 * 0,3 * 0,5 * 0,8	0.3584	${\ Displaystyle S_ {2}}$ , ${\ Displaystyle S_ {2}}$
Total	0,22	2,4234

Así, la nueva estimación de la ${\ Displaystyle S_ {1}}$ a ${\ Displaystyle S_ {2}}$ la transición es ahora ${\ Displaystyle {\ frac {0.22} {2.4234}} = 0.0908}$ (denominado "Pseudoprobabilidades" en las siguientes tablas). Luego calculamos el ${\ Displaystyle S_ {2}}$ a ${\ Displaystyle S_ {1}}$ , ${\ Displaystyle S_ {2}}$ a ${\ Displaystyle S_ {2}}$ y ${\ Displaystyle S_ {1}}$ a ${\ Displaystyle S_ {1}}$ probabilidades de transición y normalizar para que se sumen a 1. Esto nos da la matriz de transición actualizada:

Matriz de transición antigua
	Estado 1	Estado 2
Estado 1	0,5	0,5
Estado 2	0,3	0,7

Nueva matriz de transición (pseudoprobabilidades)
	Estado 1	Estado 2
Estado 1	0.0598	0.0908
Estado 2	0.2179	0,9705

Nueva matriz de transición (después de la normalización)
	Estado 1	Estado 2
Estado 1	0.3973	0,6027
Estado 2	0.1833	0.8167

A continuación, queremos estimar una nueva matriz de emisiones,

Secuencia observada	La probabilidad más alta de observar esa secuencia si se supone que E proviene de ${\ Displaystyle S_ {1}}$		Mayor probabilidad de observar esa secuencia
nordeste	0.1344	${\ Displaystyle S_ {2}}$ , ${\ Displaystyle S_ {1}}$	0.1344	${\ Displaystyle S_ {2}}$ , ${\ Displaystyle S_ {1}}$
EE	0.0490	${\ Displaystyle S_ {1}}$ , ${\ Displaystyle S_ {1}}$	0.0490	${\ Displaystyle S_ {1}}$ , ${\ Displaystyle S_ {1}}$
ES	0.0560	${\ Displaystyle S_ {1}}$ , ${\ Displaystyle S_ {2}}$	0.0896	${\ Displaystyle S_ {2}}$ , ${\ Displaystyle S_ {2}}$
Total	0.2394		0.2730

La nueva estimación de la E procedente de ${\ Displaystyle S_ {1}}$ la emisión es ahora ${\ displaystyle {\ frac {0.2394} {0.2730}} = 0.8769}$ .

Esto nos permite calcular la matriz de emisión como se describe arriba en el algoritmo, sumando las probabilidades para las respectivas secuencias observadas. Luego repetimos porque si N vino de ${\ Displaystyle S_ {1}}$ y porque si N y E vinieran de ${\ Displaystyle S_ {2}}$ y normalizar.

Matriz de emisiones antigua
	Sin huevos	Huevos
Estado 1	0,3	0,7
Estado 2	0,8	0,2

Nueva matriz de emisiones (estimaciones)
	Sin huevos	Huevos
Estado 1	0.0404	0.8769
Estado 2	1,0000	0,7385

Nueva matriz de emisiones (después de la normalización)
	Sin huevos	Huevos
Estado 1	0.0441	0,9559
Estado 2	0.5752	0.4248

Para estimar las probabilidades iniciales asumimos que todas las secuencias comienzan con el estado oculto ${\ Displaystyle S_ {1}}$ y calcular la probabilidad más alta y luego repetir para ${\ Displaystyle S_ {2}}$ . Nuevamente, luego normalizamos para dar un vector inicial actualizado.

Finalmente repetimos estos pasos hasta que las probabilidades resultantes converjan satisfactoriamente.

Aplicaciones

Reconocimiento de voz

Los modelos ocultos de Markov fueron aplicados por primera vez al reconocimiento de voz por James K. Baker en 1975. ^[9] El reconocimiento de voz continuo se produce mediante los siguientes pasos, modelados por un HMM. El análisis de características se realiza primero en características temporales y / o espectrales de la señal de voz. Esto produce un vector de observación. A continuación, la característica se compara con todas las secuencias de las unidades de reconocimiento de voz. Estas unidades pueden ser fonemas , sílabas o unidades de palabras completas. Se aplica un sistema de decodificación de léxico para restringir las rutas investigadas, por lo que solo se investigan las palabras del léxico del sistema (diccionario de palabras). De manera similar a la decodificación del léxico, la ruta del sistema está aún más limitada por las reglas de la gramática y la sintaxis. Finalmente, se aplica el análisis semántico y el sistema genera el enunciado reconocido. Una limitación de muchas aplicaciones HMM para el reconocimiento de voz es que el estado actual solo depende del estado en el paso de tiempo anterior, lo cual no es realista para el habla ya que las dependencias a menudo tienen varios pasos de tiempo de duración. ^[10] El algoritmo de Baum-Welch también tiene amplias aplicaciones en la resolución de HMM utilizados en el campo de la síntesis de voz. ^[11]

Criptoanálisis

El algoritmo de Baum-Welch se usa a menudo para estimar los parámetros de HMM para descifrar información oculta o ruidosa y, por lo tanto, se usa a menudo en criptoanálisis . En seguridad de datos, a un observador le gustaría extraer información de un flujo de datos sin conocer todos los parámetros de la transmisión. Esto puede implicar la ingeniería inversa de un codificador de canal . ^{[12] Los} HMM y, como consecuencia, el algoritmo de Baum-Welch también se han utilizado para identificar frases habladas en llamadas VoIP cifradas. ^[13] Además, el criptoanálisis HMM es una herramienta importante para las investigaciones automatizadas de datos de tiempo de caché. Permite el descubrimiento automático del estado crítico del algoritmo, por ejemplo, valores clave. ^[14]

Aplicaciones en bioinformática

Encontrar genes

Procariota

El software GLIMMER (Gene Locator and Interpolated Markov ModelER) fue uno de los primeros programas de búsqueda de genes que se utilizó para la identificación de regiones codificantes en el ADN procariota . ^[15]^[16] GLIMMER utiliza modelos de Markov interpolados (IMM) para identificar las regiones codificantes y distinguirlas del ADN no codificante . Se ha demostrado que la última versión (GLIMMER3) tiene una mayor especificidad y precisión en comparación con sus predecesores con respecto a la predicción de los sitios de inicio de la traducción, demostrando una precisión promedio del 99% en la localización de ubicaciones 3 'en comparación con genes confirmados en procariotas. ^[17]

Eucariota

El servidor web GENSCAN es un localizador de genes capaz de analizar secuencias eucariotas de hasta un millón de pares de bases (1 Mbp) de longitud. ^[18] GENSCAN utiliza un modelo de Markov de quinto orden de tres períodos periódicos no homogéneos de regiones codificantes de ADN. Además, este modelo explica las diferencias en la densidad y estructura de genes (como las longitudes de los intrones) que ocurren en diferentes isocoros . Si bien la mayoría del software integrado de búsqueda de genes (en el momento del lanzamiento de GENSCAN) asumía que las secuencias de entrada contenían exactamente un gen, GENSCAN resuelve un caso general en el que hay genes parciales, completos o múltiples (o incluso ningún gen). ^[19] Se demostró que GENSCAN predice exactamente la ubicación del exón con un 90% de precisión y un 80% de especificidad en comparación con una base de datos anotada. ^[20]

Detección de variación de número de copias

Las variaciones en el número de copias (CNV) son una forma abundante de variación de la estructura del genoma en los seres humanos. Se utilizó un HMM bivariado de valor discreto (dbHMM) que asigna regiones cromosómicas a siete estados distintos: regiones no afectadas, deleciones, duplicaciones y cuatro estados de transición. La resolución de este modelo utilizando Baum-Welch demostró la capacidad de predecir la ubicación del punto de ruptura de la CNV a aproximadamente 300 pb a partir de experimentos de microarreglos . ^[21] Esta magnitud de resolución permite correlaciones más precisas entre diferentes CNV y entre poblaciones de lo que era posible anteriormente, lo que permite el estudio de las frecuencias de la población de CNV. También demostró un patrón de herencia directo para una NVC en particular .

Implementaciones

Accord.NET en C #
Biblioteca ghmm C con enlaces de Python que admite emisiones tanto discretas como continuas.
Paquete HMMBase para Julia .
HMMFit función en el RHmm paquete para R .
hmmtrain en MATLAB

Ver también

Algoritmo de Viterbi
Modelo de Markov oculto
Algoritmo EM
Máxima verosimilitud
Reconocimiento de voz
Bioinformática
Criptoanálisis

Referencias

^ Rabiner, Lawrence. "Primera mano: el modelo oculto de Markov" . Red de historia global IEEE . Consultado el 2 de octubre de 2013 .
^ Jelinek, Frederick; Bahl, Lalit R .; Mercer, Robert L. (mayo de 1975). "Diseño de un decodificador estadístico lingüístico para el reconocimiento de habla continua". Transacciones IEEE sobre teoría de la información . 21 (3): 250–6. doi : 10.1109 / tit.1975.1055384 .
^ Obispo, Martin J .; Thompson, Elizabeth A. (20 de julio de 1986). "Alineación de máxima probabilidad de secuencias de ADN". Revista de Biología Molecular . 190 (2): 159–65. doi : 10.1016 / 0022-2836 (86) 90289-5 . PMID 3641921 .
^ Durbin, Richard (23 de abril de 1998). Análisis de secuencia biológica: modelos probabilísticos de proteínas y ácidos nucleicos . Prensa de la Universidad de Cambridge. ISBN 978-0-521-62041-3.
^ Bilmes, Jeff A. (1998). Un suave tutorial del algoritmo EM y su aplicación a la estimación de parámetros para la mezcla gaussiana y modelos de Markov ocultos . Berkeley, CA: Instituto Internacional de Ciencias de la Computación. págs. 7-13.
^ Rabiner, Lawrence (febrero de 1989). "Un tutorial sobre modelos ocultos de Markov y aplicaciones seleccionadas en el reconocimiento de voz" (PDF) . Actas del IEEE . Consultado el 29 de noviembre de 2019 .
^ "Aplicaciones de Baum-Welch y HMM" (PDF) . Escuela de Salud Pública Johns Hopkins Bloomberg . Consultado el 11 de octubre de 2019 .
^ Frazzoli, Emilio. "Introducción a los modelos ocultos de Markov: el algoritmo de Baum-Welch" (PDF) . Aeronáutica y Astronáutica, Instituto de Tecnología de Massachusetts . Consultado el 2 de octubre de 2013 .
^ Baker, James K. (1975). "El sistema DRAGON: una descripción general". Transacciones IEEE sobre acústica, habla y procesamiento de señales . 23 : 24-29. doi : 10.1109 / TASSP.1975.1162650 .
^ Rabiner, Lawrence (febrero de 1989). "Un tutorial sobre modelos ocultos de Markov y aplicaciones seleccionadas en el reconocimiento de voz". Actas del IEEE . 77 (2): 257–286. CiteSeerX 10.1.1.381.3454 . doi : 10.1109 / 5.18626 .
^ Tokuda, Keiichi; Yoshimura, Takayoshi; Masuko, Takashi; Kobayashi, Takao; Kitamura, Tadashi (2000). "Algoritmos de generación de parámetros de voz para síntesis de voz basada en HMM". Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales . 3 .
^ Dingel, Janis; Hagenauer, Joachim (24 de junio de 2007). "Estimación de parámetros de un codificador convolucional a partir de observaciones ruidosas". Simposio internacional de IEEE sobre teoría de la información .
^ Wright, Charles; Ballard, Lucas; Coull, Scott; Monrose, Fabian; Masson, Gerald (2008). "Avísame si puedes: descubriendo frases habladas en conversaciones VoIP cifradas". Simposio internacional de IEEE sobre seguridad y privacidad .
^ Brumley, Bob; Hakala, Risto (2009). Ataques de plantillas de tiempo de caché . Avances en criptografía . Apuntes de conferencias en informática. 5912 . págs. 667–684. doi : 10.1007 / 978-3-642-10366-7_39 . ISBN 978-3-642-10365-0.
^ Salzberg, Steven; Delcher, Arthur L .; Kasif, Simon; White, Owen (1998). "Identificación de genes microbianos utilizando modelos de Markov interpolados" . Investigación de ácidos nucleicos . 26 (2): 544–548. doi : 10.1093 / nar / 26.2.544 . PMC 147303 . PMID 9421513 .
^ "Glimmer: sistema de búsqueda de genes microbianos" . Universidad Johns Hopkins - Centro de Biología Computacional.
^ Delcher, Arthur; Bratke, Kirsten A .; Powers, Edwin C .; Salzberg, Steven L. (2007). "Identificación de genes bacterianos y ADN endosimbionte con Glimmer" . Bioinformática . 23 (6): 673–679. doi : 10.1093 / bioinformatics / btm009 . PMC 2387122 . PMID 17237039 .
^ Burge, Christopher. "El servidor web GENSCAN en el MIT" . Archivado desde el original el 6 de septiembre de 2013 . Consultado el 2 de octubre de 2013 .
^ Burge, Chris; Karlin, Samuel (1997). "Predicción de estructuras génicas completas en el ADN genómico humano". Revista de Biología Molecular . 268 (1): 78–94. CiteSeerX 10.1.1.115.3107 . doi : 10.1006 / jmbi.1997.0951 . PMID 9149143 .
^ Burge, Christopher; Karlin, Samuel (1998). "Encontrar los genes en el ADN genómico". Opinión actual en biología estructural . 8 (3): 346–354. doi : 10.1016 / s0959-440x (98) 80069-9 . PMID 9666331 .
^ Korbel, Jan ; Urbano, Alejandro; Grubert, Fabien; Du, Jiang; Royce, Thomas; Starr, Peter; Zhong, Guoneng; Emanuel, Beverly; Weissman, Sherman; Snyder, Michael; Gerstein, Marg (12 de junio de 2007). "Predicción sistemática y validación de puntos de corte asociados con variaciones en el número de copias en el genoma humano" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 104 (24): 10110–5. Código bibliográfico : 2007PNAS..10410110K . doi : 10.1073 / pnas.0703834104 . PMC 1891248 . PMID 17551006 .

enlaces externos

Una revisión completa de los métodos y el software de HMM en bioinformática - Profile Hidden Markov Models
Publicaciones tempranas de HMM por Baum:
- Una técnica de maximización que ocurre en el análisis estadístico de funciones probabilísticas de cadenas de Markov
- Una desigualdad con aplicaciones a la estimación estadística para funciones probabilísticas de los procesos de Markov y a un modelo para la ecología
- Inferencia estadística para funciones probabilísticas de cadenas de Markov de estado finito
La conferencia Shannon de Welch, que habla de cómo se puede implementar el algoritmo de manera eficiente:
- Modelos ocultos de Markov y el algoritmo de Baum-Welch , IEEE Information Theory Society Newsletter, diciembre de 2003.
Una alternativa al algoritmo de Baum-Welch, el algoritmo de recuento de rutas de Viterbi:
- Davis, Richard IA; Lovell, Brian C .; "Comparación y evaluación de algoritmos de entrenamiento de conjuntos HMM utilizando criterios de número de condición y de prueba y de tren" , Análisis de patrones y aplicaciones, vol. 6, no. 4, págs. 327–336, 2003.
Una hoja de cálculo interactiva para enseñar el algoritmo hacia adelante y hacia atrás (hoja de cálculo y artículo con un tutorial paso a paso)
Derivación formal del algoritmo de Baum-Welch
Implementación del algoritmo de Baum-Welch

[1] Rabiner, Lawrence. "Primera mano: el modelo oculto de Markov" . Red de historia global IEEE . Consultado el 2 de octubre de 2013 .

[2] Jelinek, Frederick; Bahl, Lalit R .; Mercer, Robert L. (mayo de 1975). "Diseño de un decodificador estadístico lingüístico para el reconocimiento de habla continua". Transacciones IEEE sobre teoría de la información . 21 (3): 250–6. doi : 10.1109 / tit.1975.1055384 .

[3] Obispo, Martin J .; Thompson, Elizabeth A. (20 de julio de 1986). "Alineación de máxima probabilidad de secuencias de ADN". Revista de Biología Molecular . 190 (2): 159–65. doi : 10.1016 / 0022-2836 (86) 90289-5 . PMID 3641921 .

[Durbin1998-4] Durbin, Richard (23 de abril de 1998). Análisis de secuencia biológica: modelos probabilísticos de proteínas y ácidos nucleicos . Prensa de la Universidad de Cambridge. ISBN 978-0-521-62041-3.

[5] Bilmes, Jeff A. (1998). Un suave tutorial del algoritmo EM y su aplicación a la estimación de parámetros para la mezcla gaussiana y modelos de Markov ocultos . Berkeley, CA: Instituto Internacional de Ciencias de la Computación. págs. 7-13.

[6] Rabiner, Lawrence (febrero de 1989). "Un tutorial sobre modelos ocultos de Markov y aplicaciones seleccionadas en el reconocimiento de voz" (PDF) . Actas del IEEE . Consultado el 29 de noviembre de 2019 .

[7] "Aplicaciones de Baum-Welch y HMM" (PDF) . Escuela de Salud Pública Johns Hopkins Bloomberg . Consultado el 11 de octubre de 2019 .

[8] Frazzoli, Emilio. "Introducción a los modelos ocultos de Markov: el algoritmo de Baum-Welch" (PDF) . Aeronáutica y Astronáutica, Instituto de Tecnología de Massachusetts . Consultado el 2 de octubre de 2013 .

[9] Baker, James K. (1975). "El sistema DRAGON: una descripción general". Transacciones IEEE sobre acústica, habla y procesamiento de señales . 23 : 24-29. doi : 10.1109 / TASSP.1975.1162650 .

[10] Rabiner, Lawrence (febrero de 1989). "Un tutorial sobre modelos ocultos de Markov y aplicaciones seleccionadas en el reconocimiento de voz". Actas del IEEE . 77 (2): 257–286. CiteSeerX 10.1.1.381.3454 . doi : 10.1109 / 5.18626 .

[11] Tokuda, Keiichi; Yoshimura, Takayoshi; Masuko, Takashi; Kobayashi, Takao; Kitamura, Tadashi (2000). "Algoritmos de generación de parámetros de voz para síntesis de voz basada en HMM". Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales . 3 .

[12] Dingel, Janis; Hagenauer, Joachim (24 de junio de 2007). "Estimación de parámetros de un codificador convolucional a partir de observaciones ruidosas". Simposio internacional de IEEE sobre teoría de la información .

[13] Wright, Charles; Ballard, Lucas; Coull, Scott; Monrose, Fabian; Masson, Gerald (2008). "Avísame si puedes: descubriendo frases habladas en conversaciones VoIP cifradas". Simposio internacional de IEEE sobre seguridad y privacidad .

[14] Brumley, Bob; Hakala, Risto (2009). Ataques de plantillas de tiempo de caché . Avances en criptografía . Apuntes de conferencias en informática. 5912 . págs. 667–684. doi : 10.1007 / 978-3-642-10366-7_39 . ISBN 978-3-642-10365-0.

[GLIMMER_paper-15] Salzberg, Steven; Delcher, Arthur L .; Kasif, Simon; White, Owen (1998). "Identificación de genes microbianos utilizando modelos de Markov interpolados" . Investigación de ácidos nucleicos . 26 (2): 544–548. doi : 10.1093 / nar / 26.2.544 . PMC 147303 . PMID 9421513 .

[GLIMMER_web-16] "Glimmer: sistema de búsqueda de genes microbianos" . Universidad Johns Hopkins - Centro de Biología Computacional.

[17] Delcher, Arthur; Bratke, Kirsten A .; Powers, Edwin C .; Salzberg, Steven L. (2007). "Identificación de genes bacterianos y ADN endosimbionte con Glimmer" . Bioinformática . 23 (6): 673–679. doi : 10.1093 / bioinformatics / btm009 . PMC 2387122 . PMID 17237039 .

[18] Burge, Christopher. "El servidor web GENSCAN en el MIT" . Archivado desde el original el 6 de septiembre de 2013 . Consultado el 2 de octubre de 2013 .

[19] Burge, Chris; Karlin, Samuel (1997). "Predicción de estructuras génicas completas en el ADN genómico humano". Revista de Biología Molecular . 268 (1): 78–94. CiteSeerX 10.1.1.115.3107 . doi : 10.1006 / jmbi.1997.0951 . PMID 9149143 .

[20] Burge, Christopher; Karlin, Samuel (1998). "Encontrar los genes en el ADN genómico". Opinión actual en biología estructural . 8 (3): 346–354. doi : 10.1016 / s0959-440x (98) 80069-9 . PMID 9666331 .

[21] Korbel, Jan ; Urbano, Alejandro; Grubert, Fabien; Du, Jiang; Royce, Thomas; Starr, Peter; Zhong, Guoneng; Emanuel, Beverly; Weissman, Sherman; Snyder, Michael; Gerstein, Marg (12 de junio de 2007). "Predicción sistemática y validación de puntos de corte asociados con variaciones en el número de copias en el genoma humano" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 104 (24): 10110–5. Código bibliográfico : 2007PNAS..10410110K . doi : 10.1073 / pnas.0703834104 . PMC 1891248 . PMID 17551006 .

[1]