HMMER

HMMER es un paquete de software gratuito y de uso común para el análisis de secuencias escrito por Sean Eddy . ^[2] Su uso general es identificar secuencias de nucleótidos o proteínas homólogas y realizar alineaciones de secuencias. Detecta homología comparando un perfil-HMM con una sola secuencia o con una base de datos de secuencias. Las secuencias que puntúan significativamente mejor para el perfil-HMM en comparación con un modelo nulo se consideran homólogas a las secuencias que se utilizaron para construir el perfil-HMM. Los HMM de perfil se construyen a partir de una alineación de secuencia múltiple en el paquete HMMER utilizando hmmbuildprograma. La implementación de profile-HMM utilizada en el software HMMER se basó en el trabajo de Krogh y sus colegas. ^[3] HMMER es una utilidad de consola adaptada a todos los sistemas operativos principales , incluidas diferentes versiones de Linux , Windows y Mac OS .

HMMER
Desarrollador (es)	Sean Eddy, Travis Wheeler, equipo de desarrollo de HMMER

Lanzamiento estable	3.3.2 ^[1] / 27 de noviembre de 2020 ; hace 7 meses ( 27 de noviembre de 2020 )

Repositorio	github .com / EddyRivasLab / hmmer
Escrito en	Programación 3 × 3
Disponible en	inglés
Tipo	Herramienta de bioinformática
Licencia	BSD-3
Sitio web	hmmer .org

Un perfil HMM que modela una alineación de secuencia múltiple

HMMER es la utilidad principal en la que se basan las bases de datos de familias de proteínas como Pfam e InterPro . Algunas otras herramientas bioinformáticas como UGENE también utilizan HMMER.

HMMER3 también hace un uso extensivo de instrucciones vectoriales para aumentar la velocidad computacional. Este trabajo se basa en una publicación anterior que muestra una aceleración significativa del algoritmo de Smith-Waterman para alinear dos secuencias. ^[4]

Perfil HMM

Un perfil HMM es una variante de un HMM que se relaciona específicamente con secuencias biológicas. Los HMM de perfil convierten una alineación de secuencia múltiple en un sistema de puntuación específico de posición, que se puede utilizar para alinear secuencias y buscar en bases de datos secuencias homólogas de forma remota. ^[5] Sacan provecho del hecho de que ciertas posiciones en un alineamiento de secuencia tienden a tener sesgos en los que es más probable que ocurran residuos, y es probable que difieran en su probabilidad de contener una inserción o una deleción. La captura de esta información les da una mejor capacidad para detectar verdaderos homólogos que los enfoques tradicionales basados en BLAST , que penalizan las sustituciones, inserciones y eliminaciones por igual, independientemente de dónde ocurran en una alineación. ^[6]

La arquitectura HMM de perfil central utilizada por HMMER .

Los HMM de perfil se centran en un conjunto lineal de estados de coincidencia (M), con un estado correspondiente a cada columna de consenso en una alineación de secuencia. Cada estado M emite un solo residuo (aminoácido o nucleótido). La probabilidad de emitir un residuo particular está determinada en gran medida por la frecuencia a la que ese residuo se ha observado en esa columna de la alineación, pero también incorpora información previa sobre patrones de residuos que tienden a coexistir en las mismas columnas de alineaciones de secuencia. Esta cadena de estados de coincidencia que emiten aminoácidos a frecuencias particulares es análoga a las matrices de puntuación específicas de posición o matrices de peso. ^[5]

Un perfil HMM lleva este modelado de alineamientos de secuencia más allá modelando inserciones y deleciones, utilizando estados I y D, respectivamente. Los estados D no emiten un residuo, mientras que los estados I emiten un residuo. Pueden ocurrir múltiples estados I consecutivamente, correspondientes a múltiples residuos entre columnas de consenso en una alineación. Los estados M, I y D están conectados por probabilidades de transición de estado, que también varían según la posición en la alineación de secuencia, para reflejar las diferentes frecuencias de inserciones y deleciones a través de alineaciones de secuencia. ^[5]

Las versiones HMMER2 y HMMER3 utilizaron una arquitectura para construir perfiles HMM denominada arquitectura Plan 7, que lleva el nombre de los siete estados capturados por el modelo. Además de los tres estados principales (M, I y D), seis estados adicionales capturan la secuencia flanqueante no homóloga en la alineación. Estos 6 estados colectivamente son importantes para controlar cómo se alinean las secuencias con el modelo, por ejemplo, si una secuencia puede tener múltiples accesos consecutivos al mismo modelo (en el caso de secuencias con múltiples instancias del mismo dominio). ^[7]

Programas en el paquete HMMER

El paquete HMMER consiste en una colección de programas para realizar funciones usando modelos de perfil ocultos de Markov. ^[8] Los programas incluyen:

Perfil edificio HMM

hmmbuild: construye HMM de perfil a partir de múltiples alineaciones de secuencia

Búsqueda de homología

hmmscan - buscar secuencias de proteínas) contra una base de datos de perfil HMM
hmmsearch: búsqueda de perfiles HMM en una base de datos de secuencias
jackhmmer: búsqueda iterativa de secuencias en una base de datos de proteínas
nhmmer: búsqueda de consultas de ADN / ARN en una base de datos de secuencias de ADN / ARN
nhmmscan: busca secuencias de nucleótidos frente a un perfil de nucleótidos
phmmer: búsqueda de secuencias de proteínas en una base de datos de proteínas

Otras funciones

hmmalign - alinea secuencias a un perfil HMM
hmmemit: produce secuencias de muestra a partir de un perfil HMM
hmmlogo: produce datos para un logotipo HMM a partir de un archivo HMM

El paquete contiene muchas otras funciones especializadas.

El servidor web HMMER

Además del paquete de software, la función de búsqueda HMMER está disponible en forma de servidor web. ^[9] El servicio facilita las búsquedas en una variedad de bases de datos, incluidas bases de datos de secuencias como UniProt , SwissProt y Protein Data Bank , y bases de datos HMM como Pfam , TIGRFAMs y SUPERFAMILY . Se admiten los cuatro tipos de búsqueda phmmer, hmmsearch, hmmscan y jackhmmer (consulte Programas ). La función de búsqueda acepta secuencias únicas, así como alineaciones de secuencias o perfiles HMM.

Los resultados de la búsqueda van acompañados de un informe sobre el desglose taxonómico y la organización del dominio de los resultados. Los resultados de la búsqueda se pueden filtrar según cualquiera de los parámetros.

El servicio web se gestiona actualmente desde el Instituto Europeo de Bioinformática (EBI) en el Reino Unido, mientras que el desarrollo del algoritmo aún lo realiza el equipo de Sean Eddy en los Estados Unidos. ^{[9] Las} principales razones para reubicar el servicio web fueron aprovechar la infraestructura informática en el EBI y vincular las búsquedas HMMER con bases de datos relevantes que también son mantenidas por el EBI.

El lanzamiento de HMMER3

La última versión estable de HMMER es la versión 3.0. HMMER3 es una reescritura completa del paquete HMMER2 anterior, con el objetivo de mejorar la velocidad de las búsquedas de perfil-HMM. Los cambios importantes se describen a continuación:

Mejoras en la velocidad

Uno de los principales objetivos del proyecto HMMER3, iniciado en 2004, era mejorar la velocidad de las búsquedas HMMER. Si bien las búsquedas de homología basadas en HMM de perfiles fueron más precisas que los enfoques basados en BLAST, su velocidad más lenta limitó su aplicabilidad. ^[8] La principal ganancia de rendimiento se debe a un filtro heurístico que encuentra coincidencias sin espacios de alta puntuación dentro de las secuencias de la base de datos para un perfil de consulta. Esta heurística da como resultado un tiempo de cálculo comparable a BLAST con poco impacto en la precisión. Las ganancias adicionales en el rendimiento se deben a un modelo de probabilidad logarítmica que no requiere calibración para estimar los valores E , y permite que se utilicen puntuaciones directas más precisas para calcular la importancia de una secuencia homóloga . ^[10]^[6]

HMMER todavía está por detrás de BLAST en la velocidad de las búsquedas basadas en ADN, sin embargo, las búsquedas basadas en ADN se pueden ajustar, de modo que una mejora en la velocidad se produce a expensas de la precisión. ^[11]

Mejoras en la búsqueda de homología remota

El mayor avance en velocidad fue posible gracias al desarrollo de un enfoque para calcular la importancia de los resultados integrados en una gama de posibles alineaciones. ^[10] Al descubrir homólogos remotos, las alineaciones entre las proteínas de consulta y las proteínas afectadas son a menudo muy inciertas. Si bien la mayoría de las herramientas de alineación de secuencias calculan las puntuaciones de coincidencia utilizando solo la mejor alineación de puntuación, HMMER3 calcula las puntuaciones de coincidencia mediante la integración de todas las alineaciones posibles, para tener en cuenta la incertidumbre sobre cuál es la mejor alineación. Las alineaciones de la secuencia HMMER van acompañadas de anotaciones de probabilidad posteriores, que indican a qué partes de la alineación se les ha asignado una confianza alta y cuáles son más inciertas.

Comparación de secuencias de ADN

Una mejora importante en HMMER3 fue la inclusión de herramientas de comparación de ADN / ADN. HMMER2 solo tenía funcionalidad para comparar secuencias de proteínas.

Restricción a alineaciones locales

Mientras que HMMER2 podría realizar una alineación local (alinear un modelo completo con una subsecuencia del objetivo) y una alineación global (alinear un modelo completo con una secuencia objetivo completa), HMMER3 solo realiza una alineación local. Esta restricción se debe a la dificultad de calcular la importancia de los aciertos al realizar alineaciones locales / globales utilizando el nuevo algoritmo.

Ver también

Modelo de Markov oculto
Software de alineación de secuencias
Pfam
UGENE

Se encuentran disponibles varias implementaciones de métodos de perfil HMM y métodos de matriz de puntuación relacionados específicos de la posición. Algunos se enumeran a continuación:

HH-suite
SAM
PSI-BLAST
MMseqs2
PFTOOLS
GENEWISE
PROBE ^{[ enlace muerto permanente ]}
META-MEME
BLOQUES
GPU-HMMER
DeCypherHMM

Referencias

^ "Versión 3.3.2" . 27 de noviembre de 2020 . Consultado el 11 de diciembre de 2020 .
^ Durbin, Richard; Sean R. Eddy; Anders Krogh ; Graeme Mitchison (1998). Análisis de secuencia biológica: modelos probabilísticos de proteínas y ácidos nucleicos . Prensa de la Universidad de Cambridge. ISBN 0-521-62971-3.
^ Krogh A, Brown M, Mian IS, Sjölander K, Haussler D (febrero de 1994). "Modelos ocultos de Markov en biología computacional. Aplicaciones al modelado de proteínas". J. Mol. Biol . 235 (5): 1501–31. doi : 10.1006 / jmbi.1994.1104 . PMID 8107089 .
^ Farrar M (enero de 2007). "Striped Smith-Waterman acelera las búsquedas en la base de datos seis veces sobre otras implementaciones de SIMD". Bioinformática . 23 (2): 156–61. doi : 10.1093 / bioinformatics / btl582 . PMID 17110365 .
^ a b c Eddy, SR (1998). "Perfil de modelos ocultos de Markov" . Bioinformática . 14 (9): 755–63. doi : 10.1093 / bioinformatics / 14.9.755 . PMID 9918945 .
^ a b Eddy, Sean R .; Pearson, William R. (20 de octubre de 2011). "Búsquedas aceleradas de perfiles HMM" . PLOS Biología Computacional . 7 (10): e1002195. Código bibliográfico : 2011PLSCB ... 7E2195E . CiteSeerX 10.1.1.290.1476 . doi : 10.1371 / journal.pcbi.1002195 . PMC 3197634 . PMID 22039361 .
^ Eddy, Sean. "Guía del usuario de HMMER2" (PDF) .
^ a b Sean R. Eddy; Travis J. Wheeler. "Guía del usuario de HMMER" (PDF) . y el equipo de desarrollo de HMMER . Consultado el 23 de julio de 2017 .
^ a b Finn, Robert D .; Clements, Jody; Arndt, William; Miller, Benjamin L .; Wheeler, Travis J .; Schreiber, Fabián; Bateman, Alex; Eddy, Sean R. (1 de julio de 2015). "Servidor web HMMER: actualización 2015" . Investigación de ácidos nucleicos . 43 (W1): W30 – W38. doi : 10.1093 / nar / gkv397 . PMC 4489315 . PMID 25943547 .
^ a b Eddy SR (2008). Rost, Burkhard (ed.). "Un modelo probabilístico de alineación de secuencia local que simplifica la estimación de significación estadística" . PLOS Comput Biol . 4 (5): e1000069. Código Bibliográfico : 2008PLSCB ... 4E0069E . doi : 10.1371 / journal.pcbi.1000069 . PMC 2396288 . PMID 18516236 .
^ Sean R. Eddy; Travis J. Wheeler. "Notas de la versión HMMER3.1b2" . y el equipo de desarrollo de HMMER . Consultado el 23 de julio de 2017 .

enlaces externos

Página web oficial
Anuncio de HMMER3
Una publicación de blog sobre la política de HMMER sobre marcas comerciales, derechos de autor, patentes y licencias

[wikidata-2da17cd3043d7851c57430c276921d5821301cad-v3-1] "Versión 3.3.2" . 27 de noviembre de 2020 . Consultado el 11 de diciembre de 2020 .

[2] Durbin, Richard; Sean R. Eddy; Anders Krogh ; Graeme Mitchison (1998). Análisis de secuencia biológica: modelos probabilísticos de proteínas y ácidos nucleicos . Prensa de la Universidad de Cambridge. ISBN 0-521-62971-3.

[pmid8107089-3] Krogh A, Brown M, Mian IS, Sjölander K, Haussler D (febrero de 1994). "Modelos ocultos de Markov en biología computacional. Aplicaciones al modelado de proteínas". J. Mol. Biol . 235 (5): 1501–31. doi : 10.1006 / jmbi.1994.1104 . PMID 8107089 .

[pmid17110365-4] Farrar M (enero de 2007). "Striped Smith-Waterman acelera las búsquedas en la base de datos seis veces sobre otras implementaciones de SIMD". Bioinformática . 23 (2): 156–61. doi : 10.1093 / bioinformatics / btl582 . PMID 17110365 .

[Eddy1998-5] Eddy, SR (1998). "Perfil de modelos ocultos de Markov" . Bioinformática . 14 (9): 755–63. doi : 10.1093 / bioinformatics / 14.9.755 . PMID 9918945 .

[Eddy2011-6] Eddy, Sean R .; Pearson, William R. (20 de octubre de 2011). "Búsquedas aceleradas de perfiles HMM" . PLOS Biología Computacional . 7 (10): e1002195. Código bibliográfico : 2011PLSCB ... 7E2195E . CiteSeerX 10.1.1.290.1476 . doi : 10.1371 / journal.pcbi.1002195 . PMC 3197634 . PMID 22039361 .

[7] Eddy, Sean. "Guía del usuario de HMMER2" (PDF) .

[HMMER_manual-8] Sean R. Eddy; Travis J. Wheeler. "Guía del usuario de HMMER" (PDF) . y el equipo de desarrollo de HMMER . Consultado el 23 de julio de 2017 .

[Finn2015-9] Finn, Robert D .; Clements, Jody; Arndt, William; Miller, Benjamin L .; Wheeler, Travis J .; Schreiber, Fabián; Bateman, Alex; Eddy, Sean R. (1 de julio de 2015). "Servidor web HMMER: actualización 2015" . Investigación de ácidos nucleicos . 43 (W1): W30 – W38. doi : 10.1093 / nar / gkv397 . PMC 4489315 . PMID 25943547 .

[pmid18516236-10] Eddy SR (2008). Rost, Burkhard (ed.). "Un modelo probabilístico de alineación de secuencia local que simplifica la estimación de significación estadística" . PLOS Comput Biol . 4 (5): e1000069. Código Bibliográfico : 2008PLSCB ... 4E0069E . doi : 10.1371 / journal.pcbi.1000069 . PMC 2396288 . PMID 18516236 .

[11] Sean R. Eddy; Travis J. Wheeler. "Notas de la versión HMMER3.1b2" . y el equipo de desarrollo de HMMER . Consultado el 23 de julio de 2017 .

[2]