De Wikipedia, la enciclopedia libre
  (Redirigido desde HHpred / HHsearch )
Saltar a navegación Saltar a búsqueda

El HH-Suite es un software de código abierto paquete para pieles sensibles proteína búsqueda secuencia. Contiene programas que pueden buscar secuencias de proteínas similares en bases de datos de secuencias de proteínas. Las búsquedas de secuencias son una herramienta estándar en la biología moderna con la que se puede inferir la función de proteínas desconocidas a partir de las funciones de proteínas con secuencias similares. HHsearch y HHblits son dos programas principales en el paquete y el punto de entrada a su función de búsqueda, siendo esta última una iteración más rápida. [2] [3] HHpred es un servidor en línea para la predicción de la estructura de proteínas que utiliza información de homología de HH-suite. [4]

La suite HH busca secuencias utilizando modelos ocultos de Markov (HMM). El nombre proviene del hecho de que realiza alineaciones HMM-HMM. Entre los métodos más populares para el emparejamiento de secuencias de proteínas, los programas se han citado más de 5000 veces en total según Google Scholar . [5]

Antecedentes [ editar ]

Las proteínas son actores centrales en todos los procesos de la vida. Comprenderlos es fundamental para comprender los procesos moleculares en las células. Esto es particularmente importante para comprender el origen de las enfermedades. Pero para una gran fracción de las aproximadamente 20 000 proteínas humanas, las estructuras y funciones siguen siendo desconocidas. Se han investigado muchas proteínas en organismos modelo, como muchas bacterias, levadura de panadería, moscas de la fruta, peces cebra o ratones, para los que los experimentos a menudo se pueden realizar con más facilidad que con células humanas. Para predecir la función, estructura u otras propiedades de una proteína para la que solo se conoce su secuencia de aminoácidos, la secuencia de la proteína se compara con las secuencias de otras proteínas en bases de datos públicas. Si se encuentra una proteína con una secuencia suficientemente similar,Es probable que las dos proteínas estén relacionadas evolutivamente ("homólogo" ). En ese caso, es probable que compartan estructuras y funciones similares. Por lo tanto, si se puede encontrar una proteína con una secuencia suficientemente similar y con funciones y / o estructura conocidas mediante la búsqueda de secuencias, se pueden predecir las funciones, la estructura y la composición del dominio de la proteína desconocida. Tales predicciones facilitan enormemente la determinación de la función o estructura mediante experimentos de validación dirigidos.

Los biólogos suelen realizar búsquedas de secuencias para inferir la función de una proteína desconocida a partir de su secuencia. Para ello, la secuencia de la proteína se compara con las secuencias de otras proteínas en bases de datos públicas y su función se deduce de las de las secuencias más similares. A menudo, no se pueden encontrar secuencias con funciones anotadas en dicha búsqueda. En este caso, se requieren métodos más sensibles para identificar proteínas o familias de proteínas relacionadas más remotamente . A partir de estas relaciones, surgen hipótesis sobre las funciones, la estructura y la composición del dominio de la proteína.puede ser inferida. HHsearch realiza búsquedas con una secuencia de proteínas a través de bases de datos. El servidor HHpred y el paquete de software HH-suite ofrecen muchas bases de datos populares que se actualizan periódicamente, como Protein Data Bank , así como las bases de datos InterPro , Pfam , COG y SCOP .

Algoritmo [ editar ]

Esquema de búsqueda de secuencia iterativa de HHblits

Los métodos sensibles modernos para la búsqueda de proteínas utilizan perfiles de secuencia. Pueden usarse para comparar una secuencia con un perfil, o en casos más avanzados, como HH-suite, para hacer coincidir perfiles. [2] [6] [7] [8] Los perfiles y alineamientos se derivan ellos mismos de coincidencias, utilizando, por ejemplo, PSI-BLAST o HHblits. Un perfil de matriz de puntuación específica de posición (PSSM) contiene para cada posición en la secuencia de consulta la puntuación de similitud para los 20 aminoácidos. Los perfiles se derivan de múltiples alineaciones de secuencia.(MSA), en las que las proteínas relacionadas se escriben juntas (alineadas), de modo que las frecuencias de los aminoácidos en cada posición se pueden interpretar como probabilidades de aminoácidos en nuevas proteínas relacionadas y se pueden utilizar para derivar las "puntuaciones de similitud". Debido a que los perfiles contienen mucha más información que una sola secuencia (por ejemplo, el grado de conservación específico de la posición), los métodos de comparación perfil-perfil son mucho más poderosos que los métodos de comparación secuencia-secuencia como BLAST o los métodos de comparación perfil-secuencia como PSI-BLAST. [6]

HHpred y HHsearch representan proteínas de base de datos y consultas mediante modelos de Markov ocultos de perfil (HMM), una extensión de los perfiles de secuencia de PSSM que también registran las frecuencias de inserción y eliminación de aminoácidos específicas de la posición. HHsearch busca en una base de datos de HMM con una consulta HMM. Antes de comenzar la búsqueda a través de la base de datos real de HMM, HHsearch / HHpred construye una alineación de secuencia múltiple de secuencias relacionadas con la secuencia de consulta / MSA usando el programa HHblits. A partir de esta alineación, se calcula un perfil HMM. Las bases de datos contienen HMM que se calculan previamente de la misma manera utilizando PSI-BLAST. La salida de HHpred y HHsearch es una lista clasificada de coincidencias de la base de datos (incluidos los valores E y las probabilidades de una relación verdadera) y las alineaciones de secuencia de consulta y base de datos por pares.

HHblits, una parte de la suite HH desde 2001, crea alineaciones de secuencia múltiple (MSA) de alta calidad a partir de una secuencia de consulta única o una MSA. Al igual que en PSI-BLAST, funciona de manera iterativa, construyendo repetidamente nuevos perfiles de consulta agregando los resultados encontrados en la ronda anterior. Se compara con bases de datos HMM preconstruidas derivadas de bases de datos de secuencias de proteínas, cada una de las cuales representa un "grupo" de proteínas relacionadas. En el caso de HHblits, tales coincidencias se realizan en el nivel de los perfiles HMM-HMM, lo que otorga una sensibilidad adicional. Su prefiltrado reduce las decenas de millones de HMM para hacer coincidir con unos pocos miles de ellos, lo que acelera el lento proceso de comparación HMM-HMM. [3]

La suite HH viene con una serie de HMM de perfil prediseñado que se pueden buscar utilizando HHblits y HHsearch, entre ellos una versión agrupada de la base de datos UniProt , del Protein Data Bank de proteínas con estructuras conocidas, de las alineaciones de la familia de proteínas Pfam , de dominios de proteínas estructurales SCOP , y muchos más. [9]

Aplicaciones [ editar ]

Las aplicaciones de HHpred y HHsearch incluyen la predicción de la estructura de proteínas, la predicción de estructuras complejas, la predicción de funciones, la predicción de dominios, la predicción de límites de dominios y la clasificación evolutiva de proteínas. [10]

HHsearch se utiliza a menudo para el modelado de homología , es decir, para construir un modelo de la estructura de una proteína de consulta para la que solo se conoce la secuencia: para ese propósito, se busca una base de datos de proteínas con estructuras conocidas, como el banco de datos de proteínas. proteínas "plantilla" similares a la proteína de consulta. Si se encuentra dicha proteína molde, la estructura de la proteína de interés puede predecirse basándose en una alineación de secuencia por pares de la consulta con la secuencia de la proteína molde. Por ejemplo, una búsqueda a través de la base de datos PDB de proteínas con estructura 3D resuelta lleva unos minutos. Si se encuentra una coincidencia significativa con una proteína de estructura conocida (una "plantilla") en la base de datos PDB, HHpred permite al usuario construir un modelo de homología utilizando elSoftware MODELLER , a partir de la alineación de la plantilla de consulta por pares.

Los servidores HHpred se han clasificado entre los mejores servidores durante CASP 7, 8 y 9, para experimentos de predicción ciega de estructuras de proteínas. En CASP9, HHpredA, B y C se clasificaron en primer, segundo y tercer lugar de 81 servidores de predicción automática de estructuras participantes en el modelado basado en plantillas [11] y sexto, séptimo, octavo en los 147 objetivos, siendo mucho más rápido que el mejores 20 servidores. [12] En CASP 8, HHpred ocupó el séptimo lugar en todos los objetivos y el segundo en el subconjunto de proteínas de dominio único, sin dejar de ser más de 50 veces más rápido que los servidores mejor clasificados. [4]

Contenido [ editar ]

Además de HHsearch y HHblits, la suite HH contiene programas y scripts de Perl para conversión de formato, filtrado de MSA, generación de HMM de perfil, adición de predicciones de estructura secundaria a MSA, extracción de alineaciones de la salida del programa y generación de Bases de datos personalizadas.

El algoritmo de alineación HMM-HMM de HHblits y HHsearch se aceleró significativamente utilizando instrucciones vectoriales en la versión 3 de la suite HH. [13]

Referencias [ editar ]

  1. ^ Paquete Debian hhsuite
  2. ↑ a b Söding J (2005). "Detección de homología de proteínas por comparación HMM-HMM" . Bioinformática . 21 (7): 951–960. doi : 10.1093 / bioinformatics / bti125 . PMID  15531603 .
  3. ↑ a b Remmert M, Biegert A, Hauser A, Söding J (2011). "HHblits: búsqueda de secuencias de proteínas iterativas ultrarrápidas por alineación HMM-HMM" (PDF) . Nat. Métodos . 9 (2): 173-175. doi : 10.1038 / NMETH.1818 . hdl : 11858 / 00-001M-0000-0015-8D56-A . PMID 22198341 . S2CID 205420247 .   
  4. ↑ a b Söding J, Biegert A, Lupas AN (2005). "El servidor interactivo HHpred para la detección de homología de proteínas y predicción de estructuras" . Investigación de ácidos nucleicos . 33 (Problema del servidor web): W244–248. doi : 10.1093 / nar / gki408 . PMC 1160169 . PMID 15980461 .  
  5. ^ Citas a HHpred , a HHsearch , a HHblits
  6. ↑ a b Jaroszewski L, Rychlewski L, Godzik A (2000). "Mejora de la calidad de las alineaciones de la zona crepuscular" . Ciencia de las proteínas . 9 (8): 1487–1496. doi : 10.1110 / ps.9.8.1487 . PMC 2144727 . PMID 10975570 .  
  7. ^ Sadreyev RI, Baker D, Grishin NV (2003). "Las comparaciones de perfil-perfil por COMPASS predicen intrincadas homologías entre familias de proteínas" . Ciencia de las proteínas . 12 (10): 2262–2272. doi : 10.1110 / ps.03197403 . PMC 2366929 . PMID 14500884 .  
  8. ^ Dunbrack RL Jr (2006). "Comparación de secuencias y predicción de la estructura de proteínas". Opinión actual en biología estructural . 16 (3): 374–384. doi : 10.1016 / j.sbi.2006.05.006 . PMID 16713709 . 
  9. ^ Li, Zhaoyu. "Algunas notas sobre HHSuite" . Consultado el 3 de abril de 2019 . CS1 maint: parámetro desalentado ( enlace )
  10. ^ Guerler A, Govindarajoo B, Zhang Y (2013). "Mapeo de subprocesos monoméricos a la predicción de la estructura proteína-proteína" . Revista de información química y modelado . 53 (3): 717-25. doi : 10.1021 / ci300579r . PMC 4076494 . PMID 23413988 .  
  11. ^ Resultados oficiales de CASP9 para la categoría de modelado basado en plantillas (121 objetivos)
  12. ^ Resultados oficiales de CASP9 para los 147 objetivos
  13. Steinegger M, Meier M, Mirdita M, Vöhringer H, Haunsberger S, Söding J (2019). "HH-suite3 para detección de homología remota rápida y anotación profunda de proteínas" . BMC Bioinformática . 20 (1): 473. doi : 10.1186 / s12859-019-3019-7 . PMC 6744700 . PMID 31521110 .  

Ver también [ editar ]

  • Software de alineación de secuencias
  • Predicción de la estructura de proteínas
  • Matriz de puntuación específica de la posición
  • Alineación de múltiples secuencias
  • CASP - Evaluación crítica de técnicas para la predicción de la estructura de proteínas
  • BLAST (herramienta básica de búsqueda de alineación local)
  • BLAST específico del contexto (CS-BLAST)

Enlaces externos [ editar ]

  • Soeding Lab en el Instituto Max-Planck en Göttingen - desarrolladores de HH-suite
  • Binarios y bases de datos precompilados de HH-suite descarga de desarrolladores
  • HHpred - servidor gratuito en el Instituto Max-Planck en Tuebingen
  • HHblits - servidor gratuito en el Instituto Max-Planck en Tuebingen
  • Sitio web de CASP
  • Resultados de modelado basados ​​en plantillas CASP9
  • Paquete debian HH-suite
  • Paquete ubuntu HH-suite
  • Repositorio de usuarios de HH-suite arch linux