De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

InterPro es una base de datos de familias de proteínas, dominios y sitios funcionales en los que las características identificables que se encuentran en proteínas conocidas se pueden aplicar a nuevas secuencias de proteínas [2] para caracterizarlas funcionalmente. [3] [4]

El contenido de InterPro consta de firmas de diagnóstico y las proteínas que coinciden significativamente. Las firmas consisten en modelos (tipos simples, como expresiones regulares o más complejos, como los modelos Hidden Markov ) que describen familias, dominios o sitios de proteínas. Los modelos se construyen a partir de las secuencias de aminoácidos de familias o dominios conocidos y, posteriormente, se utilizan para buscar secuencias desconocidas (como las que surgen de la secuenciación del genoma novedoso) para clasificarlas. Cada una de las bases de datos miembro de InterPro contribuye a un nicho diferente, desde clasificaciones basadas en estructuras de muy alto nivel ( SUPERFAMILY y CATH-Gene3D) hasta clasificaciones de subfamilias bastante específicas ( PRINTS yPANTERA ).

La intención de InterPro es proporcionar una ventanilla única para la clasificación de proteínas, donde todas las firmas producidas por las diferentes bases de datos de miembros se colocan en entradas dentro de la base de datos de InterPro. Las firmas que representan dominios, sitios o familias equivalentes se colocan en la misma entrada y las entradas también pueden estar relacionadas entre sí. La información adicional como una descripción, nombres consistentes y términos de Ontología Genética (GO) se asocian con cada entrada, cuando es posible.

Datos contenidos en InterPro [ editar ]

InterPro contiene tres entidades principales: proteínas, firmas (también denominadas "métodos" o "modelos") y entradas. Las proteínas en UniProtKBson también las entidades proteicas centrales en InterPro. La información sobre qué firmas coinciden significativamente con estas proteínas se calcula a medida que UniProtKB publica las secuencias y estos resultados se ponen a disposición del público (ver más abajo). Las coincidencias de firmas con proteínas son las que determinan cómo las firmas se integran juntas en las entradas de InterPro: la superposición comparativa de conjuntos de proteínas emparejadas y la ubicación de las coincidencias de firmas en las secuencias se utilizan como indicadores de parentesco. Solo las firmas que se consideran de calidad suficiente se integran en InterPro. A partir de la versión 81.0 (publicada el 21 de agosto de 2020), las entradas de InterPro anotaron el 73,9% de los residuos encontrados en UniProtKB con otro 9,2% anotado por firmas que están pendientes de integración. [5]

La cobertura de los residuos de UniProtKB por las entradas de InterPro a partir de la versión 81.0 de InterPro. [5]

InterPro también incluye datos para variantes de empalme y las proteínas contenidas en las bases de datos UniParc y UniMES.

Bases de datos de miembros del consorcio InterPro [ editar ]

Las firmas de InterPro provienen de 13 "bases de datos de miembros", que se enumeran a continuación.

CATH-Gene3D
Describe familias de proteínas y arquitecturas de dominio en genomas completos. Las familias de proteínas se forman utilizando un algoritmo de agrupación de Markov, seguido de agrupación de enlaces múltiples según la identidad de secuencia. El mapeo de la estructura predicha y los dominios de secuencia se realiza utilizando bibliotecas de modelos de Markov ocultas que representan los dominios CATH y Pfam . La anotación funcional se proporciona a las proteínas de múltiples recursos. La predicción funcional y el análisis de arquitecturas de dominio están disponibles en el sitio web de Gene3D.
CDD
Conserved Domain Database es un recurso de anotación de proteínas que consiste en una colección de modelos de alineación de secuencias múltiples anotados para dominios antiguos y proteínas de longitud completa. Estos están disponibles como matrices de puntuación específicas de posición (PSSM) para la identificación rápida de dominios conservados en secuencias de proteínas mediante RPS-BLAST.
HAMAP
Es sinónimo de anotación manual y automatizada de alta calidad de proteomas microbianos. Los perfiles de HAMAP son creados manualmente por curadores expertos que identifican proteínas que forman parte de familias o subfamilias de proteínas codificadas por bacterias, arqueas y plastidios (es decir, cloroplastos, cianelos, apicoplastos, plastos no fotosintéticos) bien conservadas.
MobiDB
MobiDB es una base de datos que anota el trastorno intrínseco en las proteínas.
PANTERA
PANTHER es una gran colección de familias de proteínas que se han subdividido en subfamilias relacionadas funcionalmente, utilizando la experiencia humana. Estas subfamilias modelan la divergencia de funciones específicas dentro de las familias de proteínas, lo que permite una asociación más precisa con la función (funciones moleculares curadas por humanos y clasificaciones de procesos biológicos y diagramas de vías), así como la inferencia de aminoácidos importantes para la especificidad funcional. Los modelos ocultos de Markov (HMM) se construyen para cada familia y subfamilia para clasificar secuencias de proteínas adicionales.
Pfam
Es una gran colección de alineamientos de secuencia múltiple y modelos de Markov ocultos que cubren muchos dominios y familias de proteínas comunes.
Las 13 bases de datos miembros del consorcio InterPro agrupadas por su método de construcción de firmas y la entidad biológica en la que se enfocan. [6]
PIRSF
El sistema de clasificación de proteínas es una red con múltiples niveles de diversidad de secuencias desde superfamilias hasta subfamilias que refleja la relación evolutiva de proteínas y dominios de longitud completa. La unidad de clasificación primaria de PIRSF es la familia homeomórfica, cuyos miembros son homólogos (evolucionaron a partir de un ancestro común) y homeomórficos (comparten similitud de secuencia de longitud completa y una arquitectura de dominio común).
HUELLAS DACTILARES
PRINTS es un compendio de huellas dactilares de proteínas. Una huella dactilar es un grupo de motivos conservados que se utilizan para caracterizar una familia de proteínas; su poder de diagnóstico se refina mediante el escaneo iterativo de UniProt. Por lo general, los motivos no se superponen, sino que están separados a lo largo de una secuencia, aunque pueden ser contiguos en el espacio 3D. Las huellas dactilares pueden codificar los pliegues y las funcionalidades de las proteínas de forma más flexible y poderosa que los motivos individuales, y su potencia diagnóstica completa se deriva del contexto mutuo proporcionado por los motivos vecinos.
PROSITE
PROSITE es una base de datos de dominios y familias de proteínas. Consiste en sitios, patrones y perfiles biológicamente significativos que ayudan a identificar de manera confiable a qué familia de proteínas conocida (si corresponde) pertenece una nueva secuencia.
INTELIGENTE
Herramienta de investigación de arquitectura modular simple Permite la identificación y anotación de dominios genéticamente móviles y el análisis de arquitecturas de dominio. Son detectables más de 800 familias de dominios que se encuentran en las proteínas de señalización, extracelulares y asociadas a la cromatina. Estos dominios están ampliamente anotados con respecto a distribuciones filéticas, clase funcional, estructuras terciarias y residuos funcionalmente importantes.
SUPERFAMILIA
SUPERFAMILY es una biblioteca de modelos de Markov ocultos de perfil que representan todas las proteínas de estructura conocida. La biblioteca se basa en la clasificación de proteínas SCOP : cada modelo corresponde a un dominio SCOP y tiene como objetivo representar la superfamilia SCOP completa a la que pertenece el dominio. SUPERFAMILY se ha utilizado para realizar asignaciones estructurales a todos los genomas completamente secuenciados.
SFLD
Una clasificación jerárquica de enzimas que relaciona las características específicas de la estructura de la secuencia con las capacidades químicas específicas.
TIGRFAM
TIGRFAMs es una colección de familias de proteínas, que presenta alineaciones de secuencias múltiples seleccionadas, modelos de Markov ocultos (HMM) y anotación, que proporciona una herramienta para identificar proteínas relacionadas funcionalmente en función de la homología de secuencia. Aquellas entradas que son "equivalogs" agrupan proteínas homólogas que se conservan con respecto a la función.

Tipos de datos [ editar ]

InterPro consta de siete tipos de datos proporcionados por diferentes miembros del consorcio:

Iconos que identifican los cinco tipos de entrada que se encuentran en InterPro (superfamilia homóloga, familia, dominio, repetición o sitio). [7]

Tipos de entrada de InterPro [ editar ]

Las entradas de InterPro se pueden dividir en cinco tipos:

  • Superfamilia homóloga : un grupo de proteínas que comparten un origen evolutivo común como se ve en sus similitudes estructurales, incluso si sus secuencias no son muy similares. Estas entradas son proporcionadas específicamente solo por dos bases de datos miembro: CATH-Gene3D y SUPERFAMILY.
  • Familia : grupo de proteínas que tienen un origen evolutivo común determinado a través de similitudes estructurales, funciones relacionadas u homología de secuencia .
  • Dominio: una unidad distinta en una proteína con una función, estructura o secuencia particular.
  • Repetir: una secuencia de aminoácidos, generalmente no más de 50 aminoácidos, que tienden a repetirse muchas veces en una proteína.
  • Sitio: una secuencia corta de aminoácidos en la que se conserva al menos un aminoácido. Estos incluyen sitios de modificación posterior a la traducción , sitios conservados, sitios de unión y sitios activos .

Acceder [ editar ]

La base de datos está disponible para búsquedas basadas en texto y secuencias a través de un servidor web y para su descarga a través de FTP anónimo. Al igual que otras bases de datos de EBI , es de dominio público , ya que su contenido puede ser utilizado "por cualquier persona y para cualquier fin". [8] InterPro tiene como objetivo dar a conocer datos al público cada 8 semanas, normalmente dentro de un día de la liberación de UniProtKB de las mismas proteínas.

Interfaz de programación de aplicaciones (API) de InterPro [ editar ]

InterPro proporciona una API para acceso programático a todas las entradas de InterPro y sus entradas relacionadas en formato Json . [9] Hay seis puntos finales principales para la API correspondientes a los diferentes tipos de datos de InterPro: entrada, proteína, estructura, taxonomía, proteoma y conjunto.

InterProScan [ editar ]

InterProScan es un paquete de software que permite a los usuarios escanear secuencias con firmas de bases de datos de miembros. Los usuarios pueden utilizar este software de escaneo de firmas para caracterizar funcionalmente nuevas secuencias de nucleótidos o proteínas. [10] InterProScan se utiliza con frecuencia en proyectos de genoma para obtener una caracterización de "primer paso" del genoma de interés. [11] [12] A diciembre de 2020 , la versión pública de InterProScan (v5.x) utiliza una arquitectura basada en Java . [13] Actualmente, el paquete de software solo es compatible con un sistema operativo Linux de 64 bits .

También se puede acceder a InterProScan, junto con muchas otras herramientas bioinformáticas EMBL-EBI, mediante programación utilizando las API de servicios web RESTful y SOAP . [14]

Ver también [ editar ]

  • Familia proteica
  • Dominio de función desconocida
  • Motivo de secuencia

Referencias [ editar ]

  1. ^ Blum M, Chang HY, Chuguransky S, Grego T, Kandasaamy S, Mitchell A, et al. (Noviembre de 2020). "La base de datos de dominios y familias de proteínas de InterPro: 20 años después" . Investigación de ácidos nucleicos : gkaa977. doi : 10.1093 / nar / gkaa977 . PMID  33156333 .
  2. ^ Hunter S, Jones P, Mitchell A, Apweiler R, Attwood TK, Bateman A, et al. (Enero de 2012). "InterPro en 2011: novedades en la base de datos de predicción de dominios y familias" . Investigación de ácidos nucleicos . 40 (Problema de la base de datos): D306-12. doi : 10.1093 / nar / gkr948 . PMC 3245097 . PMID 22096229 .  
  3. ^ Apweiler R , Attwood TK , Bairoch A , Bateman A , Birney E , Biswas M, et al. (Enero de 2001). "La base de datos InterPro, un recurso de documentación integrado para familias de proteínas, dominios y sitios funcionales" . Investigación de ácidos nucleicos . 29 (1): 37–40. doi : 10.1093 / nar / 29.1.37 . PMC 29841 . PMID 11125043 .  
  4. ^ Apweiler R , Attwood TK , Bairoch A , Bateman A , Birney E , Biswas M, et al. (Diciembre de 2000). "InterPro - un recurso de documentación integrado para familias de proteínas, dominios y sitios funcionales" . Bioinformática . 16 (12): 1145–50. doi : 10.1093 / bioinformatics / 16.12.1145 . PMID 11159333 . 
  5. ^ a b Blum, Matthias; Chang, Hsin-Yu; Chuguransky, Sara; Grego, Tiago; Kandasaamy, Swaathi; Mitchell, Alex; Nuka, regalo; Paysan-Lafosse, Typhaine; Qureshi, Matloob; Raj, Shriya; Richardson, Lorna (6 de noviembre de 2020). "La base de datos de dominios y familias de proteínas de InterPro: 20 años después" . Investigación de ácidos nucleicos : gkaa977. doi : 10.1093 / nar / gkaa977 . ISSN 0305-1048 . 
  6. ^ EMBL-EBI. "¿De dónde vienen los datos? | InterPro" . Consultado el 4 de diciembre de 2020 .
  7. ^ EMBL-EBI. "Tipos de entrada de InterPro | InterPro" . Consultado el 4 de diciembre de 2020 .
  8. ^ "Condiciones de uso de los servicios EMBL-EBI | Instituto Europeo de Bioinformática" .
  9. ^ "¿Cómo descargar datos de InterPro? - Documentación de InterPro" . interpro-documentation.readthedocs.io . Consultado el 4 de diciembre de 2020 .
  10. ^ Quevillon E, Silventoinen V, Pillai S, Harte N, Mulder N, Apweiler R, Lopez R (julio de 2005). "InterProScan: identificador de dominios de proteínas" (Texto completo libre) . Investigación de ácidos nucleicos . 33 (Problema del servidor web): W116-20. doi : 10.1093 / nar / gki442 . PMC 1160203 . PMID 15980438 .   
  11. ^ Lander ES , Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. (Febrero de 2001). "Secuenciación inicial y análisis del genoma humano" (PDF) . Naturaleza . 409 (6822): 860–921. Código Bib : 2001Natur.409..860L . doi : 10.1038 / 35057062 . PMID 11237011 .  
  12. ^ Holt RA, Subramanian GM, Halpern A, Sutton GG, Charlab R, Nusskern DR, et al. (Octubre de 2002). "La secuencia del genoma del mosquito de la malaria Anopheles gambiae". Ciencia . 298 (5591): 129–49. Código Bibliográfico : 2002Sci ... 298..129H . CiteSeerX 10.1.1.149.9058 . doi : 10.1126 / science.1076181 . PMID 12364791 . S2CID 4512225 .   
  13. ^ Jones P, Binns D, Chang HY, Fraser M, Li W, McAnulla C, et al. (Mayo de 2014). "InterProScan 5: clasificación de la función de proteínas a escala del genoma" . Bioinformática . 30 (9): 1236–40. doi : 10.1093 / bioinformatics / btu031 . PMC 3998142 . PMID 24451626 .  
  14. ^ Madeira F, Park YM, Lee J, Buso N, Gur T, Madhusoodanan N, et al. (Julio de 2019). "Las API de herramientas de análisis de secuencia y búsqueda EMBL-EBI en 2019" . Investigación de ácidos nucleicos . 47 (W1): W636 – W641. doi : 10.1093 / nar / gkz268 . PMC 6602479 . PMID 30976793 .  

Enlaces externos [ editar ]

  • Sitio web oficial - servidor web