Pfam es una base de datos de familias de proteínas que incluye sus anotaciones y alineaciones de secuencias múltiples generadas utilizando modelos de Markov ocultos . [1] [2] [3] La versión más reciente, Pfam 33.1, fue lanzada en mayo de 2020 y contiene 18,259 familias. [4]
Contenido | |
---|---|
Descripción | La base de datos Pfam proporciona alineaciones y modelos de Markov ocultos para dominios de proteínas. |
Tipos de datos capturados | Familias de proteínas |
Organismos | todas |
Contacto | |
Centro de Investigación | EBI |
Cita primaria | PMID 19920124 |
Acceso | |
Formato de datos | Formato de Estocolmo |
Sitio web | Pfam |
URL de descarga | FTP 1 FTP 2 |
Diverso | |
Licencia | Licencia pública general reducida GNU |
Versión | 33,1 |
Entidades que se pueden marcar | sí |
Usos
El propósito general de la base de datos Pfam es proporcionar una clasificación completa y precisa de dominios y familias de proteínas. [5] Originalmente, la razón fundamental detrás de la creación de la base de datos era tener un método semiautomático de curar información sobre familias de proteínas conocidas para mejorar la eficiencia de anotar genomas. [6] La clasificación Pfam de familias de proteínas ha sido ampliamente adoptada por biólogos debido a su amplia cobertura de proteínas y convenciones de nombres sensibles. [7]
Es utilizado por biólogos experimentales que investigan proteínas específicas, por biólogos estructurales para identificar nuevos objetivos para la determinación de estructuras, por biólogos computacionales para organizar secuencias y por biólogos evolutivos que rastrean los orígenes de las proteínas. [8] Los primeros proyectos de genoma, como humanos y moscas, utilizaron ampliamente Pfam para la anotación funcional de datos genómicos. [9] [10] [11]
El sitio web de Pfam permite a los usuarios enviar secuencias de proteínas o ADN para buscar coincidencias con las familias en la base de datos. Si se envía ADN, se realiza una traducción de seis cuadros y luego se busca en cada cuadro. [12] En lugar de realizar una búsqueda BLAST típica , Pfam utiliza modelos de perfil ocultos de Markov , que dan mayor peso a las coincidencias en sitios conservados , lo que permite una mejor detección remota de homología, lo que los hace más adecuados para anotar genomas de organismos sin parientes cercanos bien anotados. . [13]
Pfam también se ha utilizado en la creación de otros recursos como iPfam , que cataloga las interacciones dominio-dominio dentro y entre proteínas, basándose en información en bases de datos de estructura y mapeo de dominios Pfam en estas estructuras. [14]
Características
Para cada familia en Pfam se puede:
- Ver una descripción de la familia
- Mira múltiples alineaciones
- Ver arquitecturas de dominio de proteínas
- Examinar la distribución de especies
- Siga los enlaces a otras bases de datos
- Ver estructuras proteicas conocidas
Las entradas pueden ser de varios tipos: familia, dominio, repetición o motivo. Familia es la clase predeterminada, que simplemente indica que los miembros están relacionados. Los dominios se definen como una unidad estructural autónoma o una unidad de secuencia reutilizable que se puede encontrar en múltiples contextos de proteínas. Las repeticiones no suelen ser estables de forma aislada, sino que normalmente se requieren para formar repeticiones en tándem para formar un dominio o una estructura extendida. Los motivos suelen ser unidades de secuencia más cortas que se encuentran fuera de los dominios globulares. [9]
Las descripciones de las familias de Pfam son administradas por el público en general usando Wikipedia (ver Historia ).
A partir de la versión 29.0, el 76,1% de las secuencias de proteínas en UniprotKB coincidían con al menos un dominio Pfam. [15]
Creación de nuevas entradas
Las nuevas familias provienen de una variedad de fuentes, principalmente el PDB y el análisis de proteomas completos para encontrar genes sin el impacto de Pfam. [dieciséis]
Para cada familia, un subconjunto representativo de secuencias se alinea en una alineación de semillas de alta calidad. Las secuencias para la alineación de semillas se toman principalmente de pfamseq (una base de datos no redundante de proteomas de referencia) con algunos suplementos de UniprotKB . [15] Esta alineación inicial se utiliza para construir un modelo de Markov oculto de perfil utilizando HMMER . Este HMM luego se busca en bases de datos de secuencias, y todos los resultados que alcanzan un umbral de recolección curado se clasifican como miembros de la familia de proteínas. La colección resultante de miembros se alinea luego con el perfil HMM para generar una alineación completa.
Para cada familia, se asigna un umbral de recopilación seleccionado manualmente que maximiza el número de coincidencias verdaderas con la familia y excluye las coincidencias falsas positivas. Los falsos positivos se estiman observando superposiciones entre los hits de la familia Pfam que no son del mismo clan. Este umbral se utiliza para evaluar si una coincidencia con una familia HMM debe incluirse en la familia de proteínas. Tras cada actualización de Pfam, los umbrales de recopilación se reevalúan para evitar superposiciones entre familias nuevas y existentes. [dieciséis]
Dominios de función desconocida
Los dominios de función desconocida (DUF) representan una fracción creciente de la base de datos de Pfam. Las familias se llaman así porque se ha descubierto que se conservan en todas las especies, pero desempeñan un papel desconocido. Cada DUF recién agregado se nombra en orden de adición. Los nombres de estas entradas se actualizan a medida que se identifican sus funciones. Normalmente, cuando se ha determinado la función de al menos una proteína que pertenece a un DUF, se actualiza la función de todo el DUF y se cambia el nombre de la familia. Algunas familias nombradas siguen siendo dominios de función desconocida, que reciben el nombre de una proteína representativa, por ejemplo, YbbR. Se espera que el número de DUF continúe aumentando a medida que se sigan identificando secuencias conservadas de función desconocida en los datos de secuencia. Se espera que los DUF eventualmente superen en número a las familias de función conocida. [dieciséis]
Clanes
Con el tiempo, tanto la secuencia como la cobertura de residuos han aumentado y, a medida que las familias han crecido, se han descubierto más relaciones evolutivas, lo que permite la agrupación de familias en clanes. [8] Los clanes se introdujeron por primera vez en la base de datos Pfam en 2005. Son agrupaciones de familias relacionadas que comparten un único origen evolutivo, como lo confirman las comparaciones estructurales, funcionales, de secuencia y HMM. [5] A partir del lanzamiento 29.0, aproximadamente un tercio de las familias de proteínas pertenecían a un clan. [15] Esta porción ha crecido a alrededor de las tres cuartas partes en 2019 (versión 32.0). [17]
Para identificar posibles relaciones entre clanes, los curadores de Pfam utilizan el Programa de comparación simple de resultados (SCOOP), así como información de la base de datos ECOD. [17] ECOD es una base de datos jerárquica semiautomatizada de familias de proteínas con estructuras conocidas, con familias que se asignan fácilmente a las entradas de Pfam y niveles de homología que generalmente se asignan a los clanes de Pfam. [18]
Historia
Pfam fue fundada en 1995 por Erik Sonhammer, Sean Eddy y Richard Durbin como una colección de dominios de proteínas comunes que podrían usarse para anotar los genes codificadores de proteínas de animales multicelulares. [6] Uno de sus principales objetivos al inicio fue ayudar en la anotación del genoma de C. elegans . [6] El proyecto fue impulsado en parte por la afirmación en 'Mil familias para el biólogo molecular' de Cyrus Chothia de que había alrededor de 1500 familias diferentes de proteínas y que la mayoría de las proteínas se incluían en solo 1000 de ellas. [5] [19] En contra de esta afirmación, la base de datos Pfam contiene actualmente 16.306 entradas correspondientes a dominios y familias de proteínas únicos. Sin embargo, muchas de estas familias contienen similitudes estructurales y funcionales que indican un origen evolutivo compartido (ver Clanes ). [5]
Un punto importante de diferencia entre Pfam y otras bases de datos en el momento de su creación fue el uso de dos tipos de alineación para las entradas: una alineación de semillas más pequeña, verificada manualmente, así como una alineación completa construida alineando secuencias a un modelo de Markov oculto de perfil. construido a partir de la alineación de semillas. Esta alineación de semillas más pequeña fue más fácil de actualizar a medida que aparecieron nuevas versiones de bases de datos de secuencias y, por lo tanto, representó una solución prometedora al dilema de cómo mantener la base de datos actualizada a medida que la secuenciación del genoma se volvió más eficiente y se necesitaron más datos para procesar con el tiempo. . Una mejora adicional a la velocidad a la que se podía actualizar la base de datos se produjo en la versión 24.0, con la introducción de HMMER3, que es ~ 100 veces más rápido que HMMER2 y más sensible. [8]
Debido a que las entradas en Pfam-A no cubren todas las proteínas conocidas, se proporcionó un suplemento generado automáticamente llamado Pfam-B. Pfam-B contenía una gran cantidad de familias pequeñas derivadas de grupos producidos por un algoritmo llamado ADDA. [20] Aunque de menor calidad, las familias Pfam-B podrían ser útiles cuando no se encontraron familias Pfam-A. Pfam-B se suspendió a partir de la versión 28.0, [21] y luego se reintrodujo en la versión 33.1 utilizando un nuevo algoritmo de agrupación, MMSeqs2. [22]
Pfam se alojó originalmente en tres sitios espejo en todo el mundo para preservar la redundancia. Sin embargo, entre 2012 y 2014, el recurso de Pfam se trasladó a EMBL-EBI , lo que permitió alojar el sitio web desde un dominio (xfam.org), utilizando centros de datos independientes duplicados. Esto permitió una mejor centralización de las actualizaciones y la agrupación con otros proyectos de Xfam como Rfam , TreeFam , iPfam y otros, al tiempo que se mantuvo la resistencia crítica proporcionada por el alojamiento desde múltiples centros. [23]
Pfam ha sufrido una reorganización sustancial en los últimos dos años para reducir aún más el esfuerzo manual involucrado en la conservación y permitir actualizaciones más frecuentes. [15]
Curaduría comunitaria
La conservación de una base de datos tan grande presentó problemas en términos de mantenerse al día con el volumen de nuevas familias y la información actualizada que era necesario agregar. Para acelerar las versiones de la base de datos, los desarrolladores iniciaron una serie de iniciativas para permitir una mayor participación de la comunidad en la gestión de la base de datos.
Un paso crítico para mejorar el ritmo de actualización y mejora de las entradas fue abrir la anotación funcional de los dominios Pfam a la comunidad de Wikipedia en la versión 26.0. [16] Para las entradas que ya tenían una entrada de Wikipedia, esta se vinculó a la página de Pfam, y para las que no la tenían, se invitó a la comunidad a crear una e informar a los curadores, para que se vincule. Es Anticipó que, si bien la participación de la comunidad mejorará en gran medida el nivel de anotación de estas familias, algunas seguirán siendo insuficientemente notables para su inclusión en Wikipedia, en cuyo caso conservarán su descripción original de Pfam. Algunos artículos de Wikipedia cubren varias familias, como el artículo Zinc finger . También se implementó un procedimiento automatizado para generar artículos basados en datos de InterPro y Pfam, que llena una página con información y enlaces a bases de datos, así como imágenes disponibles, luego, una vez que un curador ha revisado un artículo, se mueve de Sandbox a Wikipedia propiamente dicha. Para protegerse contra el vandalismo de los artículos, los curadores revisan cada revisión de Wikipedia antes de que se muestre en el sitio web de Pfam. Sin embargo, casi todos los casos de vandalismo han sido corregidos por la comunidad antes de que lleguen a los curadores. [dieciséis]
Pfam está dirigido por un consorcio internacional de tres grupos. En las versiones anteriores de Pfam, las entradas familiares solo podían modificarse en el sitio de Cambridge, Reino Unido, lo que limitaba la capacidad de los miembros del consorcio para contribuir a la conservación del sitio. En la versión 26.0, los desarrolladores se trasladaron a un nuevo sistema que permitía a los usuarios registrados en cualquier parte del mundo agregar o modificar familias de Pfam. [dieciséis]
Ver también
- Lista de bases de datos biológicas
- Base de datos Rfam para familias de ARN no codificantes conservadas
- Base de datos TreeFam de árboles filogenéticos de genes animales
- Base de datos TrEMBL que realiza una anotación automatizada de secuencias de proteínas
- Integración InterPro de bases de datos de dominios de proteínas y familias de proteínas
- PDBfam : asignación completa de dominios Pfam a secuencias en el Protein Data Bank (PDB) [24] [25]
Referencias
- ^ Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (2008). "La base de datos de familias de proteínas Pfam" . Ácidos nucleicos Res . 36 (Problema de la base de datos): D281–8. doi : 10.1093 / nar / gkm960 . PMC 2238907 . PMID 18039703 .
- ^ Finn, RD; Mistry, J .; Schuster-Böckler, B .; Griffiths-Jones, S .; Hollich, V .; Lassmann, T .; Moxon, S .; Marshall, M .; Khanna, A .; Durbin, R .; Eddy, SR; Sonnhammer, EL; Bateman, A. (enero de 2006). "Pfam: clanes, herramientas y servicios web" (Texto completo libre) . Investigación de ácidos nucleicos . 34 (Problema de la base de datos): D247 – D251. doi : 10.1093 / nar / gkj149 . ISSN 0305-1048 . PMC 1347511 . PMID 16381856 .
- ^ Bateman, A .; Moneda, L .; Durbin, R .; Finn, RD; Hollich, V .; Griffiths-Jones, S .; Khanna, A .; Marshall, M .; Moxon, S .; Sonnhammer, EL; Studholme, DJ; Yeats, C .; Eddy, SR (2004). "La base de datos de familias de proteínas Pfam" . Investigación de ácidos nucleicos . 32 (Problema de la base de datos): 138D – 1141. doi : 10.1093 / nar / gkh121 . ISSN 0305-1048 . PMC 308855 . PMID 14681378 .
- ^ Finn, Rob; Mistry, Jaina (8 de marzo de 2017). "Se lanza Pfam 31.0" . Blog de Xfam . Consultado el 13 de marzo de 2017 .
- ^ a b c d Sammut, Stephen; Finn, Robert D .; Bateman, Alex (2008). "Pfam 10 años después: 10 000 familias y sigue creciendo" . Sesiones informativas en bioinformática . 9 (3): 210–219. doi : 10.1093 / bib / bbn010 . PMID 18344544 .
- ^ a b c Sonnhammer, Erik LL; Eddy, Sean R .; Durbin, Richard (1997). "Pfam: una base de datos completa de familias de dominios de proteínas basadas en alineaciones de semillas". Las proteínas . 28 (3): 405–420. doi : 10.1002 / (sici) 1097-0134 (199707) 28: 3 <405 :: aid-prot10> 3.0.co; 2-l . PMID 9223186 .
- ^ Xu, Qifang; Dunbrack, Roland L. (2012). "Asignación de secuencias de proteínas a los sistemas de clasificación de dominios y familias existentes: Pfam y el PDB" . Bioinformática . 28 (21): 2763–2772. doi : 10.1093 / bioinformatics / bts533 . PMC 3476341 . PMID 22942020 .
- ^ a b c Finn, RD; Mistry, J .; Tate, J .; Coggill, P .; Heger, A .; Pollington, JE; Gavin, OL; Gunasekaran, P .; Ceric, G .; Forslund, K .; Holm, L .; Sonnhammer, ELL; Eddy, SR; Bateman, A. (2009). "La base de datos de familias de proteínas Pfam" . Investigación de ácidos nucleicos . 38 (Base de datos): D211 – D222. doi : 10.1093 / nar / gkp985 . ISSN 0305-1048 . PMC 2808889 . PMID 19920124 .
- ^ a b Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M, Sonnhammer EL (2002). "La base de datos de familias de proteínas Pfam" . Ácidos nucleicos Res . 30 (1): 276–80. doi : 10.1093 / nar / 30.1.276 . PMC 99071 . PMID 11752314 .
- ^ Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, et al. (2000). "La secuencia del genoma de Drosophila melanogaster". Ciencia . 287 (5461): 2185–95. Código Bibliográfico : 2000Sci ... 287.2185. . CiteSeerX 10.1.1.549.8639 . doi : 10.1126 / science.287.5461.2185 . PMID 10731132 .
- ^ Lander, Eric S .; Linton, Lauren M .; Birren, Bruce; Nusbaum, Chad; Zody, Michael C .; et al. (2001). "Secuenciación inicial y análisis del genoma humano" . Naturaleza . 409 (6822): 860–921. doi : 10.1038 / 35057062 . ISSN 0028-0836 . PMID 11237011 .
- ^ Finn, Robert D .; Bateman, Alex; Clements, Jody; Coggill, Penélope; Eberhardt, Ruth Y .; Eddy, Sean R .; Heger, Andreas; Hetherington, Kirstie; Holm, Liisa; Mistry, Jaina; Sonnhammer, Erik LL; Tate, John; Punta, Marco (2014). "Pfam: la base de datos de familias de proteínas" . Investigación de ácidos nucleicos . 42 (D1): D222 – D230. doi : 10.1093 / nar / gkt1223 . ISSN 0305-1048 . PMC 3965110 . PMID 24288371 .
- ^ Sonnhammer EL, Eddy SR, Birney E, Bateman A, Durbin R (1998). "Pfam: alineamientos de secuencia múltiple y perfiles HMM de dominios de proteínas" . Ácidos nucleicos Res . 26 (1): 320–2. doi : 10.1093 / nar / 26.1.320 . PMC 147209 . PMID 9399864 .
- ^ Finn, RD; Marshall, M .; Bateman, A. (2004). "iPfam: visualización de interacciones proteína-proteína en PDB en resoluciones de dominio y aminoácidos" . Bioinformática . 21 (3): 410–412. doi : 10.1093 / bioinformática / bti011 . ISSN 1367-4803 . PMID 15353450 .
- ^ a b c d Finn, Robert D .; Coggill, Penélope; Eberhardt, Ruth Y .; Eddy, Sean R .; Mistry, Jaina; Mitchell, Alex L .; Potter, Simon C .; Punta, Marco; Qureshi, Matloob; Sangrador-Vegas, Amaia; Salazar, Gustavo A .; Tate, John; Bateman, Alex (2016). "La base de datos de familias de proteínas Pfam: hacia un futuro más sostenible" . Investigación de ácidos nucleicos . 44 (D1): D279 – D285. doi : 10.1093 / nar / gkv1344 . ISSN 0305-1048 . PMC 4702930 . PMID 26673716 .
- ^ a b c d e f Punta, M .; Coggill, PC; Eberhardt, RY; Mistry, J .; Tate, J .; Boursnell, C .; Pang, N .; Forslund, K .; Ceric, G .; Clements, J .; Heger, A .; Holm, L .; Sonnhammer, ELL; Eddy, SR; Bateman, A .; Finn, RD (2011). "La base de datos de familias de proteínas Pfam" . Investigación de ácidos nucleicos . 40 (D1): D290 – D301. doi : 10.1093 / nar / gkr1065 . ISSN 0305-1048 . PMC 3245129 . PMID 22127870 .
- ^ a b El-Gebali, Sara; Mistry, Jaina; Bateman, Alex; Eddy, Sean R; Luciani, Aurélien; Potter, Simon C; Qureshi, Matloob; Richardson, Lorna J; Salazar, Gustavo A; Inteligente, Alfredo; Sonnhammer, Erik LL; Hirsh, Layla; Paladín, Lisanna; Piovesan, Damiano; Tosatto, Silvio CE; Finn, Robert D (8 de enero de 2019). "La base de datos de familias de proteínas Pfam en 2019" . Investigación de ácidos nucleicos . 47 (D1): D427 – D432. doi : 10.1093 / nar / gky995 . PMC 6324024 . PMID 30357350 .
- ^ "Clasificación evolutiva de dominios de proteínas" . prodata.swmed.edu . Consultado el 18 de mayo de 2019 .
- ^ Chothia, Cyrus (1992). "Mil familias para el biólogo molecular" . Naturaleza . 357 (6379): 543–544. Código bibliográfico : 1992Natur.357..543C . doi : 10.1038 / 357543a0 . ISSN 0028-0836 . PMID 1608464 . S2CID 4355476 .
- ^ Heger, A .; Wilton, CA; Sivakumar, A .; Holm, L. (enero de 2005). "ADDA: una base de datos de dominio con cobertura global del universo proteico" (Texto completo libre) . Investigación de ácidos nucleicos . 33 (Problema de la base de datos): D188 – D191. doi : 10.1093 / nar / gki096 . ISSN 0305-1048 . PMC 540050 . PMID 15608174 .
- ^ "Notas de la versión de Pfam 28.0" . Consultado el 30 de junio de 2015 .
- ^ "Se lanza un nuevo Pfam-B" . Blog de Xfam . 30 de junio de 2020.
- ^ "Mudarse a xfam.org" . Consultado el 25 de noviembre de 2016 .
- ^ Dunbrack, Roland. "PDBfam" . Centro Oncológico Fox Chase . Consultado el 9 de marzo de 2013 .
- ^ Xu, Qifang; Dunbrack, Roland (2012). "Asignación de secuencias de proteínas a los sistemas de clasificación de dominios y familias existentes: Pfam y el PDB" . Bioinformática . 28 (21): 2763–72. doi : 10.1093 / bioinformatics / bts533 . PMC 3476341 . PMID 22942020 .
enlaces externos
- Pfam - base de datos de familias de proteínas en EBI Reino Unido
- iPfam : interacciones de dominios Pfam en PDB
- PDBfam : asignaciones de dominios Pfam a secuencias en el PDB en Fox Chase Cancer Center EE. UU.
- PlantTFDB : las reglas de asignación de familias para factores de transcripción de plantas basadas en dominios Pfam