Base de datos de superfamilias

SUPERFAMILY es una base de datos y una plataforma de búsqueda de anotaciones estructurales y funcionales para todas las proteínas y genomas. ^[1]^[2]^[3]^[4]^[5]^[6]^[7] Clasifica las secuencias de aminoácidos en dominios estructurales conocidos , especialmente en superfamilias SCOP . ^[8]^{[9] Los} dominios son unidades funcionales, estructurales y evolutivas que forman proteínas. Los dominios de ascendencia común se agrupan en superfamilias. Los dominios y las superfamilias de dominios se definen y describen en SCOP. ^[8]^[10] Superfamiliasson grupos de proteínas que tienen evidencia estructural para respaldar un ancestro evolutivo común pero que pueden no tener una homología de secuencia detectable . ^[11]

SUPERFAMILIA
Contenido
Descripción	La base de datos SUPERFAMILY proporciona anotaciones estructurales y funcionales para todas las proteínas y genomas.
Tipos de datos capturados	Familias de proteínas, anotación del genoma, alineaciones, modelos ocultos de Markov (HMM)
Organismos	todas
Contacto
Centro de Investigación	Universidad de bristol
Laboratorio	Julian Gough Cyrus Chothia
Cita primaria	PMID 19036790
Acceso
Formato de datos	Formato FASTA
Sitio web	supfam .org
URL de descarga	supfam .org / SUPERFAMILY / descargas .html
Diverso
Licencia	Licencia pública general GNU
Versión	1,75

Anotaciones

La anotación SUPERFAMILY se basa en una colección de modelos ocultos de Markov (HMM), que representan dominios de proteínas estructurales a nivel de superfamilia SCOP . ^[12]^[13] Una superfamilia agrupa dominios que tienen una relación evolutiva . La anotación se produce escaneando secuencias de proteínas de genomas completamente secuenciados contra los modelos ocultos de Markov.

Para cada proteína puedes:

Enviar secuencias para la clasificación SCOP
Ver la organización del dominio, las alineaciones de secuencias y los detalles de la secuencia de proteínas

Para cada genoma puedes:

Examinar asignaciones de superfamilias, árboles filogenéticos , listas de organización de dominios y redes.
Compruebe si hay superfamilias sobrerrepresentadas y subrepresentadas dentro de un genoma

Para cada superfamilia puedes:

Inspeccione la clasificación SCOP, la anotación funcional, la anotación de Ontología de genes , ^[6]^[14] Resumen de InterPro y asignaciones de genomas
Explore la distribución taxonómica de una superfamilia en el árbol de la vida

Todas las anotaciones, modelos y el volcado de la base de datos están disponibles gratuitamente para que todos puedan descargarlos.

Características

Búsqueda de secuencia

Envíe una secuencia de proteína o ADN para la clasificación de nivel de superfamilia y familia de SCOP utilizando los HMM de SUPERFAMILIA. Las secuencias se pueden enviar por entrada sin procesar o cargando un archivo, pero todas deben estar en formato FASTA . Las secuencias pueden ser aminoácidos, una secuencia de nucleótidos de marco fijo o todos los marcos de una secuencia de nucleótidos enviada. Se pueden ejecutar hasta 1000 secuencias a la vez.

Búsqueda por palabra clave

Busque en la base de datos utilizando un nombre de superfamilia, familia o especie más una secuencia, ID de SCOP, PDB o HMM. Una búsqueda exitosa arroja la clase, pliegues, superfamilias, familias y proteínas individuales que coinciden con la consulta.

Asignaciones de dominio

La base de datos tiene asignaciones de dominio, alineaciones y arquitecturas para organismos eucariotas y procariotas de secuencia completa, además de colecciones de secuencias.

Herramientas de genómica comparativa

Explore superfamilias y familias inusuales (sobre y subrepresentadas), listas y gráficos de pares de dominios adyacentes, pares de dominios únicos, combinaciones de dominios , redes de co-ocurrencia de arquitectura de dominios y distribución de dominios entre reinos taxonómicos para cada organismo.

Estadísticas del genoma

Para cada genoma: número de secuencias, número de secuencias con asignación, porcentaje de secuencias con asignación, porcentaje de cobertura total de secuencia, número de dominios asignados, número de superfamilias asignadas, número de familias asignadas, tamaño medio de superfamilia, porcentaje producido por duplicación, promedio longitud de secuencia, longitud promedio coincidente, número de pares de dominio y número de arquitecturas de dominio únicas.

Ontología de genes

Ontología genética centrada en el dominio (GO) anotada automáticamente.

Debido a la creciente brecha entre las proteínas secuenciadas y las funciones conocidas de las proteínas, es cada vez más importante desarrollar un método más automatizado para anotar funcionalmente proteínas, especialmente para proteínas con dominios conocidos. SUPERFAMILY utiliza anotaciones GO a nivel de proteína tomadas del proyecto Genome Ontology Annotation (GOA), que ofrece anotaciones GO de alta calidad directamente asociadas a proteínas en UniprotKB en un amplio espectro de especies. ^[15] SUPERFAMILY ha generado anotaciones GO para dominios evolutivamente cerrados (a nivel de familia SCOP) y dominios distantes (a nivel de superfamilia SCOP).

Ontología del fenotipo

Fenotipo centrado en el dominio / ontología de anatomía que incluye ontología de enfermedades, fenotipo humano, fenotipo de ratón, fenotipo de gusano, fenotipo de levadura, fenotipo de mosca, anatomía de mosca, anatomía de pez cebra, anatomía de Xenopus y planta de Arabidopsis.

Anotación de superfamilia

InterPro resúmenes para más de 1,000 superfamilias y anotación de Ontología Genética (GO) para más de 700 superfamilias. Esta característica permite la anotación directa de características, funciones y estructuras clave de una superfamilia.

Anotación funcional

Anotación funcional de superfamilias SCOP 1.73.

La base de datos SUPERFAMILY utiliza un esquema de 50 categorías de funciones detalladas que se asignan a 7 categorías de funciones generales, similar al esquema utilizado en la base de datos COG. ^[16] Se utilizó una función general asignada a una superfamilia para reflejar la función principal de esa superfamilia. Las categorías generales de función son:

Información: almacenamiento, mantenimiento de código genético; Replicación y reparación de ADN; transcripción y traducción general .
Regulación: Regulación de la expresión génica y la actividad proteica; procesamiento de información en respuesta a insumos ambientales; transducción de señales ; actividad reguladora o receptora general.
Metabolismo : Procesos anabólicos y catabólicos ; mantenimiento celular y homeostasis ; metabolismo secundario.
Procesos intracelulares: motilidad y división celular; muerte celular ; transporte intracelular ; secreción .
Procesos extracelulares: procesos inter, extracelulares como la adhesión celular; proceso del organismo como la coagulación de la sangre o el sistema inmunológico.
General: Funciones generales y múltiples; interacciones con proteínas , lípidos , moléculas pequeñas e iones .
Otro / Desconocido: una función desconocida, proteínas virales o toxinas .

Cada superfamilia de dominio en las clases SCOP a ag se anotó manualmente utilizando este esquema ^[17]^[18]^[19] y la información utilizada fue proporcionada por SCOP , ^[10] InterPro , ^[20]^[21] Pfam , ^[22] Swiss Prot , ^[23] y diversas fuentes bibliográficas.

Árboles filogenéticos

Cree árboles filogenéticos personalizados seleccionando 3 o más genomas disponibles en el sitio SUPERFAMILY. Los árboles se generan utilizando métodos de parsimonia heurística y se basan en datos de arquitectura de dominio de proteínas para todos los genomas en SUPERFAMILIA. Las combinaciones de genomas, o clados específicos, se pueden mostrar como árboles individuales.

Arquitecturas de dominio similares

Esta característica permite al usuario encontrar las 10 arquitecturas de dominio que son más similares a la arquitectura de dominio de interés.

Modelos ocultos de Markov

Produzca asignaciones de dominio SCOP para una secuencia utilizando los modelos de Markov ocultos SUPERFAMILY .

Comparación de perfiles

Encuentre coincidencias de dominio remoto cuando la búsqueda de HMM no encuentre una coincidencia significativa. Se utiliza la comparación de perfiles (PRC) ^[24] para alinear y puntuar dos HMM de perfil.

Servicios web

Servidor de anotación distribuido y vinculación a SUPERFAMILIA.

Descargas

Secuencias, asignaciones, modelos, base de datos MySQL y scripts: se actualizan semanalmente.

Uso en investigación

La base de datos SUPERFAMILY tiene numerosas aplicaciones de investigación y ha sido utilizada por muchos grupos de investigación para diversos estudios. Puede servir como base de datos para proteínas que el usuario desea examinar con otros métodos, o para asignar una función y estructura a una proteína nueva o no caracterizada. Un estudio encontró que SUPERFAMILY es muy hábil para asignar correctamente una función y estructura apropiadas a un gran número de dominios de función desconocida comparándolos con los modelos ocultos de Markov en las bases de datos. ^[25] Otro estudio utilizó SUPERFAMILY para generar un conjunto de datos de dominios de superfamilia (FSF) de 1,733 veces en el uso de una comparación de proteomas y funtomos para identificar el origen de la diversificación celular. ^[26]

Referencias

^ Wilson, D; Pethica, R; Zhou, Y; Talbot, C; Vogel, C ; Madera, M; Chotia, C ; Gough, J (enero de 2009). "SUPERFAMILIA - genómica comparativa sofisticada, minería de datos, visualización y filogenia" . Investigación de ácidos nucleicos . 37 (Problema de la base de datos): D380-6. doi : 10.1093 / NAR / GKN762 . ISSN 0305-1048 . PMC 2686452 . PMID 19036790 . Wikidata Q26781958 .
^ Madera, Martín; Vogel, Christine; Kummerfeld, Sarah K .; Chotia, Cyrus; Gough, Julian (1 de enero de 2004). "La base de datos SUPERFAMILY en 2004: incorporaciones y mejoras" . Investigación de ácidos nucleicos . 32 (supl. 1): D235 – D239. doi : 10.1093 / nar / gkh117 . ISSN 0305-1048 . PMC 308851 . PMID 14681402 .
^ Wilson, D .; Madera, M .; Vogel, C .; Chothia, C .; Gough, J. (2007). "La base de datos SUPERFAMILY en 2007: familias y funciones" . Investigación de ácidos nucleicos . 35 (Problema de la base de datos): D308 – D313. doi : 10.1093 / nar / gkl910 . PMC 1669749 . PMID 17098927 .
^ Gough, J. (2002). "La base de datos SUPERFAMILIA en genómica estructural" . Acta Crystallographica Sección D . 58 (Pt 11): 1897-1900. doi : 10.1107 / s0907444902015160 . PMID 12393919 .
^ Gough, J .; Chothia, C. (2002). "SUPERFAMILIA: HMM que representan todas las proteínas de estructura conocida. Búsquedas de secuencia SCOP, alineaciones y asignaciones de genomas" . Investigación de ácidos nucleicos . 30 (1): 268–272. doi : 10.1093 / nar / 30.1.268 . PMC 99153 . PMID 11752312 .
^ a b De Lima Morais, DA; Fang, H .; Rackham, OJL; Wilson, D .; Pethica, R .; Chothia, C .; Gough, J. (2010). "SUPERFAMILIA 1.75 que incluye un método de ontología génica centrada en el dominio" . Investigación de ácidos nucleicos . 39 (Problema de la base de datos): D427 – D434. doi : 10.1093 / nar / gkq1130 . PMC 3013712 . PMID 21062816 .
^ Oates, ME; Stahlhacke, J; Vavoulis, DV; Smithers, B; Rackham, DO; Sardar, AJ; Zaucha, J; Thurlby, N; Fang, H; Gough, J (2015). "La base de datos SUPERFAMILY 1.75 en 2014: una duplicación de datos" . Investigación de ácidos nucleicos . 43 (Problema de la base de datos): D227–33. doi : 10.1093 / nar / gku1041 . PMC 4383889 . PMID 25414345 .
^ a b Hubbard, TJ ; Ailey, B .; Brenner, SE ; Murzin, AG; Chothia, C. (1999). "SCOP: una base de datos de clasificación estructural de proteínas" . Investigación de ácidos nucleicos . 27 (1): 254-256. doi : 10.1093 / nar / 27.1.254 . PMC 148149 . PMID 9847194 .
^ Lo Conte, L .; Ailey, B .; Hubbard, TJ; Brenner, SE; Murzin, AG; Chothia, C. (2000). "SCOP: una base de datos de clasificación estructural de proteínas" . Investigación de ácidos nucleicos . 28 (1): 257–259. doi : 10.1093 / nar / 28.1.257 . PMC 102479 . PMID 10592240 .
^ a b Andreeva, Antonina; Howorth, Dave; Brenner, Steven E .; Hubbard, Tim JP; Chotia, Cyrus; Murzin, Alexey G. (1 de enero de 2004). "Base de datos SCOP en 2004: mejoras integran estructura y secuencia de datos de familia" . Investigación de ácidos nucleicos . 32 (Problema de la base de datos): D226 – D229. doi : 10.1093 / nar / gkh039 . ISSN 0305-1048 . PMC 308773 . PMID 14681400 .
^ Dayhoff, MO; McLaughlin, PJ; Barker, WC; Hunt, LT (1 de abril de 1975). "Evolución de secuencias dentro de superfamilias de proteínas". Naturwissenschaften . 62 (4): 154-161. Código bibliográfico : 1975NW ..... 62..154D . doi : 10.1007 / BF00608697 . ISSN 0028-1042 .
^ Gough, J .; Karplus, K .; Hughey, R .; Chothia, C. (2001). "Asignación de homología a secuencias del genoma utilizando una biblioteca de modelos de Markov ocultos que representan todas las proteínas de estructura conocida1". Revista de Biología Molecular . 313 (4): 903–919. CiteSeerX 10.1.1.144.6577 . doi : 10.1006 / jmbi.2001.5080 . PMID 11697912 .
^ Karplus, K .; Barrett, C .; Hughey, R. (1 de enero de 1998). "Modelos ocultos de Markov para la detección de homologías de proteínas remotas" . Bioinformática . 14 (10): 846–856. doi : 10.1093 / bioinformatics / 14.10.846 . ISSN 1367-4803 . PMID 9927713 .
^ Botstein, D .; Cherry, JM; Ashburner, M .; Ball, CA; Blake, JA; Butler, H .; Davis, AP; Dolinski, K .; Dwight, SS; Eppig, JT; Harris, MA; Hill, DP; Issel-Tarver, L .; Kasarskis, A .; Lewis, S .; Matese, JC; Richardson, JE; Ringwald, M .; Rubin, GM ; Sherlock, G. (2000). "Ontología genética: herramienta para la unificación de la biología. El Consorcio de Ontología Genética" . Genética de la naturaleza . 25 (1): 25-29. doi : 10.1038 / 75556 . PMC 3037419 . PMID 10802651 .
^ Barrell, Daniel; Dimmer, Emily; Huntley, Rachael P .; Binns, David; O'Donovan, Claire; Apweiler, Rolf (1 de enero de 2009). "La base de datos de GOA en 2009: un recurso integrado de anotación de ontología genética" . Investigación de ácidos nucleicos . 37 (supl. 1): D396 – D403. doi : 10.1093 / nar / gkn803 . ISSN 0305-1048 . PMC 2686469 . PMID 18957448 .
^ Tatusov, Roman L; Fedorova, Natalie D; Jackson, John D; Jacobs, Aviva R; Kiryutin, Boris; Koonin, Eugene V; Krylov, Dmitri M; Mazumder, Raja; Mekhedov, Sergei L (11 de septiembre de 2003). "La base de datos COG: una versión actualizada incluye eucariotas" . BMC Bioinformática . 4 : 41. doi : 10.1186 / 1471-2105-4-41 . ISSN 1471-2105 . PMC 222959 . PMID 12969510 .
^ Vogel, Christine; Berzuini, Carlo; Bashton, Matthew; Gough, Julian; Teichmann, Sarah A. (20 de febrero de 2004). "Supra-dominios: unidades evolutivas más grandes que dominios de proteínas individuales". Revista de Biología Molecular . 336 (3): 809–823. CiteSeerX 10.1.1.116.6568 . doi : 10.1016 / j.jmb.2003.12.026 . ISSN 0.022 hasta 2.836 . PMID 15095989 .
^ Vogel, Christine; Teichmann, Sarah A .; Pereira-Leal, José (11 de febrero de 2005). "La relación entre la duplicación de dominios y la recombinación". Revista de Biología Molecular . 346 (1): 355–365. doi : 10.1016 / j.jmb.2004.11.050 . ISSN 0.022 hasta 2.836 . PMID 15663950 .
^ Vogel, Christine; Chothia, Cyrus (1 de mayo de 2006). "Expansiones de la familia de proteínas y complejidad biológica" . Biología Computacional PLoS . 2 (5): e48. Código Bibliográfico : 2006PLSCB ... 2 ... 48V . doi : 10.1371 / journal.pcbi.0020048 . ISSN 1553-734X . PMC 1464810 . PMID 16733546 .
^ Mulder, Nicola J .; Apweiler, Rolf; Attwood, Teresa K .; Bairoch, Amos; Barrell, Daniel; Bateman, Alex; Binns, David; Biswas, Margaret; Bradley, Paul (1 de enero de 2003). "La base de datos de InterPro, 2003 trae una mayor cobertura y nuevas funciones" . Investigación de ácidos nucleicos . 31 (1): 315–318. doi : 10.1093 / nar / gkg046 . ISSN 0305-1048 . PMC 165493 . PMID 12520011 .
^ Mulder, Nicola J .; Apweiler, Rolf; Attwood, Teresa K .; Bairoch, Amos; Bateman, Alex; Binns, David; Bradley, Paul; Bork, Peer; Bucher, Phillip (1 de enero de 2005). "InterPro, progreso y estado en 2005" . Investigación de ácidos nucleicos . 33 (Problema de la base de datos): D201 – D205. doi : 10.1093 / nar / gki106 . ISSN 0305-1048 . PMC 540060 . PMID 15608177 .
^ Finn, Robert D .; Mistry, Jaina; Schuster-Böckler, Benjamin; Griffiths-Jones, Sam; Hollich, Volker; Lassmann, Timo; Moxon, Simon; Marshall, Mhairi; Khanna, Ajay (1 de enero de 2006). "Pfam: clanes, herramientas y servicios web" . Investigación de ácidos nucleicos . 34 (Problema de la base de datos): D247 – D251. doi : 10.1093 / nar / gkj149 . ISSN 0305-1048 . PMC 1347511 . PMID 16381856 .
^ Boeckmann, Brigitte; Blatter, Marie-Claude; Famiglietti, Livia; Hinz, Úrsula; Lane, Lydie; Roechert, Bernd; Bairoch, Amos (1 de noviembre de 2005). "Variedad de proteínas y diversidad funcional: anotación Swiss-Prot en su contexto biológico". Comptes Rendus Biologies . 328 (10–11): 882–899. doi : 10.1016 / j.crvi.2005.06.001 . ISSN 1631-0691 . PMID 16286078 .
^ Madera, Martín (15 de noviembre de 2008). "Profile Comparer: un programa para puntuar y alinear perfiles de modelos ocultos de Markov" . Bioinformática . 24 (22): 2630–2631. doi : 10.1093 / bioinformatics / btn504 . ISSN 1367-4803 . PMC 2579712 . PMID 18845584 .
^ Mudgal, Richa; Sandhya, Sankaran; Chandra, Nagasuma; Srinivasan, Narayanaswamy (31 de julio de 2015). "Des-DUFing los DUF: descifrar relaciones evolutivas distantes de dominios de función desconocida utilizando métodos sensibles de detección de homología" . Biology Direct . 10 (1): 38. doi : 10.1186 / s13062-015-0069-2 . PMC 4520260 . PMID 26228684 .
^ Nasir, Arshan; Caetano-Anollés, Gustavo (2013). "El análisis comparativo de proteomas y funcionales proporciona información sobre los orígenes de la diversificación celular" . Archaea . PMC 3892558 .

enlaces externos

Base de datos SUPERFAMILY
SCOP: Clasificación estructural de proteínas

[pmid19036790-1] Wilson, D; Pethica, R; Zhou, Y; Talbot, C; Vogel, C ; Madera, M; Chotia, C ; Gough, J (enero de 2009). "SUPERFAMILIA - genómica comparativa sofisticada, minería de datos, visualización y filogenia" . Investigación de ácidos nucleicos . 37 (Problema de la base de datos): D380-6. doi : 10.1093 / NAR / GKN762 . ISSN 0305-1048 . PMC 2686452 . PMID 19036790 . Wikidata Q26781958 .

[2] Madera, Martín; Vogel, Christine; Kummerfeld, Sarah K .; Chotia, Cyrus; Gough, Julian (1 de enero de 2004). "La base de datos SUPERFAMILY en 2004: incorporaciones y mejoras" . Investigación de ácidos nucleicos . 32 (supl. 1): D235 – D239. doi : 10.1093 / nar / gkh117 . ISSN 0305-1048 . PMC 308851 . PMID 14681402 .

[3] Wilson, D .; Madera, M .; Vogel, C .; Chothia, C .; Gough, J. (2007). "La base de datos SUPERFAMILY en 2007: familias y funciones" . Investigación de ácidos nucleicos . 35 (Problema de la base de datos): D308 – D313. doi : 10.1093 / nar / gkl910 . PMC 1669749 . PMID 17098927 .

[4] Gough, J. (2002). "La base de datos SUPERFAMILIA en genómica estructural" . Acta Crystallographica Sección D . 58 (Pt 11): 1897-1900. doi : 10.1107 / s0907444902015160 . PMID 12393919 .

[5] Gough, J .; Chothia, C. (2002). "SUPERFAMILIA: HMM que representan todas las proteínas de estructura conocida. Búsquedas de secuencia SCOP, alineaciones y asignaciones de genomas" . Investigación de ácidos nucleicos . 30 (1): 268–272. doi : 10.1093 / nar / 30.1.268 . PMC 99153 . PMID 11752312 .

[gocentric-6] De Lima Morais, DA; Fang, H .; Rackham, OJL; Wilson, D .; Pethica, R .; Chothia, C .; Gough, J. (2010). "SUPERFAMILIA 1.75 que incluye un método de ontología génica centrada en el dominio" . Investigación de ácidos nucleicos . 39 (Problema de la base de datos): D427 – D434. doi : 10.1093 / nar / gkq1130 . PMC 3013712 . PMID 21062816 .

[7] Oates, ME; Stahlhacke, J; Vavoulis, DV; Smithers, B; Rackham, DO; Sardar, AJ; Zaucha, J; Thurlby, N; Fang, H; Gough, J (2015). "La base de datos SUPERFAMILY 1.75 en 2014: una duplicación de datos" . Investigación de ácidos nucleicos . 43 (Problema de la base de datos): D227–33. doi : 10.1093 / nar / gku1041 . PMC 4383889 . PMID 25414345 .

[:0-8] Hubbard, TJ ; Ailey, B .; Brenner, SE ; Murzin, AG; Chothia, C. (1999). "SCOP: una base de datos de clasificación estructural de proteínas" . Investigación de ácidos nucleicos . 27 (1): 254-256. doi : 10.1093 / nar / 27.1.254 . PMC 148149 . PMID 9847194 .

[9] Lo Conte, L .; Ailey, B .; Hubbard, TJ; Brenner, SE; Murzin, AG; Chothia, C. (2000). "SCOP: una base de datos de clasificación estructural de proteínas" . Investigación de ácidos nucleicos . 28 (1): 257–259. doi : 10.1093 / nar / 28.1.257 . PMC 102479 . PMID 10592240 .

[:1-10] Andreeva, Antonina; Howorth, Dave; Brenner, Steven E .; Hubbard, Tim JP; Chotia, Cyrus; Murzin, Alexey G. (1 de enero de 2004). "Base de datos SCOP en 2004: mejoras integran estructura y secuencia de datos de familia" . Investigación de ácidos nucleicos . 32 (Problema de la base de datos): D226 – D229. doi : 10.1093 / nar / gkh039 . ISSN 0305-1048 . PMC 308773 . PMID 14681400 .

[11] Dayhoff, MO; McLaughlin, PJ; Barker, WC; Hunt, LT (1 de abril de 1975). "Evolución de secuencias dentro de superfamilias de proteínas". Naturwissenschaften . 62 (4): 154-161. Código bibliográfico : 1975NW ..... 62..154D . doi : 10.1007 / BF00608697 . ISSN 0028-1042 .

[pmid11697912-12] Gough, J .; Karplus, K .; Hughey, R .; Chothia, C. (2001). "Asignación de homología a secuencias del genoma utilizando una biblioteca de modelos de Markov ocultos que representan todas las proteínas de estructura conocida1". Revista de Biología Molecular . 313 (4): 903–919. CiteSeerX 10.1.1.144.6577 . doi : 10.1006 / jmbi.2001.5080 . PMID 11697912 .

[13] Karplus, K .; Barrett, C .; Hughey, R. (1 de enero de 1998). "Modelos ocultos de Markov para la detección de homologías de proteínas remotas" . Bioinformática . 14 (10): 846–856. doi : 10.1093 / bioinformatics / 14.10.846 . ISSN 1367-4803 . PMID 9927713 .

[go-14] Botstein, D .; Cherry, JM; Ashburner, M .; Ball, CA; Blake, JA; Butler, H .; Davis, AP; Dolinski, K .; Dwight, SS; Eppig, JT; Harris, MA; Hill, DP; Issel-Tarver, L .; Kasarskis, A .; Lewis, S .; Matese, JC; Richardson, JE; Ringwald, M .; Rubin, GM ; Sherlock, G. (2000). "Ontología genética: herramienta para la unificación de la biología. El Consorcio de Ontología Genética" . Genética de la naturaleza . 25 (1): 25-29. doi : 10.1038 / 75556 . PMC 3037419 . PMID 10802651 .

[15] Barrell, Daniel; Dimmer, Emily; Huntley, Rachael P .; Binns, David; O'Donovan, Claire; Apweiler, Rolf (1 de enero de 2009). "La base de datos de GOA en 2009: un recurso integrado de anotación de ontología genética" . Investigación de ácidos nucleicos . 37 (supl. 1): D396 – D403. doi : 10.1093 / nar / gkn803 . ISSN 0305-1048 . PMC 2686469 . PMID 18957448 .

[16] Tatusov, Roman L; Fedorova, Natalie D; Jackson, John D; Jacobs, Aviva R; Kiryutin, Boris; Koonin, Eugene V; Krylov, Dmitri M; Mazumder, Raja; Mekhedov, Sergei L (11 de septiembre de 2003). "La base de datos COG: una versión actualizada incluye eucariotas" . BMC Bioinformática . 4 : 41. doi : 10.1186 / 1471-2105-4-41 . ISSN 1471-2105 . PMC 222959 . PMID 12969510 .

[17] Vogel, Christine; Berzuini, Carlo; Bashton, Matthew; Gough, Julian; Teichmann, Sarah A. (20 de febrero de 2004). "Supra-dominios: unidades evolutivas más grandes que dominios de proteínas individuales". Revista de Biología Molecular . 336 (3): 809–823. CiteSeerX 10.1.1.116.6568 . doi : 10.1016 / j.jmb.2003.12.026 . ISSN 0.022 hasta 2.836 . PMID 15095989 .

[18] Vogel, Christine; Teichmann, Sarah A .; Pereira-Leal, José (11 de febrero de 2005). "La relación entre la duplicación de dominios y la recombinación". Revista de Biología Molecular . 346 (1): 355–365. doi : 10.1016 / j.jmb.2004.11.050 . ISSN 0.022 hasta 2.836 . PMID 15663950 .

[19] Vogel, Christine; Chothia, Cyrus (1 de mayo de 2006). "Expansiones de la familia de proteínas y complejidad biológica" . Biología Computacional PLoS . 2 (5): e48. Código Bibliográfico : 2006PLSCB ... 2 ... 48V . doi : 10.1371 / journal.pcbi.0020048 . ISSN 1553-734X . PMC 1464810 . PMID 16733546 .

[20] Mulder, Nicola J .; Apweiler, Rolf; Attwood, Teresa K .; Bairoch, Amos; Barrell, Daniel; Bateman, Alex; Binns, David; Biswas, Margaret; Bradley, Paul (1 de enero de 2003). "La base de datos de InterPro, 2003 trae una mayor cobertura y nuevas funciones" . Investigación de ácidos nucleicos . 31 (1): 315–318. doi : 10.1093 / nar / gkg046 . ISSN 0305-1048 . PMC 165493 . PMID 12520011 .

[21] Mulder, Nicola J .; Apweiler, Rolf; Attwood, Teresa K .; Bairoch, Amos; Bateman, Alex; Binns, David; Bradley, Paul; Bork, Peer; Bucher, Phillip (1 de enero de 2005). "InterPro, progreso y estado en 2005" . Investigación de ácidos nucleicos . 33 (Problema de la base de datos): D201 – D205. doi : 10.1093 / nar / gki106 . ISSN 0305-1048 . PMC 540060 . PMID 15608177 .

[22] Finn, Robert D .; Mistry, Jaina; Schuster-Böckler, Benjamin; Griffiths-Jones, Sam; Hollich, Volker; Lassmann, Timo; Moxon, Simon; Marshall, Mhairi; Khanna, Ajay (1 de enero de 2006). "Pfam: clanes, herramientas y servicios web" . Investigación de ácidos nucleicos . 34 (Problema de la base de datos): D247 – D251. doi : 10.1093 / nar / gkj149 . ISSN 0305-1048 . PMC 1347511 . PMID 16381856 .

[23] Boeckmann, Brigitte; Blatter, Marie-Claude; Famiglietti, Livia; Hinz, Úrsula; Lane, Lydie; Roechert, Bernd; Bairoch, Amos (1 de noviembre de 2005). "Variedad de proteínas y diversidad funcional: anotación Swiss-Prot en su contexto biológico". Comptes Rendus Biologies . 328 (10–11): 882–899. doi : 10.1016 / j.crvi.2005.06.001 . ISSN 1631-0691 . PMID 16286078 .

[24] Madera, Martín (15 de noviembre de 2008). "Profile Comparer: un programa para puntuar y alinear perfiles de modelos ocultos de Markov" . Bioinformática . 24 (22): 2630–2631. doi : 10.1093 / bioinformatics / btn504 . ISSN 1367-4803 . PMC 2579712 . PMID 18845584 .

[25] Mudgal, Richa; Sandhya, Sankaran; Chandra, Nagasuma; Srinivasan, Narayanaswamy (31 de julio de 2015). "Des-DUFing los DUF: descifrar relaciones evolutivas distantes de dominios de función desconocida utilizando métodos sensibles de detección de homología" . Biology Direct . 10 (1): 38. doi : 10.1186 / s13062-015-0069-2 . PMC 4520260 . PMID 26228684 .

[26] Nasir, Arshan; Caetano-Anollés, Gustavo (2013). "El análisis comparativo de proteomas y funcionales proporciona información sobre los orígenes de la diversificación celular" . Archaea . PMC 3892558 .

[1]