SUPERFAMILY es una base de datos y una plataforma de búsqueda de anotaciones estructurales y funcionales para todas las proteínas y genomas. [1] [2] [3] [4] [5] [6] [7] Clasifica las secuencias de aminoácidos en dominios estructurales conocidos , especialmente en superfamilias SCOP . [8] [9] Los dominios son unidades funcionales, estructurales y evolutivas que forman proteínas. Los dominios de ascendencia común se agrupan en superfamilias. Los dominios y las superfamilias de dominios se definen y describen en SCOP. [8] [10] Superfamiliasson grupos de proteínas que tienen evidencia estructural para respaldar un ancestro evolutivo común pero que pueden no tener una homología de secuencia detectable . [11]
Contenido | |
---|---|
Descripción | La base de datos SUPERFAMILY proporciona anotaciones estructurales y funcionales para todas las proteínas y genomas. |
Tipos de datos capturados | Familias de proteínas, anotación del genoma, alineaciones, modelos ocultos de Markov (HMM) |
Organismos | todas |
Contacto | |
Centro de Investigación | Universidad de bristol |
Laboratorio | |
Cita primaria | PMID 19036790 |
Acceso | |
Formato de datos | Formato FASTA |
Sitio web | supfam |
URL de descarga | supfam |
Diverso | |
Licencia | Licencia pública general GNU |
Versión | 1,75 |
Anotaciones
La anotación SUPERFAMILY se basa en una colección de modelos ocultos de Markov (HMM), que representan dominios de proteínas estructurales a nivel de superfamilia SCOP . [12] [13] Una superfamilia agrupa dominios que tienen una relación evolutiva . La anotación se produce escaneando secuencias de proteínas de genomas completamente secuenciados contra los modelos ocultos de Markov.
Para cada proteína puedes:
- Enviar secuencias para la clasificación SCOP
- Ver la organización del dominio, las alineaciones de secuencias y los detalles de la secuencia de proteínas
Para cada genoma puedes:
- Examinar asignaciones de superfamilias, árboles filogenéticos , listas de organización de dominios y redes.
- Compruebe si hay superfamilias sobrerrepresentadas y subrepresentadas dentro de un genoma
Para cada superfamilia puedes:
- Inspeccione la clasificación SCOP, la anotación funcional, la anotación de Ontología de genes , [6] [14] Resumen de InterPro y asignaciones de genomas
- Explore la distribución taxonómica de una superfamilia en el árbol de la vida
Todas las anotaciones, modelos y el volcado de la base de datos están disponibles gratuitamente para que todos puedan descargarlos.
Características
Búsqueda de secuencia
Envíe una secuencia de proteína o ADN para la clasificación de nivel de superfamilia y familia de SCOP utilizando los HMM de SUPERFAMILIA. Las secuencias se pueden enviar por entrada sin procesar o cargando un archivo, pero todas deben estar en formato FASTA . Las secuencias pueden ser aminoácidos, una secuencia de nucleótidos de marco fijo o todos los marcos de una secuencia de nucleótidos enviada. Se pueden ejecutar hasta 1000 secuencias a la vez.
Búsqueda por palabra clave
Busque en la base de datos utilizando un nombre de superfamilia, familia o especie más una secuencia, ID de SCOP, PDB o HMM. Una búsqueda exitosa arroja la clase, pliegues, superfamilias, familias y proteínas individuales que coinciden con la consulta.
Asignaciones de dominio
La base de datos tiene asignaciones de dominio, alineaciones y arquitecturas para organismos eucariotas y procariotas de secuencia completa, además de colecciones de secuencias.
Herramientas de genómica comparativa
Explore superfamilias y familias inusuales (sobre y subrepresentadas), listas y gráficos de pares de dominios adyacentes, pares de dominios únicos, combinaciones de dominios , redes de co-ocurrencia de arquitectura de dominios y distribución de dominios entre reinos taxonómicos para cada organismo.
Estadísticas del genoma
Para cada genoma: número de secuencias, número de secuencias con asignación, porcentaje de secuencias con asignación, porcentaje de cobertura total de secuencia, número de dominios asignados, número de superfamilias asignadas, número de familias asignadas, tamaño medio de superfamilia, porcentaje producido por duplicación, promedio longitud de secuencia, longitud promedio coincidente, número de pares de dominio y número de arquitecturas de dominio únicas.
Ontología de genes
Ontología genética centrada en el dominio (GO) anotada automáticamente.
Debido a la creciente brecha entre las proteínas secuenciadas y las funciones conocidas de las proteínas, es cada vez más importante desarrollar un método más automatizado para anotar funcionalmente proteínas, especialmente para proteínas con dominios conocidos. SUPERFAMILY utiliza anotaciones GO a nivel de proteína tomadas del proyecto Genome Ontology Annotation (GOA), que ofrece anotaciones GO de alta calidad directamente asociadas a proteínas en UniprotKB en un amplio espectro de especies. [15] SUPERFAMILY ha generado anotaciones GO para dominios evolutivamente cerrados (a nivel de familia SCOP) y dominios distantes (a nivel de superfamilia SCOP).
Ontología del fenotipo
Fenotipo centrado en el dominio / ontología de anatomía que incluye ontología de enfermedades, fenotipo humano, fenotipo de ratón, fenotipo de gusano, fenotipo de levadura, fenotipo de mosca, anatomía de mosca, anatomía de pez cebra, anatomía de Xenopus y planta de Arabidopsis.
Anotación de superfamilia
InterPro resúmenes para más de 1,000 superfamilias y anotación de Ontología Genética (GO) para más de 700 superfamilias. Esta característica permite la anotación directa de características, funciones y estructuras clave de una superfamilia.
Anotación funcional
Anotación funcional de superfamilias SCOP 1.73.
La base de datos SUPERFAMILY utiliza un esquema de 50 categorías de funciones detalladas que se asignan a 7 categorías de funciones generales, similar al esquema utilizado en la base de datos COG. [16] Se utilizó una función general asignada a una superfamilia para reflejar la función principal de esa superfamilia. Las categorías generales de función son:
- Información: almacenamiento, mantenimiento de código genético; Replicación y reparación de ADN; transcripción y traducción general .
- Regulación: Regulación de la expresión génica y la actividad proteica; procesamiento de información en respuesta a insumos ambientales; transducción de señales ; actividad reguladora o receptora general.
- Metabolismo : Procesos anabólicos y catabólicos ; mantenimiento celular y homeostasis ; metabolismo secundario.
- Procesos intracelulares: motilidad y división celular; muerte celular ; transporte intracelular ; secreción .
- Procesos extracelulares: procesos inter, extracelulares como la adhesión celular; proceso del organismo como la coagulación de la sangre o el sistema inmunológico.
- General: Funciones generales y múltiples; interacciones con proteínas , lípidos , moléculas pequeñas e iones .
- Otro / Desconocido: una función desconocida, proteínas virales o toxinas .
Cada superfamilia de dominio en las clases SCOP a ag se anotó manualmente utilizando este esquema [17] [18] [19] y la información utilizada fue proporcionada por SCOP , [10] InterPro , [20] [21] Pfam , [22] Swiss Prot , [23] y diversas fuentes bibliográficas.
Árboles filogenéticos
Cree árboles filogenéticos personalizados seleccionando 3 o más genomas disponibles en el sitio SUPERFAMILY. Los árboles se generan utilizando métodos de parsimonia heurística y se basan en datos de arquitectura de dominio de proteínas para todos los genomas en SUPERFAMILIA. Las combinaciones de genomas, o clados específicos, se pueden mostrar como árboles individuales.
Arquitecturas de dominio similares
Esta característica permite al usuario encontrar las 10 arquitecturas de dominio que son más similares a la arquitectura de dominio de interés.
Modelos ocultos de Markov
Produzca asignaciones de dominio SCOP para una secuencia utilizando los modelos de Markov ocultos SUPERFAMILY .
Comparación de perfiles
Encuentre coincidencias de dominio remoto cuando la búsqueda de HMM no encuentre una coincidencia significativa. Se utiliza la comparación de perfiles (PRC) [24] para alinear y puntuar dos HMM de perfil.
Servicios web
Servidor de anotación distribuido y vinculación a SUPERFAMILIA.
Descargas
Secuencias, asignaciones, modelos, base de datos MySQL y scripts: se actualizan semanalmente.
Uso en investigación
La base de datos SUPERFAMILY tiene numerosas aplicaciones de investigación y ha sido utilizada por muchos grupos de investigación para diversos estudios. Puede servir como base de datos para proteínas que el usuario desea examinar con otros métodos, o para asignar una función y estructura a una proteína nueva o no caracterizada. Un estudio encontró que SUPERFAMILY es muy hábil para asignar correctamente una función y estructura apropiadas a un gran número de dominios de función desconocida comparándolos con los modelos ocultos de Markov en las bases de datos. [25] Otro estudio utilizó SUPERFAMILY para generar un conjunto de datos de dominios de superfamilia (FSF) de 1,733 veces en el uso de una comparación de proteomas y funtomos para identificar el origen de la diversificación celular. [26]
Referencias
- ^ Wilson, D; Pethica, R; Zhou, Y; Talbot, C; Vogel, C ; Madera, M; Chotia, C ; Gough, J (enero de 2009). "SUPERFAMILIA - genómica comparativa sofisticada, minería de datos, visualización y filogenia" . Investigación de ácidos nucleicos . 37 (Problema de la base de datos): D380-6. doi : 10.1093 / NAR / GKN762 . ISSN 0305-1048 . PMC 2686452 . PMID 19036790 . Wikidata Q26781958 .
- ^ Madera, Martín; Vogel, Christine; Kummerfeld, Sarah K .; Chotia, Cyrus; Gough, Julian (1 de enero de 2004). "La base de datos SUPERFAMILY en 2004: incorporaciones y mejoras" . Investigación de ácidos nucleicos . 32 (supl. 1): D235 – D239. doi : 10.1093 / nar / gkh117 . ISSN 0305-1048 . PMC 308851 . PMID 14681402 .
- ^ Wilson, D .; Madera, M .; Vogel, C .; Chothia, C .; Gough, J. (2007). "La base de datos SUPERFAMILY en 2007: familias y funciones" . Investigación de ácidos nucleicos . 35 (Problema de la base de datos): D308 – D313. doi : 10.1093 / nar / gkl910 . PMC 1669749 . PMID 17098927 .
- ^ Gough, J. (2002). "La base de datos SUPERFAMILIA en genómica estructural" . Acta Crystallographica Sección D . 58 (Pt 11): 1897-1900. doi : 10.1107 / s0907444902015160 . PMID 12393919 .
- ^ Gough, J .; Chothia, C. (2002). "SUPERFAMILIA: HMM que representan todas las proteínas de estructura conocida. Búsquedas de secuencia SCOP, alineaciones y asignaciones de genomas" . Investigación de ácidos nucleicos . 30 (1): 268–272. doi : 10.1093 / nar / 30.1.268 . PMC 99153 . PMID 11752312 .
- ^ a b De Lima Morais, DA; Fang, H .; Rackham, OJL; Wilson, D .; Pethica, R .; Chothia, C .; Gough, J. (2010). "SUPERFAMILIA 1.75 que incluye un método de ontología génica centrada en el dominio" . Investigación de ácidos nucleicos . 39 (Problema de la base de datos): D427 – D434. doi : 10.1093 / nar / gkq1130 . PMC 3013712 . PMID 21062816 .
- ^ Oates, ME; Stahlhacke, J; Vavoulis, DV; Smithers, B; Rackham, DO; Sardar, AJ; Zaucha, J; Thurlby, N; Fang, H; Gough, J (2015). "La base de datos SUPERFAMILY 1.75 en 2014: una duplicación de datos" . Investigación de ácidos nucleicos . 43 (Problema de la base de datos): D227–33. doi : 10.1093 / nar / gku1041 . PMC 4383889 . PMID 25414345 .
- ^ a b Hubbard, TJ ; Ailey, B .; Brenner, SE ; Murzin, AG; Chothia, C. (1999). "SCOP: una base de datos de clasificación estructural de proteínas" . Investigación de ácidos nucleicos . 27 (1): 254-256. doi : 10.1093 / nar / 27.1.254 . PMC 148149 . PMID 9847194 .
- ^ Lo Conte, L .; Ailey, B .; Hubbard, TJ; Brenner, SE; Murzin, AG; Chothia, C. (2000). "SCOP: una base de datos de clasificación estructural de proteínas" . Investigación de ácidos nucleicos . 28 (1): 257–259. doi : 10.1093 / nar / 28.1.257 . PMC 102479 . PMID 10592240 .
- ^ a b Andreeva, Antonina; Howorth, Dave; Brenner, Steven E .; Hubbard, Tim JP; Chotia, Cyrus; Murzin, Alexey G. (1 de enero de 2004). "Base de datos SCOP en 2004: mejoras integran estructura y secuencia de datos de familia" . Investigación de ácidos nucleicos . 32 (Problema de la base de datos): D226 – D229. doi : 10.1093 / nar / gkh039 . ISSN 0305-1048 . PMC 308773 . PMID 14681400 .
- ^ Dayhoff, MO; McLaughlin, PJ; Barker, WC; Hunt, LT (1 de abril de 1975). "Evolución de secuencias dentro de superfamilias de proteínas". Naturwissenschaften . 62 (4): 154-161. Código bibliográfico : 1975NW ..... 62..154D . doi : 10.1007 / BF00608697 . ISSN 0028-1042 .
- ^ Gough, J .; Karplus, K .; Hughey, R .; Chothia, C. (2001). "Asignación de homología a secuencias del genoma utilizando una biblioteca de modelos de Markov ocultos que representan todas las proteínas de estructura conocida1". Revista de Biología Molecular . 313 (4): 903–919. CiteSeerX 10.1.1.144.6577 . doi : 10.1006 / jmbi.2001.5080 . PMID 11697912 .
- ^ Karplus, K .; Barrett, C .; Hughey, R. (1 de enero de 1998). "Modelos ocultos de Markov para la detección de homologías de proteínas remotas" . Bioinformática . 14 (10): 846–856. doi : 10.1093 / bioinformatics / 14.10.846 . ISSN 1367-4803 . PMID 9927713 .
- ^ Botstein, D .; Cherry, JM; Ashburner, M .; Ball, CA; Blake, JA; Butler, H .; Davis, AP; Dolinski, K .; Dwight, SS; Eppig, JT; Harris, MA; Hill, DP; Issel-Tarver, L .; Kasarskis, A .; Lewis, S .; Matese, JC; Richardson, JE; Ringwald, M .; Rubin, GM ; Sherlock, G. (2000). "Ontología genética: herramienta para la unificación de la biología. El Consorcio de Ontología Genética" . Genética de la naturaleza . 25 (1): 25-29. doi : 10.1038 / 75556 . PMC 3037419 . PMID 10802651 .
- ^ Barrell, Daniel; Dimmer, Emily; Huntley, Rachael P .; Binns, David; O'Donovan, Claire; Apweiler, Rolf (1 de enero de 2009). "La base de datos de GOA en 2009: un recurso integrado de anotación de ontología genética" . Investigación de ácidos nucleicos . 37 (supl. 1): D396 – D403. doi : 10.1093 / nar / gkn803 . ISSN 0305-1048 . PMC 2686469 . PMID 18957448 .
- ^ Tatusov, Roman L; Fedorova, Natalie D; Jackson, John D; Jacobs, Aviva R; Kiryutin, Boris; Koonin, Eugene V; Krylov, Dmitri M; Mazumder, Raja; Mekhedov, Sergei L (11 de septiembre de 2003). "La base de datos COG: una versión actualizada incluye eucariotas" . BMC Bioinformática . 4 : 41. doi : 10.1186 / 1471-2105-4-41 . ISSN 1471-2105 . PMC 222959 . PMID 12969510 .
- ^ Vogel, Christine; Berzuini, Carlo; Bashton, Matthew; Gough, Julian; Teichmann, Sarah A. (20 de febrero de 2004). "Supra-dominios: unidades evolutivas más grandes que dominios de proteínas individuales". Revista de Biología Molecular . 336 (3): 809–823. CiteSeerX 10.1.1.116.6568 . doi : 10.1016 / j.jmb.2003.12.026 . ISSN 0.022 hasta 2.836 . PMID 15095989 .
- ^ Vogel, Christine; Teichmann, Sarah A .; Pereira-Leal, José (11 de febrero de 2005). "La relación entre la duplicación de dominios y la recombinación". Revista de Biología Molecular . 346 (1): 355–365. doi : 10.1016 / j.jmb.2004.11.050 . ISSN 0.022 hasta 2.836 . PMID 15663950 .
- ^ Vogel, Christine; Chothia, Cyrus (1 de mayo de 2006). "Expansiones de la familia de proteínas y complejidad biológica" . Biología Computacional PLoS . 2 (5): e48. Código Bibliográfico : 2006PLSCB ... 2 ... 48V . doi : 10.1371 / journal.pcbi.0020048 . ISSN 1553-734X . PMC 1464810 . PMID 16733546 .
- ^ Mulder, Nicola J .; Apweiler, Rolf; Attwood, Teresa K .; Bairoch, Amos; Barrell, Daniel; Bateman, Alex; Binns, David; Biswas, Margaret; Bradley, Paul (1 de enero de 2003). "La base de datos de InterPro, 2003 trae una mayor cobertura y nuevas funciones" . Investigación de ácidos nucleicos . 31 (1): 315–318. doi : 10.1093 / nar / gkg046 . ISSN 0305-1048 . PMC 165493 . PMID 12520011 .
- ^ Mulder, Nicola J .; Apweiler, Rolf; Attwood, Teresa K .; Bairoch, Amos; Bateman, Alex; Binns, David; Bradley, Paul; Bork, Peer; Bucher, Phillip (1 de enero de 2005). "InterPro, progreso y estado en 2005" . Investigación de ácidos nucleicos . 33 (Problema de la base de datos): D201 – D205. doi : 10.1093 / nar / gki106 . ISSN 0305-1048 . PMC 540060 . PMID 15608177 .
- ^ Finn, Robert D .; Mistry, Jaina; Schuster-Böckler, Benjamin; Griffiths-Jones, Sam; Hollich, Volker; Lassmann, Timo; Moxon, Simon; Marshall, Mhairi; Khanna, Ajay (1 de enero de 2006). "Pfam: clanes, herramientas y servicios web" . Investigación de ácidos nucleicos . 34 (Problema de la base de datos): D247 – D251. doi : 10.1093 / nar / gkj149 . ISSN 0305-1048 . PMC 1347511 . PMID 16381856 .
- ^ Boeckmann, Brigitte; Blatter, Marie-Claude; Famiglietti, Livia; Hinz, Úrsula; Lane, Lydie; Roechert, Bernd; Bairoch, Amos (1 de noviembre de 2005). "Variedad de proteínas y diversidad funcional: anotación Swiss-Prot en su contexto biológico". Comptes Rendus Biologies . 328 (10–11): 882–899. doi : 10.1016 / j.crvi.2005.06.001 . ISSN 1631-0691 . PMID 16286078 .
- ^ Madera, Martín (15 de noviembre de 2008). "Profile Comparer: un programa para puntuar y alinear perfiles de modelos ocultos de Markov" . Bioinformática . 24 (22): 2630–2631. doi : 10.1093 / bioinformatics / btn504 . ISSN 1367-4803 . PMC 2579712 . PMID 18845584 .
- ^ Mudgal, Richa; Sandhya, Sankaran; Chandra, Nagasuma; Srinivasan, Narayanaswamy (31 de julio de 2015). "Des-DUFing los DUF: descifrar relaciones evolutivas distantes de dominios de función desconocida utilizando métodos sensibles de detección de homología" . Biology Direct . 10 (1): 38. doi : 10.1186 / s13062-015-0069-2 . PMC 4520260 . PMID 26228684 .
- ^ Nasir, Arshan; Caetano-Anollés, Gustavo (2013). "El análisis comparativo de proteomas y funcionales proporciona información sobre los orígenes de la diversificación celular" . Archaea . PMC 3892558 .
enlaces externos
- Base de datos SUPERFAMILY
- SCOP: Clasificación estructural de proteínas