La base de datos de Clasificación Estructural de Proteínas (SCOP) es una clasificación en gran parte manual de dominios estructurales de proteínas basada en similitudes de sus estructuras y secuencias de aminoácidos . Una motivación para esta clasificación es determinar la relación evolutiva entre proteínas. Las proteínas con las mismas formas pero con poca secuencia o similitud funcional se colocan en diferentes superfamilias , y se supone que solo tienen un ancestro común muy distante. Las proteínas que tienen la misma forma y alguna similitud de secuencia y / o función se colocan en "familias" y se supone que tienen un ancestro común más cercano.
Contenido | |
---|---|
Descripción | Clasificación de la estructura de proteínas |
Contacto | |
Centro de Investigación | Laboratorio de Biología Molecular |
Autores | Alexey G. Murzin, Steven E. Brenner, Tim JP Hubbard y Cyrus Chothia |
Cita primaria | PMID 7723011 |
Fecha de lanzamiento | 1994 |
Acceso | |
Sitio web | http://scop.mrc-lmb.cam.ac.uk/scop/ |
Diverso | |
Versión | 1,75 (junio de 2009; 110.800 dominios en 38.221 estructuras clasificadas como 3.902 familias) [1] |
Política de curación | manual |
Contenido | |
---|---|
Descripción | SCOP - extendido |
Contacto | |
Autores | Naomi K. Fox, Steven E. Brenner y John-Marc Chandonia |
Cita primaria | PMID 24304899 |
Acceso | |
Sitio web | https://scop.berkeley.edu |
Diverso | |
Versión | 2.07 (marzo de 2018; 276,231 dominios en 87,224 estructuras clasificadas como 4,919 familias) [2] |
Política de curación | manual (nuevas clasificaciones) y automatizado (nuevas estructuras, BLAST ) |
De manera similar a las bases de datos CATH y Pfam , SCOP proporciona una clasificación de dominios estructurales individuales de proteínas, en lugar de una clasificación de las proteínas completas que pueden incluir un número significativo de dominios diferentes.
La base de datos SCOP es de libre acceso en Internet. SCOP fue creado en 1994 en el Centro de Ingeniería de Proteínas y el Laboratorio de Biología Molecular . [3] Fue mantenido por Alexey G. Murzin y sus colegas en el Centro de Ingeniería de Proteínas hasta su cierre en 2010 y posteriormente en el Laboratorio de Biología Molecular en Cambridge, Inglaterra. [4] [5] [6] [1]
El trabajo en SCOP 1.75 se interrumpió en 2014. Desde entonces, el equipo de SCOPe de UC Berkeley ha sido responsable de actualizar la base de datos de manera compatible, con una combinación de métodos automáticos y manuales. En abril de 2019 [actualizar], la última versión es SCOPe 2.07 (marzo de 2018). [2]
La nueva base de datos Structural Classification of Proteins versión 2 (SCOP2) se lanzó a principios de 2020. La nueva actualización incluía un esquema de base de datos mejorado, una nueva API y una interfaz web modernizada. Esta fue la actualización más significativa del grupo de Cambridge desde SCOP 1.75 y se basa en los avances en el esquema del prototipo SCOP 2. [7]
Organización jerárquica
La fuente de estructuras proteicas es el Protein Data Bank . La unidad de clasificación de la estructura en SCOP es el dominio proteico . Lo que los autores de SCOP quieren decir con "dominio" se sugiere por su afirmación de que las proteínas pequeñas y la mayoría de las de tamaño mediano tienen un solo dominio, [8] y por la observación de que la hemoglobina humana, [9] que tiene una estructura α 2 β 2 , se le asignan dos dominios SCOP, uno para la subunidad α y otro para la subunidad β.
Las formas de los dominios se denominan "pliegues" en SCOP. Los dominios que pertenecen al mismo pliegue tienen las mismas estructuras secundarias principales en la misma disposición con las mismas conexiones topológicas. Se dan 1195 pliegues en la versión 1.75 de SCOP. Se dan breves descripciones de cada pliegue. Por ejemplo, el pliegue "similar a la globina" se describe como núcleo: 6 hélices; hoja doblada, parcialmente abierta . El pliegue al que pertenece un dominio se determina mediante inspección, más que mediante software.
Los niveles de la versión 1.75 de SCOP son los siguientes.
- Clase : Tipos de pliegues, por ejemplo, hojas beta.
- Pliegue: las diferentes formas de dominios dentro de una clase.
- Superfamilia : los dominios de un pliegue se agrupan en superfamilias, que tienen al menos un ancestro común distante.
- Familia : los dominios de una superfamilia se agrupan en familias, que tienen un ancestro común más reciente.
- Dominio proteico: los dominios de las familias se agrupan en dominios proteicos, que son esencialmente la misma proteína.
- Especies: los dominios de los "dominios de proteínas" se agrupan según la especie.
- Dominio: parte de una proteína. Para proteínas simples, puede ser la proteína completa.
Clases
Los grupos más amplios en la versión 1.75 de SCOP son las clases de pliegues de proteínas . Estas clases agrupan estructuras con una composición de estructura secundaria similar, pero diferentes estructuras terciarias generales y orígenes evolutivos. Esta es la "raíz" de nivel superior de la clasificación jerárquica de SCOP.
- Todas las proteínas alfa [46456] (284): dominios formados por hélices alfa
- Todas las proteínas beta [48724] (174): dominios que constan de hojas beta
- Proteínas alfa y beta (a / b) [51349] (147): principalmente hojas beta paralelas (unidades beta-alfa-beta)
- Proteínas alfa y beta (a + b) [53931] (376): principalmente láminas beta antiparalelas (regiones alfa y beta segregadas)
- Proteínas multidominio (alfa y beta) [56572] (66): pliegues que constan de dos o más dominios que pertenecen a clases diferentes
- proteínas y péptidos de la membrana y de la superficie celular [56835] (58): No incluye proteínas del sistema inmunológico
- Proteínas pequeñas [56992] (90): generalmente dominadas por ligando metálico , cofactor y / o puentes disulfuro
- proteínas en espiral [57942] (7): No es una clase verdadera
- Estructuras de proteínas de baja resolución [58117] (26): péptidos y fragmentos. No es una verdadera clase
- Péptidos [58231] (121): péptidos y fragmentos. No es una verdadera clase.
- Proteínas diseñadas [58788] (44): estructuras experimentales de proteínas con secuencias esencialmente no naturales. No es una verdadera clase
El número entre paréntesis, llamado un "sunid", es un S COP ONU número entero ique Identificación del entifier para cada nodo en la jerarquía SCOP. El número entre paréntesis indica cuántos elementos hay en cada categoría. Por ejemplo, hay 284 pliegues en la clase "Todas las proteínas alfa". Cada miembro de la jerarquía es un vínculo al siguiente nivel de la jerarquía.
Pliegues
Cada clase contiene varios pliegues distintos. Este nivel de clasificación indica una estructura terciaria similar, pero no necesariamente una relación evolutiva. Por ejemplo, la clase "Todas las proteínas α" contiene> 280 pliegues distintos, que incluyen: tipo globina (núcleo: 6 hélices; hoja plegada, parcialmente abierta), horquilla alfa larga (2 hélices; horquilla antiparalela, giro a la izquierda ) y dominios de dockerin de Tipo I (repetición en tándem de dos motivos de hélice de bucle de unión a calcio, distintos de la mano EF).
Superfamilias
Los dominios dentro de un pliegue se clasifican además en superfamilias . Esta es una agrupación más grande de proteínas para las que la similitud estructural es suficiente para indicar una relación evolutiva y, por lo tanto, comparten un ancestro común. Sin embargo, se presume que este ancestro es distante, porque los diferentes miembros de una superfamilia tienen identidades de secuencia baja . Por ejemplo, las dos superfamilias del pliegue "similar a Globin" son: la superfamilia Globin y la superfamilia de ferredoxina alfa-helicoidal (contiene dos grupos de Fe4-S4).
Familias
Las familias de proteínas están más relacionadas que las superfamilias. Los dominios se colocan en la misma familia si tienen:
- > 30% de identidad de secuencia
- alguna identidad de secuencia (por ejemplo, 15%) y realizan la misma función
La similitud en secuencia y estructura es evidencia de que estas proteínas tienen una relación evolutiva más cercana que las proteínas de la misma superfamilia. Las herramientas de secuencia, como BLAST , se utilizan para ayudar a colocar dominios en superfamilias y familias. Por ejemplo, las cuatro familias de la superfamilia "similar a la globina" del pliegue "similar a la globina" son hemoglobina truncada (carecen de la primera hélice), minihemoglobina de tejido nervioso (carecen de la primera hélice pero por lo demás son más similares a las globinas convencionales que las truncadas), globinas (proteína de unión a hemo) y proteínas de ficobilisoma similares a ficocianina (oligómeros de dos tipos diferentes de subunidades similares a globina que contienen dos hélices adicionales en el extremo N que se unen a un cromóforo de bilina ). A cada familia en SCOP se le asigna una cadena de clasificación concisa, sccs , donde la letra identifica la clase a la que pertenece el dominio; los siguientes números enteros identifican el pliegue, la superfamilia y la familia, respectivamente (por ejemplo, a.1.1.2 para la familia "Globin"). [10]
Dominios de entrada de PDB
Un "TaxId" es el número de identificación de la taxonomía y los enlaces al navegador de taxonomía del NCBI , que proporciona más información sobre las especies a las que pertenece la proteína. Al hacer clic en una especie o isoforma, aparece una lista de dominios. Por ejemplo, la "cadena alfa de hemoglobina de la proteína humana (Homo sapiens)" tiene> 190 estructuras proteicas resueltas, como 2dn3 (complejado con cmo) y 2dn1 (complejado con hem, mbn, oxy). Se supone que al hacer clic en los números de PDB se muestra la estructura de la molécula, pero los enlaces están actualmente rotos (los enlaces funcionan en pre-SCOP).
Ejemplo
La mayoría de las páginas de SCOP contienen un cuadro de búsqueda. Al ingresar "tripsina + humana" se recuperan varias proteínas, incluida la proteína tripsinógeno de los humanos. Al seleccionar esa entrada, se muestra una página que incluye el "linaje", que se encuentra en la parte superior de la mayoría de las páginas de SCOP.
- Linaje tripsonógeno humano
- Raíz: scop
- Clase: todas las proteínas beta [48724]
- Pliegue: serina proteasas similares a tripsina [50493]
- barril, cerrado; n = 6, S = 8; clave griega
- duplicación: consta de dos dominios del mismo pliegue
- Superfamilia: serina proteasas similares a tripsina [50494]
- Familia: proteasas eucariotas [50514]
- Proteína: tripsina (ogen) [50515]
- Especie: Humano (Homo sapiens) [TaxId: 9606] [50519]
La búsqueda de "Subtilisina" devuelve la proteína, "Subtilisina de Bacillus subtilis, carlsberg", con el siguiente linaje.
- Subtilisina de Bacillus subtilis, linaje carlsberg
- Raíz: scop
- Clase: Proteínas alfa y beta (a / b) [51349]
- Principalmente hojas beta paralelas (unidades beta-alfa-beta)
- Pliegue: similar a la subtilisina [52742]
- 3 capas: a / b / a, lámina beta paralela de 7 hebras, pedido 2314567; Conexión cruzada para zurdos entre los hilos 2 y 3
- Superfamilia: similar a la subtilisina [52743]
- Familia: Subtilases [52744]
- Proteína: subtilisina [52745]
- Especie: Bacillus subtilis, carlsberg [TaxId: 1423] [52746]
Aunque ambas proteínas son proteasas, ni siquiera pertenecen al mismo pliegue, lo que es consistente con que sean un ejemplo de evolución convergente .
Comparación con otros sistemas de clasificación
La clasificación SCOP depende más de decisiones manuales que la clasificación semiautomática de CATH , su principal rival. La experiencia humana se utiliza para decidir si ciertas proteínas son evolutiva relacionada y por lo tanto debe ser asignado a la misma superfamilia , o su similitud es el resultado de limitaciones estructurales y por lo tanto pertenecen a la misma pliegue . Otra base de datos, FSSP , se genera de forma puramente automática (incluidas las actualizaciones automáticas periódicas) pero no ofrece ninguna clasificación, lo que permite al usuario sacar su propia conclusión sobre la importancia de las relaciones estructurales basadas en las comparaciones por pares de estructuras de proteínas individuales.
Sucesores de SCOP
Para 2009, la base de datos SCOP original clasificó manualmente 38.000 entradas de PDB en una estructura estrictamente jerárquica. Con el ritmo acelerado de las publicaciones sobre estructuras de proteínas, la automatización limitada de la clasificación no pudo mantenerse al día, lo que dio lugar a un conjunto de datos no exhaustivo. La base de datos Structural Classification of Proteins extended (SCOPe) se lanzó en 2012 con una automatización mucho mayor del mismo sistema jerárquico y es totalmente compatible con la versión 1.75 de SCOP. En 2014, se reintrodujo la curación manual en SCOPe para mantener una asignación de estructura precisa. A febrero de 2015, SCOPe 2.05 clasificó 71,000 de las 110,000 entradas totales del AP. [11]
El prototipo SCOP2 era una versión beta de la clasificación estructural de proteínas y el sistema de clasificación que tenía como objetivo aumentar la complejidad evolutiva inherente a la evolución de la estructura de las proteínas. [12] Por lo tanto, no es una jerarquía simple, sino una red de gráficos acíclicos dirigida que conecta superfamilias de proteínas que representan relaciones estructurales y evolutivas como permutaciones circulares , fusión de dominios y desintegración de dominios. En consecuencia, los dominios no están separados por límites fijos estrictos, sino que están definidos por sus relaciones con las otras estructuras más similares. El prototipo se utilizó para el desarrollo de la base de datos SCOP versión 2. [7] La versión 2 de SCOP, lanzada en enero de 2020, contiene 5134 familias y 2485 superfamilias en comparación con 3902 familias y 1962 superfamilias en SCOP 1.75. Los niveles de clasificación organizan más de 41 000 dominios no redundantes que representan más de 504 000 estructuras de proteínas.
La base de datos de la Clasificación Evolutiva de Dominios de Proteínas (ECOD) publicada en 2014 es similar a la expansión SCOPe de la versión 1.75 de SCOP. A diferencia del SCOPe compatible, cambia el nombre de la jerarquía class-fold-superfamily-family a una agrupación de arquitectura-X-homología-topología-familia (A-XHTF), con el último nivel definido principalmente por Pfam y complementado por agrupación de HHsearch para secuencias no categorizadas . [13] ECOD tiene la mejor cobertura de AP de los tres sucesores: cubre todas las estructuras de AP y se actualiza quincenalmente. [14] El mapeo directo a Pfam ha demostrado ser útil para los curadores de Pfam que utilizan la categoría de nivel de homología para complementar su agrupación de "clanes". [15]
Ver también
- Alineación estructural
- CATH
- FSSP
- SUPERFAMILIA
- Pfam
Referencias
- ^ a b Andreeva A, Howorth D, Chandonia JM, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (enero de 2008). "Crecimiento de datos y su impacto en la base de datos SCOP: nuevos desarrollos" . Investigación de ácidos nucleicos . 36 (Problema de la base de datos): D419-25. doi : 10.1093 / nar / gkm993 . PMC 2238974 . PMID 18000004 .
- ^ a b Chandonia JM, Fox NK, Brenner SE (enero de 2019). "SCOPe: clasificación de grandes estructuras macromoleculares en la clasificación estructural de bases de datos extendidas por proteínas" . Investigación de ácidos nucleicos . 47 (D1): D475 – D481. doi : 10.1093 / nar / gky1134 . PMC 6323910 . PMID 30500919 .
- ^ Murzin AG, Brenner SE, Hubbard T, Chothia C (abril de 1995). "SCOP: una base de datos de clasificación estructural de proteínas para la investigación de secuencias y estructuras". Revista de Biología Molecular . 247 (4): 536–40. doi : 10.1006 / jmbi.1995.0159 . PMID 7723011 .
- ^ Hubbard TJ , Ailey B, Brenner SE , Murzin AG, Chothia C (enero de 1999). "SCOP: una base de datos de clasificación estructural de proteínas" . Investigación de ácidos nucleicos . 27 (1): 254–6. doi : 10.1093 / nar / 27.1.254 . PMC 148149 . PMID 9847194 .
- ^ Lo Conte L, Ailey B, Hubbard TJ, Brenner SE, Murzin AG, Chothia C (enero de 2000). "SCOP: una clasificación estructural de la base de datos de proteínas" . Investigación de ácidos nucleicos . 28 (1): 257–9. doi : 10.1093 / nar / 28.1.257 . PMC 102479 . PMID 10592240 .
- ^ Andreeva A, Howorth D, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (enero de 2004). "Base de datos SCOP en 2004: mejoras integran estructura y secuencia de datos de familia" . Investigación de ácidos nucleicos . 32 (Problema de la base de datos): D226-9. doi : 10.1093 / nar / gkh039 . PMC 308773 . PMID 14681400 .
- ^ a b Andreeva A, Kulesha E, Gough J, Murzin AG (enero de 2020). "Base de datos SCOP en 2020: clasificación ampliada de dominios de familias y superfamilias representativas de estructuras proteicas conocidas" . Investigación de ácidos nucleicos . 48 (Problema de la base de datos): D376 – D382. doi : 10.1093 / nar / gkz1064 . PMC 7139981 . PMID 31724711 .
- ^ Murzin AG, Brenner SE , Hubbard T , Chothia C (abril de 1995). "SCOP: una base de datos de clasificación estructural de proteínas para la investigación de secuencias y estructuras" (PDF) . Revista de Biología Molecular . 247 (4): 536–40. doi : 10.1016 / S0022-2836 (05) 80134-2 . PMID 7723011 . Archivado desde el original (PDF) el 26 de abril de 2012.
- ^ PDB : 2DN1 ; Park SY, Yokoyama T, Shibayama N, Shiro Y, Tame JR (julio de 2006). "1.25 Estructuras cristalinas de una resolución de la hemoglobina humana en las formas oxi, desoxi y carbonmonoxi". Revista de Biología Molecular . 360 (3): 690–701. doi : 10.1016 / j.jmb.2006.05.036 . PMID 16765986 .
- ^ Lo Conte L, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (enero de 2002). "Base de datos SCOP en 2002: las mejoras se adaptan a la genómica estructural" . Investigación de ácidos nucleicos . 30 (1): 264–7. doi : 10.1093 / nar / 30.1.264 . PMC 99154 . PMID 11752311 .
- ^ "¿Cuál es la relación entre SCOP, SCOPe y SCOP2" . scop.berkeley.edu . Consultado el 22 de agosto de 2015 .
- ^ Andreeva A, Howorth D, Chothia C, Kulesha E, Murzin AG (enero de 2014). "Prototipo de SCOP2: un nuevo enfoque para la minería de estructuras de proteínas" . Investigación de ácidos nucleicos . 42 (Problema de la base de datos): D310-4. doi : 10.1093 / nar / gkt1242 . PMC 3964979 . PMID 24293656 .
- ^ Cheng H, Schaeffer RD, Liao Y, Kinch LN, Pei J, Shi S, Kim BH, Grishin NV (diciembre de 2014). "ECOD: una clasificación evolutiva de dominios de proteínas" . PLOS Biología Computacional . 10 (12): e1003926. Código bibliográfico : 2014PLSCB..10E3926C . doi : 10.1371 / journal.pcbi.1003926 . PMC 4256011 . PMID 25474468 .
- ^ "Clasificación evolutiva de dominios de proteínas" . prodata.swmed.edu . Consultado el 18 de mayo de 2019 .
- ^ El-Gebali S, Mistry J, Bateman A, Eddy SR, Luciani A, Potter SC, Qureshi M, Richardson LJ, Salazar GA, Smart A, Sonnhammer EL, Hirsh L, Paladin L, Piovesan D, Tosatto SC, Finn RD ( Enero de 2019). "La base de datos de familias de proteínas Pfam en 2019" . Investigación de ácidos nucleicos . 47 (D1): D427 – D432. doi : 10.1093 / nar / gky995 . PMC 6324024 . PMID 30357350 .
enlaces externos
- Clasificación estructural de proteínas (SCOP 2): clasificación manual de dominios representativos, actualizada periódicamente por los autores de SCOP
- Clasificación estructural de proteínas (SCOP 1.75): sitio heredado de SCOP 1.75, ya no actualizado
- Clasificación estructural de proteínas extendida (SCOPe): el sucesor más automatizado de la versión 1.75 de SCOP
- Clasificación evolutiva de dominios de proteínas (ECOD): clasificación evolutiva basada en la versión 1.75 de SCOP y Pfam
- Clasificación estructural de proteínas 2 (prototipo SCOP2): sitio heredado del prototipo SCOP 2, ya no actualizado
- SUPERFAMILIA : biblioteca de HMM que representan superfamilias SCOP y base de datos de anotaciones (superfamilia y familia) para todos los organismos completamente secuenciados
- Clasificación de la estructura de proteínas : un capítulo de un libro que analiza en detalle las diferentes clasificaciones de proteínas.