La base de datos CATH Protein Structure Classification es un recurso en línea gratuito y disponible al público que proporciona información sobre las relaciones evolutivas de los dominios de proteínas . Fue creado a mediados de la década de 1990 por la profesora Christine Orengo y sus colegas, incluidos Janet Thornton y David Jones , [2] y continúa siendo desarrollado por el grupo Orengo del University College London . CATH comparte muchas características generales con el recurso SCOP , sin embargo, también hay muchas áreas en las que la clasificación detallada difiere mucho. [3] [4] [5] [6]
Contenido | |
---|---|
Descripción | Clasificación de la estructura de proteínas |
Contacto | |
Centro de Investigación | University College de Londres |
Laboratorio | Instituto de Biología Estructural y Molecular |
Cita primaria | Dawson y col. (2016) [1] |
Fecha de lanzamiento | 1997 |
Acceso | |
Sitio web | cathdb |
URL de descarga | cathdb |
Diverso | |
Frecuencia de publicación de datos | CATH-B se libera a diario. Los lanzamientos oficiales son aproximadamente anuales. |
Versión | 4.3 |
Organización jerárquica
Las estructuras tridimensionales de proteínas determinadas experimentalmente se obtienen del Protein Data Bank y se dividen en sus cadenas polipeptídicas consecutivas , cuando corresponda. Los dominios de proteínas se identifican dentro de estas cadenas utilizando una mezcla de métodos automáticos y curación manual.
Luego, los dominios se clasifican dentro de la jerarquía estructural CATH: en el nivel de Clase (C), los dominios se asignan de acuerdo con su contenido de estructura secundaria , es decir, todos alfa , todos beta , una mezcla de alfa y beta, o poca estructura secundaria; en el nivel de Arquitectura (A), la información sobre la disposición de la estructura secundaria en el espacio tridimensional se utiliza para la asignación; en el nivel Topología / pliegue (T), se utiliza información sobre cómo se conectan y organizan los elementos de la estructura secundaria; las asignaciones se hacen al nivel de superfamilia homóloga (H) si hay buena evidencia de que los dominios están relacionados por evolución [2], es decir, son homólogos.
# | Nivel | Descripción |
---|---|---|
1 | C lass | el contenido general de la estructura secundaria del dominio. (Equivalente a la clase SCOP ) |
2 | Una arquitectura | alta similitud estructural pero sin evidencia de homología . (Equivalente al nivel 'fold' en SCOP) |
3 | T opología / pliegue | una agrupación a gran escala de topologías que comparten características estructurales particulares |
4 | H superfamilia omologous | indicativo de una relación evolutiva demostrable. (Equivalente a la superfamilia SCOP ) |
El recurso hermano de CATH, Gene3D, proporciona datos de secuencia adicionales para dominios sin estructuras determinadas experimentalmente, que se utilizan para poblar las superfamilias homólogas. Las secuencias de proteínas de UniProtKB y Ensembl se escanean contra CATH HMM para predecir los límites de las secuencias de dominio y realizar asignaciones de superfamilias homólogas.
Lanzamientos
El equipo de CATH tiene como objetivo proporcionar publicaciones oficiales de la clasificación CATH cada 12 meses. Este proceso de publicación es importante porque permite la provisión de validación interna, anotaciones y análisis adicionales. Sin embargo, puede significar que hay un retraso de tiempo entre la aparición de nuevas estructuras en la PDB y el último lanzamiento oficial de CATH.
Para abordar este problema: CATH-B proporciona una cantidad limitada de información a las anotaciones de dominio más recientes (por ejemplo, límites de dominio y clasificaciones de superfamilias).
La última versión de CATH-Gene3D (v4.3) se lanzó en diciembre de 2020 y consta de:
Software de código abierto
CATH es un proyecto de software de código abierto , con desarrolladores que desarrollan y mantienen una serie de herramientas de código abierto. [7] CATH mantiene una lista de tareas pendientes en GitHub para permitir a los usuarios externos crear y realizar un seguimiento de los problemas relacionados con la clasificación de la estructura de la proteína CATH.
Referencias
- ↑ a b c d e Dawson, NL; Lewis, TE; Das, S; Lees, JG; Lee, D; Ashford, P; Orengo, CA; Sillitoe, I (28 de noviembre de 2016). "CATH: un recurso ampliado para predecir la función de las proteínas a través de la estructura y la secuencia" . Investigación de ácidos nucleicos . 45 (D1): D289 – D295. doi : 10.1093 / nar / gkw1098 . PMC 5210570 . PMID 27899584 .
- ^ a b Orengo, CA; Michie, AD; Jones, S; Jones, DT ; Swindells, MB; Thornton, JM (1997). "CATH - una clasificación jerárquica de estructuras de dominio de proteínas". Estructura . 5 (8): 1093-1109. doi : 10.1016 / S0969-2126 (97) 00260-8 . ISSN 0969-2126 . PMID 9309224 .
- ^ "CATH: Base de datos de clasificación de estructura de proteínas en UCL" . Cathdb.info . Consultado el 9 de marzo de 2017 .
- ^ "CATH" . Cathdb.info . Consultado el 9 de marzo de 2017 .
- ^ "Base de datos CATH (@CATHDatabase)" . Twitter . Consultado el 9 de marzo de 2017 .
- ^ Pearl, FMG (2003). "La base de datos CATH: un recurso de familia de proteínas ampliada para la genómica estructural y funcional" . Investigación de ácidos nucleicos . 31 (1): 452–455. doi : 10.1093 / nar / gkg062 . ISSN 1362-4962 . PMC 165509 . PMID 12520050 .
- ^ "Herramientas" . cathdb.info . Consultado el 18 de diciembre de 2016 .