La Evaluación Crítica de la Predicción de la Estructura de la Proteína ( CASP ) es un experimento a nivel mundial y comunitario para la predicción de la estructura de la proteína que se lleva a cabo cada dos años desde 1994. [1] CASP brinda a los grupos de investigación la oportunidad de probar objetivamente sus métodos de predicción de la estructura y ofrece un análisis independiente. evaluación del estado del arte en el modelado de estructuras de proteínas para la comunidad investigadora y los usuarios de software. Aunque el objetivo principal de CASP es ayudar a avanzar en los métodos de identificación de proteínasestructura tridimensional de su secuencia de aminoácidos, muchos ven el experimento más como un "campeonato mundial" en este campo de la ciencia. Más de 100 grupos de investigación de todo el mundo participan en CASP de forma regular y no es raro que grupos enteros suspendan sus otras investigaciones durante meses mientras se concentran en preparar sus servidores para el experimento y realizar las predicciones detalladas.
Selección de proteínas diana
Para asegurar que ningún predictor pueda tener información previa sobre la estructura de una proteína que lo pondría en una ventaja, es importante que el experimento se lleve a cabo de manera doble ciego: ni los predictores ni los organizadores y evaluadores conocen las estructuras de las proteínas diana en el momento en que se hacen las predicciones. Los objetivos para la predicción de estructuras son estructuras que pronto se resolverán mediante cristalografía de rayos X o espectroscopia de RMN, o estructuras que se acaban de resolver (principalmente por uno de los centros de genómica estructural ) y que el Protein Data Bank mantiene en espera . Si se encuentra que la secuencia dada está relacionada por descendencia común con una secuencia de proteína de estructura conocida (llamada plantilla), se puede usar un modelo de proteína comparativo para predecir la estructura terciaria . Las plantillas se pueden encontrar usando métodos de alineación de secuencias (por ejemplo, BLAST o HHsearch ) o métodos de enhebrado de proteínas , que son mejores para encontrar plantillas relacionadas lejanamente. De lo contrario, se debe aplicar la predicción de la estructura de la proteína de novo (por ejemplo, Rosetta), que es mucho menos confiable pero a veces puede producir modelos con el pliegue correcto (generalmente, para proteínas de menos de 100-150 aminoácidos). Verdaderamente los nuevos pliegues se están volviendo bastante raros entre los objetivos, [2] [3] haciendo que esa categoría sea más pequeña de lo deseable.
Evaluación
El método principal de evaluación [4] es una comparación de las posiciones del carbono α del modelo predicho con las de la estructura objetivo. La comparación se muestra visualmente mediante gráficos acumulativos de distancias entre pares de equivalentes de carbono α en la alineación del modelo y la estructura, como se muestra en la figura (un modelo perfecto permanecería en cero en toda su extensión), y se asigna una puntuación numérica GDT-TS (Prueba de distancia global - Puntuación total) que describe el porcentaje de residuos bien modelados en el modelo con respecto al objetivo. [5] Los evaluadores también evalúan visualmente el modelado libre (sin plantilla o de novo ), ya que las puntuaciones numéricas no funcionan tan bien para encontrar semejanzas sueltas en los casos más difíciles. [6] Las predicciones basadas en plantillas de alta precisión se evaluaron en CASP7 en función de si funcionaban para la fase de reemplazo molecular de la estructura cristalina objetivo [7] y los éxitos se siguieron más tarde, [8] y por modelo completo (no solo α- carbono ) calidad del modelo y coincidencia completa del modelo con el objetivo en CASP8. [9]
La evaluación de los resultados se lleva a cabo en las siguientes categorías de predicción:
- predicción de la estructura terciaria (todos los CASP)
- predicción de estructura secundaria (eliminado después de CASP5)
- predicción de complejos de estructura (solo CASP2; un experimento separado, CAPRI, lleva a cabo este tema)
- predicción de contacto residuo-residuo (a partir de CASP4)
- predicción de regiones desordenadas (comenzando CASP5)
- predicción de límites de dominio (CASP6 – CASP8)
- predicción de función (iniciando CASP6)
- evaluación de la calidad del modelo (a partir de CASP7)
- refinamiento del modelo (a partir de CASP7)
- predicción basada en plantillas de alta precisión (a partir de CASP7)
La categoría de predicción de la estructura terciaria se subdividió en:
- modelado de homología
- reconocimiento de pliegues (también llamado enhebrado de proteínas ; tenga en cuenta que esto es incorrecto ya que el enhebrado es un método)
- La predicción de estructura de novo , ahora denominada "Nuevo pliegue", ya que muchos métodos aplican funciones de evaluación o puntuación que están sesgadas por el conocimiento de las estructuras de proteínas nativas, como una red neuronal artificial.
A partir de CASP7, las categorías se han redefinido para reflejar la evolución de los métodos. La categoría 'Modelado basado en plantillas' incluye todos los modelos comparativos anteriores, modelos basados en pliegues homólogos y algunos modelos basados en pliegues análogos. La categoría de 'modelado sin plantilla (FM)' incluye modelos de proteínas con pliegues nunca antes vistos y modelos basados en pliegues análogos duros. Debido al número limitado de objetivos sin plantillas (son bastante raros), en 2011 se introdujo el llamado CASP ROLL. Este experimento CASP continuo (continuo) tiene como objetivo una evaluación más rigurosa de los métodos de predicción sin plantillas a través de la evaluación de un mayor número de objetivos fuera de la temporada de predicción CASP regular. A diferencia de LiveBench y EVA , este experimento sigue el espíritu de predicción ciega de CASP, es decir, todas las predicciones se realizan en estructuras aún desconocidas. [10]
Los resultados de CASP se publican en números suplementarios especiales de la revista científica Proteins , todos los cuales son accesibles a través del sitio web de CASP. [11] Un artículo principal en cada uno de estos suplementos describe los detalles del experimento [12] [13] mientras que un artículo de cierre evalúa el progreso en el campo. [14] [15]
En diciembre de 2018, CASP13 fue noticia cuando fue ganado por AlphaFold , un programa de inteligencia artificial creado por DeepMind . [16] En noviembre de 2020, una versión mejorada 2 de AlphaFold ganó CASP14. [17] Según uno de los cofundadores de CASP, John Moult, AlphaFold obtuvo una puntuación de alrededor de 90 en una escala de 100 puntos de precisión de predicción para objetivos de proteínas moderadamente difíciles. [18]
Ver también
- Evaluación crítica de predicción de interacciones (CAPRI)
- Evaluación crítica de anotación de funciones (CAFA)
Referencias
- ↑ Moult, J .; et al. (1995). "Un experimento a gran escala para evaluar los métodos de predicción de la estructura de las proteínas" . Las proteínas . 23 (3): ii – iv. doi : 10.1002 / prot.340230303 . PMID 8710822 . S2CID 11216440 .
- ^ Tress, M .; et al. (2009). "Definición y clasificación del dominio de destino en CASP8" . Las proteínas . 77 (Supl. 9): 10–17. doi : 10.1002 / prot.22497 . PMC 2805415 . PMID 19603487 .
- ^ Zhang Y, Skolnick J (2005). "El problema de predicción de la estructura de la proteína podría resolverse utilizando la biblioteca PDB actual" . Proc Natl Acad Sci USA . 102 (4): 1029–1034. Código bibliográfico : 2005PNAS..102.1029Z . doi : 10.1073 / pnas.0407152101 . PMC 545829 . PMID 15653774 .
- ^ Cozzetto, D .; et al. (2009). "Evaluación de modelos basados en plantillas en CASP8 con medidas estándar" . Las proteínas . 77 (Supl. 9): 18-28. doi : 10.1002 / prot.22561 . PMC 4589151 . PMID 19731382 .
- ^ Zemla A (2003). "LGA: un método para encontrar similitudes 3D en estructuras de proteínas" . Investigación de ácidos nucleicos . 31 (13): 3370–3374. doi : 10.1093 / nar / gkg571 . PMC 168977 . PMID 12824330 .
- ^ Ben-David, M .; et al. (2009). "Evaluación de las predicciones de la estructura CASP8 para objetivos sin plantilla". Las proteínas . 77 (Supl. 9): 50–65. doi : 10.1002 / prot.22591 . PMID 19774550 . S2CID 16517118 .
- ^ Leer, RJ; Chavali, G. (2007). "Evaluación de las predicciones CASP7 en la categoría de modelado basado en plantillas de alta precisión" . Proteínas: estructura, función y bioinformática . 69 (Supl. 8): 27–37. doi : 10.1002 / prot.21662 . PMID 17894351 . S2CID 33172629 .
- ^ Qian, B .; et al. (2007). "Predicción de estructuras de alta resolución y el problema de la fase cristalográfica" . Naturaleza . 450 (7167): 259–264. Código Bibliográfico : 2007Natur.450..259Q . doi : 10.1038 / nature06249 . PMC 2504711 . PMID 17934447 .
- ^ Keedy, DA; Williams, CJ; Headd, JJ; Arendall, WB; Chen, VB; Kapral, GJ; Gillespie, RA; Block, JN; Zemla, A; Richardson, DC; Richardson, JS (2009). "El otro 90% de la proteína: evaluación más allá del carbono α para modelos CASP8 basados en plantillas y de alta precisión" . Las proteínas . 77 (Supl. 9): 29–49. doi : 10.1002 / prot.22551 . PMC 2877634 . PMID 19731372 .
- ^ Kryshtafovych, A; Monastyrskyy, B; Fidelis, K (2014). "Infraestructura del centro de predicción CASP y medidas de evaluación en CASP10 y CASP ROLL" . Proteínas: estructura, función y bioinformática . 82 Supl. 2: 7–13. doi : 10.1002 / prot.24399 . PMC 4396618 . PMID 24038551 .
- ^ "Procedimientos CASP" .
- ^ Moult, J .; et al. (2007). "Evaluación crítica de los métodos de predicción de la estructura de proteínas - Ronda VII" . Las proteínas . 69 (Supl. 8): 3–9. doi : 10.1002 / prot.21767 . PMC 2653632 . PMID 17918729 .
- ^ Moult, J .; et al. (2009). "Evaluación crítica de los métodos de predicción de la estructura de proteínas - Ronda VIII" . Las proteínas . 77 (Supl. 9): 1–4. doi : 10.1002 / prot.22589 . PMID 19774620 . S2CID 9704851 .
- ^ Kryshtafovych, A .; et al. (2007). "Progreso de CASP6 a CASP7". Proteínas: estructura, función y bioinformática . 69 (Supl. 8): 194–207. doi : 10.1002 / prot.21769 . PMID 17918728 . S2CID 40200832 .
- ^ Kryshtafovych, A .; et al. (2009). "Resultados de CASP8 en el contexto de experimentos anteriores" . Las proteínas . 77 (Supl. 9): 217–228. doi : 10.1002 / prot.22562 . PMC 5479686 . PMID 19722266 .
- ^ Sample, Ian (2 de diciembre de 2018). "DeepMind de Google predice formas 3D de proteínas" . The Guardian . Consultado el 19 de julio de 2019 .
- ^ "La IA de plegamiento de proteínas de DeepMind ha resuelto un gran desafío de la biología de 50 años" . Revisión de tecnología del MIT . Consultado el 30 de noviembre de 2020 .
- ^ 'Cambiará todo': la IA de DeepMind da un salto gigantesco en la resolución de estructuras de proteínas
enlaces externos
- Página web oficial
- ROLLO CASP
- Foro FORCASP
Clasificación de resultados
Evaluaciones automatizadas para CASP13 (2018)
- Clasificación oficial solo para servidores
- Ranking oficial para humanos y servidores
Evaluaciones automatizadas para CASP12 (2016)
- Clasificación oficial solo para servidores
- Ranking oficial para humanos y servidores
Evaluaciones automatizadas para CASP11 (2014)
- Ranking oficial solo para servidores (126 objetivos)
- Ranking oficial para humanos y servidores (78 objetivos)
Evaluaciones automatizadas para CASP10 (2012)
- Ranking oficial solo para servidores (127 objetivos)
- Ranking oficial para humanos y servidores (71 objetivos)
- Clasificación por Zhang Lab
Evaluaciones automatizadas para CASP9 (2010)
- Ranking oficial solo para servidores (147 objetivos)
- Ranking oficial para humanos y servidores (78 objetivos)
- Clasificación por Grishin Lab (solo para servidor)
- Ranking por Grishin Lab (para humanos y servidores)
- Clasificación por Zhang Lab
- Clasificación por Cheng Lab
Evaluaciones automatizadas para CASP8 (2008)
- Clasificación oficial solo para servidores
- Ranking oficial para humanos y servidores
- Clasificación por Zhang Lab
- Clasificación por Grishin Lab
- Clasificación de McGuffin Lab
- Clasificación por Cheng Lab
Evaluaciones automatizadas para CASP7 (2006)
- Clasificación por Livebench
- Clasificación por Zhang Lab