Predicción de la estructura de la proteína de novo

En biología computacional , la predicción de la estructura de la proteína de novo se refiere a un proceso algorítmico mediante el cual se predice la estructura terciaria de la proteína a partir de su secuencia primaria de aminoácidos . El problema en sí mismo ha ocupado a los principales científicos durante décadas y aún no ha sido resuelto. Según Science , el problema sigue siendo uno de los 125 temas pendientes más importantes de la ciencia moderna. ^[1] En la actualidad, algunos de los métodos más exitosos tienen una probabilidad razonable de predecir los pliegues de proteínas pequeñas de dominio único en 1,5 angstroms en toda la estructura. ^[2]

Los métodos de novo tienden a requerir vastos recursos computacionales y, por lo tanto, solo se han llevado a cabo para proteínas relativamente pequeñas. El modelado de la estructura de la proteína de novo se distingue del modelado basado en plantillas (TBM) por el hecho de que no se utiliza ningún homólogo resuelto de la proteína de interés, lo que dificulta enormemente los esfuerzos para predecir la estructura de la proteína a partir de la secuencia de aminoácidos. La predicción de la estructura de la proteína de novo para proteínas más grandes requerirá mejores algoritmos y recursos computacionales más grandes, como los que ofrecen supercomputadoras potentes (como Blue Gene o MDGRAPE-3) o proyectos de computación distribuida (como Folding @ home , Rosetta @ home , el Proyecto Proteoma humano plegable , o nutritiva de arroz para el Mundo ). Aunque las barreras computacionales son enormes, los beneficios potenciales de la genómica estructural (por métodos predichos o experimentales) para campos como la medicina y el diseño de fármacos hacen de la predicción de estructuras de novo un campo de investigación activo.

Fondo

Actualmente, la brecha entre las secuencias de proteínas conocidas y las estructuras de proteínas confirmadas es inmensa. A principios de 2008, solo alrededor del 1% de las secuencias enumeradas en la base de datos UniProtKB correspondían a estructuras en el Protein Data Bank (PDB), dejando una brecha entre la secuencia y la estructura de aproximadamente cinco millones. ^[3] Las técnicas experimentales para determinar la estructura terciaria se han enfrentado a serios cuellos de botella en su capacidad para determinar las estructuras de determinadas proteínas. Por ejemplo, mientras que la cristalografía de rayos X ha tenido éxito en la cristalización de aproximadamente 80.000 proteínas citosólicas, ha tenido mucho menos éxito en la cristalización de proteínas de membrana, aproximadamente 280. ^[4] A la luz de las limitaciones experimentales, el diseño de programas informáticos eficientes para cerrar la brecha entre Se cree que la secuencia y estructura conocidas es la única opción factible. ^[4]

Los métodos de predicción de estructura de proteínas de novo intentan predecir estructuras terciarias a partir de secuencias basadas en principios generales que gobiernan la energía de plegamiento de proteínas y / o tendencias estadísticas de características conformacionales que adquieren las estructuras nativas, sin el uso de plantillas explícitas . La investigación sobre la predicción de estructuras de novo se ha centrado principalmente en tres áreas: representaciones alternativas de proteínas de menor resolución, funciones energéticas precisas y métodos de muestreo eficientes.

Un paradigma general para la predicción de novo implica muestrear el espacio de conformación , guiado por funciones de puntuación y otros sesgos dependientes de la secuencia, de modo que se genere un gran conjunto de estructuras candidatas ("señuelos"). A continuación, se seleccionan conformaciones de tipo nativo a partir de estos señuelos mediante puntuación funciones, así como la agrupación de conformadores. El refinamiento de alta resolución a veces se usa como un paso final para ajustar estructuras similares a las nativas. Hay dos clases principales de funciones de puntuación. Las funciones basadas en la física se basan en modelos matemáticos que describen aspectos de los física de la interacción molecular Las funciones basadas en el conocimiento se forman con modelos estadísticos que capturan aspectos de las propiedades de las conformaciones de proteínas nativas. ^[5]

La secuencia de aminoácidos determina la estructura terciaria de la proteína

Se han presentado varias líneas de evidencia a favor de la noción de que la secuencia de proteína primaria contiene toda la información requerida para la estructura de proteína tridimensional general, lo que hace posible la idea de una predicción de proteína de novo. En primer lugar, las proteínas con diferentes funciones suelen tener diferentes secuencias de aminoácidos. En segundo lugar, varias enfermedades humanas diferentes, como la distrofia muscular de Duchenne, pueden estar relacionadas con la pérdida de la función de las proteínas como resultado de un cambio en un solo aminoácido en la secuencia primaria. En tercer lugar, las proteínas con funciones similares en muchas especies diferentes a menudo tienen secuencias de aminoácidos similares. La ubiquitina, por ejemplo, es una proteína involucrada en la regulación de la degradación de otras proteínas; su secuencia de aminoácidos es casi idéntica en especies tan separadas como Drosophila melanogaster y Homo sapiens . En cuarto lugar, mediante un experimento mental, se puede deducir que el plegamiento de proteínas no debe ser un proceso completamente aleatorio y que la información necesaria para el plegado debe estar codificada dentro de la estructura primaria. Por ejemplo, si asumimos que cada uno de los 100 residuos de aminoácidos dentro de un polipéptido pequeño podría tomar 10 conformaciones diferentes en promedio, dando 10 ^ 100 conformaciones diferentes para el polipéptido. Si se probara una posible confirmación cada 10 ^ -13 segundos, entonces tomaría alrededor de 10 ^ 77 años muestrear todas las conformaciones posibles. Sin embargo, las proteínas se pliegan adecuadamente dentro del cuerpo en escalas de tiempo cortas todo el tiempo, lo que significa que el proceso no puede ser aleatorio y, por lo tanto, potencialmente puede modelarse.

Christian Anfinsen demostró en la década de 1950 una de las líneas más sólidas de evidencia para la suposición de que toda la información relevante necesaria para codificar la estructura terciaria de la proteína se encuentra en la secuencia primaria . En un experimento clásico, demostró que la ribonucleasa A podía desnaturalizarse por completo sumergiéndola en una solución de urea (para romper los enlaces hidrófobos estabilizadores) en presencia de un agente reductor (para escindir los enlaces disulfuro estabilizadores). Tras la eliminación de la proteína de este entorno, la proteína ribonucleasa desnaturalizada y sin función retrocedió espontáneamente y recuperó la función, lo que demuestra que la estructura terciaria de la proteína está codificada en la secuencia de aminoácidos primaria. Si la proteína se hubiera reformado al azar, se podrían haber formado más de cien combinaciones diferentes de cuatro enlaces disulfuro. Sin embargo, en la mayoría de los casos, las proteínas requerirán la presencia de chaperones moleculares dentro de la célula para un plegado adecuado. La forma general de una proteína puede estar codificada en su estructura de aminoácidos, pero su plegamiento puede depender de los acompañantes para ayudar en el plegado. ^[6]

Primaria a terciaria
Estructura primaria de la artemina humana (isoforma 1 [UniParc])
Estructura terciaria de artemina humana (PDB: 2GYR) renderizada con PyMOL (Delano Scientific Freeware)

Requisitos exitosos de modelado de Novo

Los predictores de conformación de novo generalmente funcionan produciendo conformaciones candidatas (señuelos) y luego eligiendo entre ellas en función de su estabilidad termodinámica y estado de energía. La mayoría de los predictores exitosos tendrán los siguientes tres factores en común:

1) Una función de energía precisa que corresponde al estado más estable termodinámicamente a la estructura nativa de una proteína

2) Un método de búsqueda eficiente capaz de identificar rápidamente estados de baja energía a través de la búsqueda conformacional

3) La capacidad de seleccionar modelos similares a los nativos de una colección de estructuras señuelo ^[3]

Los programas de novo buscarán el espacio tridimensional y, en el proceso, producirán conformaciones de proteínas candidatas. A medida que una proteína se acerca a su estado nativo correctamente plegado, la entropía y la energía libre disminuirán. Con esta información, los predictores de novo pueden discriminar entre señuelos. Específicamente, los programas de novo seleccionarán posibles confirmaciones con energías libres más bajas, que es más probable que sean correctas que aquellas estructuras con energías libres más altas. ^[2]^[6]^[7] Como dijo David A. Baker con respecto a cómo funciona su predictor de novo Rosetta, “durante el plegado, cada segmento local de la cadena parpadea entre un subconjunto diferente de conformaciones locales ... plegado al nativo La estructura se produce cuando las conformaciones adoptadas por los segmentos locales y sus orientaciones relativas permiten ... características de baja energía de las estructuras de proteínas nativas. En el algoritmo de Rosetta ... el programa busca la combinación de estas conformaciones locales que tiene la energía general más baja ". ^[8]

Sin embargo, algunos métodos de novo funcionan primero enumerando todo el espacio conformacional utilizando una representación simplificada de la estructura de una proteína y luego seleccionando los que tienen más probabilidades de ser de tipo nativo. Un ejemplo de este enfoque es uno que se basa en la representación de los pliegues de proteínas utilizando redes tetraédricas y la construcción de todos los modelos de átomos sobre todas las conformaciones posibles obtenidas mediante la representación tetraédrica. Este enfoque se utilizó con éxito en CASP3 para predecir un pliegue de proteína cuya topología no había sido observada antes por el equipo de Michael Levitt. ^[9]

Al desarrollar el programa QUARK, Xu y Zhang demostraron que la estructura ab initio de algunas proteínas se puede construir con éxito a través de un campo de fuerza basado en el conocimiento. ^[10]^[11]

Las conformaciones de proteínas correctamente plegadas (estructuras nativas) tienen energías libres más bajas que las estructuras primarias o parcialmente plegadas. Las computadoras buscan estas conformaciones porque indican un plegado correcto.

Estrategias de predicción de proteínas

Si una proteína de estructura terciaria conocida comparte al menos el 30% de su secuencia con un homólogo potencial de estructura indeterminada, se pueden utilizar métodos comparativos que superponen la supuesta estructura desconocida con la conocida para predecir la estructura probable de la desconocida. Sin embargo, por debajo de este umbral se utilizan otras tres clases de estrategias para determinar la posible estructura a partir de un modelo inicial: predicción de proteínas ab initio, reconocimiento de pliegues y enhebrado.

Métodos ab initio : en los métodos ab initio, un esfuerzo inicial para dilucidar las estructuras secundarias (hélice alfa, hoja beta, giro beta, etc.) a partir de la estructura primaria se realiza mediante la utilización de parámetros fisicoquímicos y algoritmos de redes neuronales. A partir de ese punto, los algoritmos predicen el plegamiento terciario. Un inconveniente de esta estrategia es que todavía no es capaz de incorporar las ubicaciones y la orientación de las cadenas laterales de aminoácidos.
Predicción de pliegues : en las estrategias de reconocimiento de pliegues, primero se hace una predicción de la estructura secundaria y luego se compara con una biblioteca de pliegues de proteínas conocidos, como CATH o SCOP, o con lo que se conoce como una "tabla periódica" de posibles formas de estructura secundaria. A continuación, se asigna una puntuación de confianza a las posibles coincidencias.
Enhebrado: en las estrategias de enhebrado, la técnica de reconocimiento de pliegues se amplía aún más. En este proceso, las funciones de energía basadas empíricamente para la interacción de pares de residuos se utilizan para colocar la proteína desconocida en una supuesta columna vertebral como mejor ajuste, acomodando los huecos donde sea apropiado. A continuación, se acentúan las mejores interacciones para discriminar entre señuelos potenciales y predecir la conformación más probable.

El objetivo de las estrategias de plegado y enhebrado es determinar si un pliegue en una proteína desconocida es similar a un dominio en uno conocido depositado en una base de datos, como el banco de datos de proteínas (PDB). Esto contrasta con los métodos de novo (ab initio) en los que la estructura se determina utilizando un enfoque basado en la física en lugar de comparar los pliegues de la proteína con las estructuras de una base de datos. ^[12]

Limitaciones de los métodos de predicción de novo

Una limitación importante de los métodos de predicción de proteínas de novo es la extraordinaria cantidad de tiempo de la computadora que se requiere para resolver con éxito la conformación nativa de una proteína. Los métodos distribuidos, como Rosetta @ home, han intentado mejorar esto mediante la contratación de personas que luego ofrecen voluntariamente tiempo libre en la computadora para procesar los datos. Sin embargo, incluso estos métodos enfrentan desafíos. Por ejemplo, un equipo de investigadores de la Universidad de Washington y el Instituto Médico Howard Hughes utilizó un método distribuido para predecir la estructura terciaria de la proteína T0283 a partir de su secuencia de aminoácidos. En una prueba ciega que compara la precisión de esta técnica distribuida con la estructura confirmada experimentalmente depositada dentro del Protein Databank (PDB), el predictor produjo una excelente concordancia con la estructura depositada. Sin embargo, el tiempo y la cantidad de computadoras requeridas para esta hazaña fue enorme: casi dos años y aproximadamente 70,000 computadoras domésticas, respectivamente. ^[13]

Un método propuesto para superar tales limitaciones implica el uso de modelos de Markov (ver la cadena de Markov Monte Carlo ). Una posibilidad es que dichos modelos puedan construirse para ayudar con el cálculo de la energía libre y la predicción de la estructura de las proteínas, tal vez mediante el perfeccionamiento de las simulaciones computacionales. ^[14] Otra forma de eludir las limitaciones de potencia computacional es mediante el modelado de grano grueso . Los modelos de proteínas de grano grueso permiten la predicción de la estructura de novo de proteínas pequeñas, o fragmentos de proteínas grandes, en un tiempo computacional corto. ^[15]

Un ejemplo de computación distribuida (Rosetta) para predecir la estructura 3D de una proteína a partir de su secuencia de aminoácidos. La estructura predicha (magenta) de una proteína se superpone con la estructura cristalina (azul) determinada experimentalmente de esa proteína. El acuerdo entre los dos es muy bueno.

CASP

“El progreso de todas las variantes de los métodos computacionales de predicción de la estructura de la proteína se evalúa en los experimentos de Evaluación Crítica de Predicción de la Estructura de la Proteína ( CASP ) semestrales y comunitarios . En los experimentos CASP, se invita a los grupos de investigación a aplicar sus métodos de predicción a secuencias de aminoácidos cuya estructura nativa no se conoce pero se determinará y se publicará próximamente. Aunque el número de secuencias de aminoácidos proporcionadas por los experimentos de CASP es pequeño, estas competiciones proporcionan una buena medida para evaluar los métodos y el progreso en el campo de una manera indiscutiblemente imparcial ". ^[dieciséis]

Notas

Samudrala, R, Xia, Y, Huang, ES, Levitt, M. Predicción ab initio de la estructura de la proteína utilizando un enfoque jerárquico combinado. (1999). Proteins Suppl 3: 194-198.
Bradley, P .; Malmstrom, L .; Qian, B .; Schonbrun, J .; Chivian, D .; Kim, DE; Meiler, J .; Misura, KM; Baker, D. (2005). "Modelado gratuito con Rosetta en CASP6". Las proteínas . 61 (Supl. 7): 128–34. doi : 10.1002 / prot.20729 . PMID 16187354 . S2CID 36366681 .
Bonneau ; Baker, D (2001). "Predicción de la estructura de la proteína ab initio: avances y perspectivas". Annu. Rev. Biophys. Biomol. Struct . 30 : 173–89. doi : 10.1146 / annurev.biophys.30.1.173 . PMID 11340057 .
J. Skolnick, Y. Zhang y A. Kolinski. Modelado Ab Initio. Genómica estructural y biología estructural de alto rendimiento. M. Sundsrom, M. Norin y A. Edwards, eds. 2006: 137-162.
J Lee, S Wu, Y Zhang. Predicción ab initio de la estructura de la proteína. De la estructura de las proteínas a la función con la bioinformática, capítulo 1, editado por DJ Rigden, (Springer-London, 2009), p. 1-26.

Ver también

Predicción de la estructura de proteínas
Software de predicción de la estructura de proteínas
Diseño de proteínas

Referencias

^ "Editorial: mucho más por saber" . Ciencia . 309 (5731): 78–102. 2005. doi : 10.1126 / science.309.5731.78b . PMID 15994524 .
^ a b Eneldo, Ken A .; et al. (2007). "El problema del plegamiento de proteínas: ¿cuándo se solucionará?". Opinión actual en biología estructural . 17 (3): 342–346. doi : 10.1016 / j.sbi.2007.06.001 . PMID 17572080 .
^ a b Rigden, Daniel J. De la estructura de la proteína a la función con la bioinformática. Springer Science. 2009. ISBN 978-1-4020-9057-8 .
^ a b Yonath, Ada. La cristalografía de rayos X en el corazón de las ciencias de la vida. Opinión actual en biología estructural. Volumen 21, Número 5, octubre de 2011, páginas 622–626.
^ Samudrala, R; Moult, J (1998). "Una función discriminatoria de probabilidad condicional dependiente de la distancia de todos los átomos para la predicción de la estructura de la proteína". Revista de Biología Molecular . 275 (5): 893–914. CiteSeerX 10.1.1.70.4101 . doi : 10.1006 / jmbi.1997.1479 . PMID 9480776 .
^ a b Nelson, David L. y Cox, Michael. Principios de bioquímica de Lehninger 5ª edición. MWH Freeman; 15 de junio de 2008. ISBN 1429224169 .
^ "El Laboratorio Baker" . Archivado desde el original el 13 de noviembre de 2012.
^ "Artículo de Rosetta News" .
^ Samudrala, R; Xia, Y; Huang, ES; Levitt, M. (1999). " Predicción ab initio de la estructura de la proteína utilizando un enfoque jerárquico combinado". Proteínas: estructura, función y genética . S3 : 194-198. doi : 10.1002 / (SICI) 1097-0134 (1999) 37: 3+ <194 :: AID-PROT24> 3.0.CO; 2-F .
^ Xu D, Zhang Y (julio de 2012). "Ensamblaje de estructura de proteínas ab initio utilizando fragmentos de estructura continua y campo de fuerza optimizado basado en el conocimiento" . Las proteínas . 80 (7): 1715–35. doi : 10.1002 / prot.24065 . PMC 3370074 . PMID 22411565 .
^ Xu D, Zhang J, Roy A, Zhang Y (agosto de 2011). "Modelado automatizado de la estructura de proteínas en CASP9 por la tubería I-TASSER combinado con el plegado ab initio basado en QUARK y el refinamiento de la estructura basado en FG-MD" . Las proteínas . 79 Supl. 10: 147–60. doi : 10.1002 / prot.23111 . PMC 3228277 . PMID 22069036 .
^ Gibson, Greg y Muse, Spencer V. A Primer of Genome Science 3rd edition. Sinauer Associates, Inc. 2009. ISBN 978-0-87893-236-8 .
^ Qian y col. La predicción de estructuras de alta resolución y el problema de la fase cristalográfica. (2007). Naturaleza. Volumen 450.
^ Jayachandran, Guha et al. (2006). Uso de simulación masivamente paralela y modelos de Markov para estudiar el plegamiento de proteínas: examen de la dinámica del casco de villin. Publicado en línea.
^ Kmiecik, Sebastián; Gront, Dominik; Kolinski, Michal; Wieteska, Lukasz; Dawid, Aleksandra Elzbieta; Kolinski, Andrzej (22 de junio de 2016). "Modelos de proteínas de grano grueso y sus aplicaciones" . Revisiones químicas . 116 (14): 7898–936. doi : 10.1021 / acs.chemrev.6b00163 . ISSN 0009-2665 . PMID 27333362 .
^ CA Floudas y col. Avances en la predicción de la estructura de proteínas y el diseño de proteínas de novo: una revisión. Ciencias de la ingeniería química 61 (2006) 966 - 988.

enlaces externos

CASP
Plegable en casa
Proyecto HPF
Foldit
UniProtKB
Banco de datos de proteínas (PDB)
Sistema experto de análisis de proteínas : enlaces a herramientas de predicción de proteínas

[Science-1] "Editorial: mucho más por saber" . Ciencia . 309 (5731): 78–102. 2005. doi : 10.1126 / science.309.5731.78b . PMID 15994524 .

[Dill-2] Eneldo, Ken A .; et al. (2007). "El problema del plegamiento de proteínas: ¿cuándo se solucionará?". Opinión actual en biología estructural . 17 (3): 342–346. doi : 10.1016 / j.sbi.2007.06.001 . PMID 17572080 .

[Rigden-3] Rigden, Daniel J. De la estructura de la proteína a la función con la bioinformática. Springer Science. 2009. ISBN 978-1-4020-9057-8 .

[Yonath-4] Yonath, Ada. La cristalografía de rayos X en el corazón de las ciencias de la vida. Opinión actual en biología estructural. Volumen 21, Número 5, octubre de 2011, páginas 622–626.

[samudrala_1998a-5] Samudrala, R; Moult, J (1998). "Una función discriminatoria de probabilidad condicional dependiente de la distancia de todos los átomos para la predicción de la estructura de la proteína". Revista de Biología Molecular . 275 (5): 893–914. CiteSeerX 10.1.1.70.4101 . doi : 10.1006 / jmbi.1997.1479 . PMID 9480776 .

[Lehninger-6] Nelson, David L. y Cox, Michael. Principios de bioquímica de Lehninger 5ª edición. MWH Freeman; 15 de junio de 2008. ISBN 1429224169 .

[Baker-7] "El Laboratorio Baker" . Archivado desde el original el 13 de noviembre de 2012.

[SD-8] "Artículo de Rosetta News" .

[samudrala_1999b-9] Samudrala, R; Xia, Y; Huang, ES; Levitt, M. (1999). " Predicción ab initio de la estructura de la proteína utilizando un enfoque jerárquico combinado". Proteínas: estructura, función y genética . S3 : 194-198. doi : 10.1002 / (SICI) 1097-0134 (1999) 37: 3+ <194 :: AID-PROT24> 3.0.CO; 2-F .

[pmid22411565-10] Xu D, Zhang Y (julio de 2012). "Ensamblaje de estructura de proteínas ab initio utilizando fragmentos de estructura continua y campo de fuerza optimizado basado en el conocimiento" . Las proteínas . 80 (7): 1715–35. doi : 10.1002 / prot.24065 . PMC 3370074 . PMID 22411565 .

[pmid22069036-11] Xu D, Zhang J, Roy A, Zhang Y (agosto de 2011). "Modelado automatizado de la estructura de proteínas en CASP9 por la tubería I-TASSER combinado con el plegado ab initio basado en QUARK y el refinamiento de la estructura basado en FG-MD" . Las proteínas . 79 Supl. 10: 147–60. doi : 10.1002 / prot.23111 . PMC 3228277 . PMID 22069036 .

[Gibson-12] Gibson, Greg y Muse, Spencer V. A Primer of Genome Science 3rd edition. Sinauer Associates, Inc. 2009. ISBN 978-0-87893-236-8 .

[Qian-13] Qian y col. La predicción de estructuras de alta resolución y el problema de la fase cristalográfica. (2007). Naturaleza. Volumen 450.

[Guha-14] Jayachandran, Guha et al. (2006). Uso de simulación masivamente paralela y modelos de Markov para estudiar el plegamiento de proteínas: examen de la dinámica del casco de villin. Publicado en línea.

[15] Kmiecik, Sebastián; Gront, Dominik; Kolinski, Michal; Wieteska, Lukasz; Dawid, Aleksandra Elzbieta; Kolinski, Andrzej (22 de junio de 2016). "Modelos de proteínas de grano grueso y sus aplicaciones" . Revisiones químicas . 116 (14): 7898–936. doi : 10.1021 / acs.chemrev.6b00163 . ISSN 0009-2665 . PMID 27333362 .

[CA-16] CA Floudas y col. Avances en la predicción de la estructura de proteínas y el diseño de proteínas de novo: una revisión. Ciencias de la ingeniería química 61 (2006) 966 - 988.

[1]