De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda
Los aminoácidos constituyentes se pueden analizar para predecir la estructura proteica secundaria, terciaria y cuaternaria.

La predicción de la estructura de una proteína es la inferencia de la estructura tridimensional de una proteína a partir de su secuencia de aminoácidos, es decir, la predicción de su estructura secundaria y terciaria a partir de la estructura primaria . La predicción de la estructura es diferente del problema inverso del diseño de proteínas . La predicción de la estructura de las proteínas es uno de los objetivos más importantes que persigue la biología computacional ; y es importante en medicina (por ejemplo, en el diseño de fármacos ) y biotecnología (por ejemplo, en el diseño de nuevas enzimas ).

Cada dos años, [ ¿cuándo? ] el rendimiento de los métodos actuales se evalúa en el experimento CASP (Evaluación crítica de técnicas para la predicción de la estructura de proteínas). El proyecto comunitario CAMEO3D realiza una evaluación continua de los servidores web de predicción de la estructura de proteínas .

Estructura y terminología de las proteínas [ editar ]

Las proteínas son cadenas de aminoácidos unidas por enlaces peptídicos . Muchas conformaciones de esta cadena son posibles debido a la rotación de la cadena alrededor de cada átomo de carbono alfa (átomo de Cα). Son estos cambios conformacionales los responsables de las diferencias en la estructura tridimensional de las proteínas. Cada aminoácido de la cadena es polar, es decir, tiene regiones separadas con carga positiva y negativa con un grupo carbonilo libre , que puede actuar como aceptor de enlaces de hidrógeno y un grupo NH, que puede actuar como donador de enlaces de hidrógeno. Por tanto, estos grupos pueden interactuar en la estructura de la proteína. El [ cual? ]Se pueden clasificar 20 aminoácidos de acuerdo con la química de la cadena lateral, que también juega un papel estructural importante. La glicina toma una posición especial, ya que tiene la cadena lateral más pequeña, solo un átomo de hidrógeno, y por lo tanto puede aumentar la flexibilidad local en la estructura de la proteína. La cisteína, por otro lado, puede reaccionar con otro residuo de cisteína y así formar un entrecruzamiento que estabiliza toda la estructura. [ cita requerida ]

La estructura de la proteína se puede considerar como una secuencia de elementos de la estructura secundaria, como hélices α y láminas β, que juntas constituyen la configuración tridimensional general de la cadena proteica. En estas estructuras secundarias se forman patrones regulares de enlaces H entre aminoácidos vecinos, y los aminoácidos tienen ángulos Φ y ψ similares . [ cita requerida ]

Ángulos de enlace para Φ y ψ

La formación de estas estructuras neutraliza los grupos polares de cada aminoácido. Las estructuras secundarias están fuertemente empaquetadas en el núcleo de la proteína en un ambiente hidrofóbico. Cada grupo lateral de aminoácidos tiene un volumen limitado para ocupar y un número limitado de posibles interacciones con otras cadenas laterales cercanas, una situación que debe tenerse en cuenta en el modelado y alineamientos moleculares. [1]

α Helix [ editar ]

Una hélice alfa con enlaces de hidrógeno (puntos amarillos)

La hélice α es el tipo de estructura secundaria más abundante en las proteínas. La hélice α tiene 3,6 aminoácidos por turno con un enlace H formado entre cada cuarto residuo; la longitud media es de 10 aminoácidos (3 vueltas) o 10 Å pero varía de 5 a 40 (1,5 a 11 vueltas). La alineación de los enlaces H crea un momento dipolar para la hélice con una carga positiva parcial resultante en el extremo amino de la hélice. Porque esta región tiene NH 2 libre grupos, interactuará con grupos cargados negativamente como los fosfatos. La ubicación más común de las hélices α es en la superficie de los núcleos de proteínas, donde proporcionan una interfaz con el entorno acuoso. El lado que mira hacia el interior de la hélice tiende a tener aminoácidos hidrófobos y el lado que mira hacia el exterior, aminoácidos hidrófilos. Por tanto, cada tercio de los cuatro aminoácidos a lo largo de la cadena tenderá a ser hidrófobo, un patrón que puede detectarse con bastante facilidad. En el motivo de cremallera de leucina, un patrón repetido de leucinas en los lados enfrentados de dos hélices adyacentes es altamente predictivo del motivo. Se puede utilizar un gráfico de rueda helicoidal para mostrar este patrón repetido. Otras hélices α enterradas en el núcleo de la proteína o en las membranas celulares tienen una distribución más alta y más regular de aminoácidos hidrófobos,y son altamente predictivos de tales estructuras. Las hélices expuestas en la superficie tienen una menor proporción de aminoácidos hidrófobos. El contenido de aminoácidos puede predecir una región α-helicoidal. Regiones más ricas enalanina (A), ácido glutámico (E), leucina (L) y metionina (M) y más pobres en prolina (P), glicina (G), tirosina (Y) y serina (S) tienden a formar una hélice α . La prolina desestabiliza o rompe una hélice α, pero puede estar presente en hélices más largas, formando una curva.

hoja β [ editar ]

Las láminas β están formadas por enlaces H entre un promedio de 5 a 10 aminoácidos consecutivos en una porción de la cadena con otros 5 a 10 más abajo en la cadena. Las regiones que interactúan pueden ser adyacentes, con un bucle corto en el medio, o muy separadas, con otras estructuras en el medio. Cada cadena puede correr en la misma dirección para formar una hoja paralela, cualquier otra cadena puede correr en la dirección química inversa para formar una hoja anti-paralela, o las cadenas pueden ser paralelas y anti-paralelas para formar una hoja mixta. El patrón de unión de H es diferente en las configuraciones paralelas y antiparalelas. Cada aminoácido en las hebras interiores de la hoja forma dos enlaces H con los aminoácidos vecinos, mientras que cada aminoácido en las hebras exteriores forma solo un enlace con una hebra interior. Mirando a través de la hoja en ángulo recto con las hebras,las hebras más distantes se giran ligeramente en sentido antihorario para formar un giro a la izquierda. Los átomos de Cα se alternan por encima y por debajo de la hoja en una estructura plisada, y los grupos laterales R de los aminoácidos se alternan por encima y por debajo de los pliegues. Los ángulos Φ y Ψ de los aminoácidos en las hojas varían considerablemente en una región delParcela de Ramachandran . Es más difícil predecir la ubicación de las hojas β que de las hélices α. La situación mejora algo cuando se tiene en cuenta la variación de aminoácidos en múltiples alineamientos de secuencia.

Bucles [ editar ]

Algunas partes de la proteína tienen una estructura tridimensional fija, pero no forman estructuras regulares. No deben confundirse con segmentos de proteínas desordenados o desplegados o con una espiral aleatoria , una cadena polipeptídica desplegada que carece de estructura tridimensional fija. Estas partes se denominan frecuentemente "bucles" porque conectan láminas β y hélices α. Los bucles se encuentran generalmente en la superficie de la proteína y, por lo tanto, las mutaciones de sus residuos se toleran más fácilmente. Tener más sustituciones, inserciones y deleciones en una determinada región de una secuencia de alineación puede ser una indicación de un bucle. Las posiciones de los intrones en el ADN genómico pueden correlacionarse con las ubicaciones de los bucles en la proteína codificada [ cita requerida ]. Los bucles también tienden a tener aminoácidos cargados y polares y, con frecuencia, son un componente de los sitios activos.

Clasificación de proteínas [ editar ]

Las proteínas pueden clasificarse según la similitud estructural y de secuencia. Para la clasificación estructural, los tamaños y disposiciones espaciales de las estructuras secundarias descritas en el párrafo anterior se comparan en estructuras tridimensionales conocidas. Históricamente, la clasificación basada en la similitud de secuencia fue la primera que se utilizó. Inicialmente, se realizó la similitud basada en alineamientos de secuencias completas. Posteriormente, las proteínas se clasificaron sobre la base de la aparición de patrones de aminoácidos conservados. Bases de datosque clasifican proteínas por uno o más de estos esquemas están disponibles. Al considerar los esquemas de clasificación de proteínas, es importante tener en cuenta varias observaciones. Primero, dos secuencias de proteínas completamente diferentes de diferentes orígenes evolutivos pueden plegarse en una estructura similar. Por el contrario, la secuencia de un gen antiguo para una estructura dada puede haber divergido considerablemente en diferentes especies, manteniendo al mismo tiempo las mismas características estructurales básicas. Reconocer cualquier similitud de secuencia restante en tales casos puede ser una tarea muy difícil. En segundo lugar, dos proteínas que comparten un grado significativo de similitud de secuencia entre sí o con una tercera secuencia también comparten un origen evolutivo y también deberían compartir algunas características estructurales. Sin emabargo,La duplicación de genes y los reordenamientos genéticos durante la evolución pueden dar lugar a nuevas copias de genes, que luego pueden evolucionar a proteínas con nuevas funciones y estructuras.[1]

Términos utilizados para clasificar estructuras y secuencias de proteínas [ editar ]

Los términos más utilizados para las relaciones evolutivas y estructurales entre proteínas se enumeran a continuación. Se utilizan muchos términos adicionales para varios tipos de características estructurales que se encuentran en las proteínas. Las descripciones de dichos términos se pueden encontrar en el sitio web de CATH, el sitio web de clasificación estructural de proteínas (SCOP) y un tutorial de Glaxo Wellcome en el sitio web de bioinformática suiza Expasy.

Sitio activo
una combinación localizada de grupos laterales de aminoácidos dentro de la estructura terciaria (tridimensional) o cuaternaria (subunidad proteica) que puede interactuar con un sustrato químicamente específico y que proporciona a la proteína actividad biológica. Las proteínas de secuencias de aminoácidos muy diferentes pueden plegarse en una estructura que produce el mismo sitio activo.
Arquitectura
son las orientaciones relativas de las estructuras secundarias en una estructura tridimensional sin importar si comparten o no una estructura de bucle similar.
Pliegue (topología)
un tipo de arquitectura que también tiene una estructura de bucle conservada.
Bloques
es un patrón de secuencia de aminoácidos conservada en una familia de proteínas. El patrón incluye una serie de posibles coincidencias en cada posición en las secuencias representadas, pero no hay posiciones insertadas o eliminadas en el patrón o en las secuencias. Por el contrario, los perfiles de secuencia son un tipo de matriz de puntuación que representa un conjunto similar de patrones que incluye inserciones y eliminaciones.
Clase
término utilizado para clasificar los dominios de proteínas de acuerdo con su contenido estructural secundario y su organización. Cuatro clases fueron originalmente reconocidas por Levitt y Chothia (1976), y varias otras se han agregado a la base de datos SCOP. En la base de datos CATH se dan tres clases: principalmente-α, principalmente-β y α-β, y la clase α-β incluye estructuras α / β y α + β alternas.
Centro
la porción de una molécula de proteína plegada que comprende el interior hidrófobo de hélices α y láminas β. La estructura compacta reúne grupos laterales de aminoácidos lo suficientemente cerca para que puedan interactuar. Al comparar estructuras de proteínas, como en la base de datos SCOP, el núcleo es la región común a la mayoría de las estructuras que comparten un pliegue común o que están en la misma superfamilia. En la predicción de estructuras, el núcleo a veces se define como la disposición de estructuras secundarias que es probable que se conserven durante el cambio evolutivo.
Dominio (contexto de secuencia)
un segmento de una cadena polipeptídica que se puede plegar en una estructura tridimensional independientemente de la presencia de otros segmentos de la cadena. Los dominios separados de una proteína dada pueden interactuar ampliamente o pueden estar unidos solo por una longitud de cadena polipeptídica. Una proteína con varios dominios puede utilizar estos dominios para interacciones funcionales con diferentes moléculas.
Familia (contexto de secuencia)
un grupo de proteínas de función bioquímica similar que son más del 50% idénticas cuando se alinean. Este mismo límite todavía lo utiliza el recurso de información de proteínas.(PIR). Una familia de proteínas comprende proteínas con la misma función en diferentes organismos (secuencias ortólogas) pero también puede incluir proteínas en el mismo organismo (secuencias parálogas) derivadas de la duplicación y reordenamientos de genes. Si una alineación de secuencia múltiple de una familia de proteínas revela un nivel común de similitud en todas las longitudes de las proteínas, PIR se refiere a la familia como una familia homeomórfica. La región alineada se denomina dominio homeomórfico y esta región puede comprender varios dominios de homología más pequeños que se comparten con otras familias. Las familias pueden subdividirse en subfamilias o agruparse en superfamilias en función de los respectivos niveles superiores o inferiores de similitud de secuencia. La base de datos SCOP reporta 1296 familias y la base de datos CATH (versión 1.7 beta) reporta 1846 familias.
Cuando se examinan con mayor detalle las secuencias de proteínas con la misma función, se descubre que algunas comparten una gran similitud de secuencia. Obviamente, son miembros de la misma familia según los criterios anteriores. Sin embargo, se encuentran otros que tienen muy poca, o incluso insignificante, similitud de secuencia con otros miembros de la familia. En tales casos, la relación familiar entre dos miembros distantes de la familia A y C a menudo se puede demostrar al encontrar un miembro adicional de la familia B que comparta una similitud significativa con A y C. Por lo tanto, B proporciona un vínculo de conexión entre A y C. Otro enfoque es examinar alineaciones distantes en busca de coincidencias altamente conservadas.
A un nivel de identidad del 50%, es probable que las proteínas tengan la misma estructura tridimensional, y los átomos idénticos en la secuencia de alineación también se superpondrán dentro de aproximadamente 1 Å en el modelo estructural. Por tanto, si se conoce la estructura de un miembro de una familia, se puede hacer una predicción fiable para un segundo miembro de la familia, y cuanto mayor sea el nivel de identidad, más fiable será la predicción. El modelado estructural de proteínas se puede realizar examinando qué tan bien encajan las sustituciones de aminoácidos en el núcleo de la estructura tridimensional.
Familia (contexto estructural)
como se usa en la base de datos FSSP ( Familias de proteínas estructuralmente similares ) y el sitio web DALI / FSSP, dos estructuras que tienen un nivel significativo de similitud estructural pero no necesariamente una similitud de secuencia significativa.
Pliegue
similar al motivo estructural, incluye una combinación más grande de unidades estructurales secundarias en la misma configuración. Por lo tanto, las proteínas que comparten el mismo pliegue tienen la misma combinación de estructuras secundarias que están conectadas por bucles similares. Un ejemplo es el pliegue de Rossman que comprende varias hélices α alternas y hebras β paralelas. En las bases de datos SCOP, CATH y FSSP, las estructuras proteicas conocidas se han clasificado en niveles jerárquicos de complejidad estructural con el pliegue como nivel básico de clasificación.
Dominio homólogo (contexto de secuencia)
un patrón de secuencia extendido, generalmente encontrado por métodos de alineación de secuencia, que indica un origen evolutivo común entre las secuencias alineadas. Un dominio de homología es generalmente más largo que los motivos. El dominio puede incluir toda una secuencia de proteína determinada o solo una parte de la secuencia. Algunos dominios son complejos y están formados por varios dominios de homología más pequeños que se unieron para formar uno más grande durante la evolución. Un dominio que cubre una secuencia completa se denomina dominio homeomórfico por PIR ( Protein Information Resource ).
Módulo
una región de patrones de aminoácidos conservados que comprende uno o más motivos y se considera una unidad fundamental de estructura o función. La presencia de un módulo también se ha utilizado para clasificar proteínas en familias.
Motivo (contexto de secuencia)
un patrón conservado de aminoácidos que se encuentra en dos o más proteínas. En el catálogo de Prosite , un motivo es un patrón de aminoácidos que se encuentra en un grupo de proteínas que tienen una actividad bioquímica similar y que a menudo se encuentra cerca del sitio activo de la proteína. Ejemplos de bases de datos de motivos de secuencia son el catálogo de Prosite y la base de datos de motivos de Stanford. [2]
Motivo (contexto estructural)
una combinación de varios elementos estructurales secundarios producida por el plegado de secciones adyacentes de la cadena polipeptídica en una configuración tridimensional específica. Un ejemplo es el motivo hélice-bucle-hélice. Los motivos estructurales también se conocen como estructuras y pliegues supersecundarios.
Matriz de puntuación específica de la posición (contexto de secuencia, también conocida como matriz de puntuación o ponderación)
representa una región conservada en un alineamiento de secuencia múltiple sin espacios. Cada columna de la matriz representa la variación encontrada en una columna de la alineación de secuencia múltiple.
Matriz de puntuación específica de la posición: 3D (contexto estructural)
representa la variación de aminoácidos que se encuentra en una alineación de proteínas que pertenecen a la misma clase estructural. Las columnas de matriz representan la variación de aminoácidos que se encuentra en una posición de aminoácido en las estructuras alineadas.
Estructura primaria
la secuencia lineal de aminoácidos de una proteína, que químicamente es una cadena polipeptídica compuesta de aminoácidos unidos por enlaces peptídicos.
Perfil (contexto de secuencia)
una matriz de puntuación que representa un alineamiento de secuencia múltiple de una familia de proteínas. El perfil generalmente se obtiene de una región bien conservada en un alineamiento de secuencia múltiple. El perfil tiene la forma de una matriz con cada columna que representa una posición en la alineación y cada fila uno de los aminoácidos. Los valores de la matriz dan la probabilidad de que cada aminoácido esté en la posición correspondiente en la alineación. El perfil se mueve a lo largo de la secuencia objetivo para localizar las mejores regiones de puntuación mediante un algoritmo de programación dinámica. Se permiten huecos durante el emparejamiento y en este caso se incluye una penalización por hueco como puntuación negativa cuando no se empareja ningún aminoácido. Un perfil de secuencia también puede estar representado por un modelo de Markov oculto , denominado perfil HMM.
Perfil (contexto estructural)
una matriz de puntuación que representa qué aminoácidos deberían encajar bien y cuáles deberían encajar mal en posiciones secuenciales en una estructura de proteína conocida. Las columnas de perfil representan posiciones secuenciales en la estructura y las filas de perfil representan los 20 aminoácidos. Al igual que con un perfil de secuencia, el perfil estructural se mueve a lo largo de una secuencia objetivo para encontrar la puntuación de alineación más alta posible mediante un algoritmo de programación dinámica. Se pueden incluir huecos y recibir una penalización. La puntuación resultante proporciona una indicación de si la proteína diana podría adoptar tal estructura.
Estructura cuaternaria
la configuración tridimensional de una molécula de proteína que comprende varias cadenas polipeptídicas independientes.
Estructura secundaria
las interacciones que ocurren entre los grupos C, O y NH en los aminoácidos en una cadena polipeptídica para formar hélices α, láminas β, giros, bucles y otras formas, y que facilitan el plegamiento en una estructura tridimensional.
Superfamilia
un grupo de familias de proteínas de la misma o diferente longitud que están relacionadas por una similitud de secuencia distante pero detectable. Los miembros de una superfamilia determinada tienen, por tanto, un origen evolutivo común. Originalmente, Dayhoff definió el límite para el estado de superfamilia como la posibilidad de que las secuencias no estén relacionadas de 10 6, sobre la base de una puntuación de alineación (Dayhoff et al. 1978). Las proteínas con pocas identidades en una alineación de las secuencias pero con un número convincentemente común de características estructurales y funcionales se colocan en la misma superfamilia. En el nivel de la estructura tridimensional, las proteínas de la superfamilia compartirán características estructurales comunes, como un pliegue común, pero también puede haber diferencias en el número y la disposición de las estructuras secundarias. El recurso PIR usa el términosuperfamilias homeomórficas para referirse a superfamilias que están compuestas de secuencias que se pueden alinear de un extremo a otro, lo que representa un dominio compartido de homología de secuencia única, una región de similitud que se extiende a lo largo de la alineación. Este dominio también puede comprender dominios de homología más pequeños que se comparten con otras familias de proteínas y superfamilias. Aunque una secuencia de proteína determinada puede contener dominios que se encuentran en varias superfamilias, lo que indica una historia evolutiva compleja, las secuencias se asignarán a una sola superfamilia homeomórfica en función de la presencia de similitud en una alineación de secuencia múltiple. La alineación de superfamilia también puede incluir regiones que no se alinean ni dentro ni en los extremos de la alineación. Por el contrario, las secuencias de la misma familia se alinean bien en toda la alineación.
Estructura secundaria
un término con significado similar a un motivo estructural. La estructura terciaria es la estructura tridimensional o globular formada por el empaquetamiento o plegado de estructuras secundarias de una cadena polipeptídica. [1]

Estructura secundaria [ editar ]

La predicción de la estructura secundaria es un conjunto de técnicas en bioinformática que tienen como objetivo predecir las estructuras secundarias locales de las proteínas basándose únicamente en el conocimiento de su secuencia de aminoácidos . Para las proteínas, una predicción consiste en asignar regiones de la secuencia de aminoácidos como posibles hélices alfa , hebras beta (a menudo señaladas como conformaciones "extendidas") o giros . El éxito de una predicción se determina comparándolo con los resultados del algoritmo DSSP (o similar, por ejemplo, STRIDE ) aplicado a la estructura cristalina.de la proteína. Se han desarrollado algoritmos especializados para la detección de patrones específicos bien definidos, como hélices transmembrana y bobinas enrolladas en proteínas. [1]

Se afirmó que los mejores métodos modernos de predicción de estructuras secundarias en proteínas alcanzaban el 80% de precisión después de utilizar el aprendizaje automático y las alineaciones de secuencias ; [3] esta alta precisión permite el uso de las predicciones como característica que mejora el reconocimiento de pliegues y la predicción ab initio de la estructura de la proteína, la clasificación de motivos estructurales y el refinamiento de las alineaciones de secuencias . La precisión de los métodos actuales de predicción de la estructura secundaria de proteínas se evalúa en puntos de referencia semanales como LiveBench y EVA .

Antecedentes [ editar ]

Los primeros métodos de predicción de estructuras secundarias, introducidos en la década de 1960 y principios de la de 1970, [4] [5] [6] [7] [8] se centraron en identificar posibles hélices alfa y se basaron principalmente en modelos de transición de hélice-bobina . [9] En la década de 1970 se introdujeron predicciones significativamente más precisas que incluían hojas beta y se basaban en evaluaciones estadísticas basadas en parámetros de probabilidad derivados de estructuras resueltas conocidas. Estos métodos, aplicados a una sola secuencia, suelen tener una precisión de entre el 60 y el 65% y, a menudo, no predicen las hojas beta. [1] La conservación evolutiva de estructuras secundarias puede explotarse evaluando simultáneamente muchossecuencias homólogas en un alineamiento de secuencia múltiple , calculando la propensión neta a la estructura secundaria de una columna alineada de aminoácidos. Junto con bases de datos más grandes de estructuras de proteínas conocidas y métodos modernos de aprendizaje automático , como redes neuronales y máquinas de vectores de soporte , estos métodos pueden lograr hasta un 80% de precisión general en proteínas globulares . [10] El límite superior teórico de precisión es de alrededor del 90%, [10]en parte debido a idiosincrasias en la asignación de DSSP cerca de los extremos de las estructuras secundarias, donde las conformaciones locales varían en condiciones nativas, pero pueden verse obligadas a asumir una única conformación en los cristales debido a las limitaciones de empaquetamiento. Además, los métodos típicos de predicción de la estructura secundaria no tienen en cuenta la influencia de la estructura terciaria en la formación de la estructura secundaria; por ejemplo, una secuencia que se predice como una hélice probable aún puede adoptar una conformación de cadena beta si está ubicada dentro de una región de hoja beta de la proteína y sus cadenas laterales se empaquetan bien con sus vecinas. Los cambios conformacionales dramáticos relacionados con la función o el entorno de la proteína también pueden alterar la estructura secundaria local.

Perspectiva histórica [ editar ]

Hasta la fecha, se han desarrollado más de 20 métodos diferentes de predicción de estructuras secundarias. Uno de los primeros algoritmos fue el método de Chou-Fasman , que se basa predominantemente en parámetros de probabilidad determinados a partir de las frecuencias relativas de la aparición de cada aminoácido en cada tipo de estructura secundaria. [11] Los parámetros originales de Chou-Fasman, determinados a partir de una pequeña muestra de estructuras resueltas a mediados de la década de 1970, producen malos resultados en comparación con los métodos modernos, aunque la parametrización se ha actualizado desde que se publicó por primera vez. El método de Chou-Fasman tiene aproximadamente un 50-60% de precisión en la predicción de estructuras secundarias. [1]

El siguiente programa notable fue el método GOR, un método basado en la teoría de la información . Utiliza la técnica probabilística más poderosa de la inferencia bayesiana . [12] El método GOR tiene en cuenta no solo la probabilidad de que cada aminoácido tenga una estructura secundaria particular, sino también la probabilidad condicional de que el aminoácido asuma cada estructura dadas las contribuciones de sus vecinos (no supone que los vecinos tengan esa misma estructura). El enfoque es más sensible y más preciso que el de Chou y Fasman porque las propensiones estructurales de los aminoácidos solo son fuertes para una pequeña cantidad de aminoácidos como la prolina y la glicina.. Las contribuciones débiles de cada uno de los muchos vecinos pueden sumar efectos fuertes en general. El método GOR original tenía una precisión aproximada del 65% y es mucho más exitoso en la predicción de hélices alfa que hojas beta, que con frecuencia se equivocaban al predecir como bucles o regiones desorganizadas. [1]

Otro gran paso adelante fue el uso de métodos de aprendizaje automático . Se utilizaron los primeros métodos de redes neuronales artificiales . Como conjuntos de entrenamiento, utilizan estructuras resueltas para identificar motivos de secuencia comunes asociados con arreglos particulares de estructuras secundarias. Estos métodos tienen una precisión de más del 70% en sus predicciones, aunque las hebras beta todavía a menudo se subestiman debido a la falta de información estructural tridimensional que permitiría la evaluación de los patrones de enlace de hidrógeno que pueden promover la formación de la conformación extendida requerida para la presencia de un hoja beta completa. [1] PSIPRED y JPREDson algunos de los programas más conocidos basados ​​en redes neuronales para la predicción de estructuras secundarias de proteínas. A continuación, las máquinas de vectores de soporte han demostrado ser particularmente útiles para predecir la ubicación de los giros , que son difíciles de identificar con métodos estadísticos. [13] [14]

Las extensiones de las técnicas de aprendizaje automático intentan predecir propiedades locales más detalladas de las proteínas, como los ángulos diedros de la columna vertebral en regiones no asignadas. Se han aplicado a este problema tanto las SVM [15] como las redes neuronales [16] . [13] Más recientemente, los ángulos de torsión de valor real pueden predecirse con precisión mediante SPINE-X y emplearse con éxito para la predicción de estructuras ab initio. [17]

Otras mejoras [ editar ]

Se informa que además de la secuencia de proteínas, la formación de estructuras secundarias depende de otros factores. Por ejemplo, se informa que las tendencias de la estructura secundaria dependen también del entorno local, [18] la accesibilidad de los residuos a los disolventes, [19] la clase estructural de proteínas, [20] e incluso el organismo del que se obtienen las proteínas. [21] Basándose en tales observaciones, algunos estudios han demostrado que la predicción de la estructura secundaria puede mejorarse mediante la adición de información sobre la clase estructural de la proteína, [22] área de superficie accesible de residuos [23] [24] y también información de número de contacto . [25]

Estructura terciaria [ editar ]

El papel práctico de la predicción de la estructura de las proteínas es ahora más importante que nunca. [26] Se producen cantidades masivas de datos de secuencias de proteínas mediante esfuerzos modernos de secuenciación de ADN a gran escala , como el Proyecto Genoma Humano . A pesar de los esfuerzos de toda la comunidad en genómica estructural , la producción de estructuras proteicas determinadas experimentalmente, típicamente por cristalografía de rayos X o espectroscopía de RMN, que requiere mucho tiempo y es relativamente costosa, está muy por detrás de la producción de secuencias de proteínas.

La predicción de la estructura de la proteína sigue siendo una tarea extremadamente difícil y sin resolver. Los dos problemas principales son el cálculo de la energía libre de proteínas y la búsqueda del mínimo global de esta energía. Un método de predicción de la estructura de proteínas debe explorar el espacio de posibles estructuras de proteínas que es astronómicamente grande . Estos problemas pueden evitarse parcialmente en los métodos de reconocimiento de pliegues y modelado "comparativo" o de homología , en los que el espacio de búsqueda se poda suponiendo que la proteína en cuestión adopta una estructura cercana a la estructura determinada experimentalmente de otra proteína homóloga. Por otro lado, la predicción de la estructura de la proteína de novoLos métodos deben resolver explícitamente estos problemas. Zhang ha revisado el progreso y los desafíos en la predicción de la estructura de las proteínas. [27]

Antes de modelar [ editar ]

La mayoría de los métodos de modelado de estructuras terciarias, como Rosetta, están optimizados para modelar la estructura terciaria de dominios de proteínas individuales. Un paso llamado análisis sintáctico de dominios , o predicción de límites de dominio , generalmente se realiza primero para dividir una proteína en dominios estructurales potenciales. Al igual que con el resto de la predicción de estructuras terciarias, esto se puede hacer comparativamente a partir de estructuras conocidas [28] o ab initio solo con la secuencia (generalmente mediante aprendizaje automático , asistido por covariación). [29] Las estructuras de los dominios individuales se acoplan en un proceso llamado ensamblaje de dominios para formar la estructura terciaria final. [30] [31]

Modelado de proteínas ab initio [ editar ]

Métodos basados ​​en energía y fragmentos [ editar ]

Los métodos de modelado de proteínas ab initio o de novo buscan construir modelos de proteínas tridimensionales "desde cero", es decir, basados ​​en principios físicos en lugar de (directamente) en estructuras previamente resueltas. Hay muchos procedimientos posibles que intentan imitar el plegamiento de proteínas o aplican algún método estocástico para buscar posibles soluciones (es decir, optimización global de una función energética adecuada). Estos procedimientos tienden a requerir vastos recursos computacionales y, por lo tanto, solo se han llevado a cabo para proteínas diminutas. Para predecir la estructura de las proteínas de novopara proteínas más grandes se requerirán mejores algoritmos y recursos computacionales más grandes como los que ofrecen las poderosas supercomputadoras (como Blue Gene o MDGRAPE-3 ) o la computación distribuida (como Folding @ home , Human Proteome Folding Project y Rosetta @ Home ). Aunque estas barreras computacionales son enormes, los beneficios potenciales de la genómica estructural (por métodos predichos o experimentales) hacen de la predicción de estructuras ab initio un campo de investigación activo. [27]

A partir de 2009, una proteína de 50 residuos podría simularse átomo por átomo en una supercomputadora durante 1 milisegundo. [32] A partir de 2012, se podría realizar un muestreo de estado estable comparable en un escritorio estándar con una nueva tarjeta gráfica y algoritmos más sofisticados. [33] Se pueden lograr escalas de tiempo de simulación mucho más grandes utilizando modelos de grano grueso . [34] [35]

Covariación evolutiva para predecir contactos 3D [ editar ]

A medida que la secuenciación se volvió más común en la década de 1990, varios grupos usaron alineaciones de secuencias de proteínas para predecir mutaciones correlacionadas y se esperaba que estos residuos coevolucionados pudieran usarse para predecir la estructura terciaria (usando la analogía con las restricciones de distancia de los procedimientos experimentales como la RMN ). La suposición es que cuando las mutaciones de un solo residuo son levemente perjudiciales, pueden ocurrir mutaciones compensatorias para restablecer las interacciones residuo-residuo. Este trabajo inicial utilizó lo que se conoce como métodos locales para calcular mutaciones correlacionadas a partir de secuencias de proteínas, pero adolecía de falsas correlaciones indirectas que resultan de tratar cada par de residuos como independientes de todos los demás pares. [36] [37] [38]

En 2011, un enfoque estadístico diferente, y esta vez global , demostró que los residuos coevolucionados predichos eran suficientes para predecir el pliegue 3D de una proteína, siempre que haya suficientes secuencias disponibles (se necesitan más de 1000 secuencias homólogas). [39] El método, EVfold , no utiliza modelos de homología, subprocesos o fragmentos de estructura 3D y puede ejecutarse en una computadora personal estándar incluso para proteínas con cientos de residuos. La precisión de los contactos predichos usando este y otros enfoques relacionados se ha demostrado ahora en muchas estructuras conocidas y mapas de contacto, [40] [41] [42] incluyendo la predicción de proteínas transmembrana no resueltas experimentalmente. [43]

Modelado comparativo de proteínas [ editar ]

El modelado comparativo de proteínas utiliza estructuras previamente resueltas como puntos de partida o plantillas. Esto es eficaz porque parece que, aunque el número de proteínas reales es enorme, existe un conjunto limitado de motivos estructurales terciarios a los que pertenecen la mayoría de las proteínas. Se ha sugerido que solo hay alrededor de 2000 pliegues de proteínas distintos en la naturaleza, aunque hay muchos millones de proteínas diferentes. El modelado comparativo de proteínas se puede combinar con la covariación evolutiva en la predicción de la estructura. [44]

Estos métodos también pueden dividirse en dos grupos: [27]

  • El modelado de homología se basa en la suposición razonable de que dos proteínas homólogas compartirán estructuras muy similares. Debido a que el pliegue de una proteína se conserva más evolutivamente que su secuencia de aminoácidos, una secuencia diana se puede modelar con una precisión razonable en una plantilla muy distante, siempre que la relación entre la diana y la plantilla se pueda discernir a través del alineamiento de secuencias . Se ha sugerido que el principal cuello de botella en el modelado comparativo surge de las dificultades en la alineación más que de los errores en la predicción de la estructura dada una buena alineación conocida. [45] Como era de esperar, el modelado de homología es más preciso cuando el objetivo y la plantilla tienen secuencias similares.
  • El subproceso de proteínas [46] escanea la secuencia de aminoácidos de una estructura desconocida frente a una base de datos de estructuras resueltas. En cada caso, se utiliza una función de puntuación para evaluar la compatibilidad de la secuencia con la estructura, produciendo así posibles modelos tridimensionales. Este tipo de método también se conoce como reconocimiento de pliegues 3D-1D debido a su análisis de compatibilidad entre estructuras tridimensionales y secuencias de proteínas lineales. Este método también ha dado lugar a métodos que realizan una búsqueda de plegado inverso evaluando la compatibilidad de una estructura dada con una gran base de datos de secuencias, prediciendo así qué secuencias tienen el potencial de producir un plegado determinado.

Modelado de conformaciones de cadenas laterales [ editar ]

El empaquetamiento preciso de las cadenas laterales de aminoácidos representa un problema aparte en la predicción de la estructura de las proteínas. Los métodos que abordan específicamente el problema de predecir la geometría de la cadena lateral incluyen la eliminación de callejones sin salida y los métodos de campo medio autoconsistente . Las conformaciones de la cadena lateral con baja energía se determinan generalmente en la estructura rígida del polipéptido y usando un conjunto de conformaciones discretas de la cadena lateral conocidas como " rotámeros ". Los métodos intentan identificar el conjunto de rotámeros que minimizan la energía total del modelo.

Estos métodos utilizan bibliotecas de rotámeros, que son colecciones de conformaciones favorables para cada tipo de residuo en proteínas. Las bibliotecas de rotámeros pueden contener información sobre la conformación, su frecuencia y las desviaciones estándar sobre los ángulos diedros medios, que se pueden utilizar en el muestreo. [47] Las bibliotecas de rotámeros se derivan de bioinformática estructural u otro análisis estadístico de conformaciones de cadenas laterales en estructuras experimentales conocidas de proteínas, como agrupando las conformaciones observadas para carbonos tetraédricos cerca del escalonado (60 °, 180 °, -60 °) valores.

Las bibliotecas de rotámeros pueden ser independientes de la estructura, dependientes de la estructura secundaria o dependientes de la estructura. Las bibliotecas de rotámeros independientes de la estructura principal no hacen referencia a la conformación de la estructura principal y se calculan a partir de todas las cadenas laterales disponibles de un cierto tipo (por ejemplo, el primer ejemplo de una biblioteca de rotámeros, realizado por Ponder y Richards en Yale en 1987). [48] Las bibliotecas dependientes de la estructura secundaria presentan diferentes ángulos diedros y / o frecuencias de rotámeros para estructuras secundarias de hélice, lámina o espiral. [49] Las bibliotecas de rotámeros dependientes de la columna vertebral presentan conformaciones y / o frecuencias que dependen de la conformación de la columna vertebral local como se define por los ángulos diedros de la columna vertebral y , independientemente de la estructura secundaria. [50]

Las versiones modernas de estas bibliotecas, tal como se utilizan en la mayoría del software, se presentan como distribuciones multidimensionales de probabilidad o frecuencia, donde los picos corresponden a las conformaciones de ángulos diedros consideradas como rotámeros individuales en las listas. Algunas versiones se basan en datos cuidadosamente seleccionados y se utilizan principalmente para la validación de estructuras, [51] mientras que otras enfatizan las frecuencias relativas en conjuntos de datos mucho más grandes y son la forma utilizada principalmente para la predicción de estructuras, como las bibliotecas de rotámeros de Dunbrack . [52]

Los métodos de empaquetamiento de cadenas laterales son más útiles para analizar el núcleo hidrófobo de la proteína , donde las cadenas laterales están empaquetadas más de cerca; tienen más dificultades para abordar las limitaciones más flexibles y la mayor flexibilidad de los residuos de la superficie, que a menudo ocupan múltiples conformaciones de rotámero en lugar de solo una. [53] [54]

Estructura cuaternaria [ editar ]

En el caso de complejos de dos o más proteínas , donde las estructuras de las proteínas son conocidas o pueden predecirse con gran precisión, se pueden utilizar métodos de acoplamiento proteína-proteína para predecir la estructura del complejo. La información del efecto de las mutaciones en sitios específicos sobre la afinidad del complejo ayuda a comprender la estructura del complejo y a orientar los métodos de acoplamiento.

Software [ editar ]

Existe una gran cantidad de herramientas de software para la predicción de la estructura de proteínas. Los enfoques incluyen modelado de homología , enhebrado de proteínas , métodos ab initio , predicción de estructura secundaria y predicción de hélice transmembrana y péptido señal. Algunos métodos exitosos recientes basados ​​en los experimentos CASP incluyen I-TASSER , HHpred y AlphaFold . Para obtener una lista completa, consulte el artículo principal .

Evaluación de servidores de predicción automática de estructuras [ editar ]

CASP , que significa Evaluación crítica de técnicas para la predicción de la estructura de proteínas, es un experimento comunitario para la predicción de la estructura de proteínas que se lleva a cabo cada dos años desde 1994. CASP brinda la oportunidad de evaluar la calidad de la metodología humana no automatizada disponible ( categoría humana) y servidores automáticos para la predicción de la estructura de proteínas (categoría de servidor, introducida en el CASP7). [55]

El servidor de evaluación de modelo automatizado continuo CAMEO3D evalúa los servidores de predicción de estructura de proteínas automatizados semanalmente utilizando predicciones ciegas para estructuras de proteínas de reciente liberación. CAMEO publica los resultados en su sitio web.

Ver también [ editar ]

  • Diseño de proteínas
  • Predicción de la función de las proteínas
  • Software de predicción de la estructura de proteínas
  • Predicción de la estructura de la proteína de novo
  • Software de diseño molecular
  • Software de modelado molecular
  • Modelado de sistemas biológicos
  • Bibliotecas de fragmentos
  • Proteínas de celosía
  • Potencial estadístico
  • Banco de datos de dicroísmo circular de proteínas
  • MODELLER : un programa informático para el modelado de homología
  • Rosetta en casa

Referencias [ editar ]

  1. ↑ a b c d e f g h Mount DM (2004). Bioinformática: análisis de secuencia y genoma . 2 . Prensa de laboratorio Cold Spring Harbor. ISBN 978-0-87969-712-9.
  2. ^ Huang JY, Brutlag DL (enero de 2001). "La base de datos EMOTIF" . Investigación de ácidos nucleicos . 29 (1): 202–4. doi : 10.1093 / nar / 29.1.202 . PMC 29837 . PMID 11125091 .  
  3. ^ Pirovano W, Heringa J (2010). "Predicción de la estructura secundaria de la proteína". Técnicas de minería de datos para las ciencias de la vida . Métodos en Biología Molecular. 609 . págs. 327–48. doi : 10.1007 / 978-1-60327-241-4_19 . ISBN 978-1-60327-240-7. PMID  20221928 .
  4. ^ Guzzo AV (noviembre de 1965). "La influencia de la secuencia de aminoácidos en la estructura de las proteínas" . Revista biofísica . 5 (6): 809–22. Bibcode : 1965BpJ ..... 5..809G . doi : 10.1016 / S0006-3495 (65) 86753-4 . PMC 1367904 . PMID 5884309 .  
  5. ^ Prothero JW (mayo de 1966). "Correlación entre la distribución de aminoácidos y hélices alfa" . Revista biofísica . 6 (3): 367–70. Código Bibliográfico : 1966BpJ ..... 6..367P . doi : 10.1016 / S0006-3495 (66) 86662-6 . PMC 1367951 . PMID 5962284 .  
  6. ^ Schiffer M, Edmundson AB (marzo de 1967). "Uso de ruedas helicoidales para representar las estructuras de proteínas e identificar segmentos con potencial helicoidal" . Revista biofísica . 7 (2): 121–35. Código Bibliográfico : 1967BpJ ..... 7..121S . doi : 10.1016 / S0006-3495 (67) 86579-2 . PMC 1368002 . PMID 6048867 .  
  7. ^ Kotelchuck D, Scheraga HA (enero de 1969). "La influencia de las interacciones de corto alcance en la formación de proteínas. II. Un modelo para predecir las regiones alfa-helicoidales de las proteínas" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 62 (1): 14-21. Código Bibliográfico : 1969PNAS ... 62 ... 14K . doi : 10.1073 / pnas.62.1.14 . PMC 285948 . PMID 5253650 .  
  8. ^ Lewis PN, Go N, Go M, Kotelchuck D, Scheraga HA (abril de 1970). "Perfiles de probabilidad de hélice de proteínas desnaturalizadas y su correlación con estructuras nativas" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 65 (4): 810–5. Código Bibliográfico : 1970PNAS ... 65..810L . doi : 10.1073 / pnas.65.4.810 . PMC 282987 . PMID 5266152 .  
  9. ^ Froimowitz M, Fasman GD (1974). "Predicción de la estructura secundaria de proteínas utilizando la teoría de transición hélice-espiral". Macromoléculas . 7 (5): 583–9. Código Bibliográfico : 1974MaMol ... 7..583F . doi : 10.1021 / ma60041a009 . PMID 4371089 . 
  10. ↑ a b Dor O, Zhou Y (marzo de 2007). "Lograr un 80% de precisión con validación cruzada de diez veces para la predicción de estructuras secundarias mediante capacitación a gran escala". Las proteínas . 66 (4): 838–45. doi : 10.1002 / prot.21298 . PMID 17177203 . S2CID 14759081 .  
  11. ^ Chou PY, Fasman GD (enero de 1974). "Predicción de la conformación de proteínas". Bioquímica . 13 (2): 222–45. doi : 10.1021 / bi00699a002 . PMID 4358940 . 
  12. ^ Garnier J, Osguthorpe DJ, Robson B (marzo de 1978). "Análisis de la precisión e implicaciones de métodos simples para predecir la estructura secundaria de proteínas globulares". Revista de Biología Molecular . 120 (1): 97-120. doi : 10.1016 / 0022-2836 (78) 90297-8 . PMID 642007 . 
  13. ^ a b Pham TH, Satou K, Ho TB (abril de 2005). "Soporte de máquinas de vectores para la predicción y análisis de giros beta y gamma en proteínas". Revista de Bioinformática y Biología Computacional . 3 (2): 343–58. doi : 10.1142 / S0219720005001089 . PMID 15852509 . 
  14. ^ Zhang Q, Yoon S, Welsh WJ (mayo de 2005). "Método mejorado para predecir el giro beta utilizando una máquina de vectores de soporte" . Bioinformática . 21 (10): 2370–4. doi : 10.1093 / bioinformática / bti358 . PMID 15797917 . 
  15. ^ Zimmermann O, Hansmann UH (diciembre de 2006). "Soporte de máquinas vectoriales para la predicción de regiones de ángulos diedros" . Bioinformática . 22 (24): 3009-15. doi : 10.1093 / bioinformatics / btl489 . PMID 17005536 . 
  16. ^ Kuang R, Leslie CS, Yang AS (julio de 2004). "Predicción del ángulo de la columna vertebral de proteínas con enfoques de aprendizaje automático" . Bioinformática . 20 (10): 1612–21. doi : 10.1093 / bioinformatics / bth136 . PMID 14988121 . 
  17. ^ Faraggi E, Yang Y, Zhang S, Zhou Y (noviembre de 2009). "Predicción de la estructura local continua y el efecto de su sustitución de la estructura secundaria en la predicción de la estructura de la proteína libre de fragmentos" . Estructura . 17 (11): 1515–27. doi : 10.1016 / j.str.2009.09.006 . PMC 2778607 . PMID 19913486 .  
  18. ^ Zhong L, Johnson WC (mayo de 1992). "El medio ambiente afecta la preferencia de aminoácidos por la estructura secundaria" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 89 (10): 4462–5. Código bibliográfico : 1992PNAS ... 89.4462Z . doi : 10.1073 / pnas.89.10.4462 . PMC 49102 . PMID 1584778 .  
  19. ^ Macdonald JR, Johnson WC (junio de 2001). "Las características ambientales son importantes para determinar la estructura secundaria de la proteína" . Ciencia de las proteínas . 10 (6): 1172–7. doi : 10.1110 / ps.420101 . PMC 2374018 . PMID 11369855 .  
  20. ^ Costantini S, Colonna G, Facchiano AM (abril de 2006). "Las propensiones de aminoácidos a estructuras secundarias están influenciadas por la clase estructural de proteínas". Comunicaciones de investigación bioquímica y biofísica . 342 (2): 441–51. doi : 10.1016 / j.bbrc.2006.01.159 . PMID 16487481 . 
  21. ^ Marashi SA, Behrouzi R, Pezeshk H (enero de 2007). "Adaptación de proteínas a diferentes entornos: una comparación de las propiedades estructurales del proteoma en Bacillus subtilis y Escherichia coli". Revista de Biología Teórica . 244 (1): 127–32. doi : 10.1016 / j.jtbi.2006.07.021 . PMID 16945389 . 
  22. ^ Costantini S, Colonna G, Facchiano AM (octubre de 2007). "PreSSAPro: un software para la predicción de estructura secundaria por propiedades de aminoácidos". Biología y Química Computacional . 31 (5–6): 389–92. doi : 10.1016 / j.compbiolchem.2007.08.010 . PMID 17888742 . 
  23. ^ Momen-Roknabadi A, Sadeghi M, Pezeshk H, Marashi SA (agosto de 2008). "Impacto de la superficie accesible de residuos en la predicción de estructuras secundarias de proteínas" . BMC Bioinformática . 9 : 357. doi : 10.1186 / 1471-2105-9-357 . PMC 2553345 . PMID 18759992 .  
  24. ^ Adamczak R, Porollo A, Meller J (mayo de 2005). "Combinando predicción de estructura secundaria y accesibilidad a solventes en proteínas". Las proteínas . 59 (3): 467–75. doi : 10.1002 / prot.20441 . PMID 15768403 . S2CID 13267624 .  
  25. ^ Lakizadeh A, Marashi SA (2009). "La adición de la información del número de contacto puede mejorar la predicción de la estructura secundaria de proteínas mediante redes neuronales" (PDF) . Excli J . 8 : 66–73.
  26. ^ Dorn, Márcio; e Silva, Mariel Barbachan; Buriol, Luciana S .; Cordero, Luis C. (1 de diciembre de 2014). "Predicción de la estructura de proteínas tridimensionales: métodos y estrategias computacionales" . Biología y Química Computacional . 53 : 251-276. doi : 10.1016 / j.compbiolchem.2014.10.001 . ISSN 1476-9271 . PMID 25462334 .  
  27. ^ a b c Zhang Y (junio de 2008). "Avances y desafíos en la predicción de la estructura de proteínas" . Opinión actual en biología estructural . 18 (3): 342–8. doi : 10.1016 / j.sbi.2008.02.004 . PMC 2680823 . PMID 18436442 .  
  28. ^ Ovchinnikov S, Kim DE, Wang RY, Liu Y, DiMaio F, Baker D (septiembre de 2016). "Mejora de la predicción de la estructura de novo en CASP11 mediante la incorporación de información de coevolución en Rosetta" . Las proteínas . 84 Supl. 1: 67–75. doi : 10.1002 / prot.24974 . PMC 5490371 . PMID 26677056 .  
  29. ^ Hong SH, Joo K, Lee J (noviembre de 2018). "ConDo: predicción de límites de dominio de proteínas utilizando información coevolutiva". Bioinformática . 35 (14): 2411–2417. doi : 10.1093 / bioinformatics / bty973 . PMID 30500873 . 
  30. ^ Wollacott AM, Zanghellini A, Murphy P, Baker D (febrero de 2007). "Predicción de estructuras de proteínas multidominio a partir de estructuras de los dominios individuales" . Ciencia de las proteínas . 16 (2): 165–75. doi : 10.1110 / ps.062270707 . PMC 2203296 . PMID 17189483 .  
  31. ^ Xu D, Jaroszewski L, Li Z, Godzik A (julio de 2015). "AIDA: ensamblaje de dominio ab initio para la predicción automatizada de la estructura de la proteína de múltiples dominios y la predicción de la interacción dominio-dominio" . Bioinformática . 31 (13): 2098–105. doi : 10.1093 / bioinformatics / btv092 . PMC 4481839 . PMID 25701568 .  
  32. ^ Shaw DE, Dror RO, Salmon JK, Grossman JP, Mackenzie KM, Bank JA, Young C, Deneroff MM, Batson B, Bowers KJ, Chow E (2009). Simulaciones de dinámica molecular a escala de milisegundos en Anton . Actas de la Conferencia sobre Redes, Almacenamiento y Análisis de Computación de Alto Rendimiento - SC '09. pag. 1. doi : 10.1145 / 1654059.1654126 . ISBN 9781605587448.
  33. ^ Pierce LC, Salomon-Ferrer R, de Oliveira CA, McCammon JA, Walker RC (septiembre de 2012). "Acceso de rutina a eventos de escala de tiempo de milisegundos con dinámica molecular acelerada" . Revista de teoría química y computación . 8 (9): 2997–3002. doi : 10.1021 / ct300284c . PMC 3438784 . PMID 22984356 .  
  34. ^ Kmiecik S, Gront D, Kolinski M, Wieteska L, Dawid AE, Kolinski A (julio de 2016). "Modelos de proteínas de grano grueso y sus aplicaciones" . Revisiones químicas . 116 (14): 7898–936. doi : 10.1021 / acs.chemrev.6b00163 . PMID 27333362 . 
  35. ^ Cheung NJ, Yu W (noviembre de 2018). "Predicción de la estructura de la proteína de novo mediante simulación de dinámica molecular ultrarrápida" . PLOS ONE . 13 (11): e0205819. Código bibliográfico : 2018PLoSO..1305819C . doi : 10.1371 / journal.pone.0205819 . PMC 6245515 . PMID 30458007 .  
  36. ^ Göbel U, Sander C, Schneider R, Valencia A (abril de 1994). "Mutaciones correlacionadas y contactos de residuos en proteínas". Las proteínas . 18 (4): 309-17. doi : 10.1002 / prot.340180402 . PMID 8208723 . S2CID 14978727 .  
  37. ^ Taylor WR, Hatrick K (marzo de 1994). "Compensación de cambios en las alineaciones de secuencias múltiples de proteínas". Ingeniería de proteínas . 7 (3): 341–8. doi : 10.1093 / proteína / 7.3.341 . PMID 8177883 . 
  38. ^ Neher E (enero de 1994). "¿Qué tan frecuentes son los cambios correlacionados en las familias de secuencias de proteínas?" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 91 (1): 98-102. Código Bibliográfico : 1994PNAS ... 91 ... 98N . doi : 10.1073 / pnas.91.1.98 . PMC 42893 . PMID 8278414 .  
  39. ^ Marks DS, Colwell LJ, Sheridan R, Hopf TA, Pagnani A, Zecchina R, Sander C (2011). "Estructura de la proteína 3D calculada a partir de la variación de la secuencia evolutiva" . PLOS ONE . 6 (12): e28766. Código bibliográfico : 2011PLoSO ... 628766M . doi : 10.1371 / journal.pone.0028766 . PMC 3233603 . PMID 22163331 .  
  40. ^ Burger L, van Nimwegen E (enero de 2010). "Desenredo directo de co-evolución indirecta de residuos en alineaciones de proteínas" . PLOS Biología Computacional . 6 (1): e1000633. Código Bibliográfico : 2010PLSCB ... 6E0633B . doi : 10.1371 / journal.pcbi.1000633 . PMC 2793430 . PMID 20052271 .  
  41. ^ Morcos F, Pagnani A, Lunt B, Bertolino A, Marks DS, Sander C, Zecchina R, Onuchic JN, Hwa T, Weigt M (diciembre de 2011). "El análisis de acoplamiento directo de la coevolución de residuos captura contactos nativos en muchas familias de proteínas" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 108 (49): E1293-301. arXiv : 1110.5223 . Código bibliográfico : 2011PNAS..108E1293M . doi : 10.1073 / pnas.1111471108 . PMC 3241805 . PMID 22106262 .  
  42. ^ Nugent T, Jones DT (junio de 2012). "Predicción precisa de la estructura de novo de grandes dominios de proteínas transmembrana mediante ensamblaje de fragmentos y análisis de mutaciones correlacionadas" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 109 (24): E1540-7. Código bibliográfico : 2012PNAS..109E1540N . doi : 10.1073 / pnas.1120036109 . PMC 3386101 . PMID 22645369 .  
  43. ^ Hopf TA, Colwell LJ, Sheridan R, Rost B, Sander C, Marks DS (junio de 2012). "Estructuras tridimensionales de proteínas de membrana a partir de secuenciación genómica" . Celular . 149 (7): 1607–21. doi : 10.1016 / j.cell.2012.04.012 . PMC 3641781 . PMID 22579045 .  
  44. ^ Jin, Shikai; Chen, Mingchen; Chen, Xun; Bueno, Carlos; Lu, Wei; Schafer, Nicholas P .; Lin, Xingcheng; Onuchic, José N .; Wolynes, Peter G. (9 de junio de 2020). "Predicción de la estructura de proteínas en CASP13 usando AWSEM-Suite". Revista de teoría química y computación . 16 (6): 3977–3988. doi : 10.1021 / acs.jctc.0c00188 . PMID 32396727 . 
  45. ^ Zhang Y, Skolnick J (enero de 2005). "El problema de predicción de la estructura de la proteína podría resolverse utilizando la biblioteca PDB actual" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 102 (4): 1029–34. Código Bibliográfico : 2005PNAS..102.1029Z . doi : 10.1073 / pnas.0407152101 . PMC 545829 . PMID 15653774 .  
  46. ^ Bowie JU, Lüthy R, Eisenberg D (julio de 1991). "Un método para identificar secuencias de proteínas que se pliegan en una estructura tridimensional conocida". Ciencia . 253 (5016): 164–70. Código bibliográfico : 1991Sci ... 253..164B . doi : 10.1126 / science.1853201 . PMID 1853201 . 
  47. ^ Dunbrack RL (agosto de 2002). "Bibliotecas rotamer en el siglo XXI". Opinión actual en biología estructural . 12 (4): 431–40. doi : 10.1016 / S0959-440X (02) 00344-5 . PMID 12163064 . 
  48. ^ Ponder JW, Richards FM (febrero de 1987). "Plantillas terciarias para proteínas. Uso de criterios de empaque en la enumeración de secuencias permitidas para diferentes clases estructurales". Revista de Biología Molecular . 193 (4): 775–91. doi : 10.1016 / 0022-2836 (87) 90358-5 . PMID 2441069 . 
  49. ^ Lovell SC, Word JM, Richardson JS, Richardson DC (agosto de 2000). "La penúltima biblioteca de rotámeros". Las proteínas . 40 (3): 389–408. doi : 10.1002 / 1097-0134 (20000815) 40: 3 <389 :: AID-PROT50> 3.0.CO; 2-2 . PMID 10861930 . 
  50. ^ Shapovalov MV, Dunbrack RL (junio de 2011). "Una biblioteca de rotámeros dependiente de la columna vertebral suavizada para proteínas derivadas de regresiones y estimaciones de densidad del núcleo adaptativo" . Estructura . 19 (6): 844–58. doi : 10.1016 / j.str.2011.03.019 . PMC 3118414 . PMID 21645855 .  
  51. ^ Chen VB, Arendall WB, Headd JJ, Keedy DA, Immormino RM, Kapral GJ, Murray LW, Richardson JS, Richardson DC (enero de 2010). "MolProbity: validación de la estructura de todos los átomos para cristalografía macromolecular" . Acta Crystallographica. Sección D, Cristalografía biológica . 66 (Pt 1): 12-21. doi : 10.1107 / S0907444909042073 . PMC 2803126 . PMID 20057044 .  
  52. ^ Bower MJ, Cohen FE, Dunbrack RL (abril de 1997). "Predicción de rotámeros de cadena lateral de proteínas de una biblioteca de rotámeros dependientes de la columna vertebral: una nueva herramienta de modelado de homología". Revista de Biología Molecular . 267 (5): 1268–82. doi : 10.1006 / jmbi.1997.0926 . PMID 9150411 . 
  53. ^ Voigt CA, Gordon DB, Mayo SL (junio de 2000). "Comercio de precisión para la velocidad: una comparación cuantitativa de algoritmos de búsqueda en el diseño de secuencias de proteínas". Revista de Biología Molecular . 299 (3): 789–803. CiteSeerX 10.1.1.138.2023 . doi : 10.1006 / jmbi.2000.3758 . PMID 10835284 .  
  54. ^ Krivov GG, Shapovalov MV, Dunbrack RL (diciembre de 2009). "Mejora de la predicción de las conformaciones de la cadena lateral de proteínas con SCWRL4" . Las proteínas . 77 (4): 778–95. doi : 10.1002 / prot.22488 . PMC 2885146 . PMID 19603484 .  
  55. ^ Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T (2007). "Predicciones de servidor automatizadas en CASP7" . Las proteínas . 69 Suppl 8 (Suppl 8): 68–82. doi : 10.1002 / prot.21761 . PMID 17894354 . S2CID 29879391 .  

Lectura adicional [ editar ]

  • Majorek K, Kozlowski L, Jakalski M, Bujnicki JM (18 de diciembre de 2008). "Capítulo 2: Primeros pasos de la predicción de la estructura de proteínas" (PDF) . En Bujnicki J (ed.). Predicción de estructuras, funciones e interacciones de proteínas . John Wiley & Sons, Ltd. págs. 39–62. doi : 10.1002 / 9780470741894.ch2 . ISBN 9780470517673.
  • Baker D, Sali A (octubre de 2001). "Predicción de la estructura de proteínas y genómica estructural". Ciencia . 294 (5540): 93–6. Código Bibliográfico : 2001Sci ... 294 ... 93B . doi : 10.1126 / science.1065659 . PMID  11588250 . S2CID  7193705 .
  • Kelley LA, Sternberg MJ (2009). "Predicción de la estructura de proteínas en la Web: un estudio de caso utilizando el servidor Phyre" (PDF) . Protocolos de la naturaleza . 4 (3): 363–71. doi : 10.1038 / nprot.2009.2 . hdl : 10044/1/18157 . PMID  19247286 . S2CID  12497300 .
  • Kryshtafovych A, Fidelis K (abril de 2009). "Evaluación de la calidad del modelo y predicción de la estructura de la proteína" . Descubrimiento de drogas hoy . 14 (7-8): 386-93. doi : 10.1016 / j.drudis.2008.11.010 . PMC  2808711 . PMID  19100336 .
  • Qu X, Swanson R, Day R, Tsai J (junio de 2009). "Una guía para la predicción de estructuras basada en plantillas". Ciencia actual de proteínas y péptidos . 10 (3): 270–85. doi : 10.2174 / 138920309788452182 . PMID  19519455 .
  • Daga PR, Patel RY, Doerksen RJ (2010). "Modelado de proteínas basado en plantillas: avances metodológicos recientes" . Temas actuales en química medicinal . 10 (1): 84–94. doi : 10.2174 / 156802610790232314 . PMC  5943704 . PMID  19929829 .
  • Fiser, A. (2010). "Modelado de estructuras de proteínas basadas en plantillas". Biología Computacional . Métodos en Biología Molecular. 673 . págs. 73–94. doi : 10.1007 / 978-1-60761-842-3_6 . ISBN 978-1-60761-841-6. PMC  4108304 . PMID  20835794 .
  • Cozzetto D, Tramontano A (diciembre de 2008). "Avances y escollos en la predicción de la estructura de las proteínas". Ciencia actual de proteínas y péptidos . 9 (6): 567–77. doi : 10.2174 / 138920308786733958 . PMID  19075747 .
  • Nayeem A, Sitkoff D, Krystek S (abril de 2006). "Un estudio comparativo de software disponible para el modelado de homología de alta precisión: desde alineaciones de secuencia a modelos estructurales" . Ciencia de las proteínas . 15 (4): 808-24. doi : 10.1110 / ps.051892906 . PMC  2242473 . PMID  16600967 .

Enlaces externos [ editar ]

  • Página de inicio de experimentos CASP
  • Herramientas de proteómica ExPASy : lista de herramientas y servidores de predicción