Este es un buen artículo. Haga clic aquí para más información.
De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda
Alineación estructural de tiorredoxinas de humanos y la mosca Drosophila melanogaster . Las proteínas se muestran como cintas, con la proteína humana en rojo y la proteína de la mosca en amarillo. Generado a partir de PDB 3TRX y 1XWC .

La alineación estructural intenta establecer homología entre dos o más estructuras poliméricas basándose en su forma y conformación tridimensional . Este proceso generalmente se aplica a estructuras terciarias de proteínas , pero también se puede usar para moléculas de ARN grandes . En contraste con la superposición estructural simple, donde se conocen al menos algunos residuos equivalentes de las dos estructuras, la alineación estructural no requiere un conocimiento a priori de posiciones equivalentes. La alineación estructural es una herramienta valiosa para la comparación de proteínas con baja similitud de secuencia, donde las relaciones evolutivas entre proteínas no pueden detectarse fácilmente por estándartécnicas de alineación de secuencias . Por tanto, la alineación estructural se puede utilizar para implicar relaciones evolutivas entre proteínas que comparten muy poca secuencia común. Sin embargo, se debe tener precaución al utilizar los resultados como evidencia de ascendencia evolutiva compartida debido a los posibles efectos de confusión de la evolución convergente por la cual múltiples secuencias de aminoácidos no relacionadas convergen en una estructura terciaria común .

Los alineamientos estructurales pueden comparar dos secuencias o múltiples secuencias . Debido a que estas alineaciones se basan en información sobre todas las conformaciones tridimensionales de las secuencias de consulta, el método solo se puede utilizar en secuencias en las que se conocen estas estructuras. Por lo general, se encuentran mediante cristalografía de rayos X o espectroscopía de RMN . Es posible realizar una alineación estructural en estructuras producidas por métodos de predicción de estructuras . De hecho, la evaluación de tales predicciones a menudo requiere una alineación estructural entre el modelo y la verdadera estructura conocida para evaluar la calidad del modelo. [1] Los alineamientos estructurales son especialmente útiles para analizar datos de genómica estructural yesfuerzos proteómicos , y pueden usarse como puntos de comparación para evaluar alineamientos producidos por métodos bioinformáticos puramente basados ​​en secuencias . [2] [3] [4]

Los resultados de una alineación estructural son una superposición de los conjuntos de coordenadas atómicas y una desviación mínima cuadrática media ( RMSD ) entre las estructuras. El RMSD de dos estructuras alineadas indica su divergencia entre sí. El alineamiento estructural puede complicarse por la existencia de múltiples dominios proteicos dentro de una o más de las estructuras de entrada, porque los cambios en la orientación relativa de los dominios entre dos estructuras que se alinearán pueden inflar artificialmente el RMSD.

Datos producidos por alineación estructural [ editar ]

La información mínima producida a partir de una alineación estructural exitosa es un conjunto de residuos que se consideran equivalentes entre las estructuras. Este conjunto de equivalencias se utiliza normalmente para superponer las coordenadas tridimensionales para cada estructura de entrada. (Tenga en cuenta que un elemento de entrada puede fijarse como referencia y, por lo tanto, sus coordenadas superpuestas no cambian). Las estructuras ajustadas se pueden usar para calcular valores RMSD mutuos, así como otras medidas más sofisticadas de similitud estructural, como la prueba de distancia global. (GDT, [5] la métrica utilizada en CASP ). La alineación estructural también implica una alineación de secuencia unidimensional correspondiente. a partir de la cual se puede calcular una identidad de secuencia, o el porcentaje de residuos que son idénticos entre las estructuras de entrada, como una medida de cuán estrechamente están relacionadas las dos secuencias.

Tipos de comparaciones [ editar ]

Debido a que las estructuras proteicas están compuestas de aminoácidos cuyas cadenas laterales están unidas por una estructura proteica común, se pueden usar varios subconjuntos diferentes posibles de los átomos que componen una macromolécula proteica para producir una alineación estructural y calcular los valores de RMSD correspondientes. Al alinear estructuras con secuencias muy diferentes, los átomos de la cadena lateral generalmente no se tienen en cuenta porque sus identidades difieren entre muchos residuos alineados. Por esta razón, es común que los métodos de alineación estructural usen por defecto solo los átomos de la cadena principal incluidos en el enlace peptídico . Por simplicidad y eficiencia, a menudo solo se consideran las posiciones del carbono alfa , ya que el enlace peptídico tiene una variante mínimaconformación plana . Solo cuando las estructuras a alinear son muy similares o incluso idénticas, es significativo alinear las posiciones de los átomos de la cadena lateral, en cuyo caso la RMSD refleja no solo la conformación de la estructura de la proteína sino también los estados rotaméricos de las cadenas laterales. Otros criterios de comparación que reducen el ruido y refuerzan las coincidencias positivas incluyen la asignación de estructuras secundarias , mapas de contacto nativos o patrones de interacción de residuos, medidas de empaquetamiento de cadenas laterales y medidas de retención de enlaces de hidrógeno . [6]

Superposición estructural [ editar ]

La comparación más básica posible entre las estructuras de proteínas no intenta alinear las estructuras de entrada y requiere una alineación precalculada como entrada para determinar cuáles de los residuos de la secuencia están destinados a ser considerados en el cálculo de RMSD. La superposición estructural se usa comúnmente para comparar múltiples conformaciones de la misma proteína (en cuyo caso no es necesario alineamiento, ya que las secuencias son las mismas) y para evaluar la calidad de los alineamientos producidos usando solo información de secuencia entre dos o más secuencias cuyas estructuras son conocidas. . Este método utiliza tradicionalmente un algoritmo de ajuste de mínimos cuadrados simple, en el que las rotaciones y traslaciones óptimas se encuentran minimizando la suma de las distancias al cuadrado entre todas las estructuras en la superposición. [7]Más recientemente, los métodos bayesianos y de máxima verosimilitud han aumentado en gran medida la precisión de las rotaciones, traslaciones y matrices de covarianza estimadas para la superposición. [8] [9]

Se han desarrollado algoritmos basados ​​en rotaciones multidimensionales y cuaterniones modificados para identificar relaciones topológicas entre estructuras de proteínas sin la necesidad de una alineación predeterminada. Tales algoritmos han identificado con éxito pliegues canónicos como el paquete de cuatro hélices . [10] El método SuperPose es lo suficientemente extensible para corregir las rotaciones de dominio relativas y otras fallas estructurales. [11]

Evaluación de la similitud [ editar ]

A menudo, el propósito de buscar una superposición estructural no es tanto la superposición en sí misma, sino una evaluación de la similitud de dos estructuras o la confianza en una alineación remota. [1] [2] [3] Una distinción sutil pero importante de la superposición estructural máxima es la conversión de una alineación en una puntuación de similitud significativa. [12] [13] La mayoría de los métodos generan algún tipo de "puntuación" que indica la calidad de la superposición. [5] [14] [15] [12] [13] obstante, lo que realmente quiere es no solamente un estimado "Z-score" o un estimadoValor E de ver la superposición observada por casualidad, pero en su lugar se desea que el valor E estimado esté estrechamente correlacionado con el valor E verdadero. Críticamente, incluso si el valor E estimado de un método es precisamente correcto en promedio , si carece de una desviación estándar baja en su proceso de generación de valor estimado, entonces el orden de clasificación de las similitudes relativas de una proteína de consulta con un conjunto de comparación rara vez estará de acuerdo con el "verdadero" orden. [12] [13]

Los diferentes métodos superpondrán diferentes números de residuos porque utilizan diferentes garantías de calidad y diferentes definiciones de "superposición"; algunos solo incluyen residuos que cumplen múltiples criterios de superposición local y global y otros son más codiciosos, flexibles y promiscuos. Un mayor número de átomos superpuestos puede significar más similitud, pero puede que no siempre produzca el mejor valor E cuantificando la improbabilidad de la superposición y, por lo tanto, no es tan útil para evaluar la similitud, especialmente en homólogos remotos. [1] [2] [3] [4]

Complejidad algorítmica [ editar ]

Solución óptima [ editar ]

Se ha demostrado que el " enhebrado " óptimo de una secuencia de proteína en una estructura conocida y la producción de un alineamiento de secuencia múltiple óptimo es NP-completo . [16] [17] Sin embargo, esto no implica que el problema de alineación estructural sea NP-completo. Estrictamente hablando, una solución óptima al problema de alineación de la estructura de la proteína solo se conoce para ciertas medidas de similitud de la estructura de la proteína, como las medidas utilizadas en los experimentos de predicción de la estructura de la proteína, GDT_TS [5] y MaxSub. [14] Estas medidas pueden optimizarse rigurosamente utilizando un algoritmo capaz de maximizar el número de átomos en dos proteínas que pueden superponerse bajo un límite de distancia predefinido. [15] Desafortunadamente, el algoritmo para la solución óptima no es práctico, ya que su tiempo de ejecución depende no solo de las longitudes sino también de la geometría intrínseca de las proteínas de entrada.

Solución aproximada [ editar ]

Se han desarrollado algoritmos de tiempo polinómico aproximado para la alineación estructural que producen una familia de soluciones "óptimas" dentro de un parámetro de aproximación para una función de puntuación dada. [15] [18] Aunque estos algoritmos clasifican teóricamente el problema de alineación de la estructura de la proteína aproximada como "manejable", todavía son computacionalmente demasiado costosos para el análisis de la estructura de la proteína a gran escala. Como consecuencia, no existen algoritmos prácticos que converjan a las soluciones globales de la alineación, dada una función de puntuación. La mayoría de los algoritmos son, por lo tanto, heurísticos, pero se han desarrollado algoritmos que garantizan la convergencia al menos a los maximizadores locales de las funciones de puntuación y que son prácticos. [19]

Representación de estructuras [ editar ]

Las estructuras de proteínas deben estar representadas en algún espacio independiente de coordenadas para que sean comparables. Esto se logra típicamente mediante la construcción de una matriz secuencia a secuencia o una serie de matrices que abarcan métricas comparativas: en lugar de distancias absolutas relativas a un espacio de coordenadas fijas. Una representación intuitiva es la matriz de distancia , que es una matriz bidimensional que contiene todas las distancias por pares entre algún subconjunto de átomos en cada estructura (como los carbonos alfa ). La matriz aumenta en dimensionalidad a medida que aumenta el número de estructuras que deben alinearse simultáneamente. Reducir la proteína a una métrica gruesa como una estructura secundariaLos elementos (SSE) o fragmentos estructurales también pueden producir alineaciones sensibles, a pesar de la pérdida de información de las distancias de descarte, ya que también se descarta el ruido . [20] La elección de una representación para facilitar el cálculo es fundamental para desarrollar un mecanismo de alineación eficiente.

Métodos [ editar ]

Se han utilizado técnicas de alineación estructural para comparar estructuras individuales o conjuntos de estructuras, así como en la producción de bases de datos de comparación "de todos a todos" que miden la divergencia entre cada par de estructuras presentes en el Protein Data Bank (PDB). Estas bases de datos se utilizan para clasificar proteínas por su pliegue .

DALI [ editar ]

Ilustración de los vectores átomo a átomo calculados en SSAP. A partir de estos vectores se construiría una serie de diferencias de vectores, por ejemplo, entre (FA) en la Proteína 1 y (SI) en la Proteína 2. Las dos secuencias se trazan en las dos dimensiones de una matriz para formar una matriz de diferencia entre las dos proteínas. La programación dinámica se aplica a todas las posibles matrices de diferencias para construir una serie de rutas de alineación local óptimas que luego se suman para formar la matriz de resumen, en la que se realiza una segunda ronda de programación dinámica.

Un método de alineación estructural común y popular es el DALI, o método de alineación de matriz de distancia, que divide las estructuras de entrada en fragmentos de hexapéptidos y calcula una matriz de distancia evaluando los patrones de contacto entre fragmentos sucesivos. [21] Las características de la estructura secundaria que involucran residuos que son contiguos en secuencia aparecen en la diagonal principal de la matriz.; otras diagonales en la matriz reflejan contactos espaciales entre residuos que no están cerca unos de otros en la secuencia. Cuando estas diagonales son paralelas a la diagonal principal, las características que representan son paralelas; cuando son perpendiculares, sus características son antiparalelas. Esta representación requiere mucha memoria porque las características en la matriz cuadrada son simétricas (y por lo tanto redundantes) con respecto a la diagonal principal.

Cuando las matrices de distancia de dos proteínas comparten características iguales o similares en aproximadamente las mismas posiciones, se puede decir que tienen pliegues similares con bucles de longitud similar que conectan sus elementos de estructura secundaria. El proceso de alineación real de DALI requiere una búsqueda de similitudes después de que se construyen las matrices de distancia de las dos proteínas; esto se realiza normalmente a través de una serie de submatrices superpuestas de tamaño 6x6. Las coincidencias de submatrices se vuelven a ensamblar en una alineación final a través de un algoritmo estándar de maximización de puntajes: la versión original de DALI usó un Monte Carlosimulación para maximizar una puntuación de similitud estructural que es una función de las distancias entre los átomos correspondientes putativos. En particular, los átomos más distantes dentro de las características correspondientes se reducen exponencialmente para reducir los efectos del ruido introducido por la movilidad del bucle, las torsiones helicoidales y otras variaciones estructurales menores. [20] Debido a que DALI se basa en una matriz de distancia de todos a todos, puede explicar la posibilidad de que las características alineadas estructuralmente puedan aparecer en diferentes órdenes dentro de las dos secuencias que se comparan.

El método DALI también se ha utilizado para construir una base de datos conocida como FSSP (clasificación de pliegues basada en la alineación estructura-estructura de proteínas, o familias de proteínas estructuralmente similares) en la que todas las estructuras proteicas conocidas se alinean entre sí para determinar sus vecinos estructurales y clasificación de pliegues. Existe una base de datos de búsqueda basada en DALI, así como un programa descargable y búsqueda web basada en una versión independiente conocida como DaliLite.

Extensión combinatoria [ editar ]

El método de extensión combinatoria (CE) es similar a DALI en que también divide cada estructura en el conjunto de consultas en una serie de fragmentos que luego intenta reensamblar en una alineación completa. Una serie de combinaciones por pares de fragmentos llamados pares de fragmentos alineados, o AFP, se utilizan para definir una matriz de similitud a través de la cual se genera una ruta óptima para identificar la alineación final. Solo las AFP que cumplen determinados criterios de similitud local se incluyen en la matriz como un medio para reducir el espacio de búsqueda necesario y, por lo tanto, aumentar la eficiencia. [22]Son posibles varias métricas de similitud; La definición original del método CE incluía solo superposiciones estructurales y distancias entre residuos, pero desde entonces se ha ampliado para incluir propiedades ambientales locales como estructura secundaria, exposición a disolventes, patrones de enlaces de hidrógeno y ángulos diedros . [22]

Una ruta de alineación se calcula como la ruta óptima a través de la matriz de similitud progresando linealmente a través de las secuencias y extendiendo la alineación con el siguiente par de AFP de alta puntuación posible. El par de AFP inicial que nuclea el alineamiento puede ocurrir en cualquier punto de la matriz de secuencia. Luego, las extensiones continúan con el siguiente AFP que cumpla con los criterios de distancia dados que restringen la alineación a tamaños de espacio bajos. El tamaño de cada AFP y el tamaño máximo de la brecha son parámetros de entrada obligatorios, pero generalmente se establecen en valores determinados empíricamente de 8 y 30 respectivamente. [22] Al igual que DALI y SSAP, CE se ha utilizado para construir una base de datos de clasificación de todos a todos a partir de las estructuras de proteínas conocidas en el AP.

El RCSB AP ha publicado recientemente una versión actualizada de la CE, Mammoth, y FATCAT como parte de la proteína RCSB AP Herramienta de comparación . Proporciona una nueva variación de CE que puede detectar permutaciones circulares en estructuras de proteínas. [23]

Mamut [ editar ]

MAMUT [12]aborda el problema de alineación desde un objetivo diferente al de casi todos los demás métodos. En lugar de intentar encontrar un alineamiento que superponga al máximo el mayor número de residuos, busca el subconjunto del alineamiento estructural con menos probabilidades de ocurrir por casualidad. Para hacer esto, marca una alineación de motivo local con banderas para indicar qué residuos satisfacen simultáneamente criterios más estrictos: 1) Superposición de la estructura local 2) Estructura secundaria regular 3) Superposición 3D 4) El mismo orden en la secuencia primaria. Convierte las estadísticas del número de residuos con coincidencias de alta confianza y el tamaño de la proteína para calcular un valor de expectativa para el resultado por azar. Sobresale en hacer coincidir homólogos remotos, particularmente estructuras generadas por predicción de estructura ab initio para estructurar familias como SCOP,porque enfatiza la extracción de una subalineación estadísticamente confiable y no en lograr la alineación máxima de secuencia o la superposición 3D máxima.[2] [3]

Para cada ventana superpuesta de 7 residuos consecutivos, calcula el conjunto de vectores unitarios de dirección de desplazamiento entre residuos C-alfa adyacentes. Los motivos locales de todos contra todos se comparan en función de la puntuación URMS. Estos valores se convierten en las entradas de puntuación de alineación de pares para la programación dinámica que produce una alineación de residuos por pares de semillas. La segunda fase utiliza un algoritmo MaxSub modificado: se utiliza un solo par alineado de 7 residencias en cada proteína para orientar las dos estructuras de proteínas de longitud completa para superponer al máximo estas solo estas 7 C-alfa, luego en esta orientación busca pares alineados adicionales que están cerca en 3D. Reorienta las estructuras para superponer este conjunto expandido e itera hasta que no coincidan más pares en 3D. Este proceso se reinicia por cada ventana de 7 residuos en la alineación de semillas.La salida es el número máximo de átomos encontrados en cualquiera de estas semillas iniciales. Esta estadística se convierte en un valor E calibrado para la similitud de las proteínas.

Mammoth no intenta repetir la alineación inicial ni extender el subconjunto de alta calidad. Por lo tanto, la alineación de semillas que muestra no se puede comparar con la alineación DALI o TM, ya que se formó simplemente como una heurística para podar el espacio de búsqueda. (Se puede usar si se desea una alineación basada únicamente en la similitud de estructura-motivo local agnóstica de alineación atómica de cuerpo rígido de largo alcance). Debido a esa misma parsimonia, es más de diez veces más rápida que DALI, CE y TM-align. [24] A menudo se utiliza junto con estas herramientas más lentas para preseleccionar grandes bases de datos para extraer las mejores estructuras relacionadas con el valor E para una superposición más exhaustiva o cálculos costosos. [25] [26]

Ha sido particularmente exitoso en el análisis de estructuras "señuelo" a partir de la predicción de estructuras ab initio. [1] [2] [3] Estos señuelos son conocidos por conseguir que la estructura del motivo del fragmento local sea correcta y por formar algunos núcleos de la estructura terciaria 3D correcta, pero por obtener la estructura terciaria de longitud completa de forma incorrecta. En este régimen de homología remota crepuscular, se ha demostrado que los valores e de Mammoth para la evaluación de predicción de la estructura de la proteína CASP [1] están significativamente más correlacionados con la clasificación humana que SSAP o DALI. [12]La capacidad de los mamuts para extraer las superposiciones parciales de varios criterios con proteínas de estructura conocida y clasificarlas con valores E adecuados, combinada con su velocidad, facilita el escaneo de un gran número de modelos de señuelos contra la base de datos de PDB para identificar los señuelos correctos más probables en función de su homología remota con proteínas conocidas. [2]

SSAP [ editar ]

El método SSAP (Sequential Structure Alignment Program) utiliza una doble programación dinámica para producir una alineación estructural basada en vectores átomo a átomo en el espacio de la estructura. En lugar de los carbonos alfa que se utilizan normalmente en la alineación estructural, SSAP construye sus vectores a partir de los carbonos beta.para todos los residuos excepto la glicina, un método que tiene en cuenta el estado rotamérico de cada residuo, así como su ubicación a lo largo de la columna vertebral. SSAP funciona construyendo primero una serie de vectores de distancia entre residuos entre cada residuo y sus vecinos no contiguos más cercanos en cada proteína. Luego se construye una serie de matrices que contienen las diferencias de vectores entre vecinos para cada par de residuos para los que se construyeron vectores. La programación dinámica aplicada a cada matriz resultante determina una serie de alineaciones locales óptimas que luego se suman en una matriz de "resumen" a la que se aplica de nuevo la programación dinámica para determinar la alineación estructural general.

SSAP originalmente produjo solo alineaciones por pares, pero desde entonces también se ha extendido a múltiples alineaciones. [27] Se ha aplicado de manera integral para producir un esquema de clasificación de pliegues jerárquicos conocido como CATH (clase, arquitectura, topología, homología), [28] que se ha utilizado para construir la base de datos de clasificación de estructuras de proteínas CATH .

Desarrollos recientes [ editar ]

Las mejoras en los métodos de alineación estructural constituyen un área activa de investigación y, a menudo, se proponen métodos nuevos o modificados que, según se afirma, ofrecen ventajas sobre las técnicas más antiguas y más ampliamente distribuidas. Un ejemplo reciente, TM-align, utiliza un método novedoso para ponderar su matriz de distancias, al que luego se aplica la programación dinámica estándar . [29] [13] Se propone la ponderación para acelerar la convergencia de la programación dinámica y corregir los efectos que surgen de las longitudes de alineación. En un estudio de evaluación comparativa, se ha informado que TM-align mejora tanto en velocidad como en precisión sobre DALI y CE. [29]

Otros métodos prometedores de alineación estructural son los métodos de alineación estructural local. Estos proporcionan una comparación de partes preseleccionadas de proteínas (por ejemplo, sitios de unión, motivos estructurales definidos por el usuario) [30] [31] [32] con sitios de unión o bases de datos estructurales de proteínas completas. Los servidores MultiBind y MAPPIS [32] [33] permiten la identificación de arreglos espaciales comunes de propiedades fisicoquímicas como donante de enlace H, aceptor, alifático, aromático o hidrofóbico en un conjunto de sitios de unión de proteínas proporcionados por el usuario definidos por interacciones con moléculas pequeñas (MultiBind) o en un conjunto de interfaces proteína-proteína proporcionadas por el usuario (MAPPIS). Otros proporcionan una comparación de estructuras proteicas completas [34]contra una serie de estructuras enviadas por el usuario o contra una gran base de datos de estructuras de proteínas en un tiempo razonable ( ProBiS [35] ). A diferencia de los enfoques de alineación global, los enfoques de alineación estructural local son adecuados para la detección de patrones de grupos funcionales conservados localmente, que a menudo aparecen en los sitios de unión y tienen una participación significativa en la unión del ligando. [33] Como ejemplo, comparando G-Losa, [36] una herramienta de alineación de estructura local, con TM-align, un método basado en alineación de estructura global. Si bien G-Losa predice las posiciones de ligandos similares a fármacos en dianas de proteínas de cadena única con mayor precisión que TM-align, la tasa de éxito general de TM-align es mejor. [37]

Sin embargo, a medida que las mejoras algorítmicas y el rendimiento de la computadora han eliminado las deficiencias puramente técnicas en los enfoques más antiguos, ha quedado claro que no existe un criterio universal para la alineación estructural "óptima". TM-align, por ejemplo, es particularmente robusto en la cuantificación de comparaciones entre conjuntos de proteínas con grandes disparidades en las longitudes de secuencia, pero solo captura indirectamente el enlace de hidrógeno o la conservación del orden de la estructura secundaria, que podrían ser mejores métricas para la alineación de proteínas relacionadas evolutivamente. Por lo tanto, los desarrollos recientes se han centrado en optimizar atributos particulares como la velocidad, la cuantificación de puntajes, la correlación con patrones de oro alternativos o la tolerancia a la imperfección en datos estructurales o modelos estructurales ab initio. Una metodología alternativa que está ganando popularidad es utilizar laconsenso de varios métodos para determinar las similitudes estructurales de las proteínas. [38]

Alineación estructural de ARN [ editar ]

Las técnicas de alineación estructural se han aplicado tradicionalmente exclusivamente a las proteínas, como las macromoléculas biológicas primarias que asumen estructuras tridimensionales características. Sin embargo, las moléculas de ARN grandes también forman estructuras terciarias características , que están mediadas principalmente por enlaces de hidrógeno formados entre pares de bases , así como por apilamiento de bases . Las moléculas de ARN no codificantes funcionalmente similares pueden ser especialmente difíciles de extraer de los datos genómicos porque la estructura está más fuertemente conservada que la secuencia en el ARN, así como en las proteínas, [40] y el alfabeto más limitado de ARN disminuye lacontenido de información de cualquier nucleótido dado en cualquier posición dada.

Sin embargo, debido al creciente interés en las estructuras de ARN y debido al crecimiento del número de estructuras de ARN 3D determinadas experimentalmente, recientemente se han desarrollado pocos métodos de similitud de estructuras de ARN. Uno de esos métodos es, por ejemplo, SETTER [41] que descompone cada estructura de ARN en partes más pequeñas llamadas unidades de estructura secundaria general (GSSU). Las GSSU se alinean posteriormente y estas alineaciones parciales se fusionan en la alineación final de la estructura del ARN y se puntúan. El método se ha implementado en el servidor web SETTER . [42]

Se ha publicado e implementado en el programa FOLDALIGN un método reciente para el alineamiento estructural por pares de secuencias de ARN con baja identidad de secuencia . [43] Sin embargo, este método no es realmente análogo a las técnicas de alineación estructural de proteínas porque predice computacionalmente las estructuras de las secuencias de entrada de ARN en lugar de requerir estructuras determinadas experimentalmente como entrada. Aunque la predicción computacional del proceso de plegamiento de proteínas no ha sido particularmente exitosa hasta la fecha, las estructuras de ARN sin pseudonudos a menudo se pueden predecir de manera sensata utilizando métodos de puntuación basados ​​en energía libre que tienen en cuenta el emparejamiento y el apilamiento de bases. [44]

Software [ editar ]

La elección de una herramienta de software para la alineación estructural puede ser un desafío debido a la gran variedad de paquetes disponibles que difieren significativamente en metodología y confiabilidad. En [38] se presentó una solución parcial a este problema y se hizo accesible al público a través del servidor web ProCKSI. Puede encontrar una lista más completa del software de alineación estructural disponible actualmente y distribuido libremente en el software de alineación estructural .

Las propiedades de algunos servidores de alineación estructural y paquetes de software se resumen y prueban con ejemplos en Structural Alignment Tools en Proteopedia.Org .

Ver también [ editar ]

  • Alineación de múltiples secuencias
  • Lista de software de alineación de secuencias
  • Alineación de secuencia
  • Clasificación estructural de proteínas
  • SuperPose
  • Superfamilia de proteínas

Referencias [ editar ]

  1. ↑ a b c d e Kryshtafovych A, Monastyrskyy B, Fidelis K. (2016). "Estadísticas CASP11 y sistema de evaluación del centro de predicción. \" . Las proteínas . 84 : (Supl. 1): 15-19. doi : 10.1002 / prot.25005 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
  2. ↑ a b c d e f Lars Malmström Michael Riffle, Charlie EM Strauss, Dylan Chivian, Trisha N Davis, Richard Bonneau, David Baker (2007). "Asignaciones de superfamilia para el proteoma de levadura mediante la integración de la predicción de estructura con la ontología genética" . PLoS Biol . 5 (4): e76 autor para correspondencia1, 2. doi : 10.1371 / journal.pbio.0050076 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
  3. ↑ a b c d e David E. Kim, Dylan Chivian y David Baker (2004). "Predicción y análisis de la estructura de proteínas utilizando el servidor Robetta" . Investigación de ácidos nucleicos . 32 (Problema del servidor web): W526 – W531. doi : 10.1093 / nar / gkh468 . PMID 15215442 . Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
  4. ↑ a b Zhang Y, Skolnick J (2005). "El problema de predicción de la estructura de la proteína podría resolverse utilizando la biblioteca PDB actual" . Proc Natl Acad Sci USA . 102 (4): 1029–34. doi : 10.1073 / pnas.0407152101 . PMC 545829 . PMID 15653774 .  
  5. ↑ a b c Zemla A. (2003). "LGA - un método para encontrar similitudes 3-D en estructuras de proteínas" . Investigación de ácidos nucleicos . 31 (13): 3370–3374. doi : 10.1093 / nar / gkg571 . PMC 168977 . PMID 12824330 .  
  6. ^ Godzik A (1996). "La alineación estructural entre dos proteínas: ¿Existe una respuesta única?" . Ciencia de las proteínas . 5 (7): 1325–38. doi : 10.1002 / pro.5560050711 . PMC 2143456 . PMID 8819165 .  
  7. ^ Martín ACR (1982). "Comparación rápida de estructuras de proteínas". Un Acta Crystallogr . 38 (6): 871–873. doi : 10.1107 / S0567739482001806 .
  8. ^ Theobald DL, Wuttke DS (2006). "Modelos jerárquicos empíricos de Bayes para regularizar la estimación de máxima verosimilitud en el problema de la matriz Gaussiana Procrustes" . Actas de la Academia Nacional de Ciencias . 103 (49): 18521–18527. doi : 10.1073 / pnas.0508445103 . PMC 1664551 . PMID 17130458 .  
  9. ^ Theobald DL, Wuttke DS (2006). "TESEO: Superposición y análisis de máxima verosimilitud de estructuras macromoleculares" . Bioinformática . 22 (17): 2171–2172. doi : 10.1093 / bioinformatics / btl332 . PMC 2584349 . PMID 16777907 .  
  10. ^ Diederichs K. (1995). "Superposición estructural de proteínas con alineación desconocida y detección de similitud topológica mediante un algoritmo de búsqueda de seis dimensiones" . Las proteínas . 23 (2): 187–95. doi : 10.1002 / prot.340230208 . PMID 8592700 . 
  11. ^ Maiti R, Van Domselaar GH, Zhang H, Wishart DS (2004). "SuperPose: un servidor simple para una superposición estructural sofisticada" . Ácidos nucleicos Res . 32 (Problema del servidor web): W590–4. doi : 10.1093 / nar / gkh477 . PMC 441615 . PMID 15215457 .  
  12. ^ a b c d e Ortiz, AR; Strauss CE; Olmea O. (2002). "MAMMOTH (modelos moleculares coincidentes obtenidos de la teoría): un método automatizado para la comparación de modelos" . Ciencia de las proteínas . 11 (11): 2606–2621. doi : 10.1110 / ps.0215902 . PMID 12381844 . 
  13. ↑ a b c d Zhang Y, Skolnick J (2004). "Función de puntuación para la evaluación automatizada de la calidad de la plantilla de estructura de proteínas". Las proteínas . 57 (4): 702–710. doi : 10.1002 / prot.20264 . PMID 15476259 . 
  14. ↑ a b Siew N, Elofsson A, Rychlewsk L, Fischer D (2000). "MaxSub: una medida automatizada para la evaluación de la calidad de predicción de la estructura de la proteína" . Bioinformática . 16 (9): 776–85. doi : 10.1093 / bioinformatics / 16.9.776 . PMID 11108700 . 
  15. ↑ a b c Poleksic A (2009). "Algoritmos para la alineación óptima de la estructura de las proteínas" . Bioinformática . 25 (21): 2751–2756. doi : 10.1093 / bioinformatics / btp530 . PMID 19734152 . 
  16. ^ Lathrop RH. (1994). "El problema del enhebrado de proteínas con las preferencias de interacción de secuencia de aminoácidos es NP-completo". Protein Eng . 7 (9): 1059–68. CiteSeerX 10.1.1.367.9081 . doi : 10.1093 / protein / 7.9.1059 . PMID 7831276 .  
  17. ^ Wang L, Jiang T (1994). "Sobre la complejidad de la alineación de múltiples secuencias". Revista de Biología Computacional . 1 (4): 337–48. CiteSeerX 10.1.1.408.894 . doi : 10.1089 / cmb.1994.1.337 . PMID 8790475 .  
  18. ^ Kolodny R, Linial N (2004). "Alineación estructural aproximada de proteínas en tiempo polinomial" . PNAS . 101 (33): 12201–12206. doi : 10.1073 / pnas.0404383101 . PMC 514457 . PMID 15304646 .  
  19. ^ Martínez L, Andreani, R, Martínez, JM. (2007). "Algoritmos convergentes para la alineación estructural de proteínas" . BMC Bioinformática . 8 : 306. doi : 10.1186 / 1471-2105-8-306 . PMC 1995224 . PMID 17714583 .  CS1 maint: varios nombres: lista de autores ( enlace )
  20. ^ a b Monte DM. (2004). Bioinformática: análisis de secuencia y genoma 2ª ed. Prensa de laboratorio de Cold Spring Harbor: Cold Spring Harbor, NY ISBN 0879697121 
  21. ^ Holm L, Sander C (1996). "Mapeo del universo de las proteínas". Ciencia . 273 (5275): 595–603. doi : 10.1126 / science.273.5275.595 . PMID 8662544 . 
  22. ^ a b c Shindyalov, IN; Bourne PE (1998). "Alineación de la estructura de la proteína por extensión combinatoria incremental (CE) de la ruta óptima" . Ingeniería de proteínas . 11 (9): 739–747. doi : 10.1093 / proteína / 11.9.739 . PMID 9796821 . 
  23. ^ Prlic A, Bliven S, Rose PW, Bluhm WF, Bizon C, Godzik A, Bourne PE (2010). "Alineaciones de estructura de proteínas precalculadas en el sitio web de RCSB PDB" . Bioinformática . 26 (23): 2983–2985. doi : 10.1093 / bioinformatics / btq572 . PMC 3003546 . PMID 20937596 .  
  24. ^ Pin-Hao Chi, Bin Pang, Dmitry Korkin, Chi-Ren Shyu (2009). "Clasificación y recuperación de pliegues SCOP eficiente utilizando alineaciones de subestructura de proteínas basadas en índices" . Bioinformática . 25 (19): 2559-2565. doi : 10.1093 / bioinformatics / btp474 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
  25. ^ Sara Cheek, Yuan Qi, Sri Krishna, Lisa N Kinch y Nick V Grishin (2004). "SCOPmap: asignación automatizada de estructuras de proteínas a superfamilias evolutivas" . BMC Bioinformática . 5 (197). doi : 10.1186 / 1471-2105-5-197 . PMID 15598351 . Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
  26. ^ Kai Wang, Ram Samudrala. "FSSA: un método novedoso para identificar firmas funcionales de alineaciones estructurales" . Bioinformática . 21 (13): 2969–2977. doi : 10.1093 / bioinformatics / bti471 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
  27. ^ Taylor WR, Flores TP, Orengo CA (1994). "Alineación de estructuras de proteínas múltiples" . Protein Sci . 3 (10): 1858–70. doi : 10.1002 / pro.5560031025 . PMC 2142613 . PMID 7849601 .  
  28. ^ Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM (1997). "CATH: una clasificación jerárquica de estructuras de dominio de proteínas". Estructura . 5 (8): 1093-1108. doi : 10.1016 / S0969-2126 (97) 00260-8 . PMID 9309224 . 
  29. ↑ a b Zhang Y, Skolnick J (2005). "TM-align: Un algoritmo de alineación de la estructura de la proteína basado en la puntuación de TM" . Investigación de ácidos nucleicos . 33 (7): 2302–2309. doi : 10.1093 / nar / gki524 . PMC 1084323 . PMID 15849316 .  
  30. ^ Stefano Angaran; Mary Ellen Bock ; Claudio Garutti; Concettina Guerra1 (2009). "MolLoc: una herramienta web para la alineación estructural local de superficies moleculares" . Investigación de ácidos nucleicos . 37 (Problema del servidor web): W565–70. doi : 10.1093 / nar / gkp405 . PMC 2703929 . PMID 19465382 .  
  31. ^ Gaëlle Debret; Arnaud Martel; Philippe Cuniasse (2009). "RASMOT-3D PRO: un servidor web de búsqueda de motivos 3D" . Investigación de ácidos nucleicos . 37 (Problema del servidor web): W459–64. doi : 10.1093 / nar / gkp304 . PMC 2703991 . PMID 19417073 .  
  32. ↑ a b Alexandra Shulman-Peleg; Maxim Shatsky; Ruth Nussinov; Haim J. Wolfson (2008). "MultiBind y MAPPIS: servidores web para la alineación múltiple de sitios de unión de proteínas 3D y sus interacciones" . Investigación de ácidos nucleicos . 36 (Problema del servidor web): W260–4. doi : 10.1093 / nar / gkn185 . PMC 2447750 . PMID 18467424 .  
  33. ↑ a b Alexandra Shulman-Peleg; Maxim Shatsky; Ruth Nussinov; Haim J. Wolfson (2007). "Conservación química espacial de interacciones de puntos calientes en complejos proteína-proteína" . Biología BMC . 5 (43): 43. doi : 10.1186 / 1741-7007-5-43 . PMC 2231411 . PMID 17925020 .  
  34. ^ Gabriele Ausiello; Pier Federico Gherardini; Paolo Marcatili; Anna Tramontano; Allegra Via; Manuela Helmer-Citterich (2008). "FunClust: servidor web para la identificación de motivos estructurales en un conjunto de estructuras proteicas no homólogas" . Biología BMC . 9 : S2. doi : 10.1186 / 1471-2105-9-S2-S2 . PMC 2323665 . PMID 18387204 .  
  35. ^ Janez Konc; Dušanka Janežič (2010). "Algoritmo ProBiS para la detección de sitios de unión a proteínas estructuralmente similares por alineación estructural local" . Bioinformática . 26 (9): 1160-1168. doi : 10.1093 / bioinformática / btq100 . PMC 2859123 . PMID 20305268 .  
  36. ^ Hui Sun Lee; Wonpil Im (2012). "Identificación de plantillas de ligando mediante alineación de estructura local para el diseño de fármacos basado en estructura" . Revista de información química y modelado . 52 (10): 2784–2795. doi : 10.1021 / ci300178e . PMC 3478504 . PMID 22978550 .  
  37. ^ Hui Sun Lee; Wonpil Im (2013). "Detección de sitio de unión de ligando por alineación de estructura local y su complementariedad de rendimiento" . Revista de información química y modelado . 53 (9): 2462–2470. doi : 10.1021 / ci4003602 . PMC 3821077 . PMID 23957286 .  
  38. ↑ a b Barthel D., Hirst JD, Blazewicz J., Burke EK y Krasnogor N. (2007). "ProCKSI: un sistema de apoyo a la decisión para la comparación de proteínas (estructura), el conocimiento, la similitud y la información" . BMC Bioinformática . 8 : 416. doi : 10.1186 / 1471-2105-8-416 . PMC 2222653 . PMID 17963510 .  CS1 maint: varios nombres: lista de autores ( enlace )
  39. ^ Sippl, M .; Wiederstein, M. (2012). "Detección de correlaciones espaciales en estructuras proteicas y complejos moleculares" . Estructura . 20 (4): 718–728. doi : 10.1016 / j.str.2012.01.024 . PMC 3320710 . PMID 22483118 .  
  40. ^ Torarinsson E, Sawera M, Havgaard JH, Fredholm M, Gorodkin J (2006). "Miles de regiones genómicas humanas y de ratón correspondientes que no se pueden alinear en la secuencia primaria contienen una estructura de ARN común" . Genome Res . 16 (7): 885–9. doi : 10.1101 / gr.5226606 . PMC 1484455 . PMID 16751343 .  
  41. ^ Hoksza D, Svozil D (2012). "Comparación de estructura por pares de ARN eficiente mediante el método SETTER" (PDF) . Bioinformática . 28 (14): 1858–1864. doi : 10.1093 / bioinformatics / bts301 . PMID 22611129 .  
  42. ^ Cech P, Svozil D, Hoksza D (2012). "SETTER: servidor web para comparación de estructuras de ARN" . Investigación de ácidos nucleicos . 40 (W1): W42 – W48. doi : 10.1093 / nar / gks560 . PMC 3394248 . PMID 22693209 .  
  43. ^ Havgaard JH, Lyngso RB, Stormo GD, Gorodkin J (2005). "Alineación estructural local por pares de secuencias de ARN con similitud de secuencia inferior al 40%" . Bioinformática . 21 (9): 1815–24. doi : 10.1093 / bioinformática / bti279 . PMID 15657094 . 
  44. ^ Mathews DH, Turner DH (2006). "Predicción de la estructura secundaria del ARN por minimización de energía libre". Curr Opin Struct Biol . 16 (3): 270–8. doi : 10.1016 / j.sbi.2006.05.010 . PMID 16713706 . 

Lectura adicional [ editar ]

  • Bourne PE, Shindyalov IN. (2003): Comparación y alineación de estructuras . En: Bourne, PE, Weissig, H. (Eds): Bioinformática estructural . Hoboken, Nueva Jersey: Wiley-Liss. ISBN 0-471-20200-2 
  • Yuan X, Bystroff C. (2004) "Las alineaciones basadas en estructuras no secuenciales revelan arreglos de empaquetamiento de núcleos independientes de la topología en las proteínas", Bioinformática . 5 de noviembre de 2004
  • Jung J, Lee B (2000). "Alineación de la estructura de proteínas mediante perfiles ambientales" . Protein Eng . 13 (8): 535–543. doi : 10.1093 / proteína / 13.8.535 .
  • Ye Y, Godzik A (2005). "Alineación de estructura flexible múltiple mediante gráficos de orden parcial" . Bioinformática . 21 (10): 2362–2369. doi : 10.1093 / bioinformatics / bti353 . PMID  15746292 .
  • Sippl M, Wiederstein M (2008). "Una nota sobre problemas de alineación de estructuras difíciles" . Bioinformática . 24 (3): 426–427. doi : 10.1093 / bioinformatics / btm622 . PMID  18174182 .