Alineación de secuencia


En bioinformática , un alineamiento de secuencias es una forma de ordenar las secuencias de ADN , ARN o proteínas para identificar regiones de similitud que pueden ser consecuencia de relaciones funcionales, estructurales o evolutivas entre las secuencias. [1] Las secuencias alineadas de residuos de nucleótidos o aminoácidos generalmente se representan como filas dentro de una matriz . Se insertan espacios entre los residuos para que los caracteres idénticos o similares se alineen en columnas sucesivas. Las alineaciones de secuencias también se utilizan para secuencias no biológicas, como el cálculo de lacosto de distancia entre cadenas en un lenguaje natural o en datos financieros.

Si dos secuencias en una alineación comparten un ancestro común, los desajustes pueden interpretarse como mutaciones puntuales y las brechas como indeles (es decir, mutaciones de inserción o eliminación) introducidas en uno o ambos linajes en el tiempo desde que divergieron entre sí. En los alineamientos de secuencias de proteínas, el grado de similitud entre los aminoácidos que ocupan una posición particular en la secuencia puede interpretarse como una medida aproximada de qué tan conservada está una región particular o un motivo de secuencia entre los linajes. La ausencia de sustituciones, o la presencia de solo sustituciones muy conservativas (es decir, la sustitución de aminoácidos cuyas cadenas lateralestienen propiedades bioquímicas similares) en una región particular de la secuencia, sugieren [3] que esta región tiene importancia estructural o funcional. Aunque las bases de nucleótidos de ADN y ARN son más similares entre sí que los aminoácidos, la conservación de los pares de bases puede indicar un papel funcional o estructural similar.

Las secuencias muy cortas o muy similares se pueden alinear a mano. Sin embargo, la mayoría de los problemas interesantes requieren la alineación de secuencias largas, muy variables o extremadamente numerosas que no pueden alinearse únicamente con el esfuerzo humano. En cambio, el conocimiento humano se aplica en la construcción de algoritmos para producir alineaciones de secuencias de alta calidad y, ocasionalmente, en el ajuste de los resultados finales para reflejar patrones que son difíciles de representar algorítmicamente (especialmente en el caso de secuencias de nucleótidos). Los enfoques computacionales para la alineación de secuencias generalmente se dividen en dos categorías: alineaciones globales y alineaciones locales . Calcular una alineación global es una forma de optimización globalque "obliga" a la alineación a abarcar toda la longitud de todas las secuencias de consulta. Por el contrario, las alineaciones locales identifican regiones de similitud dentro de secuencias largas que a menudo son muy divergentes en general. Las alineaciones locales suelen ser preferibles, pero pueden ser más difíciles de calcular debido al desafío adicional de identificar las regiones de similitud. [4] Se han aplicado una variedad de algoritmos computacionales al problema de alineación de secuencias. Estos incluyen métodos lentos pero formalmente correctos como la programación dinámica . Estos también incluyen algoritmos heurísticos eficientes o métodos probabilísticos diseñados para búsquedas en bases de datos a gran escala, que no garantizan encontrar las mejores coincidencias.


Una alineación de secuencias, producida por ClustalO , de proteínas histonas de mamíferos .
Las secuencias son los aminoácidos para los residuos 120-180 de las proteínas. Los residuos que se conservan en todas las secuencias se resaltan en gris. Debajo de las secuencias de proteínas hay una clave que indica una secuencia conservada (*), mutaciones conservativas (:), mutaciones semiconservadoras (.) y mutaciones no conservativas ( ). [2]
Autocomparación de una parte del genoma de una cepa de ratón. El diagrama de puntos muestra un mosaico de líneas, lo que demuestra segmentos duplicados de ADN.
Un diagrama de puntos de ADN de un factor de transcripción de dedo de zinc humano (GenBank ID NM_002383), que muestra la autosimilitud regional . La diagonal principal representa la alineación de la secuencia consigo misma; las líneas fuera de la diagonal principal representan patrones similares o repetitivos dentro de la secuencia. Este es un ejemplo típico de un diagrama de recurrencia .
Alineación de 27 secuencias de proteína de hemaglutinina de influenza aviar coloreadas por conservación de residuos (arriba) y propiedades de residuos (abajo)
Un perfil HMM que modela una alineación de secuencia múltiple