Alineación de secuencia

En bioinformática , una alineación de secuencias es una forma de ordenar las secuencias de ADN , ARN o proteínas para identificar regiones de similitud que pueden ser consecuencia de relaciones funcionales, estructurales o evolutivas entre las secuencias. ^[1] Las secuencias alineadas de residuos de nucleótidos o aminoácidos se representan típicamente como filas dentro de una matriz . Se insertan espacios entre los residuos para que los caracteres idénticos o similares se alineen en columnas sucesivas. Las alineaciones de secuencia también se utilizan para secuencias no biológicas, como el cálculo decosto de distancia entre cadenas en un lenguaje natural o en datos financieros.

Si dos secuencias en una alineación comparten un ancestro común, los desajustes pueden interpretarse como mutaciones puntuales y los espacios como indeles (es decir, mutaciones de inserción o deleción) introducidos en uno o ambos linajes en el tiempo desde que divergieron entre sí. En las alineaciones de secuencias de proteínas, el grado de similitud entre los aminoácidos que ocupan una posición particular en la secuencia se puede interpretar como una medida aproximada de cuán conservada está una región particular o un motivo de secuencia entre los linajes. La ausencia de sustituciones, o la presencia de sustituciones muy conservadoras (es decir, la sustitución de aminoácidos cuyas cadenas lateralestienen propiedades bioquímicas similares) en una región particular de la secuencia, sugieren ^[3] que esta región tiene importancia estructural o funcional. Aunque las bases de nucleótidos de ADN y ARN son más similares entre sí que los aminoácidos, la conservación de los pares de bases puede indicar un papel funcional o estructural similar.

Se pueden alinear a mano secuencias muy cortas o muy similares. Sin embargo, los problemas más interesantes requieren la alineación de secuencias largas, muy variables o extremadamente numerosas que no pueden alinearse únicamente con el esfuerzo humano. En cambio, el conocimiento humano se aplica en la construcción de algoritmos para producir alineaciones de secuencias de alta calidad y, ocasionalmente, en el ajuste de los resultados finales para reflejar patrones que son difíciles de representar algorítmicamente (especialmente en el caso de secuencias de nucleótidos). Los enfoques computacionales para la alineación de secuencias generalmente se dividen en dos categorías: alineaciones globales y alineaciones locales . Calcular una alineación global es una forma de optimización globalque "obliga" a la alineación a abarcar toda la longitud de todas las secuencias de consulta. Por el contrario, los alineamientos locales identifican regiones de similitud dentro de secuencias largas que a menudo son ampliamente divergentes en general. Las alineaciones locales suelen ser preferibles, pero pueden ser más difíciles de calcular debido al desafío adicional de identificar las regiones de similitud. ^[4] Se han aplicado una variedad de algoritmos computacionales al problema de alineación de secuencias. Estos incluyen métodos lentos pero formalmente correctos como la programación dinámica . Estos también incluyen algoritmos heurísticos eficientes o métodos probabilísticos diseñados para la búsqueda de bases de datos a gran escala, que no garantizan encontrar las mejores coincidencias.

Una secuencia de alineación, producida por ClustalO , de proteínas histonas de mamíferos .
Las secuencias son los aminoácidos de los residuos 120-180 de las proteínas. Los residuos que se conservan en todas las secuencias se resaltan en gris. Debajo de las secuencias de proteínas hay una clave que indica la secuencia conservadora (*), mutaciones conservadoras (:), mutaciones semiconservadoras (.) Y mutaciones no conservadoras (). ^[2]

Autocomparación de una parte del genoma de una cepa de ratón. El diagrama de puntos muestra un mosaico de líneas, mostrando segmentos duplicados de ADN.

Un gráfico de puntos de ADN de un factor de transcripción de dedo de zinc humano (GenBank ID NM_002383), que muestra autimilitud regional . La diagonal principal representa la alineación de la secuencia consigo misma; las líneas de la diagonal principal representan patrones similares o repetitivos dentro de la secuencia. Este es un ejemplo típico de gráfico de recurrencia .

Alineación de 27 secuencias de proteínas de hemaglutinina de la influenza aviar coloreadas por conservación de residuos (arriba) y propiedades de los residuos (abajo)

Un perfil HMM que modela una alineación de secuencia múltiple