Matriz de sustitución

En bioinformática y biología evolutiva , una matriz de sustitución describe la velocidad a la que un carácter en una secuencia de nucleótidos o una secuencia de proteína cambia a otros estados de carácter a lo largo del tiempo evolutivo o describe las probabilidades logarítmicas de encontrar dos estados de carácter específicos alineados. Es una aplicación de una matriz estocástica . Las matrices de sustitución se ven generalmente en el contexto de alineamientos de secuencias de aminoácidos o ADN , donde la similitud entre secuencias depende de su tiempo de divergencia y las tasas de sustitución representadas en la matriz.

Fondo

En el proceso de evolución , de una generación a la siguiente, las secuencias de aminoácidos de las proteínas de un organismo se alteran gradualmente mediante la acción de mutaciones del ADN. Por ejemplo, la secuencia

ALEI R YLRD

podría mutar en la secuencia

ALEI N YLRD

en un solo paso, y posiblemente

A Q EI N Y Q RD

durante un período más largo de tiempo evolutivo. Es más o menos probable que cada aminoácido mute en varios otros aminoácidos. Por ejemplo, es más probable que un residuo hidrófilo como la arginina sea reemplazado por otro residuo hidrófilo como la glutamina , que mutarlo en un residuo hidrófobo como la leucina . (Aquí, un residuo se refiere a un aminoácido despojado de un hidrógeno y / o un grupo hidroxilo e insertado en la cadena polimérica de una proteína). Esto se debe principalmente a la redundancia en el código genético , que traduce codones similares en aminoácidos similares. . Además, la mutación de un aminoácido en un residuo con propiedades significativamente diferentes podría afectar el plegamiento y / o la actividad de la proteína. Es probable que este tipo de sustitución disruptiva se elimine de las poblaciones mediante la acción de la selección purificadora porque la sustitución tiene una mayor probabilidad de convertir una proteína en no funcional. ^[1]

Si tenemos dos secuencias de aminoácidos frente a nosotros, deberíamos poder decir algo sobre la probabilidad de que se deriven de un ancestro común u homólogo . Si podemos alinear las dos secuencias usando un algoritmo de alineación de secuencias de modo que las mutaciones requeridas para transformar una secuencia ancestral hipotética en ambas secuencias actuales sean evolutivamente plausibles, entonces nos gustaría asignar una puntuación alta a la comparación de la secuencias.

Con este fin, construiremos una matriz de 20x20 donde el ${\ Displaystyle (i, j)}$ la entrada es igual a la probabilidad de la ${\ Displaystyle i}$ El aminoácido se transforma en el ${\ Displaystyle j}$ th aminoácido en una cierta cantidad de tiempo evolutivo. Hay muchas formas diferentes de construir una matriz de este tipo, llamada matriz de sustitución . Estos son los más utilizados:

Matriz de identidad

La matriz de sustitución más simple posible sería aquella en la que cada aminoácido se considerara máximamente similar a sí mismo, pero no capaz de transformarse en ningún otro aminoácido. Esta matriz se vería así

{\ displaystyle {\ begin {bmatrix} 1 & 0 & \ cdots & 0 & 0 \\ 0 & 1 && 0 & 0 \\\ vdots && \ ddots && \ vdots \\ 0 & 0 && 1 & 0 \\ 0 & 0 & \ cdots & 0 & 1 \ end {bmatrix}}}

Esta matriz de identidad tendrá éxito en el alineamiento de secuencias de aminoácidos muy similares, pero será lamentable alinear dos secuencias relacionadas lejanamente. Necesitamos calcular todas las probabilidades de una manera más rigurosa. Resulta que un examen empírico de secuencias previamente alineadas funciona mejor.

Matrices logarítmicas de probabilidades

Expresamos las probabilidades de transformación en lo que se denominan puntuaciones logarítmicas de probabilidades . La matriz de puntuaciones S se define como

{\ Displaystyle S_ {i, j} = \ log {\ frac {p_ {i} \ cdot M_ {i, j}} {p_ {i} \ cdot p_ {j}}} = \ log {\ frac {M_ {i, j}} {p_ {j}}} = \ log {\ frac {\ text {frecuencia observada}} {\ text {frecuencia esperada}}},}

dónde ${\ Displaystyle M_ {i, j}}$ es la probabilidad de que el aminoácido ${\ Displaystyle i}$ se transforma en aminoácido ${\ Displaystyle j}$ , y ${\ Displaystyle p_ {i}}$ , ${\ Displaystyle p_ {j}}$ son las frecuencias de los aminoácidos i y j . La base del logaritmo no es importante y la misma matriz de sustitución a menudo se expresa en diferentes bases.

PAM

Una de las primeras matrices de sustitución de aminoácidos, la matriz PAM ( Point Accepted Mutation ) fue desarrollada por Margaret Dayhoff en la década de 1970. Esta matriz se calcula observando las diferencias en proteínas estrechamente relacionadas. Debido al uso de homólogos muy estrechamente relacionados, no se espera que las mutaciones observadas cambien significativamente las funciones comunes de las proteínas. Por tanto, las sustituciones observadas (por mutaciones puntuales) se consideran aceptadas por selección natural.

Una unidad PAM se define como el 1% de las posiciones de aminoácidos que se han cambiado. Para crear una matriz de sustitución PAM1, se elige un grupo de secuencias muy estrechamente relacionadas con frecuencias de mutación correspondientes a una unidad PAM. En base a los datos mutacionales recopilados de este grupo de secuencias, se puede derivar una matriz de sustitución. Esta matriz PAM1 estima qué tasa de sustitución se esperaría si hubiera cambiado el 1% de los aminoácidos. La matriz PAM1 se utiliza como base para calcular otras matrices asumiendo que las mutaciones repetidas seguirían el mismo patrón que las de la matriz PAM1 y que pueden ocurrir múltiples sustituciones en el mismo sitio. Usando esta lógica, Dayhoff derivó matrices tan altas como PAM250. Normalmente se utilizan el PAM 30 y el PAM70.

Se puede calcular una matriz para secuencias relacionadas más lejanamente a partir de una matriz para secuencias estrechamente relacionadas llevando la segunda matriz a una potencia. Por ejemplo, podemos aproximar aproximadamente la matriz WIKI2 de la matriz WIKI1 diciendo ${\ Displaystyle W_ {2} = W_ {1} ^ {2}}$ dónde ${\ Displaystyle W_ {1}}$ es WIKI1 y ${\ Displaystyle W_ {2}}$ es WIKI2. Así es como se calcula la matriz PAM250.

BLOSUM

La metodología de Dayhoff de comparar especies estrechamente relacionadas resultó no funcionar muy bien para alinear secuencias evolutivamente divergentes. Los cambios de secuencia a lo largo de escalas de tiempo evolutivas largas no se aproximan bien mediante la combinación de pequeños cambios que ocurren en escalas de tiempo cortas. La serie de matrices BLOSUM (BLOck SUbstitution Matrix) rectifica este problema. Henikoff y Henikoff construyeron estas matrices utilizando múltiples alineamientos de proteínas evolutivamente divergentes. Las probabilidades utilizadas en el cálculo de la matriz se calculan observando "bloques" de secuencias conservadas que se encuentran en múltiples alineaciones de proteínas. Se supone que estas secuencias conservadas son de importancia funcional dentro de las proteínas relacionadas y, por lo tanto, tendrán tasas de sustitución más bajas que las regiones menos conservadas. Para reducir el sesgo de las secuencias estrechamente relacionadas en las tasas de sustitución, los segmentos de un bloque con una identidad de secuencia por encima de un cierto umbral se agruparon, reduciendo el peso de cada uno de dichos grupos (Henikoff y Henikoff). Para la matriz BLOSUM62, este umbral se estableció en 62%. A continuación, se contaron las frecuencias de los pares entre grupos, por lo que los pares solo se contaron entre segmentos con menos del 62% de idénticos. Se usaría una matriz BLOSUM numerada más alta para alinear dos secuencias estrechamente relacionadas y un número más bajo para secuencias más divergentes.

Resulta que la matriz BLOSUM62 hace un excelente trabajo detectando similitudes en secuencias distantes, y esta es la matriz utilizada por defecto en las aplicaciones de alineación más recientes como BLAST .

Diferencias entre PAM y BLOSUM

Las matrices PAM se basan en un modelo evolutivo explícito (es decir, los reemplazos se cuentan en las ramas de un árbol filogenético), mientras que las matrices BLOSUM se basan en un modelo implícito de evolución.
Las matrices PAM se basan en mutaciones observadas a lo largo de un alineamiento global, esto incluye regiones altamente conservadas y altamente mutables. Las matrices BLOSUM se basan solo en regiones altamente conservadas en series de alineaciones prohibidas para contener huecos.
El método utilizado para contar los reemplazos es diferente: a diferencia de la matriz PAM, el procedimiento BLOSUM usa grupos de secuencias dentro de los cuales no todas las mutaciones se cuentan de la misma manera.
Los números más altos en el esquema de nomenclatura de la matriz PAM denotan una mayor distancia evolutiva, mientras que los números más grandes en el esquema de nomenclatura de la matriz BLOSUM denotan una mayor similitud de secuencia y, por lo tanto, una menor distancia evolutiva. Ejemplo: PAM150 se utiliza para secuencias más distantes que PAM100; BLOSUM62 se utiliza para secuencias más cercanas que BLOSUM50.

Ampliaciones y mejoras

Se han desarrollado muchas matrices de sustitución especializadas que describen las tasas de sustitución de aminoácidos en contextos estructurales o de secuencia específicos, como en hélices alfa transmembrana, ^[2] para combinaciones de estados de estructura secundaria y estados de accesibilidad a solventes, ^[3]^[4]^{[5 ]} o para contextos de estructura de secuencia local. ^[6] Estas matrices de sustitución específicas del contexto conducen a una calidad de alineación generalmente mejorada a cierto costo de velocidad, pero aún no se utilizan ampliamente. Recientemente, se han derivado similitudes de aminoácidos específicos del contexto de secuencia que no necesitan matrices de sustitución, sino que se basan en una biblioteca de contextos de secuencia. Usando esta idea, se ha demostrado que una extensión específica del contexto del popular programa BLAST logra una mejora doble de la sensibilidad para secuencias relacionadas de forma remota sobre BLAST a velocidades similares ( CS-BLAST ).

Terminología

Aunque " matriz de transición " se usa a menudo indistintamente con "matriz de sustitución" en campos distintos de la bioinformática, el primer término es problemático en bioinformática. Con respecto a las sustituciones de nucleótidos, " transición " también se usa para indicar aquellas sustituciones que están entre las purinas de dos anillos (A → G y G → A) o entre las pirimidinas de un anillo (C → T y T → C) . Debido a que estas sustituciones no requieren un cambio en el número de anillos, ocurren con más frecuencia que las otras sustituciones. " Transversión " es el término utilizado para indicar las sustituciones de velocidad más lenta que cambian una purina a una pirimidina o viceversa (A ↔ C, A ↔ T, G ↔ C y G ↔ T).

Ver también

Referencias

^ Xiong, Jin (2006). Bioinformática esencial . Cambridge: Cambridge University Press. doi : 10.1017 / cbo9780511806087.004 . ISBN 978-0-511-80608-7.
^ Müller, T; Rahmann, S; Rehmsmeier, M (2001). "Matrices de puntuación no simétricas y detección de proteínas transmembrana homólogas" . Bioinformática . 17 Suppl 1: S182–9. doi : 10.1093 / bioinformatics / 17.suppl_1.s182 . PMID 11473008 .
^ Rice, DW; Eisenberg, D (1997). "Una matriz de sustitución 3D-1D para el reconocimiento de pliegues de proteínas que incluye la estructura secundaria predicha de la secuencia". Revista de Biología Molecular . 267 (4): 1026–38. CiteSeerX 10.1.1.44.1143 . doi : 10.1006 / jmbi.1997.0924 . PMID 9135128 .
^ Gong, Sungsam; Blundell, Tom L. (2008). Levitt, Michael (ed.). "Descartar residuos funcionales de la tabla de sustitución mejora las predicciones de sitios activos dentro de estructuras tridimensionales" . PLOS Biología Computacional . 4 (10): e1000179. Código Bibliográfico : 2008PLSCB ... 4E0179G . doi : 10.1371 / journal.pcbi.1000179 . PMC 2527532 . PMID 18833291 .
^ Goonesekere, Carolina del Norte; Lee, B (2008). "Matrices de sustitución de aminoácidos específicas del contexto y su uso en la detección de homólogos de proteínas". Las proteínas . 71 (2): 910–9. doi : 10.1002 / prot.21775 . PMID 18004781 . S2CID 27443393 .
^ Huang, YM; Bystroff, C (2006). "Mejora de las alineaciones por pares de proteínas en la zona crepuscular utilizando predicciones de estructura local" . Bioinformática . 22 (4): 413-22. doi : 10.1093 / bioinformatics / bti828 . PMID 16352653 .

Otras lecturas

Altschul, SF (1991). "Matrices de sustitución de aminoácidos desde una perspectiva teórica de la información" . Revista de Biología Molecular . 219 (3): 555–65. doi : 10.1016 / 0022-2836 (91) 90193-A . PMC 7130686 . PMID 2051488 .
Dayhoff, MO; Schwartz, RM; Orcutt, BC (1978). "Un modelo de cambio evolutivo en proteínas". Atlas de secuencia y estructura de proteínas . 5 (3): 345–352.
Eddy, SR (2004). "¿De dónde vino la matriz de puntuación de alineación BLOSUM62?". Biotecnología de la naturaleza . 22 (8): 1035–6. doi : 10.1038 / nbt0804-1035 . PMID 15286655 . S2CID 205269887 .
Henikoff, S; Henikoff, JG (1992). "Matrices de sustitución de aminoácidos de bloques de proteínas" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 89 (22): 10915–9. Código Bibliográfico : 1992PNAS ... 8910915H . doi : 10.1073 / pnas.89.22.10915 . PMC 50453 . PMID 1438297 .

enlaces externos

Calculadora de matriz PAM

[1] Xiong, Jin (2006). Bioinformática esencial . Cambridge: Cambridge University Press. doi : 10.1017 / cbo9780511806087.004 . ISBN 978-0-511-80608-7.

[2] Müller, T; Rahmann, S; Rehmsmeier, M (2001). "Matrices de puntuación no simétricas y detección de proteínas transmembrana homólogas" . Bioinformática . 17 Suppl 1: S182–9. doi : 10.1093 / bioinformatics / 17.suppl_1.s182 . PMID 11473008 .

[3] Rice, DW; Eisenberg, D (1997). "Una matriz de sustitución 3D-1D para el reconocimiento de pliegues de proteínas que incluye la estructura secundaria predicha de la secuencia". Revista de Biología Molecular . 267 (4): 1026–38. CiteSeerX 10.1.1.44.1143 . doi : 10.1006 / jmbi.1997.0924 . PMID 9135128 .

[4] Gong, Sungsam; Blundell, Tom L. (2008). Levitt, Michael (ed.). "Descartar residuos funcionales de la tabla de sustitución mejora las predicciones de sitios activos dentro de estructuras tridimensionales" . PLOS Biología Computacional . 4 (10): e1000179. Código Bibliográfico : 2008PLSCB ... 4E0179G . doi : 10.1371 / journal.pcbi.1000179 . PMC 2527532 . PMID 18833291 .

[5] Goonesekere, Carolina del Norte; Lee, B (2008). "Matrices de sustitución de aminoácidos específicas del contexto y su uso en la detección de homólogos de proteínas". Las proteínas . 71 (2): 910–9. doi : 10.1002 / prot.21775 . PMID 18004781 . S2CID 27443393 .

[6] Huang, YM; Bystroff, C (2006). "Mejora de las alineaciones por pares de proteínas en la zona crepuscular utilizando predicciones de estructura local" . Bioinformática . 22 (4): 413-22. doi : 10.1093 / bioinformatics / bti828 . PMID 16352653 .

[1]