En biología, un modelo de sustitución , también llamado modelos de evolución de la secuencia de ADN , son modelos de Markov que describen cambios a lo largo del tiempo evolutivo. Estos modelos describen cambios evolutivos en macromoléculas (p. Ej., Secuencias de ADN ) representadas como secuencias de símbolos (A, C, G y T en el caso del ADN ). Los modelos de sustitución se utilizan para calcular la probabilidad de árboles filogenéticos utilizando datos de alineación de múltiples secuencias . Por lo tanto, los modelos de sustitución son fundamentales para la estimación de máxima verosimilitud de la filogenia, así como para la inferencia bayesiana en la filogenia.. Las estimaciones de las distancias evolutivas (número de sustituciones que se han producido desde que un par de secuencias divergieron de un ancestro común) se calculan típicamente utilizando modelos de sustitución (las distancias evolutivas se utilizan como entrada para métodos de distancia como la unión de vecinos ). Los modelos de sustitución también son fundamentales para los invariantes filogenéticos, ya que pueden usarse para predecir las frecuencias de las frecuencias de patrones de sitios dada una topología de árbol. Los modelos de sustitución son necesarios para simular datos de secuencia para un grupo de organismos relacionados por un árbol específico.
Topologías de árboles filogenéticos y otros parámetros
Las topologías de árboles filogenéticos son a menudo el parámetro de interés; [1] por lo tanto, las longitudes de las ramas y cualquier otro parámetro que describa el proceso de sustitución a menudo se consideran parámetros molestos . Sin embargo, los biólogos a veces están interesados en otros aspectos del modelo. Por ejemplo, las longitudes de las ramas, especialmente cuando esas longitudes se combinan con información del registro fósil y un modelo para estimar el marco temporal de la evolución. [2] Se han utilizado otros parámetros del modelo para obtener conocimientos sobre varios aspectos del proceso de evolución. El K un / K s relación (también llamado omega en el codón sustitución modelos) es un parámetro de interés en muchos estudios. La relación K a / K s se puede utilizar para examinar la acción de la selección natural en las regiones codificantes de proteínas; [3] proporciona información sobre las tasas relativas de sustituciones de nucleótidos que cambian los aminoácidos (sustituciones no sinónimos) por aquellos que no cambian el aminoácido codificado (sustituciones sinónimos).
Aplicación para secuenciar datos
La mayor parte del trabajo sobre modelos de sustitución se ha centrado en el ADN / ARN y la evolución de la secuencia de proteínas . Los modelos de evolución de la secuencia de ADN, donde el alfabeto corresponde a los cuatro nucleótidos (A, C, G y T), son probablemente los modelos más fáciles de entender. Los modelos de ADN también se pueden utilizar para examinar la evolución del virus de ARN ; esto refleja el hecho de que el ARN también tiene un alfabeto de cuatro nucleótidos (A, C, G y U). Sin embargo, los modelos de sustitución se pueden utilizar para alfabetos de cualquier tamaño; el alfabeto son los 20 aminoácidos proteinogénicos para proteínas y los codones de sentido (es decir, los 61 codones que codifican aminoácidos en el código genético estándar ) para secuencias de genes codificantes de proteínas alineadas. De hecho, se pueden desarrollar modelos de sustitución para cualquier carácter biológico que pueda codificarse utilizando un alfabeto específico (por ejemplo, secuencias de aminoácidos combinadas con información sobre la conformación de esos aminoácidos en estructuras proteicas tridimensionales [4] ).
La mayoría de los modelos de sustitución utilizados para la investigación evolutiva asumen independencia entre sitios (es decir, la probabilidad de observar cualquier patrón de sitio específico es idéntica independientemente de dónde esté el patrón de sitio en la alineación de secuencia). Esto simplifica los cálculos de probabilidad porque solo es necesario calcular la probabilidad de todos los patrones de sitio que aparecen en la alineación y luego usar esos valores para calcular la probabilidad general de la alineación (por ejemplo, la probabilidad de tres patrones de sitio "GGGG" dado algún modelo de La evolución de la secuencia de ADN es simplemente la probabilidad de que un solo patrón de sitio "GGGG" se eleve a la tercera potencia). Esto significa que se puede considerar que los modelos de sustitución implican una distribución multinomial específica para las frecuencias de patrones de sitios. Si consideramos una alineación de secuencia múltiple con cuatro secuencias de ADN, hay 256 patrones de sitios posibles, por lo que hay 255 grados de libertad para las frecuencias de patrones de sitios. Sin embargo, es posible especificar las frecuencias esperadas del patrón del sitio usando cinco grados de libertad si se usa el modelo Jukes-Cantor de evolución del ADN, [5] que es un modelo de sustitución simple que permite calcular las frecuencias esperadas del patrón del sitio solo en el árbol. topología y la longitud de las ramas (dados cuatro taxones, un árbol bifurcado sin raíces tiene cinco longitudes de ramas).
Los modelos de sustitución también permiten simular datos de secuencia utilizando métodos de Monte Carlo . Se pueden utilizar alineaciones de secuencias múltiples simuladas para evaluar el rendimiento de los métodos filogenéticos [6] y generar la distribución nula para determinadas pruebas estadísticas en los campos de la evolución molecular y la filogenética molecular. Ejemplos de estas pruebas incluyen pruebas de ajuste del modelo [7] y la "prueba SOWH" que se pueden utilizar para examinar topologías de árboles. [8] [9]
Aplicación a datos morfológicos
El hecho de que los modelos de sustitución se puedan utilizar para analizar cualquier alfabeto biológico ha hecho posible desarrollar modelos de evolución para conjuntos de datos fenotípicos [10] (por ejemplo, rasgos morfológicos y de comportamiento). Normalmente, "0" es. se usa para indicar la ausencia de un rasgo y "1" se usa para indicar la presencia de un rasgo, aunque también es posible puntuar personajes usando múltiples estados. Usando este marco, podríamos codificar un conjunto de fenotipos como cadenas binarias (esto podría generalizarse a cadenas de k -state para caracteres con más de dos estados) antes de los análisis usando un modo apropiado. Esto se puede ilustrar con un ejemplo de "juguete": podemos usar un alfabeto binario para puntuar los siguientes rasgos fenotípicos "tiene plumas", "pone huevos", "tiene pelo", "es de sangre caliente" y "capaz de vuelo". En este ejemplo de juguete, los colibríes tendrían la secuencia 11011 (la mayoría de las otras aves tendrían la misma cuerda), los avestruces tendrían la secuencia 11010, el ganado (y la mayoría de los mamíferos terrestres ) tendrían 00110 y los murciélagos tendrían 00111. La probabilidad de una filogenia Luego, el árbol se puede calcular usando esas secuencias binarias y un modelo de sustitución apropiado. La existencia de estos modelos morfológicos hace posible analizar matrices de datos con taxones fósiles, ya sea utilizando solo los datos morfológicos [11] o una combinación de datos morfológicos y moleculares [12] (estos últimos puntuados como datos faltantes para los taxones fósiles) .
Existe una similitud obvia entre el uso de datos moleculares o fenotípicos en el campo de la cladística y el análisis de caracteres morfológicos mediante un modelo de sustitución. Sin embargo, ha habido un vociferante debate [a] en la comunidad sistemática con respecto a la cuestión de si los análisis cladísticos deben verse o no como "libres de modelos". El campo de la cladística (definido en el sentido más estricto) favorece el uso del criterio de máxima parsimonia para la inferencia filogenética. [13] Muchos cladistas rechazan la posición de que la máxima parsimonia se basa en un modelo de sustitución y (en muchos casos) justifican el uso de la parsimonia utilizando la filosofía de Karl Popper . [14] Sin embargo, la existencia de modelos "equivalentes a parsimonia" [15] (es decir, modelos de sustitución que producen el árbol de máxima parsimonia cuando se utilizan para análisis) hace posible ver la parsimonia como un modelo de sustitución. [1]
El reloj molecular y las unidades de tiempo
Normalmente, la longitud de una rama de un árbol filogenético se expresa como el número esperado de sustituciones por sitio; si el modelo evolutivo indica que cada sitio dentro de una secuencia ancestral típicamente experimentará x sustituciones en el momento en que evolucione a la secuencia de un descendiente particular, entonces se considera que el ancestro y el descendiente están separados por la longitud de la rama x .
A veces, la longitud de una rama se mide en términos de años geológicos. Por ejemplo, un registro fósil puede permitir determinar el número de años entre una especie ancestral y una descendiente. Debido a que algunas especies evolucionan a un ritmo más rápido que otras, estas dos medidas de longitud de las ramas no siempre están en proporción directa. El número esperado de sustituciones por sitio por año a menudo se indica con la letra griega mu (μ).
Se dice que un modelo tiene un reloj molecular estricto si el número esperado de sustituciones por año μ es constante independientemente de la evolución de la especie que se esté examinando. Una implicación importante de un reloj molecular estricto es que el número de sustituciones esperadas entre una especie ancestral y cualquiera de sus descendientes actuales debe ser independiente de la especie descendiente que se examine.
Tenga en cuenta que la suposición de un reloj molecular estricto a menudo no es realista, especialmente durante largos períodos de evolución. Por ejemplo, aunque los roedores son genéticamente muy similares a los primates , han sufrido un número mucho mayor de sustituciones en el tiempo estimado desde la divergencia en algunas regiones del genoma . [16] Esto podría deberse a su menor tiempo de generación , [17] mayor tasa metabólica , mayor estructuración de la población, mayor tasa de especiación o menor tamaño corporal . [18] [19] Cuando se estudian eventos antiguos como la explosión cámbrica bajo la suposición de un reloj molecular, a menudo se observa una escasa concurrencia entre los datos cladísticos y filogenéticos. Se ha trabajado en modelos que permiten una tasa de evolución variable. [20] [21]
Los modelos que pueden tener en cuenta la variabilidad de la velocidad del reloj molecular entre diferentes linajes evolutivos en la filogenia se denominan "relajados" en oposición a "estrictos". En tales modelos, se puede suponer que la tasa está correlacionada o no entre antepasados y descendientes y la variación de la tasa entre linajes se puede extraer de muchas distribuciones, pero generalmente se aplican distribuciones exponenciales y logarítmicas normales. Existe un caso especial, llamado “reloj molecular local” cuando una filogenia se divide en al menos dos particiones (conjuntos de linajes) y se aplica un reloj molecular estricto en cada una, pero con diferentes velocidades.
Modelos estacionarios y reversibles en el tiempo
Muchos modelos de sustitución útiles son reversibles en el tiempo ; en términos matemáticos, al modelo no le importa qué secuencia es el ancestro y cuál es el descendiente siempre que todos los demás parámetros (como el número de sustituciones por sitio que se espera entre las dos secuencias) se mantengan constantes.
Cuando se realiza un análisis de datos biológicos reales, generalmente no hay acceso a las secuencias de especies ancestrales, solo a las especies actuales. Sin embargo, cuando un modelo es reversible en el tiempo, qué especie era la especie ancestral es irrelevante. En cambio, el árbol filogenético se puede enraizar usando cualquiera de las especies, volver a enraizar más tarde en base a nuevos conocimientos o dejarlo sin enraizar. Esto se debe a que no existe una especie "especial", todas las especies eventualmente derivarán unas de otras con la misma probabilidad.
Un modelo es reversible en el tiempo si y solo si satisface la propiedad (la notación se explica a continuación)
o, de manera equivalente, la propiedad de saldo detallado ,
para cada i , j y t .
La reversibilidad temporal no debe confundirse con la estacionariedad . Un modelo está estacionario si Q no cambia con el tiempo. El análisis a continuación asume un modelo estacionario.
Las matemáticas de los modelos de sustitución
Los modelos estacionarios, neutrales, independientes y de sitios finitos (asumiendo una tasa de evolución constante) tienen dos parámetros, π , un vector de equilibrio de frecuencias de base (o caracteres) y una matriz de tasas, Q , que describe la tasa a la que las bases de un tipo transformarse en bases de otro tipo; elementopara i ≠ j es la tasa a la que la base i va a la base j . Las diagonales de la matriz Q se eligen de modo que las filas sumen cero:
El vector de fila de equilibrio π debe ser aniquilado por la matriz de tasas Q :
La función de matriz de transición es una función de las longitudes de las ramas (en algunas unidades de tiempo, posiblemente en sustituciones), a una matriz de probabilidades condicionales. Se denota. La entrada en la i- ésima columna y la j- ésima fila,, es la probabilidad, después del tiempo t , de que haya una base j en una posición dada, condicionada a que haya una base i en esa posición en el tiempo 0. Cuando el modelo es reversible en el tiempo, esto se puede realizar entre dos secuencias cualesquiera, incluso si uno no es el antepasado del otro, si conoce la longitud total de la rama entre ellos.
Las propiedades asintóticas de P ij (t) son tales que P ij (0) = δ ij , donde δ ij es la función delta de Kronecker . Es decir, no hay ningún cambio en la composición de bases entre una secuencia y ella misma. En el otro extremo,o, en otras palabras, a medida que el tiempo llega al infinito, la probabilidad de encontrar la base j en una posición dada que había una base i en esa posición originalmente va a la probabilidad de equilibrio de que haya una base j en esa posición, independientemente de la base original. Además, se sigue quepara todo t .
La matriz de transición se puede calcular a partir de la matriz de tasas mediante la exponenciación de la matriz :
donde Q n es la matriz Q multiplicada por sí misma suficientes veces para dar su n- ésima potencia.
Si Q es diagonalizable , la matriz exponencial se puede calcular directamente: sea Q = U −1 Λ U una diagonalización de Q , con
donde Λ es una matriz diagonal y donde son los valores propios de Q , cada uno repetido según su multiplicidad. Luego
donde la matriz diagonal e Λt está dada por
Tiempo generalizado reversible
El tiempo generalizado reversible (GTR) es el modelo más general neutral, independiente, de sitios finitos y reversible en el tiempo. Fue descrito por primera vez en forma general por Simon Tavaré en 1986. [22] El modelo GTR a menudo se denomina modelo general reversible en el tiempo en las publicaciones; [23] también se ha denominado modelo REV. [24]
Los parámetros de GTR para nucleótidos consisten en un vector de frecuencia de base de equilibrio, , dando la frecuencia a la que ocurre cada base en cada sitio, y la matriz de tasas
Debido a que el modelo debe ser reversible en el tiempo y debe acercarse a las frecuencias de equilibrio de nucleótidos (base) en tiempos prolongados, cada tasa por debajo de la diagonal es igual a la tasa recíproca por encima de la diagonal multiplicada por la razón de equilibrio de las dos bases. Como tal, el nucleótido GTR requiere 6 parámetros de tasa de sustitución y 4 parámetros de frecuencia base de equilibrio. Dado que los 4 parámetros de frecuencia deben sumar 1, solo hay 3 parámetros de frecuencia libres. El total de 9 parámetros libres a menudo se reduce aún más a 8 parámetros más, el número total de sustituciones por unidad de tiempo. Al medir el tiempo en sustituciones (= 1) solo quedan 8 parámetros libres.
En general, para calcular el número de parámetros, se cuenta el número de entradas por encima de la diagonal en la matriz, es decir, para n valores de rasgos por sitio. , y luego sume n-1 para las frecuencias de equilibrio, y reste 1 porqueestá arreglado. Usted obtiene
Por ejemplo, para una secuencia de aminoácidos (hay 20 aminoácidos "estándar" que componen las proteínas ), encontrará que hay 208 parámetros. Sin embargo, al estudiar las regiones codificantes del genoma, es más común trabajar con un modelo de sustitución de codones (un codón tiene tres bases y codifica un aminoácido en una proteína). Existencodones, lo que da como resultado 2078 parámetros libres. Sin embargo, a menudo se supone que las tasas de transiciones entre codones que difieren en más de una base son cero, lo que reduce el número de parámetros libres a soloparámetros. Otra práctica común es reducir el número de codones prohibiendo los codones de parada (o sin sentido ). Esta es una suposición biológicamente razonable porque incluir los codones de terminación significaría que uno está calculando la probabilidad de encontrar el codón de sentido Tiempo después dado que el codón ancestral es implicaría la posibilidad de pasar por un estado con un codón de parada prematuro.
Una forma alternativa (y comúnmente utilizada [23] [25] [26] [27] ) de escribir la matriz de tasa instantánea ( matriz) para el modelo de nucleótidos GTR es:
La la matriz está normalizada por lo que .
Esta notación es más fácil de entender que la notación utilizada originalmente por Tavaré , porque todos los parámetros del modelo corresponden a parámetros de "intercambiabilidad" ( mediante , que también se puede escribir usando la notación ) oa frecuencias de nucleótidos de equilibrio. Tenga en cuenta que los nucleótidos en elLa matriz se ha escrito en orden alfabético. En otras palabras, la matriz de probabilidad de transición para el matriz anterior sería:
Algunas publicaciones escriben los nucleótidos en un orden diferente (por ejemplo, algunos autores optan por agrupar dos purinas juntas y las dos pirimidinas juntas; ver también modelos de evolución del ADN ). Estas diferencias en la notación hacen que sea importante tener claro el orden de los estados al escribir el matriz.
El valor de esta notación es que la tasa instantánea de cambio de nucleótidos a nucleótido siempre se puede escribir como , dónde es la intercambiabilidad de nucleótidos y y es la frecuencia de equilibrio del nucleótido. La matriz que se muestra arriba usa las letras mediante para los parámetros de intercambiabilidad en aras de la legibilidad, pero esos parámetros también podrían escribirse de manera sistemática utilizando el notación (p. ej., , , Etcétera).
Tenga en cuenta que el orden de los subíndices de nucleótidos para los parámetros de intercambiabilidad es irrelevante (por ejemplo, ) pero los valores de la matriz de probabilidad de transición no lo son (es decir, es la probabilidad de observar A en la secuencia 1 y C en la secuencia 2 cuando la distancia evolutiva entre esas secuencias es mientras que es la probabilidad de observar C en la secuencia 1 y A en la secuencia 2 a la misma distancia evolutiva).
Parámetros de intercambiabilidad elegidos arbitrariamente (p. Ej., ) se establece normalmente en un valor de 1 para aumentar la legibilidad de las estimaciones de los parámetros de intercambiabilidad (ya que permite a los usuarios expresar esos valores en relación con el parámetro de intercambiabilidad elegido). La práctica de expresar los parámetros de intercambiabilidad en términos relativos no es problemática porque lala matriz está normalizada. La normalización permite (tiempo) en la exponenciación matricial expresarse en unidades de sustituciones esperadas por sitio (práctica estándar en filogenia molecular). Este es el equivalente a la afirmación de que uno está estableciendo la tasa de mutacióna 1) y reduciendo el número de parámetros libres a ocho. Específicamente, hay cinco parámetros de intercambiabilidad libre ( mediante , que se expresan en relación con el fijo en este ejemplo) y tres parámetros de frecuencia base de equilibrio (como se describió anteriormente, solo tres los valores deben especificarse porque debe sumar 1).
La notación alternativa también facilita la comprensión de los submodelos del modelo GTR, que simplemente corresponden a casos en los que la intercambiabilidad y / o los parámetros de frecuencia base de equilibrio están obligados a tomar valores iguales. Se han nombrado varios submodelos específicos, en gran parte basados en sus publicaciones originales:
Modelo | Parámetros de intercambiabilidad | Parámetros de frecuencia base | Referencia |
---|---|---|---|
JC69 (o JC) | Jukes y Cantor (1969) [5] | ||
F81 | todas valores gratis | Felsenstein (1981) [28] | |
K2P (o K80) | ( transversiones ),( transiciones ) | Kimura (1980) [29] | |
HKY85 | ( transversiones ),( transiciones ) | todas valores gratis | Hasegawa y col. (1985) [30] |
K3ST (o K81) | ( transversiones ), ( transversiones ),( transiciones ) | Kimura (1981) [31] | |
TN93 | ( transversiones ), ( transiciones ), ( transiciones ) | todas valores gratis | Tamura y Nei (1993) [32] |
SYM | todos los parámetros de intercambiabilidad gratis | Zharkikh (1994) [33] | |
GTR (o REV [24] ) | todos los parámetros de intercambiabilidad gratis | todas valores gratis | Tavaré (1986) [22] |
Hay 203 formas posibles de restringir los parámetros de intercambiabilidad para formar submodelos de GTR, [34] que van desde los modelos JC69 [5] y F81 [28] (donde todos los parámetros de intercambiabilidad son iguales) al SYM [33] modelo y el modelo completo GTR [22] (o REV [24] ) (donde todos los parámetros de intercambiabilidad son gratuitos). Las frecuencias de base de equilibrio se tratan típicamente de dos formas diferentes: 1) todas los valores están restringidos a ser iguales (es decir, ); o 2) todoslos valores se tratan como parámetros libres. Aunque las frecuencias base de equilibrio se pueden restringir de otras formas, la mayoría restringe el vínculo algunos, pero no todos.los valores son poco realistas desde un punto de vista biológico. La posible excepción es hacer cumplir la simetría de hebras [35] (es decir, restringir y pero permitiendo ).
La notación alternativa también facilita ver cómo se puede aplicar el modelo GTR a alfabetos biológicos con un espacio de estado más grande (por ejemplo, aminoácidos o codones ). Es posible escribir un conjunto de frecuencias de estado de equilibrio como, ... y un conjunto de parámetros de intercambiabilidad () para cualquier alfabeto de estados de carácter. Estos valores se pueden utilizar para completar el matriz estableciendo los elementos fuera de la diagonal como se muestra arriba (la notación general sería ), configurando los elementos diagonales a la suma negativa de los elementos fuera de la diagonal en la misma fila, y normalizando. Obviamente,para aminoácidos ypara codones (asumiendo el código genético estándar ). Sin embargo, la generalidad de esta notación es beneficiosa porque se pueden usar alfabetos reducidos para los aminoácidos. Por ejemplo, uno puede usary codificar aminoácidos recodificando los aminoácidos utilizando las seis categorías propuestas por Margaret Dayhoff . Los alfabetos de aminoácidos reducidos se consideran una forma de reducir el impacto de la variación de composición y la saturación. [36]
Modelos mecanicistas versus empíricos
Una diferencia principal en los modelos evolutivos es cuántos parámetros se estiman cada vez para el conjunto de datos en consideración y cuántos de ellos se estiman una vez en un gran conjunto de datos. Los modelos mecanicistas describen todas las sustituciones en función de una serie de parámetros que se estiman para cada conjunto de datos analizados, preferiblemente utilizando la máxima verosimilitud . Esto tiene la ventaja de que el modelo se puede ajustar a las particularidades de un conjunto de datos específico (por ejemplo, diferentes sesgos de composición en el ADN). Pueden surgir problemas cuando se utilizan demasiados parámetros, especialmente si pueden compensarse entre sí (esto puede conducir a la no identificabilidad [37] ). Entonces, a menudo ocurre que el conjunto de datos es demasiado pequeño para producir suficiente información para estimar todos los parámetros con precisión.
Los modelos empíricos se crean estimando muchos parámetros (por lo general, todas las entradas de la matriz de tasas, así como las frecuencias de los caracteres, consulte el modelo GTR más arriba) a partir de un gran conjunto de datos. Luego, estos parámetros se fijan y se reutilizarán para cada conjunto de datos. Esto tiene la ventaja de que esos parámetros se pueden estimar con mayor precisión. Normalmente, no es posible estimar todas las entradas de la matriz de sustitución a partir del conjunto de datos actual únicamente. En el lado negativo, los parámetros estimados a partir de los datos de entrenamiento pueden ser demasiado genéricos y, por lo tanto, no se ajustan bien a ningún conjunto de datos en particular. Una posible solución para ese problema es estimar algunos parámetros a partir de los datos utilizando la máxima verosimilitud (o algún otro método). En estudios de evolución de proteínas, las frecuencias de aminoácidos de equilibrio(utilizando los códigos IUPAC de una letra para los aminoácidos para indicar sus frecuencias de equilibrio) a menudo se estiman a partir de los datos [38] mientras se mantiene fija la matriz de intercambiabilidad. Más allá de la práctica común de estimar las frecuencias de aminoácidos a partir de los datos, los métodos para estimar los parámetros de intercambiabilidad [39] o ajustar elMatrix [40] para la evolución de proteínas de otras formas.
Dado que la secuenciación del genoma a gran escala sigue produciendo grandes cantidades de secuencias de ADN y proteínas, hay suficientes datos disponibles para crear modelos empíricos con cualquier número de parámetros, incluidos los modelos de codones empíricos. [41] Debido a los problemas mencionados anteriormente, los dos enfoques a menudo se combinan, estimando la mayoría de los parámetros una vez en datos a gran escala, mientras que algunos parámetros restantes se ajustan luego al conjunto de datos en consideración. Las siguientes secciones ofrecen una descripción general de los diferentes enfoques adoptados para los modelos basados en ADN, proteínas o codones.
Modelos de sustitución de ADN
Los primeros modelos de evolución del ADN fueron propuestos por Jukes y Cantor [5] en 1969. El modelo Jukes-Cantor (JC o JC69) asume tasas de transición iguales, así como frecuencias de equilibrio iguales para todas las bases y es el submodelo más simple de la Modelo GTR. En 1980, Motoo Kimura introdujo un modelo con dos parámetros (K2P o K80 [29] ): uno para la transición y otro para la tasa de transversión . Un año después, Kimura introdujo un segundo modelo (K3ST, K3P o K81 [31] ) con tres tipos de sustitución: uno para la tasa de transición , otro para la tasa de transversiones que conservan las propiedades fuertes / débiles de los nucleótidos ( y , designado por Kimura [31] ), y uno para la tasa de transversiones que conservan las propiedades amino / ceto de los nucleótidos ( y , designado por Kimura [31] ). En 1981, Joseph Felsenstein propuso un modelo de cuatro parámetros (F81 [28] ) en el que la tasa de sustitución corresponde a la frecuencia de equilibrio del nucleótido diana. Hasegawa, Kishino y Yano unificaron los dos últimos modelos en un modelo de cinco parámetros (HKY [30] ). Después de estos esfuerzos pioneros, muchos submodelos adicionales del modelo GTR se introdujeron en la literatura (y uso común) en la década de 1990. [32] [33] Varios investigadores también desarrollaron y perfeccionaron otros modelos que van más allá del modelo GTR de maneras específicas. [42] [43]
Casi todos los modelos de sustitución de ADN son modelos mecanicistas (como se describió anteriormente). La pequeña cantidad de parámetros que se necesitan estimar para estos modelos hace que sea factible estimar esos parámetros a partir de los datos. También es necesario porque los patrones de evolución de la secuencia de ADN a menudo difieren entre organismos y entre genes dentro de los organismos. El último puede reflejar la optimización por la acción de la selección para propósitos específicos (por ejemplo, expresión rápida o estabilidad del ARN mensajero) o puede reflejar una variación neutra en los patrones de sustitución. Por lo tanto, dependiendo del organismo y el tipo de gen, es probable que sea necesario ajustar el modelo a estas circunstancias.
Modelos de sustitución de dos estados
Una forma alternativa de analizar los datos de la secuencia de ADN es recodificar los nucleótidos como purinas (R) y pirimidinas (Y); [44] [45] Esta práctica a menudo se denomina codificación RY. [46] Las inserciones y eliminaciones en alineaciones de secuencias múltiples también pueden codificarse como datos binarios [47] y analizarse utilizando un modelo de dos estados. [48] [49]
El modelo más simple de dos estados de evolución de secuencia se llama modelo Cavender-Farris o modelo Cavender-Farris- Neyman (CFN); el nombre de este modelo refleja el hecho de que se describió de forma independiente en varias publicaciones diferentes. [50] [51] [52] El modelo CFN es idéntico al modelo Jukes-Cantor adaptado a dos estados e incluso se ha implementado como el modelo "JC2" en el popular paquete de software IQ-TREE (usando este modelo en IQ -TREE requiere codificar los datos como 0 y 1 en lugar de R e Y; el popular paquete de software PAUP * puede interpretar una matriz de datos que comprende solo R e Y como datos que se analizarán utilizando el modelo CFN). También es sencillo analizar datos binarios utilizando la transformada filogenética de Hadamard . [53] El modelo alternativo de dos estados permite que los parámetros de frecuencia de equilibrio de R e Y (o 0 y 1) adopten valores distintos de 0,5 añadiendo un único parámetro libre; este modelo se llama de diversas formas CFu [44] o GTR2 (en IQ-TREE).
Modelos de sustitución de aminoácidos
Para muchos análisis, particularmente para distancias evolutivas más largas, la evolución se modela a nivel de aminoácidos. Dado que no todas las sustituciones de ADN también alteran el aminoácido codificado, la información se pierde al mirar los aminoácidos en lugar de las bases de nucleótidos. Sin embargo, varias ventajas hablan a favor del uso de la información de aminoácidos: el ADN es mucho más propenso a mostrar sesgos de composición que los aminoácidos, no todas las posiciones en el ADN evolucionan a la misma velocidad ( es menos probable que las mutaciones no sinónimas se fijen en la población que los sinónimos ), pero probablemente lo más importante, debido a esas posiciones de rápida evolución y al tamaño limitado del alfabeto (solo cuatro estados posibles), el ADN sufre más sustituciones hacia atrás, lo que dificulta estimar con precisión distancias evolutivas más largas.
A diferencia de los modelos de ADN, los modelos de aminoácidos son tradicionalmente modelos empíricos. Fueron pioneras en las décadas de 1960 y 1970 por Dayhoff y sus colaboradores al estimar las tasas de reemplazo de alineaciones de proteínas con al menos un 85% de identidad (originalmente con datos muy limitados [54] y finalmente culminando en el modelo Dayhoff PAM de 1978 [55] ). . Esto minimizó las posibilidades de observar múltiples sustituciones en un sitio. A partir de la matriz de tasas estimadas, se derivaron una serie de matrices de probabilidad de reemplazo, conocidas con nombres como PAM 250. Las matrices de probabilidades logarítmicas basadas en el modelo PAM de Dayhoff se usaban comúnmente para evaluar la importancia de los resultados de búsqueda de homología, aunque las matrices BLOSUM [ 56] sustituirá a los PAM log-odds matrices en este contexto porque las matrices BLOSUM parecen ser más sensibles a través de una variedad de distancias evolutivas, a diferencia de las PAM log-odds matrices. [57]
La matriz PAM de Dayhoff fue la fuente de los parámetros de intercambiabilidad utilizados en uno de los primeros análisis de filogenia de máxima verosimilitud que utilizó datos de proteínas [58] y el modelo PAM (o una versión mejorada del modelo PAM llamado DCMut [59] ) continúa para ser utilizado en filogenia. Sin embargo, el número limitado de alineaciones utilizadas para generar el modelo PAM (que refleja la cantidad limitada de datos de secuencia disponibles en la década de 1970) infló casi con certeza la varianza de algunos parámetros de la matriz de velocidad (alternativamente, las proteínas utilizadas para generar el modelo PAM podrían haber sido un conjunto no representativo). Independientemente, está claro que el modelo PAM rara vez tiene un ajuste tan bueno para la mayoría de los conjuntos de datos como los modelos empíricos más modernos (Keane et al. 2006 [60] probaron miles de proteínas de vertebrados , proteobacterianos y arqueas y encontraron que el PAM de Dayhoff modelo tenía el mejor ajuste a un máximo de <4% de las proteínas).
A partir de la década de 1990, la rápida expansión de las bases de datos de secuencias debido a las tecnologías de secuenciación mejoradas llevó a la estimación de muchas matrices empíricas nuevas (ver [61] para una lista completa). Los primeros esfuerzos utilizaron métodos similares a los utilizados por Dayhoff, utilizando el emparejamiento a gran escala de la base de datos de proteínas para generar una nueva matriz logarítmica de probabilidades [62] y el modelo JTT (Jones-Taylor-Thornton). [63] Los rápidos aumentos en la potencia de cálculo durante este tiempo (que reflejan factores como la ley de Moore ) hicieron posible estimar parámetros para modelos empíricos utilizando la máxima verosimilitud (por ejemplo, los modelos WAG [38] y LG [64] ) y otros métodos. (por ejemplo, los modelos VT [65] y PMB [66] ).
El modelo sin mecanismo común (NCM) y máxima parsimonia
En 1997, Tuffley y Steel [67] describieron un modelo al que denominaron modelo sin mecanismo común (NCM). La topología del árbol de máxima verosimilitud para un conjunto de datos específico dado el modelo NCM es idéntica a la topología del árbol óptimo para los mismos datos dado el criterio de máxima parsimonia . El modelo NCM asume que todos los datos (por ejemplo, nucleótidos homólogos, aminoácidos o caracteres morfológicos) están relacionados por un árbol filogenético común. Luego se introducen parámetros para cada carácter homólogo, donde es el número de secuencias. Esto puede verse como una estimación de un parámetro de tasa separado para cada par de caracteres × rama en el conjunto de datos (tenga en cuenta que el número de ramas en un árbol filogenético completamente resuelto es). Por lo tanto, el número de parámetros libres en el modelo NCM siempre excede el número de caracteres homólogos en la matriz de datos, y el modelo NCM ha sido criticado por estar constantemente "sobre-parametrizado". [68]
Referencias
- ↑ a b Steel M, Penny D (junio de 2000). "Parsimonia, probabilidad y el papel de los modelos en filogenia molecular". Biología Molecular y Evolución . 17 (6): 839–50. doi : 10.1093 / oxfordjournals.molbev.a026364 . PMID 10833190 .
- ^ Bromham L (mayo de 2019). "Seis cosas imposibles antes del desayuno: suposiciones, modelos y creencias en la datación molecular". Tendencias en Ecología y Evolución . 34 (5): 474–486. doi : 10.1016 / j.tree.2019.01.017 . PMID 30904189 .
- ^ Yang Z, Bielawski JP (diciembre de 2000). "Métodos estadísticos para la detección de la adaptación molecular" . Tendencias en Ecología y Evolución . 15 (12): 496–503. doi : 10.1016 / s0169-5347 (00) 01994-7 . PMC 7134603 . PMID 11114436 .
- ^ Perron U, Kozlov AM, Stamatakis A, Goldman N, Moal IH (septiembre de 2019). Pupko T (ed.). "Modelado de restricciones estructurales en la evolución de proteínas a través de estados conformacionales de la cadena lateral" . Biología Molecular y Evolución . 36 (9): 2086–2103. doi : 10.1093 / molbev / msz122 . PMC 6736381 . PMID 31114882 .
- ^ a b c d Jukes TH, Cantor CH (1969). "Evolución de moléculas de proteínas". En Munro HN (ed.). Metabolismo de proteínas de mamíferos . 3 . Elsevier. págs. 21-132. doi : 10.1016 / b978-1-4832-3211-9.50009-7 . ISBN 978-1-4832-3211-9.
- ^ Huelsenbeck JP, Hillis DM (1 de septiembre de 1993). "Éxito de los métodos filogenéticos en el caso de cuatro taxones" . Biología sistemática . 42 (3): 247–264. doi : 10.1093 / sysbio / 42.3.247 . ISSN 1063-5157 .
- ^ Goldman N (febrero de 1993). "Pruebas estadísticas de modelos de sustitución de ADN". Revista de evolución molecular . 36 (2): 182–98. Código bibliográfico : 1993JMolE..36..182G . doi : 10.1007 / BF00166252 . PMID 7679448 . S2CID 29354147 .
- ^ Swofford DL Olsen GJ Waddell PJ Hillis DM 1996. "Inferencia filogenética". en Sistemática Molecular (ed. Hillis DM Moritz C. Mable BK) 2ª ed. Sunderland, MA: Sinauer. pag. 407–514. ISBN 978-0878932825
- ^ Church SH, Ryan JF, Dunn CW (noviembre de 2015). "Automatización y Evaluación de la Prueba SOWH con SOWHAT" . Biología sistemática . 64 (6): 1048–58. doi : 10.1093 / sysbio / syv055 . PMC 4604836 . PMID 26231182 .
- ^ Lewis PO (1 de noviembre de 2001). "Un enfoque de probabilidad para estimar la filogenia a partir de datos de caracteres morfológicos discretos" . Biología sistemática . 50 (6): 913-25. doi : 10.1080 / 106351501753462876 . PMID 12116640 .
- ^ Lee MS, Cau A, Naish D, Dyke GJ (mayo de 2014). "Relojes morfológicos en paleontología, y un origen cretáceo medio de corona Aves" . Biología sistemática . 63 (3): 442–9. doi : 10.1093 / sysbio / syt110 . PMID 24449041 .
- ^ Ronquist F, Klopfstein S, Vilhelmsen L, Schulmeister S, Murray DL, Rasnitsyn AP (diciembre de 2012). "Un enfoque de evidencia total para fechar con fósiles, aplicado a la radiación temprana de los himenópteros" . Biología sistemática . 61 (6): 973–99. doi : 10.1093 / sysbio / sys058 . PMC 3478566 . PMID 22723471 .
- ^ Brower, A. V .Z. (2016). "¿Somos todos cladistas?" en Williams, D., Schmitt, M. y Wheeler, Q. (Eds.). El futuro de la sistemática filogenética: el legado de Willi Hennig (Libro 86 de la serie de volúmenes especiales de la Asociación de Sistemática). Prensa de la Universidad de Cambridge. págs. 88-114 ISBN 978-1107117648
- ^ Farris JS, Kluge AG, Carpenter JM (1 de mayo de 2001). Olmstead R (ed.). "Popper y verosimilitud versus" Popper * " " . Biología sistemática . 50 (3): 438–444. doi : 10.1080 / 10635150119150 . ISSN 1076-836X . PMID 12116585 .
- ^ Goldman, Nick (diciembre de 1990). "Inferencia de máxima verosimilitud de árboles filogenéticos, con especial referencia a un modelo de proceso de Poisson de sustitución de ADN y análisis de parsimonia" . Zoología sistemática . 39 (4): 345–361. doi : 10.2307 / 2992355 . JSTOR 2992355 .
- ^ Gu X, Li WH (septiembre de 1992). "Tasas más altas de sustitución de aminoácidos en roedores que en humanos". Filogenética molecular y evolución . 1 (3): 211–4. doi : 10.1016 / 1055-7903 (92) 90017-B . PMID 1342937 .
- ^ Li WH, Ellsworth DL, Krushkal J, Chang BH, Hewett-Emmett D (febrero de 1996). "Tasas de sustitución de nucleótidos en primates y roedores y la hipótesis del efecto del tiempo de generación". Filogenética molecular y evolución . 5 (1): 182–7. doi : 10.1006 / mpev.1996.0012 . PMID 8673286 .
- ^ Martin AP, Palumbi SR (mayo de 1993). "Tamaño corporal, tasa metabólica, tiempo de generación y reloj molecular" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 90 (9): 4087–91. Código bibliográfico : 1993PNAS ... 90.4087M . doi : 10.1073 / pnas.90.9.4087 . PMC 46451 . PMID 8483925 .
- ^ Yang Z, Nielsen R (abril de 1998). "Variación de tasa sinónima y no sinónima en genes nucleares de mamíferos". Revista de evolución molecular . 46 (4): 409-18. Código bibliográfico : 1998JMolE..46..409Y . CiteSeerX 10.1.1.19.7744 . doi : 10.1007 / PL00006320 . PMID 9541535 . S2CID 13917969 .
- ^ Kishino H, Thorne JL, Bruno WJ (marzo de 2001). "Realización de un método de estimación del tiempo de divergencia bajo un modelo probabilístico de evolución de la tasa" . Biología Molecular y Evolución . 18 (3): 352–61. doi : 10.1093 / oxfordjournals.molbev.a003811 . PMID 11230536 .
- ^ Thorne JL, Kishino H, Painter IS (diciembre de 1998). "Estimación de la tasa de evolución de la tasa de evolución molecular" . Biología Molecular y Evolución . 15 (12): 1647–57. doi : 10.1093 / oxfordjournals.molbev.a025892 . PMID 9866200 .
- ^ a b c Tavaré S. "Algunos problemas probabilísticos y estadísticos en el análisis de secuencias de ADN" (PDF) . Conferencias sobre Matemáticas en las Ciencias de la Vida . 17 : 57–86.
- ^ a b Yang Z (2006). Evolución molecular computacional . Oxford: Prensa de la Universidad de Oxford. ISBN 978-1-4294-5951-8. OCLC 99664975 .
- ^ a b c Yang Z (julio de 1994). "Estimación del patrón de sustitución de nucleótidos". Revista de evolución molecular . 39 (1): 105-11. Código bibliográfico : 1994JMolE..39..105Y . doi : 10.1007 / BF00178256 . PMID 8064867 . S2CID 15895455 .
- ^ Swofford, DL, Olsen, GJ, Waddell, PJ y Hillis, DM (1996) Inferencia filogenética. En: Hillis, DM, Moritz, C. y Mable, BK, Eds., Molecular Systematics, 2ª edición, Sinauer Associates, Sunderland (MA), 407-514. ISBN 0878932828ISBN 978-0878932825
- ^ Felsenstein J (2004). Inferir filogenias . Sunderland, Mass .: Sinauer Associates. ISBN 0-87893-177-5. OCLC 52127769 .
- ^ Swofford DL, Bell CD (1997). "(Borrador) PAUP * manual" . Consultado el 31 de diciembre de 2019 .
- ^ a b c Felsenstein J (noviembre de 1981). "Árboles evolutivos de secuencias de ADN: un enfoque de máxima verosimilitud". Revista de evolución molecular . 17 (6): 368–76. Código bibliográfico : 1981JMolE..17..368F . doi : 10.1007 / BF01734359 . PMID 7288891 . S2CID 8024924 .
- ^ a b Kimura M (diciembre de 1980). "Un método simple para estimar las tasas evolutivas de sustituciones de bases a través de estudios comparativos de secuencias de nucleótidos". Revista de evolución molecular . 16 (2): 111-20. Código bibliográfico : 1980JMolE..16..111K . doi : 10.1007 / BF01731581 . PMID 7463489 . S2CID 19528200 .
- ^ a b Hasegawa M, Kishino H, Yano T (octubre de 1985). "Datación de la división humano-simio por un reloj molecular de ADN mitocondrial". Revista de evolución molecular . 22 (2): 160–74. Código bibliográfico : 1985JMolE..22..160H . doi : 10.1007 / BF02101694 . PMID 3934395 . S2CID 25554168 .
- ^ a b c d Kimura M (enero de 1981). "Estimación de distancias evolutivas entre secuencias de nucleótidos homólogas" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 78 (1): 454–8. Código Bibliográfico : 1981PNAS ... 78..454K . doi : 10.1073 / pnas.78.1.454 . PMC 319072 . PMID 6165991 .
- ^ a b Tamura K, Nei M (mayo de 1993). "Estimación del número de sustituciones de nucleótidos en la región de control del ADN mitocondrial en humanos y chimpancés" . Biología Molecular y Evolución . 10 (3): 512–26. doi : 10.1093 / oxfordjournals.molbev.a040023 . PMID 8336541 .
- ^ a b c Zharkikh A (septiembre de 1994). "Estimación de distancias evolutivas entre secuencias de nucleótidos". Revista de evolución molecular . 39 (3): 315-29. Código bibliográfico : 1994JMolE..39..315Z . doi : 10.1007 / BF00160155 . PMID 7932793 . S2CID 33845318 .
- ^ Huelsenbeck JP, Larget B, Alfaro ME (junio de 2004). "Selección del modelo filogenético bayesiano mediante salto reversible cadena de Markov Monte Carlo" . Biología Molecular y Evolución . 21 (6): 1123–33. doi : 10.1093 / molbev / msh123 . PMID 15034130 .
- ^ Yap VB, Pachter L (abril de 2004). "Identificación de hotspots evolutivos en los genomas de roedores" . Investigación del genoma . 14 (4): 574–9. doi : 10.1101 / gr.1967904 . PMC 383301 . PMID 15059998 .
- ^ Susko E, Roger AJ (septiembre de 2007). "Sobre alfabetos de aminoácidos reducidos para inferencia filogenética" . Biología Molecular y Evolución . 24 (9): 2139–50. doi : 10.1093 / molbev / msm144 . PMID 17652333 .
- ^ Ponciano JM, Burleigh JG, Braun EL, Taper ML (diciembre de 2012). "Evaluación de la identificabilidad de parámetros en modelos filogenéticos mediante clonación de datos" . Biología sistemática . 61 (6): 955–72. doi : 10.1093 / sysbio / sys055 . PMC 3478565 . PMID 22649181 .
- ^ a b Whelan S, Goldman N (mayo de 2001). "Un modelo empírico general de evolución de proteínas derivado de múltiples familias de proteínas utilizando un enfoque de máxima verosimilitud" . Biología Molecular y Evolución . 18 (5): 691–9. doi : 10.1093 / oxfordjournals.molbev.a003851 . PMID 11319253 .
- ^ Braun EL (julio de 2018). "Un modelo evolutivo motivado por las propiedades fisicoquímicas de los aminoácidos revela la variación entre proteínas" . Bioinformática . 34 (13): i350 – i356. doi : 10.1093 / bioinformatics / bty261 . PMC 6022633 . PMID 29950007 .
- ^ Goldman N, Whelan S (noviembre de 2002). "Un uso novedoso de frecuencias de equilibrio en modelos de evolución de secuencias" . Biología Molecular y Evolución . 19 (11): 1821–31. doi : 10.1093 / oxfordjournals.molbev.a004007 . PMID 12411592 .
- ^ Kosiol C, Holmes I, Goldman N (julio de 2007). "Un modelo de codón empírico para la evolución de la secuencia de proteínas" . Biología Molecular y Evolución . 24 (7): 1464–79. doi : 10.1093 / molbev / msm064 . PMID 17400572 .
- ^ Tamura K (julio de 1992). "Estimación del número de sustituciones de nucleótidos cuando hay fuertes sesgos de transición-transversión y contenido de G + C" . Biología Molecular y Evolución . 9 (4): 678–87. doi : 10.1093 / oxfordjournals.molbev.a040752 . PMID 1630306 .
- ^ Halpern AL, Bruno WJ (julio de 1998). "Distancias evolutivas para secuencias de codificación de proteínas: modelado de frecuencias de residuos específicos del sitio". Biología Molecular y Evolución . 15 (7): 910–7. doi : 10.1093 / oxfordjournals.molbev.a025995 . PMID 9656490 . S2CID 7332698 .
- ^ a b Braun EL, Kimball RT (agosto de 2002). Kjer K (ed.). "Examen de las divergencias aviares basales con secuencias mitocondriales: complejidad del modelo, muestreo de taxón y longitud de la secuencia" . Biología sistemática . 51 (4): 614-25. doi : 10.1080 / 10635150290102294 . PMID 12228003 .
- ^ Phillips MJ, Delsuc F, Penny D (julio de 2004). "Filogenia a escala del genoma y detección de sesgos sistemáticos" . Biología Molecular y Evolución . 21 (7): 1455–8. doi : 10.1093 / molbev / msh137 . PMID 15084674 .
- ^ Ishikawa SA, Inagaki Y, Hashimoto T (enero de 2012). "Los modelos de codificación RY y no homogéneos pueden mejorar las inferencias de máxima verosimilitud a partir de datos de secuencia de nucleótidos con heterogeneidad composicional paralela" . Bioinformática evolutiva en línea . 8 : 357–71. doi : 10.4137 / EBO.S9017 . PMC 3394461 . PMID 22798721 .
- ^ Simmons MP, Ochoterena H (junio de 2000). "Lagunas como personajes en análisis filogenéticos basados en secuencias" . Biología sistemática . 49 (2): 369–81. doi : 10.1093 / sysbio / 49.2.369 . PMID 12118412 .
- ^ Yuri T, Kimball RT, Harshman J, Bowie RC, Braun MJ, Chojnowski JL, et al. (Marzo de 2013). "La parsimonia y los análisis basados en modelos de indeles en genes nucleares aviares revelan señales filogenéticas congruentes e incongruentes" . Biología . 2 (1): 419–44. doi : 10.3390 / biology2010419 . PMC 4009869 . PMID 24832669 .
- ^ Houde P, Braun EL, Narula N, Minjares U, Mirarab S (6 de julio de 2019). "Señal filogenética de Indels y la radiación neoaviana" . Diversidad . 11 (7): 108. doi : 10.3390 / d11070108 .
- ^ Cavender JA (agosto de 1978). "Taxonomía con confianza". Biociencias matemáticas . 40 (3–4): 271–280. doi : 10.1016 / 0025-5564 (78) 90089-5 .
- ^ Farris JS (1 de septiembre de 1973). "Un modelo de probabilidad para inferir árboles evolutivos" . Biología sistemática . 22 (3): 250-256. doi : 10.1093 / sysbio / 22.3.250 . ISSN 1063-5157 .
- ^ Neyman, J. Estudios moleculares de la evolución: una fuente de problemas estadísticos novedosos. En estudios moleculares de la evolución: una fuente de nuevos problemas estadísticos; Gupta, SS, Yackel, J., Eds .; New York Academic Press: Nueva York, NY, EE. UU., 1971; págs. 1–27.
- ^ Waddell PJ, Penny D, Moore T (agosto de 1997). "Conjugaciones de Hadamard y evolución de secuencia de modelado con tasas desiguales entre sitios". Filogenética molecular y evolución . 8 (1): 33–50. doi : 10.1006 / mpev.1997.0405 . PMID 9242594 .
- ^ Dayhoff MO, Eck RV, Park CM (1969). "Un modelo de cambio evolutivo en proteínas" . En Dayhoff MO (ed.). Atlas de secuencia y estructura de proteínas . 4 . págs. 75–84.
- ^ Dayhoff MO, Schwartz RM, Orcutt BC (1978). "Un modelo de cambio evolutivo en proteínas" (PDF) . En Dayhoff MO (ed.). Atlas de secuencia y estructura de proteínas . 5 . págs. 345–352.
- ^ Henikoff S, Henikoff JG (noviembre de 1992). "Matrices de sustitución de aminoácidos de bloques de proteínas" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 89 (22): 10915–9. Código Bibliográfico : 1992PNAS ... 8910915H . doi : 10.1073 / pnas.89.22.10915 . PMC 50453 . PMID 1438297 .
- ^ Altschul SF (marzo de 1993). "Un sistema de puntuación de alineación de proteínas sensible en todas las distancias evolutivas". Revista de evolución molecular . 36 (3): 290–300. Código bibliográfico : 1993JMolE..36..290A . doi : 10.1007 / BF00160485 . PMID 8483166 . S2CID 22532856 .
- ^ Kishino H, Miyata T, Hasegawa M (agosto de 1990). "Inferencia de máxima verosimilitud de la filogenia de proteínas y el origen de los cloroplastos". Revista de evolución molecular . 31 (2): 151–160. Código Bibliográfico : 1990JMolE..31..151K . doi : 10.1007 / BF02109483 . S2CID 24650412 .
- ^ Kosiol C, Goldman N (febrero de 2005). "Diferentes versiones de la matriz de tarifas Dayhoff" . Biología Molecular y Evolución . 22 (2): 193–9. doi : 10.1093 / molbev / msi005 . PMID 15483331 .
- ^ Keane TM, Creevey CJ, Pentony MM, Naughton TJ, Mclnerney JO (marzo de 2006). "La evaluación de los métodos para la selección de la matriz de aminoácidos y su uso en datos empíricos muestra que los supuestos ad hoc para la elección de la matriz no están justificados" . Biología Evolutiva BMC . 6 (1): 29. doi : 10.1186 / 1471-2148-6-29 . PMC 1435933 . PMID 16563161 .
- ^ Bigot T, Guglielmini J, Criscuolo A (julio de 2019). "Datos de simulación para la estimación de constantes numéricas para aproximar distancias evolutivas por pares entre secuencias de aminoácidos" . Datos resumidos . 25 : 104212. doi : 10.1016 / j.dib.2019.104212 . PMC 6699465 . PMID 31440543 .
- ^ Gonnet GH, Cohen MA, Benner SA (junio de 1992). "Emparejamiento exhaustivo de toda la base de datos de secuencias de proteínas". Ciencia . 256 (5062): 1443–5. Código Bibliográfico : 1992Sci ... 256.1443G . doi : 10.1126 / science.1604319 . PMID 1604319 .
- ^ Jones DT, Taylor WR, Thornton JM (junio de 1992). "La generación rápida de matrices de datos de mutación a partir de secuencias de proteínas". Aplicaciones informáticas en las biociencias . 8 (3): 275–82. doi : 10.1093 / bioinformatics / 8.3.275 . PMID 1633570 .
- ^ Le SQ, Gascuel O (julio de 2008). "Una matriz de reemplazo de aminoácidos general mejorada" . Biología Molecular y Evolución . 25 (7): 1307–20. doi : 10.1093 / molbev / msn067 . PMID 18367465 .
- ^ Müller T, Vingron M (diciembre de 2000). "Modelado de reemplazo de aminoácidos". Revista de Biología Computacional . 7 (6): 761–76. doi : 10.1089 / 10665270050514918 . PMID 11382360 .
- ^ Veerassamy S, Smith A, Tillier ER (diciembre de 2003). "Un modelo de probabilidad de transición para sustituciones de aminoácidos de bloques". Revista de Biología Computacional . 10 (6): 997–1010. doi : 10.1089 / 106652703322756195 . PMID 14980022 .
- ^ Tuffley C, Steel M (mayo de 1997). "Vínculos entre máxima verosimilitud y máxima parsimonia bajo un modelo simple de sustitución de sitio". Boletín de Biología Matemática . 59 (3): 581–607. doi : 10.1007 / bf02459467 . PMID 9172826 . S2CID 189885872 .
- ^ Holder MT, Lewis PO, Swofford DL (julio de 2010). "El criterio de información akaike no elegirá el modelo de mecanismo no común" . Biología sistemática . 59 (4): 477–85. doi : 10.1093 / sysbio / syq028 . PMID 20547783 .
Un buen modelo de inferencia filogenética debe ser lo suficientemente rico para tratar las fuentes de ruido en los datos, pero la estimación de ML realizada utilizando modelos que están claramente sobre parametrizados puede llevar a conclusiones drásticamente erróneas. El modelo NCM ciertamente cae en el ámbito de ser demasiado rico en parámetros para servir como justificación del uso de la parsimonia basado en ser un estimador ML bajo un modelo general.
enlaces externos
- Modelos empíricos de sustitución de aminoácidos
Notas
- ^ El enlace describe la controversia #ParsimonyGate, que proporciona un ejemplo concreto del debate sobre el carácter filosófico del criterio de máxima parsimonia. #ParsimonyGate fue la reacción en Twitter a un editorial de la revista Cladistics, publicado por Willi Hennig Society. El editorial afirma que "... el paradigma epistemológico de esta revista es la parsimonia" y afirma que existen razones filosóficas para preferir la parsimonia a otros métodos de inferencia filogenética. Dado que otros métodos (es decir, máxima verosimilitud, inferencia bayesiana, invariantes filogenéticos y la mayoría de los métodos a distancia) de inferencia filogenética se basan en modelos, esta afirmación rechaza implícitamente la noción de que la parsimonia es un modelo.