Este artículo puede ser demasiado técnico para que la mayoría de los lectores lo comprendan . ( Octubre de 2012 ) |
T-REX ( sitio web ) (Reconstrucción de árboles y reticulogramas) [1] [2] es un servidor web de libre acceso , desarrollado en el departamento de Ciencias de la Computación de la Université du Québec à Montréal , dedicado a la inferencia, validación y visualización de árboles filogenéticos y redes filogenéticas . El servidor web T-REX [1] [2] permite a los usuarios realizar varios métodos populares de análisis filogenético, así como algunas aplicaciones filogenéticas nuevas para inferir, dibujar y validar árboles y redes filogenéticas.
Los siguientes métodos para inferir y validar árboles filogenéticos usando distancias están disponibles: Unión de vecinos (NJ), Unión de vecinos a gran escala NINJA , BioNJ , UNJ, ADDTREE, MW, FITCH y reconstrucción de orden circular. Para la máxima parsimonia: DNAPARS, PROTPARS, PARS y DOLLOP, todos ellos del paquete PHYLIP , y para la máxima verosimilitud: PhyML, [3] RAxML, [4] DNAML, DNAMLK, PROML y PROMLK, los cuatro últimos métodos son del paquete PHYLIP , están disponibles.
Hay disponibles tipos jerárquicos de dibujo de árbol vertical, horizontal, radial y axial.
Los datos de entrada pueden estar en los tres formatos siguientes: formato Newick , formato PHYLIP y FASTA . Todos los resultados gráficos proporcionados por el servidor T-REX pueden guardarse en formato SVG (Scalable Vector Graphics) y luego abrirse y modificarse (por ejemplo, preparados para una publicación o presentación) en el editor de gráficos preferido del usuario.
Una aplicación desarrollada para dibujar árboles filogenéticos que permite guardarlos en formato Newick .
Se encuentran disponibles los siguientes métodos para reconstruir árboles filogenéticos a partir de una matriz de distancia que contiene valores perdidos, es decir, matrices incompletas: método de triángulos de Guénoche y Leclerc (2001), procedimiento ultramétrico para la estimación de valores perdidos de Landry, Lapointe y Kirsch (1996) seguido de NJ, procedimiento aditivo para la estimación de valores perdidos de Landry, Lapointe y Kirsch (1996) seguido de NJ, y el método de mínimos cuadrados ponderados modificados (MW *) de Makarenkov y Lapointe (2004). El método MW * asigna la ponderación de 1 a las entradas existentes, la ponderación de 0,5 a las entradas estimadas y la ponderación de 0 cuando la estimación de la entrada era imposible. Las simulaciones descritas en (Makarenkov y Lapointe 2004) mostraron que el método MW * supera claramente a los procedimientos Triángulos, Ultramétrico y Aditivo.
Los métodos completos y parciales de detección y validación de la transferencia de genes horizontal se incluyen en el servidor T-REX. El programa HGT-Detection [5] tiene como objetivo determinar un escenario óptimo, es decir, de costo mínimo, de transferencias de genes horizontales mientras se procede a una reconciliación gradual de las especies y árboles genéticos dados.
El reticulograma, es decir, el programa de reconstrucción de redes reticuladas, primero construye un árbol filogenético de soporte utilizando uno de los métodos de inferencia de árboles existentes. Después de esto, una rama de reticulación que minimiza la función objetivo de mínimos cuadrados o mínimos cuadrados ponderados se agrega al árbol (o red a partir del Paso 2) en cada paso del algoritmo. [6] Se han propuesto dos criterios estadísticos, Q1 y Q2, para medir la ganancia de ajuste proporcionada por cada rama de reticulación.
La versión del servidor web de T-REX también ofrece la posibilidad de inferir el árbol de soporte a partir de una matriz de distancia y luego agregar ramas de reticulación utilizando otra matriz de distancia. Tal algoritmo puede ser útil para representar similitudes morfológicas o genéticas entre especies dadas o para identificar eventos HGT usando la primera matriz de distancia para inferir el árbol de especies y la segunda matriz (que contiene las distancias relacionadas con el gen) para inferir las ramas de reticulación que representan supuestos transferencias horizontales de genes [6] . [7]
MAFFT , MUSCLE (software de alineación) y ClustalW , que se encuentran entre las herramientas de alineación de secuencias múltiples más utilizadas , están disponibles con opciones de alineación por pares lenta y rápida.
Los siguientes modelos populares de sustitución de la evolución del ADN y los aminoácidos, que permiten estimar las distancias evolutivas a partir de los datos de la secuencia, se han incluido en T-REX: distancia sin corregir, Jukes-Cantor (Jukes y Cantor 1969), parámetros K80 - 2 (Kimura 1980) , T92 (Tamura 1992), Tajima-Nei (Tajima y Nei 1984), Jin-Nei gamma (Jin y Nei 1990), proteína Kimura (Kimura 1983), LogDet (Lockhart et al. 1994), F84 (Felsenstein 1981), WAG (Whelan y Goldman 2001), JTT (Jones et al. 1992) y LG (Le y Gascuel 2008).
Este programa calcula la distancia topológica métrica de Robinson-Foulds (RF) (Robinson y Foulds 1981), que es una medida popular de la similitud de los árboles, entre el primer árbol y todos los árboles siguientes especificados por el usuario. Los árboles se pueden suministrar en formato newick o matricial de distancias. Se lleva a cabo un algoritmo óptimo descrito en (Makarenkov y Leclerc 2000) para calcular la métrica de RF.
Conversión de formato Newick a Matriz de distancia y Matriz de distancia a Newick. Una aplicación interna permite al usuario convertir un árbol filogenético del formato Newick al formato de matriz de distancia y viceversa.
Esta aplicación genera k árboles filogenéticos aleatorios con n hojas, es decir, especies o taxones, y una longitud de rama promedio l utilizando el procedimiento de generación de árboles aleatorios descrito por Kuhner y Felsenstein (1994), [8] donde se definen las variables k , n y l por el usuario. Las longitudes de las ramas de los árboles siguen una distribución exponencial. Las longitudes de las ramas se multiplican por 1+ ax , donde la variable x se obtiene de una distribución exponencial (P ( x > k ) = exp (- k)), y la constante a es un factor de ajuste que representa la intensidad de la desviación (como se describe en Guindon y Gascuel (2002), [9] el valor de a se estableció en 0,8). Los árboles aleatorios generados por este procedimiento tienen una profundidad de O (log ( n )).
morir