En matemáticas, el formato de árbol de Newick (o notación de Newick o formato de árbol de New Hampshire ) es una forma de representar árboles teóricos de gráficos con longitudes de arista utilizando paréntesis y comas. Fue adoptado por James Archie, William HE Day, Joseph Felsenstein , Wayne Maddison , Christopher Meacham, F. James Rohlf y David Swofford, en dos reuniones en 1986, la segunda de las cuales fue en el restaurante Newick's en Dover , New Hampshire, EE. UU. . El formato adoptado es una generalización del formato desarrollado por Meacham en 1984 para los primeros programas de dibujo de árboles en el paquete PHYLIP de Felsenstein . [1]
Extensiones de nombre de archivo | .tree |
---|---|
Tipo de medio de Internet | text/x-nh |
Versión inicial | 24 de Junio de 1986 |
Tipo de formato | árboles teóricos de gráficos |
¿ Formato abierto ? | sí |
Ejemplos de
El siguiente árbol:
podría representarse en formato Newick de varias formas
(,, (,)); no se nombran nodos (A, B, (C, D)); los nodos de las hojas se denominan (A, B, (C, D) E) F; todos los nodos se nombran (: 0.1,: 0.2, (: 0.3,: 0.4): 0.5); todos menos el nodo raíz tienen una distancia al padre (: 0.1,: 0.2, (: 0.3,: 0.4): 0.5): 0.0; todos tienen una distancia al padre (A: 0.1, B: 0.2, (C: 0.3, D: 0.4): 0.5); distancias y nombres de hojas (popular) (A: 0.1, B: 0.2, (C: 0.3, D: 0.4) E: 0.5) F; distancias y todos los nombres ((B: 0.2, (C: 0.3, D: 0.4) E: 0.5) F: 0.1) A; un árbol enraizado en un nodo de la hoja (raro)
El formato Newick se usa típicamente para herramientas como PHYLIP y es una definición mínima para un árbol filogenético .
Árboles enraizados, desarraigados y binarios
Cuando un árbol sin raíz se representa en notación Newick, se elige un nodo arbitrario como raíz. Ya sea que esté enraizado o no, por lo general, la representación de un árbol está enraizada en un nodo interno y es raro (pero legal) enraizar un árbol en un nodo hoja.
Un árbol binario enraizado que está enraizado en un nodo interno tiene exactamente dos nodos descendientes inmediatos para cada nodo interno. Un árbol binario sin raíces que tiene sus raíces en un nodo interno arbitrario tiene exactamente tres nodos descendientes inmediatos para el nodo raíz, y cada uno de los demás nodos internos tiene exactamente dos nodos descendientes inmediatos. Un árbol binario enraizado a partir de una hoja tiene como máximo un nodo descendiente inmediato para el nodo raíz, y cada nodo interno tiene exactamente dos nodos descendientes inmediatos.
Gramática
Una gramática para analizar el formato Newick (aproximadamente basada en [2] ):
Los nodos gramaticales
Árbol : el formato Newick de entrada completo para un solo árbol Subárbol : un nodo interno (y sus descendientes) o un nodo hoja Hoja : un nodo sin descendientes Interno : un nodo y sus uno o más descendientes BranchSet : un conjunto de uno o más Ramas Rama : borde de un árbol y su subárbol descendiente.Nombre : el nombre de un nodo Longitud : la longitud del borde de un árbol.
Las reglas gramaticales
Nota, "|" separa alternativas.
Árbol → Subárbol ";"Subárbol → Hoja | Hoja interna → Nombre Internal → "(" BranchSet ")" Nombre BranchSet → Branch | Branch "," BranchSet Branch → Nombre de la longitud del subárbol → vacío | Longitud de cadena → vacío | ":" número
Se prohíben los espacios en blanco (espacios, tabulaciones, retornos de carro y avances de línea) dentro de un número . Los espacios en blanco dentro de una cadena a menudo están prohibidos. Se ignoran los espacios en blanco en otros lugares. A veces, la cadena de nombre debe tener una longitud fija especificada; de lo contrario, los caracteres de puntuación de la gramática (punto y coma, paréntesis, coma y dos puntos) están prohibidos. El árbol → Subárbol ";" la producción es en cambio el Árbol → Rama ";" producción en aquellos casos en los que se permita que todo el árbol descienda de la nada; esto captura la producción reemplazada también porque Length puede estar vacía .
Tenga en cuenta que cuando un árbol que tiene más de una hoja tiene sus raíces en una de sus hojas, una representación que rara vez se ve en la práctica, la hoja raíz se caracteriza como un nodo interno por la gramática anterior. Generalmente, un nodo raíz etiquetado como Interno debe interpretarse como realmente interno si y solo si tiene al menos dos Sucursales en su Conjunto de Sucursales . Se puede hacer una gramática que formalice esta distinción reemplazando la regla de producción de árboles anterior con
Árbol → RootLeaf ";" | RootInternal ";"RootLeaf → Nombre | "(" Branch ")" Nombre RootInternal → "(" Branch "," BranchSet ")" Nombre
La primera producción de RootLeaf es para un árbol con exactamente una hoja. La segunda producción de RootLeaf es para enraizar un árbol de una de sus dos o más hojas.
Notas
- Una cadena sin comillas no puede contener espacios en blanco, paréntesis, corchetes, comillas simples, dos puntos, punto y coma o comas. Subrayar caracteres sin comillascadena s se convierten en espacios en blanco. [2]
- A La cadena también se puede citar encerrándola entre comillas simples. Las comillas simples en la cadena original se representan como dos caracteres consecutivos de comillas simples. [2]
- Los espacios en blanco pueden aparecer en cualquier lugar excepto dentro de un espacio en blanco cuerda o unaLargo
- Las nuevas líneas pueden aparecer en cualquier lugar excepto dentro de un cuerda o unaLongitud .
- Los comentarios se incluyen entre corchetes. Pueden aparecer en cualquier lugar donde se permitan nuevas líneas. [2] Los comentarios que comienzan con
&
generalmente se generan por computadora para obtener datos adicionales. Algunos dialectos permiten comentarios anidados.
Dialectos
Formato X de New Hampshire
El formato New Hampshire X (NHX) es una extensión de Newick que agrega datos de valor clave (duplicación de genes, etc.) a los nodos de Newick. Esto se hace poniendo los datos adicionales entre corchetes en las etiquetas de los nodos. Los corchetes se utilizan porque representan comentarios en el formato de archivo Nexus , por lo que cualquier analizador que no comprenda esta información adicional los ignorará. [3][&&NHX:key=value:...]
Newick extendido
Mientras que la notación estándar de Newick se limita a árboles filogenéticos, Extended Newick (Perl Bio :: PhyloNetwork) se puede utilizar para codificar redes filogenéticas explícitas. [4] En una red filogenética , que es una generalización de un árbol filogenético , un nodo representa un evento de divergencia ( cladogénesis ) o un evento de reticulación como hibridación , introgresión , transferencia de genes horizontal (lateral) o recombinación . Los nodos que representan un evento de reticulación se duplican, se anotan introduciendo el símbolo # en el formato Newick y se numeran consecutivamente (utilizando valores enteros que comienzan con 1).
Por ejemplo, si la hoja Y es el producto de la hibridación (x) entre los linajes que conducen a C y D en el árbol de arriba,
|
|
se puede expresar esta situación definiendo dos árboles en notación estándar de Newick
(A, B, ((C, Y) c, D) e) f; y (A, B, (C, (Y, D) d) e) f; Newick estándar , todos los nodos se nombran (nodos internos en minúsculas, deja mayúsculas)
o en notación Newick extendida
(A, B, ((C, (Y) x # 1) c, (x # 1, D) d) e) f; Newick extendido, se nombran todos los nodos; 1 es el número entero que identifica el nodo híbrido x
El x#1
aquí es un nodo híbrido. El programa lo unirá en un solo nodo cuando se dibuje. Las reglas de producción anteriores se modifican por lo siguiente para etiquetar nodos híbridos (en general, nodos que representan eventos de reticulación): [5]
Hoja → Nombre Híbrido Híbrido → vacío | "#" Tipo entero - La parte #i es un identificador obligatorio para un nodo híbrido Tipo → vacío | cadena - tipo de reticulación, por ejemplo, H = hibridación, LGT = transferencia lateral de genes, R = recombinación.
Extended Newick es compatible con versiones anteriores: un nodo híbrido simplemente se interpretaría como unos pocos nodos con nombres extraños para los analizadores heredados.
Formato Rich Newick
El formato Rich Newick, también conocido como formato Rice Newick, es una extensión adicional de Extended Newick. [6] Agrega soporte para:
- Filogenias desarraigadas. Esto se hace simplemente escribiendo un árbol sin raíz como de costumbre (es decir, escogiendo una raíz arbitraria en un punto de bifurcación binario) y prefijando
[&U]
la cadena.[&R]
, por otro lado, se puede utilizar para forzar un árbol enraizado. - Valores y probabilidades de bootstrap. Esto se hace agregando
:[bootstrap]:[prob]
campos adicionales después de la longitud; Los campos se pueden dejar vacíos siempre que estén presentes los dos puntos. Esto puede ser incompatible con versiones anteriores.
Extensiones ad hoc
Algunos otros programas, como NWX, utilizan comentarios que comienzan con &
para codificar información adicional de manera ad hoc: [7]
- MrBayes y BEAST agregan información adicional como probabilidad, longitud en años, desviación estándar de los valores a los nodos. También usan
[%U]
.
Visualización
Se han publicado muchas herramientas para visualizar los datos del árbol de Newick. Los ejemplos específicos incluyen el kit de herramientas ETE ("Entorno para la exploración de árboles") [8] y T-REX . [9] Los paquetes de software filogenético como SplitsTree y el visor de árboles Dendroscope , así como la herramienta de visualización de árboles en línea IcyTree, pueden manejar la notación Newick estándar y extendida, mientras que el software de red filogenética PhyloNet hace uso del formato Extended Newick y Rich Newick.
Ver también
- phyloXML
- T-REX (servidor web) permite manejar árboles y redes filogenéticas en formato Newick.
- Smart Game Format es una aplicación del formato Newick y se usa ampliamente para grabar juegos de mesa.
Referencias
- ^ El formato de árbol de Newick.
- ↑ a b c d Olsen, Gary (30 de agosto de 1990). "Interpretación del" Formato de árbol "de las 8:45 de Newick .
- ^ Zmasek, Christian M. (1999). "El formato X de New Hampshire (NHX)" (PDF) .
- ^ Cardona, Gabriel; Rosselló, Francesc; Valiente, Gabriel (27 de marzo de 2008). "Un paquete de perl y una herramienta de alineación para redes filogenéticas" . BMC Bioinformática . 9 : 175. doi : 10.1186 / 1471-2105-9-175 . ISSN 1471-2105 . PMC 2330044 . PMID 18371228 .
- ^ Cardona, Gabriel; Rosselló, Francesc; Valiente, Gabriel (2008). "Extended Newick: es hora de una representación estándar de las redes filogenéticas" . BMC Bioinformática . 9 : 532. doi : 10.1186 / 1471-2105-9-532 . PMC 2621367 . PMID 19077301 .
- ^ Barnett, Robert Matthew (16 de febrero de 2012). "Formato Rich Newick" . Wiki de la Universidad de Rice .
- ^ Yu, Guangchuang. "Capítulo 1 Importación de árbol con datos" . Integración de datos, manipulación y visualización de árbol filogenético .
- ^ Huerta-Cepas, Jaime; Serra, François; Bork, Peer (junio de 2016). "ETE 3: reconstrucción, análisis y visualización de datos filogenómicos" . Biología Molecular y Evolución . 33 (6): 1635–1638. doi : 10.1093 / molbev / msw046 . ISSN 0737-4038 . PMC 4868116 . PMID 26921390 .
- ^ Boc, Alix; Diallo, Alpha Boubacar; Makarenkov, Vladimir (julio de 2012). "T-REX: un servidor web para inferir, validar y visualizar árboles y redes filogenéticas" . Investigación de ácidos nucleicos . 40 (Problema del servidor web): W573–579. doi : 10.1093 / nar / gks485 . ISSN 1362-4962 . PMC 3394261 . PMID 22675075 .
enlaces externos
- Filograma de mamíferos euterios de Miyamoto y Goodman Un ejemplo de un filograma grande con su representación en formato Newick.
- Visor de árbol filogenético (newick) (Por Huerta-Cepas et al.2016 )