Inferencia filogenética utilizando datos transcriptómicos

En la filogenética molecular , las relaciones entre los individuos se determinan utilizando rasgos de carácter, como ADN , ARN o proteínas , que pueden obtenerse mediante una variedad de tecnologías de secuenciación . La secuenciación de próxima generación de alto rendimiento se ha convertido en una técnica popular en transcriptómica , que representa una instantánea de la expresión génica. En eucariotas , hacer inferencias filogenéticas utilizando ARN se complica por el empalme alternativo , que produce múltiples transcripciones de un solo gen.. Como tal, se pueden usar una variedad de enfoques para mejorar la inferencia filogenética usando datos transcriptómicos obtenidos de RNA-Seq y procesados usando filogenética computacional .

Adquisición de secuencia

Se han utilizado varias tecnologías de transcriptómica para recopilar información de secuencia en transcriptomas . Sin embargo, el más utilizado es RNA-Seq .

RNA-Seq

Las lecturas de ARN se pueden obtener usando una variedad de métodos de secuenciación de ARN.

Bases de datos públicas

Hay una serie de bases de datos públicas que contienen datos de RNA-Seq disponibles gratuitamente.

Montaje

Ensamblaje de secuencia

Los datos de RNA-Seq pueden ensamblarse directamente en transcripciones usando ensamblaje de secuencias . A menudo se distinguen dos categorías principales de ensamblaje de secuencias :

ensamblaje del transcriptoma de novo : especialmente importante cuandono se dispone de un genoma de referencia para una especie determinada.
Ensamblaje guiado por genoma (a veces mapeo o ensamblaje guiado por referencia): es capaz de usar una referencia preexistente para guiar el ensamblaje de transcripciones

Ambos métodos intentan generar construcciones a nivel de isoforma biológicamente representativas a partir de datos de RNA-seq y generalmente intentan asociar isoformas con una construcción a nivel de gen. Sin embargo, la identificación adecuada de las construcciones a nivel de genes puede verse complicada por duplicaciones recientes , parálogos , empalmes alternativos o fusiones de genes . Estas complicaciones también pueden causar problemas posteriores durante la inferencia del ortólogo. Al seleccionar o generar datos de secuencia, también es vital considerar el tipo de tejido, la etapa de desarrollo y las condiciones ambientales de los organismos. Dado que el transcriptoma representa una instantánea de la expresión génica , cambios menores en estas condiciones pueden afectar significativamente qué transcripciones se expresan. Esto puede afectar negativamente a la detección de ortólogos aguas abajo. ^[1]

Bases de datos públicas

El ARN también se puede adquirir de bases de datos públicas, como GenBank , RefSeq , 1000 Plants (1KP) y 1KITE . Las bases de datos públicas ofrecen potencialmente secuencias seleccionadas que pueden mejorar la calidad de la inferencia y evitar la sobrecarga computacional asociada con el ensamblaje de secuencias .

Inferir ortología / paralogía de pares de genes

Enfoques

La inferencia de ortología o paralogía requiere una evaluación de la homología de secuencia , generalmente mediante alineación de secuencia . Los análisis filogenéticos y la alineación de secuencias a menudo se consideran en conjunto, ya que los análisis filogenéticos que utilizan ADN o ARN requieren alineación de secuencias y las alineaciones en sí mismas a menudo representan alguna hipótesis de homología . Dado que la identificación adecuada del ortólogo es fundamental para los análisis filogenéticos, hay una variedad de métodos disponibles para inferir ortólogos y parálogos . ^[2]

Estos métodos generalmente se distinguen como algoritmos basados en gráficos o algoritmos basados en árboles. Algunos ejemplos de métodos basados en gráficos incluyen InParanoid, ^[3] MultiParanoid, ^[4] OrthoMCL, ^[5] HomoloGene ^[6] y OMA. ^[7] Los algoritmos basados en árboles incluyen programas como OrthologID o RIO. ^[8]^[2]

A menudo se utilizan una variedad de métodos BLAST para detectar ortólogos entre especies como parte de algoritmos basados en gráficos, como MegaBLAST, BLASTALL u otras formas de BLAST de todos contra todos y pueden ser alineaciones basadas en nucleótidos o proteínas . ^[9]^[10] RevTrans ^[11] incluso utilizará datos de proteínas para informar las alineaciones del ADN, lo que puede ser beneficioso para resolver relaciones filogenéticas más distantes. Estos enfoques a menudo asumen que los mejores aciertos recíprocos que superan algunas métricas de umbral, como identidad, valor E o alineación porcentual, representan ortólogos y pueden confundirse con una clasificación de linaje incompleta . ^[12]^[13]

Bases de datos y herramientas

Es importante señalar que las relaciones de ortología en las bases de datos públicas generalmente representan la ortología a nivel de gen y no proporcionan información sobre variantes de empalme alternativas conservadas .

Las bases de datos que contienen y / o detectan relaciones ortólogas incluyen:

DIOPT
Ensembl Compara
GreenPhylDB
Hamster
HomoloGene
En paranoico
MultiParanoico
OMA
OrthoDB
OrthologID
OrthoMCL
OrtholugeDB
PhylomeDB
TreeFam
Ponche de huevo
metáforas

Alineación de múltiples secuencias

Dado que la transcripción eucariota es un proceso complejo mediante el cual se pueden generar múltiples transcripciones a partir de un solo gen mediante un empalme alternativo con expresión variable , la utilización de ARN es más complicada que la de ADN. Sin embargo, los transcriptomas son más baratos de secuenciar que los genomas completos y pueden obtenerse sin el uso de un genoma de referencia preexistente . ^[1]

No es raro traducir la secuencia de ARN en secuencia de proteína cuando se utilizan datos transcriptómicos, especialmente cuando se analizan taxones muy divergentes. Este es un paso intuitivo ya que se espera que muchas (pero no todas) las transcripciones codifiquen las isoformas de proteínas . Los posibles beneficios incluyen la reducción de los sesgos mutacionales y un número reducido de caracteres, lo que puede acelerar los análisis. Sin embargo, esta reducción de caracteres también puede resultar en la pérdida de caracteres potencialmente informativos. ^[1]

Hay varias herramientas disponibles para la alineación de múltiples secuencias . Todos ellos poseen sus propias fortalezas y debilidades y pueden estar especializados para distintos tipos de secuencia (ADN, ARN o proteína). Como tal, un alineador consciente de empalme puede ser ideal para alinear secuencias de ARN, mientras que un alineador que considere la estructura de la proteína o las tasas de sustitución de residuos puede ser preferible para los datos de la secuencia de ARN traducida.

Oportunidades y limitaciones

El uso de ARN para el análisis filogenético viene con su propio conjunto único de fortalezas y debilidades.

Ventajas

gran conjunto de personajes
económico
no depende de un genoma de referencia

Desventajas

gastos de muestreo extensivo de taxones
Dificultad para identificar transcripciones y ortólogos completos de una sola copia.
posible ensamblaje incorrecto de las transcripciones (especialmente cuando hay duplicados)
datos faltantes como producto del transcriptoma que representa una instantánea de expresión o clasificación de linaje incompleta ^[14]

Ver también

EXPLOSIÓN
Región de codificación
Filogenética computacional
Montaje de transcriptoma de novo
Exoma
Secuenciación del exoma
Etiqueta de secuencia expresada
La expresion genica
Homologia
Lista de software filogenético
Filogenética
Árbol filogenético
ARN
RNA-Seq
Alineación de secuencia
Sustitución de sinónimos
Sistemática
Transcriptoma
UniGene

Referencias

^ a b c Hörandl, Elvira; Appelhans, Mark (2015). Secuenciación de última generación en sistemática vegetal . Libros científicos de Koeltz. ISBN 9783874294928.
^ a b Salichos, Leonidas; Rokas, Antonis; Fairhead, Cecile (13 de abril de 2011). "Evaluación de algoritmos de predicción de ortólogos en un clado modelo de levadura" . PLoS ONE . 6 (4): e18755. doi : 10.1371 / journal.pone.0018755 . PMC 3076445 . PMID 21533202 .
^ Ostlund, G .; Schmitt, T .; Forslund, K .; Kostler, T .; Messina, DN; Roopra, S .; Frings, O .; Sonnhammer, ELL (5 de noviembre de 2009). "InParanoid 7: nuevos algoritmos y herramientas para el análisis de ortología eucariota" . Investigación de ácidos nucleicos . 38 (Base de datos): D196 – D203. doi : 10.1093 / nar / gkp931 . PMC 2808972 . PMID 19892828 .
^ Alexeyenko, A .; Tamas, I .; Liu, G .; Sonnhammer, ELL (27 de julio de 2006). "Agrupación automática de ortólogos e inparalogs compartidos por múltiples proteomas" . Bioinformática . 22 (14): e9 – e15. doi : 10.1093 / bioinformatics / btl213 .
^ Li, L. (1 de septiembre de 2003). "OrthoMCL: identificación de grupos de ortólogos para genomas eucariotas" . Investigación del genoma . 13 (9): 2178–2189. doi : 10.1101 / gr.1224503 . PMC 403725 . PMID 12952885 .
^ Sayers, EW; Barrett, T .; Benson, DA; Bolton, E .; Bryant, SH; Canese, K .; Chetvernin, V .; Church, DM; DiCuccio, M .; Federhen, S .; Feolo, M .; Fingerman, MI; Geer, LY; Helmberg, W .; Kapustin, Y .; Landsman, D .; Lipman, DJ; Lu, Z .; Madden, TL; Madej, T .; Maglott, DR; Marchler-Bauer, A .; Miller, V .; Mizrachi, I .; Ostell, J .; Panchenko, A .; Phan, L .; Pruitt, KD; Schuler, GD; Sequeira, E .; Jerez, ST; Shumway, M .; Sirotkin, K .; Slotta, D .; Souvorov, A .; Starchenko, G .; Tatusova, TA; Wagner, L .; Wang, Y .; Wilbur, WJ; Yaschenko, E .; Ye, J. (21 de noviembre de 2010). "Base de datos de recursos del Centro Nacional de Información Biotecnológica" . Investigación de ácidos nucleicos . 39 (Base de datos): D38 – D51. doi : 10.1093 / nar / gkq1172 . PMC 3013733 . PMID 21097890 .
^ Altenhoff, AM; kunca, N .; Glover, N .; Tren, C.-M .; Sueki, A .; Pili ota, I .; Gori, K .; Tomiczek, B .; Muller, S .; Redestig, H .; Gonnet, GH; Dessimoz, C. (15 de noviembre de 2014). "La base de datos de ortología de OMA en 2015: predicciones de funciones, mejor soporte de la planta, vista de sintonía y otras mejoras" . Investigación de ácidos nucleicos . 43 (D1): D240 – D249. doi : 10.1093 / nar / gku1158 .
^ Zmasek, Christian M; Eddy, Sean R (2002). "RIO: análisis de proteomas por filogenómica automatizada mediante inferencia remuestreada de ortólogos" . BMC Bioinformática . 3 (1): 14. doi : 10.1186 / 1471-2105-3-14 .
^ Barker, MS; Vogel, H .; Schranz, ME (5 de octubre de 2009). "Paleopoliploidía en los Brassicales: análisis del transcriptoma de Cleome aclaran la historia de las duplicaciones del genoma en Arabidopsis y otros Brassicales" . Biología y evolución del genoma . 1 : 391–399. doi : 10.1093 / gbe / evp040 .
^ Yang, Xu; Cheng, Yu-Fu; Deng, Cao; Ma, Yan; Wang, Zhi-Wen; Chen, Xue-Hao; Xue, Lin-Bao (2014). "Análisis comparativo del transcriptoma de berenjena (Solanum melongena L.) y baya de pavo (Solanum torvum Sw.): Análisis de filogenómica y resistencia a enfermedades" . BMC Genomics . 15 (1): 412. doi : 10.1186 / 1471-2164-15-412 .
^ Wernersson, R. (1 de julio de 2003). "RevTrans: alineación múltiple de ADN codificante de secuencias de aminoácidos alineadas" . Investigación de ácidos nucleicos . 31 (13): 3537–3539. doi : 10.1093 / nar / gkg609 .
^ Moreno-Hagelsieb, G .; Latimer, K. (26 de noviembre de 2007). "Elección de opciones BLAST para una mejor detección de ortólogos como mejores aciertos recíprocos" . Bioinformática . 24 (3): 319–324. doi : 10.1093 / bioinformatics / btm585 .
^ Castillo-Ramírez, Santiago; González, Víctor (2008). "Factores que afectan la concordancia entre árboles de genes ortólogos y árboles de especies en bacterias" . Biología Evolutiva BMC . 8 (1): 300. doi : 10.1186 / 1471-2148-8-300 .
^ Wen, Jun; Xiong, Zhiqiang; Nie, Ze-Long; Mao, Likai; Zhu, Yabing; Kan, Xian-Zhao; Ickert-Bond, Stefanie M .; Gerrath, Jean; Zimmer, Elizabeth A .; Fang, Xiao-Dong; Candela, Hector (17 de septiembre de 2013). "Las secuencias de transcriptomas resuelven relaciones profundas de la familia de la uva" . PLoS ONE . 8 (9): e74394. doi : 10.1371 / journal.pone.0074394 . PMC 3775763 . PMID 24069307 .

enlaces externos

1 cometa
1000 plantas (1KP)
DIOPT
Ponche de huevo
Ensembl Compara
GenBank
GreenPhylDB
Hamster
HomoloGene
En paranoico
MultiParanoico
metáforas
NCBI_BLAST
OMA
OrthoDB
OrthologID
OrthoMCL
OrtholugeDB
PhylomeDB
RefSeq
RevTrans_2.0
TreeFam
Trinity_de_novo_assembler

[book-1] Hörandl, Elvira; Appelhans, Mark (2015). Secuenciación de última generación en sistemática vegetal . Libros científicos de Koeltz. ISBN 9783874294928.

[yeast-2] Salichos, Leonidas; Rokas, Antonis; Fairhead, Cecile (13 de abril de 2011). "Evaluación de algoritmos de predicción de ortólogos en un clado modelo de levadura" . PLoS ONE . 6 (4): e18755. doi : 10.1371 / journal.pone.0018755 . PMC 3076445 . PMID 21533202 .

[3] Ostlund, G .; Schmitt, T .; Forslund, K .; Kostler, T .; Messina, DN; Roopra, S .; Frings, O .; Sonnhammer, ELL (5 de noviembre de 2009). "InParanoid 7: nuevos algoritmos y herramientas para el análisis de ortología eucariota" . Investigación de ácidos nucleicos . 38 (Base de datos): D196 – D203. doi : 10.1093 / nar / gkp931 . PMC 2808972 . PMID 19892828 .

[4] Alexeyenko, A .; Tamas, I .; Liu, G .; Sonnhammer, ELL (27 de julio de 2006). "Agrupación automática de ortólogos e inparalogs compartidos por múltiples proteomas" . Bioinformática . 22 (14): e9 – e15. doi : 10.1093 / bioinformatics / btl213 .

[5] Li, L. (1 de septiembre de 2003). "OrthoMCL: identificación de grupos de ortólogos para genomas eucariotas" . Investigación del genoma . 13 (9): 2178–2189. doi : 10.1101 / gr.1224503 . PMC 403725 . PMID 12952885 .

[6] Sayers, EW; Barrett, T .; Benson, DA; Bolton, E .; Bryant, SH; Canese, K .; Chetvernin, V .; Church, DM; DiCuccio, M .; Federhen, S .; Feolo, M .; Fingerman, MI; Geer, LY; Helmberg, W .; Kapustin, Y .; Landsman, D .; Lipman, DJ; Lu, Z .; Madden, TL; Madej, T .; Maglott, DR; Marchler-Bauer, A .; Miller, V .; Mizrachi, I .; Ostell, J .; Panchenko, A .; Phan, L .; Pruitt, KD; Schuler, GD; Sequeira, E .; Jerez, ST; Shumway, M .; Sirotkin, K .; Slotta, D .; Souvorov, A .; Starchenko, G .; Tatusova, TA; Wagner, L .; Wang, Y .; Wilbur, WJ; Yaschenko, E .; Ye, J. (21 de noviembre de 2010). "Base de datos de recursos del Centro Nacional de Información Biotecnológica" . Investigación de ácidos nucleicos . 39 (Base de datos): D38 – D51. doi : 10.1093 / nar / gkq1172 . PMC 3013733 . PMID 21097890 .

[7] Altenhoff, AM; kunca, N .; Glover, N .; Tren, C.-M .; Sueki, A .; Pili ota, I .; Gori, K .; Tomiczek, B .; Muller, S .; Redestig, H .; Gonnet, GH; Dessimoz, C. (15 de noviembre de 2014). "La base de datos de ortología de OMA en 2015: predicciones de funciones, mejor soporte de la planta, vista de sintonía y otras mejoras" . Investigación de ácidos nucleicos . 43 (D1): D240 – D249. doi : 10.1093 / nar / gku1158 .

[8] Zmasek, Christian M; Eddy, Sean R (2002). "RIO: análisis de proteomas por filogenómica automatizada mediante inferencia remuestreada de ortólogos" . BMC Bioinformática . 3 (1): 14. doi : 10.1186 / 1471-2105-3-14 .

[cleome-9] Barker, MS; Vogel, H .; Schranz, ME (5 de octubre de 2009). "Paleopoliploidía en los Brassicales: análisis del transcriptoma de Cleome aclaran la historia de las duplicaciones del genoma en Arabidopsis y otros Brassicales" . Biología y evolución del genoma . 1 : 391–399. doi : 10.1093 / gbe / evp040 .

[eggplant-10] Yang, Xu; Cheng, Yu-Fu; Deng, Cao; Ma, Yan; Wang, Zhi-Wen; Chen, Xue-Hao; Xue, Lin-Bao (2014). "Análisis comparativo del transcriptoma de berenjena (Solanum melongena L.) y baya de pavo (Solanum torvum Sw.): Análisis de filogenómica y resistencia a enfermedades" . BMC Genomics . 15 (1): 412. doi : 10.1186 / 1471-2164-15-412 .

[11] Wernersson, R. (1 de julio de 2003). "RevTrans: alineación múltiple de ADN codificante de secuencias de aminoácidos alineadas" . Investigación de ácidos nucleicos . 31 (13): 3537–3539. doi : 10.1093 / nar / gkg609 .

[12] Moreno-Hagelsieb, G .; Latimer, K. (26 de noviembre de 2007). "Elección de opciones BLAST para una mejor detección de ortólogos como mejores aciertos recíprocos" . Bioinformática . 24 (3): 319–324. doi : 10.1093 / bioinformatics / btm585 .

[13] Castillo-Ramírez, Santiago; González, Víctor (2008). "Factores que afectan la concordancia entre árboles de genes ortólogos y árboles de especies en bacterias" . Biología Evolutiva BMC . 8 (1): 300. doi : 10.1186 / 1471-2148-8-300 .

[grape-14] Wen, Jun; Xiong, Zhiqiang; Nie, Ze-Long; Mao, Likai; Zhu, Yabing; Kan, Xian-Zhao; Ickert-Bond, Stefanie M .; Gerrath, Jean; Zimmer, Elizabeth A .; Fang, Xiao-Dong; Candela, Hector (17 de septiembre de 2013). "Las secuencias de transcriptomas resuelven relaciones profundas de la familia de la uva" . PLoS ONE . 8 (9): e74394. doi : 10.1371 / journal.pone.0074394 . PMC 3775763 . PMID 24069307 .

[1]