Proyecto genoma

Los proyectos de genoma son esfuerzos científicos que, en última instancia, tienen como objetivo determinar la secuencia completa del genoma de un organismo (ya sea un animal , una planta , un hongo , una bacteria , un arqueano , un protista o un virus ) y anotar genes que codifican proteínas y otros características importantes codificadas por el genoma. ^[1] La secuencia del genoma de un organismo incluye las secuencias colectivas de ADN de cada cromosoma del organismo. Por una bacteriaque contiene un solo cromosoma, un proyecto de genoma tendrá como objetivo mapear la secuencia de ese cromosoma. Para la especie humana, cuyo genoma incluye 22 pares de autosomas y 2 cromosomas sexuales, una secuencia completa del genoma implicará 46 secuencias cromosómicas separadas.

Cuando se imprime, la secuencia del genoma humano llena alrededor de 100 enormes libros de impresión detallada

El Proyecto del Genoma Humano fue un proyecto de genoma histórico que ya está teniendo un gran impacto en la investigación en las ciencias de la vida, con potencial para estimular numerosos desarrollos médicos y comerciales. ^[2]

Ensamblaje del genoma

El ensamblaje del genoma se refiere al proceso de tomar una gran cantidad de secuencias cortas de ADN y volver a unirlas para crear una representación de los cromosomas originales a partir de los cuales se originó el ADN. En un proyecto de secuenciación de escopeta , todo el ADN de una fuente (generalmente un solo organismo , cualquier cosa desde una bacteria hasta un mamífero ) se fractura primero en millones de pequeños pedazos. Luego, estas piezas son "leídas" por máquinas de secuenciación automática, que pueden leer hasta 1000 nucleótidos o bases a la vez. (Las cuatro bases son adenina , guanina , citosina y timina , representadas como AGCT). Un algoritmo de ensamblaje del genoma funciona tomando todas las piezas y alineándolas entre sí, y detectando todos los lugares donde dos de las secuencias cortas, o se lee , superposición. Estas lecturas superpuestas se pueden fusionar y el proceso continúa.

El ensamblaje del genoma es un problema computacional muy difícil , hecho más difícil porque muchos genomas contienen un gran número de secuencias idénticas, conocidas como repeticiones . Estas repeticiones pueden tener miles de nucleótidos de longitud y algunas ocurren en miles de ubicaciones diferentes, especialmente en los genomas grandes de plantas y animales .

La secuencia del genoma resultante (borrador) se produce combinando los contigs secuenciados de información y luego empleando la información de enlace para crear andamios. Los andamios se colocan a lo largo del mapa físico de los cromosomas creando un "camino dorado".

Software de montaje

Originalmente, la mayoría de los centros de secuenciación de ADN a gran escala desarrollaron su propio software para ensamblar las secuencias que producían. Sin embargo, esto ha cambiado a medida que el software se ha vuelto más complejo y el número de centros de secuenciación ha aumentado. Un ejemplo de dicho paquete de análisis de oligonucleótidos cortos de ensamblador desarrollado por BGI para el ensamblaje de novo de genomas de tamaño humano, alineación, detección de SNP , resecuenciación, búsqueda indel y análisis de variación estructural. ^[3]^[4]^[5]

Anotación del genoma

Desde la década de 1980, la biología molecular y la bioinformática han creado la necesidad de anotación de ADN . La anotación de ADN o anotación del genoma es el proceso de identificar adjuntar información biológica a las secuencias y, en particular, identificar las ubicaciones de los genes y determinar qué hacen esos genes.

Tiempo de finalización

Al secuenciar un genoma, generalmente hay regiones que son difíciles de secuenciar (a menudo regiones con ADN muy repetitivo ). Por lo tanto, las secuencias del genoma "completadas" rara vez están completas, y se han utilizado términos como "borrador de trabajo" o "esencialmente completo" para describir con mayor precisión el estado de tales proyectos de genoma. Incluso cuando se han determinado todos los pares de bases de una secuencia del genoma, es probable que todavía existan errores porque la secuenciación del ADN no es un proceso completamente preciso. También se podría argumentar que un proyecto de genoma completo debería incluir las secuencias de las mitocondrias y (en el caso de las plantas) los cloroplastos, ya que estos orgánulos tienen sus propios genomas.

A menudo se informa que el objetivo de secuenciar un genoma es obtener información sobre el conjunto completo de genes en esa secuencia del genoma en particular. La proporción de un genoma que codifica genes puede ser muy pequeña (particularmente en eucariotas como los humanos, donde el ADN codificante puede representar solo un pequeño porcentaje de la secuencia completa). Sin embargo, no siempre es posible (o deseable) secuenciar únicamente las regiones codificantes por separado. Además, a medida que los científicos comprendan más sobre el papel de este ADN no codificante (a menudo denominado ADN basura ), será más importante tener una secuencia completa del genoma como base para comprender la genética y la biología de cualquier organismo dado.

En muchos sentidos, los proyectos del genoma no se limitan a determinar únicamente una secuencia de ADN de un organismo. Dichos proyectos también pueden incluir la predicción de genes para averiguar dónde están los genes en un genoma y qué hacen esos genes. También puede haber proyectos relacionados para secuenciar tecnologías ecológicamente racionales o ARNm para ayudar a descubrir dónde están realmente los genes.

Perspectivas históricas y tecnológicas

Históricamente, al secuenciar genomas eucariotas (como el gusano Caenorhabditis elegans ) era común mapear primero el genoma para proporcionar una serie de puntos de referencia en todo el genoma. En lugar de secuenciar un cromosoma de una vez, se secuenciaría pieza por pieza (con el conocimiento previo de aproximadamente dónde se encuentra esa pieza en el cromosoma más grande). Los cambios en la tecnología y, en particular, las mejoras en la capacidad de procesamiento de las computadoras, significa que los genomas ahora se pueden ' secuenciar como una escopeta ' de una sola vez (aunque hay advertencias en este enfoque en comparación con el enfoque tradicional).

Las mejoras en la tecnología de secuenciación de ADN han significado que el costo de secuenciar una nueva secuencia del genoma ha disminuido constantemente (en términos de costo por par de bases ) y la tecnología más nueva también ha significado que los genomas se pueden secuenciar mucho más rápidamente.

Cuando los organismos de investigación deciden qué nuevos genomas secuenciar, se ha hecho hincapié en las especies que son de gran importancia como organismo modelo o que tienen relevancia para la salud humana (por ejemplo, bacterias patógenas o vectores de enfermedades como los mosquitos ) o especies que tienen importancia comercial ( por ejemplo, ganado y plantas de cultivo). Se pone un énfasis secundario en las especies cuyos genomas ayudarán a responder preguntas importantes en la evolución molecular (por ejemplo, el chimpancé común ).

En el futuro, es probable que sea aún más barato y rápido secuenciar un genoma. Esto permitirá que se determinen las secuencias genómicas completas de muchos individuos diferentes de la misma especie. Para los humanos, esto nos permitirá comprender mejor los aspectos de la diversidad genética humana .

Ejemplos de

L1 Dominette 01449, el Hereford que sirve como sujeto del Proyecto Genoma Bovino

Muchos organismos tienen proyectos de genoma que se han completado o se completarán en breve, que incluyen:

Humanos , Homo sapiens ; ver proyecto del genoma humano
Humanos, Homo sapiens ; ver The Human Genome Project – Write
Paleo-esquimal , ^[4] un antiguo humano
Neandertal , Homo sapiens neanderthalensis (parcial); ver Proyecto Genoma Neandertal
Chimpancé común Pan troglodytes ; ver Proyecto Genoma del chimpancé
Mamut lanudo , Mammuthus primigenius ^[6]
Vaca doméstica , ^[7]^[8] Bos taurus
Genoma bovino
Consorcio de secuenciación del genoma de abejas melíferas
Genoma del caballo ^[9]
Proyecto de microbioma humano
Programa internacional del genoma de la uva
Proyecto Internacional HapMap
Proyecto de resecuenciación del genoma de Tomato 150+
Proyecto 100,000 Genomes
Proyecto Genoma de Patógenos 100K
Consorcio Internacional de Fenotipado de Ratones IMPC
Proyecto de fenotipado de ratón Knockout KOMP2

Ver también

Instituto Conjunto del Genoma
Illumina , empresa privada involucrada en la secuenciación del genoma
Knome , empresa privada que ofrece análisis y secuenciación del genoma
Organismo modelo
Centro Nacional de Información Biotecnológica

Referencias

^ Pevsner, Jonathan (2009). Bioinformática y genómica funcional (2ª ed.). Hoboken, Nueva Jersey: Wiley-Blackwell. ISBN 9780470085851.
^ "Beneficios potenciales de la investigación del proyecto del genoma humano" . Departamento de Energía , Información del Proyecto Genoma Humano. 2009-10-09. Archivado desde el original el 8 de julio de 2013 . Consultado el 18 de junio de 2010 .
^ Li R, Zhu H, Ruan J, Qian W, Fang X, Shi Z, Li Y, Li S, Shan G, Kristiansen K, Li S, Yang H, Wang J, Wang J (febrero de 2010). "Ensamblaje de novo de genomas humanos con secuenciación de lectura corta masivamente paralela" . Investigación del genoma . 20 (2): 265-272. doi : 10.1101 / gr.097261.109 . ISSN 1549-5469 . PMC 2813482 . PMID 20019144 .
^ a b Rasmussen M, Li Y, Lindgreen S, Pedersen JS, Albrechtsen A, Moltke I, Metspalu M, Metspalu E, Kivisild T, Gupta R, Bertalan M, Nielsen K, Gilbert MT, Wang Y, Raghavan M, Campos PF, Kamp HM , Wilson AS, Gledhill A, Tridico S, Bunce M, Lorenzen ED, Binladen J, Guo X, Zhao J, Zhang X, Zhang H, Li Z, Chen M, Orlando L, Kristiansen K, Bak M, Tommerup N, Bendixen C, Pierre TL, Grønnow B, Meldgaard M, Andreasen C, Fedorova SA, Osipova LP, Higham TF, Ramsey CB, Hansen TV, Nielsen FC, Crawford MH, Brunak S, Sicheritz-Pontén T, Villems R, Nielsen R, Krogh A, Wang J, Willerslev E (11 de febrero de 2010). "Secuencia del genoma humano antiguo de un paleo-esquimal extinto" . Naturaleza . 463 (7282): 757–762. doi : 10.1038 / nature08835 . ISSN 1476-4687 . PMC 3951495 . PMID 20148029 .
^ Wang J, Wang W, Li R, Li Y, Tian G, Goodman L, Fan W, Zhang J, Li J, Zhang J, Guo Y, Feng B, Li H, Lu Y, Fang X, Liang H, Du Z , Li D, Zhao Y, Hu Y, Yang Z, Zheng H, Hellmann I, Inouye M, Grupo J, Yi X, Zhao J, Duan J, Zhou Y, Qin J, Ma L, Li G, Yang Z, Zhang G, Yang B, Yu C, Liang F, Li W, Li S, Li D, Ni P, Ruan J, Li Q, Zhu H, Liu D, Lu Z, Li N, Guo G, Zhang J, Ye J, Colmillo L, Hao Q, Chen Q, Liang Y, Su Y, San A, Ping C, Yang S, Chen F, Li L, Zhou K, Zheng H, Ren Y, Yang L, Gao Y, Yang G, Li Z , Feng X, Kristiansen K, Wong GK, Nielsen R, Durbin R, Bolund L, Zhang X, Li S, Yang H, Wang J (6 de noviembre de 2008). "La secuencia del genoma diploide de un individuo asiático" . Naturaleza . 456 (7218): 60–65. doi : 10.1038 / nature07484 . ISSN 0028-0836 . PMC 2716080 . PMID 18987735 .
^ Ghosh, Pallab. "Se completó la secuencia del genoma de mamut" . BBC News .
^ Yates, Diana (23 de abril de 2009). "¿Qué hace que una vaca sea una vaca? La secuencia del genoma arroja luz sobre la evolución de los rumiantes" (Comunicado de prensa) . EurekAlert! . Consultado el 22 de diciembre de 2012 .
^ Elsik, CG; Elsik, RL; Tellam, KC; Worley, RA; Gibbs, DM; Muzny, GM; Weinstock, DL; Adelson, EE; Eichler, L .; Elnitski, R .; Guigó, DL; Hamernik, SM; Kappes, HA; Lewin, DJ; Lynn, FW; Nicholas, A .; Reymond, M .; Rijnkels, LC; Skow, EM; Zdobnov, L .; Schook, J .; Womack, T .; Alioto, SE; Antonarakis, A .; Astashyn, CE; Chapple, H. -C .; Chen, J .; Chrast, F .; Câmara, O .; et al. (2009). "La secuencia del genoma del ganado taurino: una ventana a la biología y la evolución de los rumiantes" . Ciencia . 324 (5926): 522–528. doi : 10.1126 / science.1169588 . PMC 2943200 . PMID 19390049 .
^ "2007 Release: Horse Genome Assembled" . Instituto Nacional de Investigación del Genoma Humano (NHGRI) . Consultado el 19 de abril de 2018 .

enlaces externos

ORO: Base de datos en línea de genomas
Base de datos del proyecto del genoma
La utilidad de denominación de proteínas
SUPERFAMILIA
EchinoBase Una base de datos genómica de Echinoderm (anterior SpBase, una base de datos del genoma de erizos de mar)
NRCPB .
Alianza Global de Genómica de Invertebrados (GIGA)
Instituto Wellcome Sanger
Bienvenidos al campus del genoma

[pevsner2009-1] Pevsner, Jonathan (2009). Bioinformática y genómica funcional (2ª ed.). Hoboken, Nueva Jersey: Wiley-Blackwell. ISBN 9780470085851.

[doe2009-2] "Beneficios potenciales de la investigación del proyecto del genoma humano" . Departamento de Energía , Información del Proyecto Genoma Humano. 2009-10-09. Archivado desde el original el 8 de julio de 2013 . Consultado el 18 de junio de 2010 .

[li2010-3] Li R, Zhu H, Ruan J, Qian W, Fang X, Shi Z, Li Y, Li S, Shan G, Kristiansen K, Li S, Yang H, Wang J, Wang J (febrero de 2010). "Ensamblaje de novo de genomas humanos con secuenciación de lectura corta masivamente paralela" . Investigación del genoma . 20 (2): 265-272. doi : 10.1101 / gr.097261.109 . ISSN 1549-5469 . PMC 2813482 . PMID 20019144 .

[ReferenceA-4] Rasmussen M, Li Y, Lindgreen S, Pedersen JS, Albrechtsen A, Moltke I, Metspalu M, Metspalu E, Kivisild T, Gupta R, Bertalan M, Nielsen K, Gilbert MT, Wang Y, Raghavan M, Campos PF, Kamp HM , Wilson AS, Gledhill A, Tridico S, Bunce M, Lorenzen ED, Binladen J, Guo X, Zhao J, Zhang X, Zhang H, Li Z, Chen M, Orlando L, Kristiansen K, Bak M, Tommerup N, Bendixen C, Pierre TL, Grønnow B, Meldgaard M, Andreasen C, Fedorova SA, Osipova LP, Higham TF, Ramsey CB, Hansen TV, Nielsen FC, Crawford MH, Brunak S, Sicheritz-Pontén T, Villems R, Nielsen R, Krogh A, Wang J, Willerslev E (11 de febrero de 2010). "Secuencia del genoma humano antiguo de un paleo-esquimal extinto" . Naturaleza . 463 (7282): 757–762. doi : 10.1038 / nature08835 . ISSN 1476-4687 . PMC 3951495 . PMID 20148029 .

[wang2008-5] Wang J, Wang W, Li R, Li Y, Tian G, Goodman L, Fan W, Zhang J, Li J, Zhang J, Guo Y, Feng B, Li H, Lu Y, Fang X, Liang H, Du Z , Li D, Zhao Y, Hu Y, Yang Z, Zheng H, Hellmann I, Inouye M, Grupo J, Yi X, Zhao J, Duan J, Zhou Y, Qin J, Ma L, Li G, Yang Z, Zhang G, Yang B, Yu C, Liang F, Li W, Li S, Li D, Ni P, Ruan J, Li Q, Zhu H, Liu D, Lu Z, Li N, Guo G, Zhang J, Ye J, Colmillo L, Hao Q, Chen Q, Liang Y, Su Y, San A, Ping C, Yang S, Chen F, Li L, Zhou K, Zheng H, Ren Y, Yang L, Gao Y, Yang G, Li Z , Feng X, Kristiansen K, Wong GK, Nielsen R, Durbin R, Bolund L, Zhang X, Li S, Yang H, Wang J (6 de noviembre de 2008). "La secuencia del genoma diploide de un individuo asiático" . Naturaleza . 456 (7218): 60–65. doi : 10.1038 / nature07484 . ISSN 0028-0836 . PMC 2716080 . PMID 18987735 .

[6] Ghosh, Pallab. "Se completó la secuencia del genoma de mamut" . BBC News .

[cowpr-7] Yates, Diana (23 de abril de 2009). "¿Qué hace que una vaca sea una vaca? La secuencia del genoma arroja luz sobre la evolución de los rumiantes" (Comunicado de prensa) . EurekAlert! . Consultado el 22 de diciembre de 2012 .

[cowGenome-8] Elsik, CG; Elsik, RL; Tellam, KC; Worley, RA; Gibbs, DM; Muzny, GM; Weinstock, DL; Adelson, EE; Eichler, L .; Elnitski, R .; Guigó, DL; Hamernik, SM; Kappes, HA; Lewin, DJ; Lynn, FW; Nicholas, A .; Reymond, M .; Rijnkels, LC; Skow, EM; Zdobnov, L .; Schook, J .; Womack, T .; Alioto, SE; Antonarakis, A .; Astashyn, CE; Chapple, H. -C .; Chen, J .; Chrast, F .; Câmara, O .; et al. (2009). "La secuencia del genoma del ganado taurino: una ventana a la biología y la evolución de los rumiantes" . Ciencia . 324 (5926): 522–528. doi : 10.1126 / science.1169588 . PMC 2943200 . PMID 19390049 .

[9] "2007 Release: Horse Genome Assembled" . Instituto Nacional de Investigación del Genoma Humano (NHGRI) . Consultado el 19 de abril de 2018 .

[1]