Un genoma de referencia (también conocido como ensamblaje de referencia ) es una base de datos digital de secuencias de ácidos nucleicos , ensamblada por científicos como un ejemplo representativo del conjunto de genes en un organismo individual idealizado de una especie. Como se ensamblan a partir de la secuenciación de ADN de varios donantes individuales, los genomas de referencia no representan con precisión el conjunto de genes de ningún organismo individual. En cambio, una referencia proporciona un mosaico haploide de diferentes secuencias de ADN de cada donante. Hay genomas de referencia para múltiples especies de virus , bacterias , hongos ,plantas y animales .
Por ejemplo, el genoma de referencia humano, GRCh38 , del Genome Reference Consortium se deriva de trece voluntarios anónimos. [1]
A medida que cae el costo de la secuenciación del ADN y surgen nuevas tecnologías de secuenciación del genoma completo , se siguen generando más secuencias del genoma. Los genomas de referencia se utilizan normalmente como una guía sobre la que se construyen nuevos genomas, lo que les permite ensamblarse de manera mucho más rápida y económica que el Proyecto Genoma Humano inicial . La mayoría de los individuos con su genoma completo secuenciado, como James D. Watson , tenían su genoma ensamblado de esta manera. [2] [3] Para gran parte de un genoma, la referencia proporciona una buena aproximación del ADN de cualquier individuo. Pero en regiones con alta diversidad alélica , como el complejo principal de histocompatibilidad en humanos y las principales proteínas urinarias de ratones, el genoma de referencia puede diferir significativamente de otros individuos. [4] [5] [6] La comparación entre la referencia (compilación 36) y el genoma de Watson reveló 3,3 millones de diferencias en el polimorfismo de un solo nucleótido , mientras que alrededor del 1,4 por ciento de su ADN no pudo coincidir en absoluto con el genoma de referencia. [7] [2] Para las regiones donde se sabe que existe una variación a gran escala, se ensamblan conjuntos de loci alternativos junto con el locus de referencia.
Se puede acceder a los genomas de referencia en línea en varias ubicaciones, utilizando navegadores dedicados como Ensembl o UCSC Genome Browser . [8]
Propiedades de los genomas de referencia
Medidas de longitud
La longitud de un genoma se puede medir de múltiples formas diferentes.
Una forma sencilla de medir la longitud del genoma es contar el número de pares de bases en el ensamblaje. [9]
El camino dorado es una medida alternativa de longitud que omite regiones redundantes como haplotipos y regiones pseudoautosómicas . [10] [11] Por lo general, se construye superponiendo la información de secuenciación sobre un mapa físico para combinar la información del andamio. Es una "mejor estimación" de cómo se verá el genoma y, por lo general, incluye espacios, lo que lo hace más largo que el ensamblaje de pares de bases típico. [12]
Genomas de mamíferos
Los genomas de referencia humanos y de ratón son mantenidos y mejorados por el Genome Reference Consortium (GRC), un grupo de menos de 20 científicos de varios institutos de investigación del genoma, incluido el Instituto Europeo de Bioinformática , el Centro Nacional de Información Biotecnológica , el Instituto Sanger. y el McDonnell Genome Institute de la Washington University en St. Louis . GRC continúa mejorando los genomas de referencia mediante la construcción de nuevas alineaciones que contienen menos brechas y corrigiendo las tergiversaciones en la secuencia.
Genoma de referencia humano
El genoma de referencia humano GRCh38 fue liberado por el Genome Reference Consortium el 17 de diciembre de 2013. [13] Esta compilación contenía alrededor de 250 huecos, mientras que la primera versión tenía aproximadamente 150.000 huecos. [1] El conjunto GRCh38 supuso el cierre o reducción de más de 100 huecos. La secuenciación de nanoporos ha visto el cierre de 12 espacios en el conjunto de referencia GRCh38 mediante el uso de lecturas ultralargas. [14]
El genoma de referencia humano se deriva de trece voluntarios anónimos de Buffalo, Nueva York . Los donantes fueron reclutados mediante un anuncio en The Buffalo News , el domingo 23 de marzo de 1997. Se invitó a los primeros diez hombres y diez mujeres voluntarias a concertar una cita con los asesores genéticos del proyecto y donar sangre de la que se extrajo el ADN. Como resultado de cómo se procesaron las muestras de ADN, alrededor del 80 por ciento del genoma de referencia provino de ocho personas y un hombre, designado RP11, representa el 66 por ciento del total. El sistema de grupos sanguíneos ABO difiere entre los humanos, pero el genoma de referencia humano contiene solo un alelo O , aunque los demás están anotados ). [15] [1] [16] [17] [7]
Existen limitaciones para el Genoma de Referencia Humano debido al hecho de que es una secuencia distinta "única". Se nombra específicamente como una "referencia" debido a esto. El propósito principal para el que está destinado es como índice o localizador de características genéticas. El Proyecto 1000 Genomas está creando una base de datos para proporcionar información sobre las variaciones en los genomas en la población humana. [18]
Los ensamblajes genómicos recientes son los siguientes: [19]
Nombre de la versión | Fecha de lanzamiento | Versión UCSC equivalente |
---|---|---|
GRCh38 | Dic. De 2013 | hg38 |
GRCh37 | Febrero de 2009 | hg19 |
NCBI Compilación 36.1 | Mar. De 2006 | hg18 |
NCBI Compilación 35 | Mayo de 2004 | hg17 |
NCBI Compilación 34 | Julio de 2003 | hg16 |
Genoma de referencia del ratón
Los ensamblajes recientes del genoma de ratón son los siguientes: [19]
Nombre de la versión | Fecha de lanzamiento | Versión UCSC equivalente |
---|---|---|
GRCm38 | Dic. De 2011 | mm10 |
NCBI Compilación 37 | Julio de 2007 | mm9 |
NCBI Compilación 36 | Febrero de 2006 | mm8 |
NCBI Compilación 35 | Agosto de 2005 | mm7 |
NCBI Compilación 34 | Mar. De 2005 | mm6 |
Referencias
- ^ a b c Editorial (octubre de 2010). "E pluribus unum" . Métodos de la naturaleza . 7 (5): 910–918. doi : 10.1038 / nmeth0510-331 . PMID 20440876 .
- ^ a b Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A, He W, Chen YJ, Makhijani V, Roth GT, Gomes X, Tartaro K, Niazi F, Turcotte CL, Irzyk GP, Lupski JR, Chinault C , Song XZ, Liu Y, Yuan Y, Nazareth L, Qin X, Muzny DM, Margulies M, Weinstock GM, Gibbs RA, Rothberg JM (2008). "El genoma completo de un individuo mediante secuenciación masiva de ADN en paralelo" . Naturaleza . 452 (7189): 872–6. Código Bib : 2008Natur.452..872W . doi : 10.1038 / nature06884 . PMID 18421352 .
- ^ La excepción a esto es J. Craig Venter, cuyo ADN fue secuenciado y ensamblado usandométodos de secuenciación de escopeta .
- ^ Consorcio de secuenciación de MHC (1999). "Secuencia completa y mapa de genes de un complejo de histocompatibilidad mayor humano". Naturaleza . 401 (6756): 921–923. Código Bib : 1999Natur.401..921T . doi : 10.1038 / 44853 . PMID 10553908 . S2CID 186243515 .
- ^ Logan DW, Marton TF, Stowers L (2008). Vosshall LB (ed.). "Especificidad de especie en las principales proteínas urinarias por evolución paralela" . PLOS ONE . 3 (9): e3280. Código Bibliográfico : 2008PLoSO ... 3.3280L . doi : 10.1371 / journal.pone.0003280 . PMC 2533699 . PMID 18815613 .
- ^ Hurst J, Beynon RJ, Roberts SC, Wyatt TD (octubre de 2007). Lipocalinas urinarias en Rodenta: ¿existe un modelo genérico? . Señales químicas en vertebrados 11. Springer New York. ISBN 978-0-387-73944-1.
- ^ a b Wade, Nicholas (31 de mayo de 2007). "Se descifra el genoma del pionero del ADN" . New York Times . Consultado el 21 de febrero de 2009 .
- ^ Flicek P, Aken BL, Beal K y col. (Enero de 2008). "Ensembl 2008" . Ácidos nucleicos Res . 36 (Problema de la base de datos): D707–14. doi : 10.1093 / nar / gkm988 . PMC 2238821 . PMID 18000006 .
- ^ "Ayuda - Glosario - Homo sapiens - Navegador del genoma Ensembl 87" . www.ensembl.org .
- ^ "Longitud del camino dorado | VectorBase" . www.vectorbase.org . Consultado el 12 de diciembre de 2016 .
- ^ "Ayuda - Glosario - Homo sapiens - Navegador del genoma Ensembl 87" . www.ensembl.org .
- ^ "¿Ensamblaje completo vs longitud de ruta de oro en Ensembl? - SEQanswers" . seqanswers.com . Consultado el 12 de diciembre de 2016 .
- ^ NCBI . "GRCh38 - hg38 - Genoma - Ensamblaje - NCBI" . ncbi.nlm.nih.gov . Consultado el 15 de marzo de 2019 .
- ^ Jain, Miten; Koren, Sergey; Miga, Karen H ; Rápido, Josh; Rand, Arthur C; Sasani, Thomas A; Tyson, John R; Beggs, Andrew D; Dilthey, Alexander T (29 de enero de 2018). "Secuenciación de nanoporos y ensamblaje de un genoma humano con lecturas ultralargas" . Biotecnología de la naturaleza . 36 (4): 338–345. doi : 10.1038 / nbt.4060 . ISSN 1546-1696 . PMC 5889714 . PMID 29431738 .
- ^ Scherer, Stewart (2008). Una breve guía del genoma humano . Prensa CSHL. pag. 135. ISBN 978-0-87969-791-4.
- ^ Ballouz, Sara; Dobin, Alexander; Gillis, Jesse A. (9 de agosto de 2019). "¿Es hora de cambiar el genoma de referencia?" . Biología del genoma . 20 (1). doi : 10.1186 / s13059-019-1774-4 . PMID 31399121 .
- ^ Rosenfeld, Jeffrey A .; Mason, Christopher E .; Smith, Todd M .; Seo, Jeong-Sun (11 de julio de 2012). "Limitaciones del genoma de referencia humano para la genómica personalizada" . PLOS ONE . 7 (7): e40294. Código bibliográfico : 2012PLoSO ... 740294R . doi : 10.1371 / journal.pone.0040294 . PMC 3394790 . PMID 22811759 .
- ^ https://www.internationalgenome.org/home
- ^ a b "UCSC Genome Bioinformatics: FAQ" . genome.ucsc.edu . Consultado el 18 de agosto de 2016 .
enlaces externos
- Consorcio de referencia del genoma