Genoma de referencia


Un genoma de referencia (también conocido como ensamblaje de referencia ) es una base de datos digital de secuencias de ácidos nucleicos , ensamblada por científicos como un ejemplo representativo del conjunto de genes en un organismo individual idealizado de una especie. Como se ensamblan a partir de la secuenciación del ADN de varios donantes individuales, los genomas de referencia no representan con precisión el conjunto de genes de ningún organismo individual. En cambio, una referencia proporciona un mosaico haploide de diferentes secuencias de ADN de cada donante. Existen genomas de referencia para múltiples especies de virus , bacterias , hongos ,plantas y animales .

Por ejemplo, el genoma humano de referencia, GRCh38 , del Genome Reference Consortium se deriva de trece voluntarios anónimos. [1]

A medida que disminuye el costo de la secuenciación del ADN y surgen nuevas tecnologías de secuenciación del genoma completo , se siguen generando más secuencias del genoma. Los genomas de referencia generalmente se utilizan como una guía sobre la cual se construyen nuevos genomas, lo que les permite ensamblarse de manera mucho más rápida y económica que el Proyecto Genoma Humano inicial . La mayoría de las personas con su genoma completo secuenciado, como James D. Watson , tenían su genoma ensamblado de esta manera. [2] [3] Para gran parte de un genoma, la referencia proporciona una buena aproximación del ADN de cualquier individuo individual. Pero en regiones con alta diversidad alélica , como el complejo mayor de histocompatibilidaden humanos y las principales proteínas urinarias de ratones, el genoma de referencia puede diferir significativamente de otros individuos. [4] [5] [6] La comparación entre la referencia (construcción 36) y el genoma de Watson reveló 3,3 millones de diferencias de polimorfismo de un solo nucleótido , mientras que alrededor del 1,4 por ciento de su ADN no pudo coincidir con el genoma de referencia en absoluto. [7] [2] Para las regiones donde se sabe que existe una variación a gran escala, se ensamblan conjuntos de loci alternativos junto con el locus de referencia.

Se puede acceder a los genomas de referencia en línea en varios lugares, utilizando navegadores dedicados como Ensembl o UCSC Genome Browser . [8]

El camino dorado es una medida alternativa de longitud que omite regiones redundantes como haplotipos y regiones pseudoautosómicas . [10] [11] Por lo general, se construye superponiendo información de secuenciación sobre un mapa físico para combinar información de andamiaje. Es una "mejor estimación" de cómo se verá el genoma y, por lo general, incluye espacios, lo que lo hace más largo que el ensamblaje típico de pares de bases. [12]

Los genomas de referencia humanos y de ratón son mantenidos y mejorados por el Genome Reference Consortium (GRC), un grupo de menos de 20 científicos de varios institutos de investigación del genoma, incluido el Instituto Europeo de Bioinformática , el Centro Nacional de Información Biotecnológica , el Instituto Sanger y el Instituto del Genoma McDonnell de la Universidad de Washington en St. Louis . GRC continúa mejorando los genomas de referencia mediante la creación de nuevas alineaciones que contienen menos espacios y corrigiendo las tergiversaciones en la secuencia.


La primera copia impresa del genoma humano de referencia presentado como una serie de libros, exhibidos en la Wellcome Collection , Londres.