GENCODE

GENCODE es un proyecto científico de investigación del genoma y parte del proyecto de ampliación ENCODE (ENCyclopedia Of DNA Elements).

GENCODE
Contenido
Descripción	Enciclopedia de genes y variantes de genes
Tipos de datos capturados	Todas las características genéticas del genoma humano y del ratón
Contacto
Centro de Investigación	Wellcome Trust Sanger Institute
Autores	Harrow J, et al ^[1]
Cita primaria	PMID 22955987
Fecha de lanzamiento	septiembre 2012 ( Septiembre de 2012 )
Acceso
Sitio web	Gencode del sitio web
Herramientas
Web	Navegador UCSC Genome: http://genome.cse.ucsc.edu/encode/
Diverso
Licencia	Acceso abierto
Frecuencia de publicación de datos	Humano - Ratón trimestral - Semestral
Versión	Human - Release 37 (febrero de 2021) Mouse - Release M26 (febrero de 2021)

El consorcio GENCODE se formó inicialmente como parte de la fase piloto del proyecto ENCODE para identificar y mapear todos los genes que codifican proteínas dentro de las regiones ENCODE (aproximadamente el 1% del genoma humano). ^[2] Dado el éxito inicial del proyecto, GENCODE ahora tiene como objetivo construir una "Enciclopedia de genes y variantes de genes". ^[2]

El resultado será un conjunto de anotaciones que incluyen todos los loci que codifican proteínas con variantes transcritas alternativamente , ^[3] loci no codificantes ^[4] con evidencia de transcripción y pseudogenes . ^[5]

Progreso actual

GENCODE está progresando actualmente hacia sus objetivos en la Fase 2 del proyecto. ^[6]

La versión más reciente de las anotaciones del conjunto de genes humanos es Gencode 36, con una fecha de congelación de diciembre de 2020. Esta versión utiliza el último conjunto de genoma de referencia humano GRCh38 . ^[7]

La última versión para las anotaciones del conjunto de genes del ratón es Gencode M25, también con una fecha de congelación en diciembre de 2020. ^[7]

Desde septiembre de 2009, GENCODE ha sido el conjunto de genes humanos utilizado por el proyecto Ensembl y cada nueva versión de GENCODE corresponde a una versión de Ensembl. ^[8]

Historia

Cronología del proyecto GENCODE

Septiembre de 2003

El proyecto se diseñó con tres fases: piloto, desarrollo de tecnología y fase de producción. ^[9] La etapa piloto del proyecto ENCODE tenía como objetivo investigar en gran profundidad, computacional y experimentalmente, 44 regiones que totalizan 30 Mb de secuencia que representan aproximadamente el 1% del genoma humano. Como parte de esta etapa, se formó el consorcio GENCODE para identificar y mapear todos los genes que codifican proteínas dentro de las regiones ENCODE. ^[2] Se preveía que los resultados de las dos primeras fases se utilizarían para determinar el mejor camino a seguir para analizar el 99% restante del genoma humano en una fase de producción rentable y completa. ^[9]

Abril de 2005
La primera publicación de la anotación de las 44 regiones ENCODE se congeló el 29 de abril de 2005 y se utilizó en el primer taller del Proyecto de evaluación de anotación genómica ENCODE (E-GASP). ^[2] GENCODE Release 1 contenía 416 loci conocidos, 26 nuevos loci CDS (secuencia de ADN codificante), 82 nuevos loci de transcripción, 78 supuestos loci, 104 pseudogenes procesados y 66 pseudogenes no procesados.

Octubre de 2005
Una segunda versión (versión 02) se congeló el 14 de octubre de 2005, que contiene actualizaciones tras los descubrimientos de validaciones experimentales utilizando técnicas RACE y RT-PCR . ^[2] GENCODE Release 2 contenía 411 loci conocidos, 30 nuevos loci de CDS, 81 nuevos loci de transcripción, 83 supuestos loci, 104 pseudogenes procesados y 66 pseudogenes no procesados.

Junio de 2007
Las conclusiones del proyecto piloto se publicaron en junio de 2007. ^[10] Los resultados destacaron el éxito del proyecto piloto para crear una plataforma viable y nuevas tecnologías para caracterizar elementos funcionales en el genoma humano, lo que allana el camino para la investigación inicial. en estudios de todo el genoma.

2007 Octubre El
nuevo financiamiento fue parte del esfuerzo del NHGRI para ampliar el Proyecto ENCODE a una fase de producción en todo el genoma junto con estudios adicionales a escala piloto.

Septiembre de 2012
En septiembre de 2012, el consorcio GENCODE publicó un documento importante en el que se discutían los resultados de un lanzamiento importante: GENCODE Release 7, que se congeló en diciembre de 2011. ^[11]

2018
En 2018, una de las últimas incorporaciones al proyecto GENCODE fue la pista CRISPR / Cas9 sobre ensamblajes de organismos humanos y modelos. CRISPR es una técnica de edición del genoma que utiliza secuencias de ARN que se unen con éxito a la región editada con alta especificidad. La nueva pista fue diseñada para ayudar en la búsqueda de oraciones de guía apropiadas al enumerar los sitios de unión potenciales para el complejo CRISPR / Cas9 que están al lado de las regiones transcritas, o dentro de los 200 pb de uno. Para cada sitio, la pista proporciona posibles secuencias de guía junto con una colección de puntajes de eficiencia y especificidad pronosticados para esas secuencias de guía. También proporciona información sobre posibles fuera del objetivo, agrupados por el número de coincidencias incorrectas entre el fuera del objetivo y la guía. ^[11]

2020
Entre otros logros, se completó la anotación manual de primer paso del genoma de referencia del ratón, se inició una cooperación con las bases de datos de anotaciones de referencia RefSeq y Uniprot para lograr la convergencia de anotaciones, y se mejoró la anotación de lncRNA mediante el descubrimiento de nuevos loci y transcripciones novedosas en loci existentes. Además, dada la pandemia de COVID-19 durante 2020, ha habido un impulso de apoyar la investigación que responda a la situación, por lo que GENCODE ha revisado y mejorado la anotación de un conjunto de genes codificadores de proteínas asociados con la infección por SARSCoV-2. ^[12]

Participantes clave

Los participantes clave del proyecto GENCODE se han mantenido relativamente consistentes a lo largo de sus diversas fases, y el Wellcome Trust Sanger Institute ahora lidera los esfuerzos generales del proyecto.

A continuación se incluye un resumen de las principales instituciones participantes de cada fase: ^[6] ^[13]

GENCODE Phase 2 (actual)	Fase de ampliación de GENCODE	Fase piloto GENCODE
Wellcome Trust Sanger Institute, Cambridge, Reino Unido	Wellcome Trust Sanger Institute, Cambridge, Reino Unido	Wellcome Trust Sanger Institute, Cambridge, Reino Unido Equipo 16: Población y genómica comparada Equipo 71: Informática (principalmente grupo de anotación LA HABANA)
Centre de Regulació Genòmica (CRG), Barcelona, Cataluña, España	Centre de Regulació Genòmica (CRG), Barcelona, Cataluña, España	Institut Municipal d'Investigació Mèdica (IMIM), Barcelona, Cataluña, España
Universidad de Lausana, Suiza	Universidad de Lausana, Suiza	Universidad de Ginebra, Suiza
Universidad de California, Santa Cruz (UCSC), California, EE. UU.	Universidad de California (UCSC), Santa Cruz, EE. UU.	Universidad de Washington (WashU), St Louis, EE. UU.
Instituto de Tecnología de Massachusetts (MIT), Boston, EE. UU.	Instituto de Tecnología de Massachusetts (MIT), Boston, EE. UU.	Universidad de California, Berkeley, EE. UU.
Universidad de Yale (Yale), New Haven, EE. UU.	Universidad de Yale (Yale), New Haven, EE. UU.	Instituto Europeo de Bioinformática, Hinxton, Reino Unido
Centro Nacional de Investigaciones Oncológicas de España (CNIO), Madrid, España	Centro Nacional de Investigaciones Oncológicas de España (CNIO), Madrid, España
	Universidad de Washington (WashU), St Louis, EE. UU.

Participantes, IP y CO-IP ^[8]

Paul Flicek (PI principal), Instituto Europeo de Bioinformática EMBL, Cambridge, Reino Unido
Roderic Guigo (PI), Centre de Regulació Genòmica (CRG), Barcelona, Cataluña, España
Manolis Kellis (PI), Instituto de Tecnología de Massachusetts (MIT), Boston, EE. UU.
Mark Gerstein (PI), Universidad de Yale, New Haven, EE. UU.
Benedict Paten (PI), Universidad de California, Santa Cruz, California, EE. UU.
Michael Tress, Centro Nacional de Investigaciones Oncológicas (CNIO), Madrid, España
Jyoti Choudhary, Instituto de Investigación del Cáncer (ICR), Londres, Reino Unido

Estadísticas clave

Desde su inicio, GENCODE ha lanzado 36 versiones de las anotaciones del conjunto de genes humanos (excluyendo actualizaciones menores).

A continuación se muestran las estadísticas resumidas clave de la anotación de conjunto de genes humanos GENCODE más reciente ( versión 36, congelación de diciembre de 2020 ): ^[14]

Categorías	Total	Categorías	Total
No total de genes	60,660	No total de transcripciones	232,117
Genes que codifican proteínas	19,962	Transcripciones que codifican proteínas	85,269
Genes de ARN largos no codificantes	17,958	- codificación de proteínas de longitud completa:	59.269
Pequeños genes de ARN no codificantes	7.569	- codificación de proteínas de longitud parcial:	26.000
Pseudogenes	14,761	Transcripciones de descomposición mediadas por tonterías	17.378
- pseudogenes procesados:	10,669	Transcripciones largas de loci de ARN no codificantes	48,734
- pseudogenes sin procesar:	3,554
- pseudogenes unitarios:	236
- pseudogenes polimórficos:	48
- pseudogenes:	18
Segmentos de genes del receptor de inmunoglobulina / linfocitos T	645	No total de traducciones distintas	63,058
- segmentos codificantes de proteínas:	409	Genes que tienen más de una traducción distinta	13.685
- pseudogenes:	236

A través de los avances en las tecnologías de secuenciación (como RT-PCR-seq), el aumento de la cobertura de las anotaciones manuales (grupo HAVANA) y las mejoras en los algoritmos de anotaciones automáticas que utilizan Ensembl, la precisión y la integridad de las anotaciones GENCODE se han perfeccionado continuamente a través de su iteración de versiones. .

A continuación se muestra una comparación de las estadísticas clave de 3 versiones principales de GENCODE hasta 2014. ^[14] Es evidente que aunque la cobertura, en términos del número total de genes descubiertos, aumenta constantemente, el número de genes que codifican proteínas ha disminuido. Esto se atribuye principalmente a nuevas pruebas experimentales obtenidas mediante clústeres de expresión génica de análisis de cap (CAGE) , sitios PolyA anotados y aciertos de péptidos . ^[11]

Versión 7 (congelación de diciembre de 2010, GRCh37) - Ensembl 62
Versión 10 (congelación de julio de 2011, GRCh37) - Ensembl 65
Versión 20 (congelación de abril de 2014, GRCh38) - Ensembl 76

Comparación de versiones GENCODE Human (Transcripciones)
Comparación de versiones GENCODE Human (Genes)
Comparación de versiones GENCODE Human (Traducciones)

Metodología

Diagrama de canalización GENCODE. El esquema muestra el flujo de datos entre la anotación manual y la anotación automatizada a través de canales de predicción especializados para proporcionar sugerencias para la anotación de primer paso y el control de calidad (QC). Los modelos de genes anotados están sujetos a validación experimental, y el sistema de seguimiento AnnoTrack contiene datos de todas estas fuentes y se utiliza para resaltar diferencias, coordinar el control de calidad y realizar un seguimiento de los resultados. Los procesos de anotación manuales y automatizados producen el conjunto de datos GENCODE y también se utilizan para controlar la anotación completa.

Los loci putativos se pueden verificar mediante experimentos de laboratorio húmedo y las predicciones computacionales se analizan manualmente. ^[15] Actualmente, para garantizar que un conjunto de anotaciones cubra el genoma completo en lugar de solo las regiones que se han anotado manualmente, se crea un conjunto de datos combinados utilizando anotaciones manuales de HAVANA, junto con anotaciones automáticas del conjunto de genes con anotaciones automáticas Ensembl. Este proceso también agrega predicciones únicas de CDS de longitud completa del conjunto de codificación de proteínas Ensembl en genes anotados manualmente, para proporcionar la anotación más completa y actualizada posible del genoma. ^[dieciséis]

Anotación automática (Ensembl)

Las transcripciones de Ensembl son productos del sistema automático de anotación de genes Ensembl (una colección de canales de anotación de genes), denominado construcción del gen Ensembl. Todas las transcripciones de Ensembl se basan en evidencia experimental y, por lo tanto, la canalización automatizada se basa en los ARNm y las secuencias de proteínas depositadas en bases de datos públicas de la comunidad científica. ^[17]

Anotación manual (grupo LA HABANA)

Hay varios grupos de análisis en el consorcio GENCODE que ejecutan tuberías que ayudan a los anotadores manuales a producir modelos en regiones no anotadas y a identificar posibles anotaciones manuales incorrectas o perdidas, incluidos loci completamente ausentes, isoformas alternativas faltantes, sitios de empalme incorrectos y biotipos incorrectos. Estos se retroalimentan a los anotadores manuales utilizando el sistema de seguimiento AnnoTrack. ^[18] Algunas de estas canalizaciones utilizan datos de otros subgrupos de ENCODE, incluidos los datos de RNASeq, la modificación de histonas y los datos de CAGE y Ditag. Los datos de RNAseq son una nueva e importante fuente de evidencia, pero generar modelos genéticos completos a partir de ellos es un problema difícil. Como parte de GENCODE, se llevó a cabo una competencia para evaluar la calidad de las predicciones producidas por varias tuberías de predicción de RNAseq (consulte RGASP a continuación). Para confirmar modelos inciertos, GENCODE también tiene una línea de validación experimental que utiliza secuenciación de ARN y RACE. ^[dieciséis]

Evaluación de la calidad

Para GENCODE 7, a los modelos de transcripciones se les asigna un nivel alto o bajo de apoyo basado en un nuevo método desarrollado para calificar la calidad de las transcripciones. ^[2]

Uso / Acceso

La versión actual del conjunto de genes GENCODE Human (GENCODE Release 20) incluye archivos de anotaciones (en formatos GTF y GFF3), archivos FASTA y archivos METADATA asociados con la anotación GENCODE en todas las regiones genómicas (cromosomas de referencia / parches / andamios / haplotipos). Los datos de anotación se refieren a cromosomas de referencia y se almacenan en archivos separados que incluyen: anotación de genes, características de PolyA anotadas por HAVANA, pseudogenes (retrotranspuestos) predichos por las tuberías de Yale y UCSC, pero no por HAVANA, ARN largos no codificantes y ARNt estructuras predichas por tRNA-Scan. A continuación se muestran algunos ejemplos de las líneas en formato GTF:

Ejemplo de archivo GTF donde se muestran columnas GTF estándar separadas por TAB (1-9)

Las columnas dentro de los formatos de archivo GENCODE GTF se describen a continuación.

Descripción del formato del archivo GENCODE GTF. Columnas GTF estándar separadas por TAB

Número de columna	Contenido	Valores / formato
1	nombre del cromosoma	chr {1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22, X, Y, METRO}
2	fuente de anotación	{ENSEMBL, LA HABANA}
3	tipo de característica	{gen, transcripción, exón, CDS, UTR, start_codon, stop_codon, selenocysteine}
4	ubicación de inicio genómico	valor entero (basado en 1)
5	ubicación final genómica	valor entero
6	puntaje (no usado)	.
7	hebra genómica	{+, -}
8	fase genómica (para características de CDS)	{0,1,2 ,.}
9	información adicional como pares clave-valor	Consulte la explicación en la tabla siguiente.

Descripción de los pares clave-valor en la novena columna del archivo GENCODE GTF (formato: clave "valor")

Nombre clave	Formato de valor
gene_id	ENSGXXXXXXXXXXX
transcript_id	ENSTXXXXXXXXXXX
gene_type	lista de biotipos
gene_status	{CONOCIDO, NOVELA, PUTATIVO}
gene_name	cuerda
tipo_transcripción	lista de biotipos
transcript_status	{CONOCIDO, NOVELA, PUTATIVO}
transcript_name	cuerda
exon_number	indica la posición biológica del exón en la transcripción
exon_id	ENSEXXXXXXXXXXX
nivel	(loci verificado), (loci anotados manualmente), (loci anotados automáticamente)

Navegador del genoma de Biodalliance

Además, el sitio web GENCODE contiene un navegador del genoma para humanos y ratones donde puede llegar a cualquier región genómica dando el número de cromosoma y la posición de inicio-fin (por ejemplo, 22: 30,700,000..30,900,000), así como por ID de transcripción ENS (con / sin versión), ID del gen ENS (con / sin versión) y nombre del gen. El navegador funciona con Biodalliance. ^[19]

Desafíos

Definición de un "gen"

La definición de "gen" nunca ha sido un tema trivial, con numerosas definiciones y nociones propuestas a lo largo de los años desde el descubrimiento del genoma humano. Primero, los genes se concibieron en la década de 1900 como unidades discretas de herencia, luego se pensó como el modelo para la síntesis de proteínas y, en tiempos más recientes, se definió como un código genético que se transcribe en ARN. Aunque la definición de un gen ha evolucionado mucho durante el último siglo, sigue siendo un tema desafiante y controvertido para muchos investigadores. Con la llegada del proyecto ENCODE / GENCODE, se han descubierto aspectos aún más problemáticos de la definición, incluido el empalme alternativo (donde una serie de exones están separados por intrones), las transcripciones intergénicas y los patrones complejos de regulación dispersa, junto con conservación -génica y abundancia de genes de ARN no codificantes. A medida que GENCODE se esfuerza por construir una enciclopedia de genes y variantes de genes, estos problemas presentaban un desafío creciente para el proyecto GENCODE para llegar a una noción actualizada de un gen. ^[20]

Proyecto Genoma Humano

El Proyecto Genoma Humano fue un esfuerzo de investigación internacional para determinar la secuencia del genoma humano e identificar los genes que contiene. El proyecto fue coordinado por los Institutos Nacionales de Salud y el Departamento de Energía de EE. UU. Los contribuyentes adicionales incluyeron universidades en los Estados Unidos y socios internacionales en el Reino Unido, Francia, Alemania, Japón y China. El Proyecto Genoma Humano comenzó formalmente en 1990 y se completó en 2003, 2 años antes de su programa original. ^[21]

Subproyectos

Ensembl

Ensembl es parte del proyecto GENCODE. ^[22]

Diseño de microarrays de expresión de lncRNA

Un área de investigación clave del proyecto GENCODE fue investigar la importancia biológica de los ARN largos no codificantes (lncRNA). Para comprender mejor la expresión de lncRNA en humanos, GENCODE creó un subproyecto para desarrollar plataformas de microarrays personalizadas capaces de cuantificar las transcripciones en la anotación GENCODE lncRNA. ^[4] Se han creado varios diseños utilizando el sistema eArray de Agilent Technologies , y estos diseños están disponibles en un formato estándar personalizado de Agilent. ^[4]

RGASP

El proyecto RNA-seq Genome Annotation Assessment Project (RGASP) está diseñado para evaluar la efectividad de varios métodos computacionales para el análisis de datos de secuencias de ARN de alta calidad. Los objetivos principales de RGASP son proporcionar una evaluación imparcial para la alineación de RNA-seq, el software de caracterización de transcripciones (descubrimiento, reconstrucción y cuantificación) y determinar la viabilidad de las anotaciones genómicas automatizadas basadas en la secuenciación del transcriptoma. ^[23]

RGASP está organizado en un marco de consorcio inspirado en el taller de predicción de genes EGASP (ENCODE Genome Annotation Assessment Project), y se han llevado a cabo dos rondas de talleres para abordar diferentes aspectos del análisis de RNA-seq, así como el cambio de tecnologías y formatos de secuenciación. Uno de los principales descubrimientos de las rondas 1 y 2 del proyecto fue la importancia de la alineación de lectura sobre la calidad de las predicciones genéticas producidas. Por lo tanto, actualmente se está llevando a cabo una tercera ronda del taller RGASP (en 2014) para centrarse principalmente en el mapeo de lectura del genoma. ^[23]

Ver también

Anotación del genoma
Anotación de vertebrados y genomas

Referencias

^ Harrow J, Frankish A, Gonzalez JM, Tapanari E, Diekhans M, Kokocinski F, et al. (Septiembre 2012). "GENCODE: la anotación del genoma humano de referencia para el proyecto ENCODE" (PDF) . Investigación del genoma . 22 (9): 1760–74. doi : 10.1101 / gr.135350.111 . PMC 3431492 . PMID 22955987 .
^ a b c d e f Harrow J, Denoeud F, Frankish A, Reymond A, Chen CK, Chrast J, et al. (2006). "GENCODE: producir una anotación de referencia para ENCODE" . Biología del genoma . 7 (Supl. 1): S4.1–9. doi : 10.1186 / gb-2006-7-s1-s4 . PMC 1810553 . PMID 16925838 .
^ Frankish A, Mudge JM, Thomas M, Harrow J (2012). "La importancia de identificar el empalme alternativo en la anotación del genoma de vertebrados" . Base de datos . 2012 : bas014. doi : 10.1093 / base de datos / bas014 . PMC 3308168 . PMID 22434846 .
^ a b c Derrien T, Johnson R, Bussotti G, Tanzer A, Djebali S, Tilgner H, et al. (Septiembre 2012). "El catálogo GENCODE v7 de ARN no codificantes largos humanos: análisis de su estructura genética, evolución y expresión" . Investigación del genoma . 22 (9): 1775–89. doi : 10.1101 / gr.132159.111 . PMC 3431493 . PMID 22955988 .
^ Pei B, Sisu C, Frankish A, Howald C, Habegger L, Mu XJ, et al. (Septiembre 2012). "El recurso pseudogénico GENCODE" . Biología del genoma . 13 (9): R51. doi : 10.1186 / gb-2012-13-9-r51 . PMC 3491395 . PMID 22951037 .
^ a b "GENCODE - Página de inicio" . 20 de diciembre de 2020.
^ a b "GENCODE - Datos" . GENCODE . Wellcome Trust Sanger Institute. Septiembre de 2019 . Consultado el 14 de octubre de 2019 .
^ a b "GENCODE" . Wellcome Trust Sanger Institute. pag. El Proyecto GENCODE: Enciclopedia de genes y variantes de genes . Consultado el 20 de diciembre de 2020 .
^ a b Consorcio del Proyecto ENCODE (octubre de 2004). "Proyecto ENCODE (ENCyclopedia Of DNA Elements)" . Ciencia . 306 (5696): 636–40. Código Bibliográfico : 2004Sci ... 306..636E . doi : 10.1126 / science.1105136 . PMID 15499007 . S2CID 22837649 .
^ Birney E, Stamatoyannopoulos JA, Dutta A, Guigó R, Gingeras TR, Margulies EH, et al. (Junio de 2007). "Identificación y análisis de elementos funcionales en el 1% del genoma humano por el proyecto piloto ENCODE" . Naturaleza . 447 (7146): 799–816. Código Bibliográfico : 2007Natur.447..799B . doi : 10.1038 / nature05874 . PMC 2212820 . PMID 17571346 .
^ a b c Casper J, Zweig AS, Villarreal C, Tyner C, Speir ML, Rosenbloom KR, et al. (Enero de 2018). "La base de datos UCSC Genome Browser: actualización de 2018" . Investigación de ácidos nucleicos . 46 (D1): D762 – D769. doi : 10.1093 / nar / gkx1020 . PMC 5753355 . PMID 29106570 .
^ Frankish A, Diekhans M, Jungreis I, Lagarde J, Loveland JE, Mudge JM, et al. (Diciembre de 2020). "GENCODE 2021" . Investigación de ácidos nucleicos . 49 (D1): D916 – D923. doi : 10.1093 / nar / gkaa1087 . PMC 7778937 . PMID 33270111 . S2CID 227260109 .
^ "Participantes del proyecto GENCODE" . Laboratorio de Investigación en Bioinformática del Genoma . Laboratorio de Investigación en Bioinformática del Genoma. C. 2005 . Consultado el 8 de septiembre de 2014 .
^ a b "GENCODE - Estadísticas" . GENCODE . Wellcome Trust Sanger Institute. C. 2014. Archivado desde el original el 20 de diciembre de 2020 . Consultado el 20 de diciembre de 2020 .
^ "GENCODE - Objetivos" . GENCODE . Wellcome Trust Sanger Institute. C. 2013 . Consultado el 5 de septiembre de 2014 .
^ a b Searle S, Frankish A, Bignell A, Aken B, Derrien T, Diekhans M, et al. (2010). "El conjunto de genes humanos GENCODE" . Biología del genoma . 11 (Supl. 1): 36. doi : 10.1186 / gb-2010-11-S1-P36 . PMC 3026266 .
^ "Ensembl - Página de inicio" . Ensembl . Agosto de 2014 . Consultado el 6 de septiembre de 2014 .
^ Kokocinski F, Harrow J, Hubbard T (octubre de 2010). "AnnoTrack - un sistema de seguimiento para la anotación del genoma" . BMC Genomics . 11 : 538. doi : 10.1186 / 1471-2164-11-538 . PMC 3091687 . PMID 20923551 .
^ "Biodalliance - Página de inicio" . 20 de diciembre de 2020.
^ Gerstein MB, Bruce C, Rozowsky JS, Zheng D, Du J, Korbel JO, et al. (Junio de 2007). "¿Qué es un gen, post-ENCODE? Historia y definición actualizada" . Investigación del genoma . 17 (6): 669–81. doi : 10.1101 / gr.6339607 . PMID 17567988 .
^ "Proyecto del genoma humano - Página de inicio" . 20 de diciembre de 2020.
^ "ENCODE datos en Ensembl" . Ensembl . Agosto de 2014 . Consultado el 7 de septiembre de 2014 .
^ a b Steijger T, Abril JF, Engström PG, Kokocinski F, Hubbard TJ, Guigó R, et al. (Diciembre 2013). "Evaluación de métodos de reconstrucción de transcripciones para RNA-seq" . Métodos de la naturaleza . 10 (12): 1177–84. doi : 10.1038 / nmeth.2714 . PMC 3851240 . PMID 24185837 .

enlaces externos

Páginas oficiales GENCODE

[Harrow_2012-1] Harrow J, Frankish A, Gonzalez JM, Tapanari E, Diekhans M, Kokocinski F, et al. (Septiembre 2012). "GENCODE: la anotación del genoma humano de referencia para el proyecto ENCODE" (PDF) . Investigación del genoma . 22 (9): 1760–74. doi : 10.1101 / gr.135350.111 . PMC 3431492 . PMID 22955987 .

[Harrow_2006-2] Harrow J, Denoeud F, Frankish A, Reymond A, Chen CK, Chrast J, et al. (2006). "GENCODE: producir una anotación de referencia para ENCODE" . Biología del genoma . 7 (Supl. 1): S4.1–9. doi : 10.1186 / gb-2006-7-s1-s4 . PMC 1810553 . PMID 16925838 .

[3] Frankish A, Mudge JM, Thomas M, Harrow J (2012). "La importancia de identificar el empalme alternativo en la anotación del genoma de vertebrados" . Base de datos . 2012 : bas014. doi : 10.1093 / base de datos / bas014 . PMC 3308168 . PMID 22434846 .

[Derrien_2012-4] Derrien T, Johnson R, Bussotti G, Tanzer A, Djebali S, Tilgner H, et al. (Septiembre 2012). "El catálogo GENCODE v7 de ARN no codificantes largos humanos: análisis de su estructura genética, evolución y expresión" . Investigación del genoma . 22 (9): 1775–89. doi : 10.1101 / gr.132159.111 . PMC 3431493 . PMID 22955988 .

[5] Pei B, Sisu C, Frankish A, Howald C, Habegger L, Mu XJ, et al. (Septiembre 2012). "El recurso pseudogénico GENCODE" . Biología del genoma . 13 (9): R51. doi : 10.1186 / gb-2012-13-9-r51 . PMC 3491395 . PMID 22951037 .

[GENCODE_home_page-6] "GENCODE - Página de inicio" . 20 de diciembre de 2020.

[GENCODEdata-7] "GENCODE - Datos" . GENCODE . Wellcome Trust Sanger Institute. Septiembre de 2019 . Consultado el 14 de octubre de 2019 .

[:0-8] "GENCODE" . Wellcome Trust Sanger Institute. pag. El Proyecto GENCODE: Enciclopedia de genes y variantes de genes . Consultado el 20 de diciembre de 2020 .

[ENCODE2004-9] Consorcio del Proyecto ENCODE (octubre de 2004). "Proyecto ENCODE (ENCyclopedia Of DNA Elements)" . Ciencia . 306 (5696): 636–40. Código Bibliográfico : 2004Sci ... 306..636E . doi : 10.1126 / science.1105136 . PMID 15499007 . S2CID 22837649 .

[NATURE2007-10] Birney E, Stamatoyannopoulos JA, Dutta A, Guigó R, Gingeras TR, Margulies EH, et al. (Junio de 2007). "Identificación y análisis de elementos funcionales en el 1% del genoma humano por el proyecto piloto ENCODE" . Naturaleza . 447 (7146): 799–816. Código Bibliográfico : 2007Natur.447..799B . doi : 10.1038 / nature05874 . PMC 2212820 . PMID 17571346 .

[Casper_2018-11] Casper J, Zweig AS, Villarreal C, Tyner C, Speir ML, Rosenbloom KR, et al. (Enero de 2018). "La base de datos UCSC Genome Browser: actualización de 2018" . Investigación de ácidos nucleicos . 46 (D1): D762 – D769. doi : 10.1093 / nar / gkx1020 . PMC 5753355 . PMID 29106570 .

[12] Frankish A, Diekhans M, Jungreis I, Lagarde J, Loveland JE, Mudge JM, et al. (Diciembre de 2020). "GENCODE 2021" . Investigación de ácidos nucleicos . 49 (D1): D916 – D923. doi : 10.1093 / nar / gkaa1087 . PMC 7778937 . PMID 33270111 . S2CID 227260109 .

[ParticipantsPilot-13] "Participantes del proyecto GENCODE" . Laboratorio de Investigación en Bioinformática del Genoma . Laboratorio de Investigación en Bioinformática del Genoma. C. 2005 . Consultado el 8 de septiembre de 2014 .

[GENCODEStats-14] "GENCODE - Estadísticas" . GENCODE . Wellcome Trust Sanger Institute. C. 2014. Archivado desde el original el 20 de diciembre de 2020 . Consultado el 20 de diciembre de 2020 .

[GENCODEp2goals-15] "GENCODE - Objetivos" . GENCODE . Wellcome Trust Sanger Institute. C. 2013 . Consultado el 5 de septiembre de 2014 .

[Searle_2010-16] Searle S, Frankish A, Bignell A, Aken B, Derrien T, Diekhans M, et al. (2010). "El conjunto de genes humanos GENCODE" . Biología del genoma . 11 (Supl. 1): 36. doi : 10.1186 / gb-2010-11-S1-P36 . PMC 3026266 .

[EnsemblGeneSet-17] "Ensembl - Página de inicio" . Ensembl . Agosto de 2014 . Consultado el 6 de septiembre de 2014 .

[Kokocinski2010-18] Kokocinski F, Harrow J, Hubbard T (octubre de 2010). "AnnoTrack - un sistema de seguimiento para la anotación del genoma" . BMC Genomics . 11 : 538. doi : 10.1186 / 1471-2164-11-538 . PMC 3091687 . PMID 20923551 .

[19] "Biodalliance - Página de inicio" . 20 de diciembre de 2020.

[Gerstein2007-20] Gerstein MB, Bruce C, Rozowsky JS, Zheng D, Du J, Korbel JO, et al. (Junio de 2007). "¿Qué es un gen, post-ENCODE? Historia y definición actualizada" . Investigación del genoma . 17 (6): 669–81. doi : 10.1101 / gr.6339607 . PMID 17567988 .

[21] "Proyecto del genoma humano - Página de inicio" . 20 de diciembre de 2020.

[EnsemblGencode-22] "ENCODE datos en Ensembl" . Ensembl . Agosto de 2014 . Consultado el 7 de septiembre de 2014 .

[Steijger_2013-23] Steijger T, Abril JF, Engström PG, Kokocinski F, Hubbard TJ, Guigó R, et al. (Diciembre 2013). "Evaluación de métodos de reconstrucción de transcripciones para RNA-seq" . Métodos de la naturaleza . 10 (12): 1177–84. doi : 10.1038 / nmeth.2714 . PMC 3851240 . PMID 24185837 .

[1]