La anotación de ADN o anotación del genoma es el proceso de identificar las ubicaciones de los genes y todas las regiones codificantes en un genoma y determinar qué hacen esos genes. Una anotación (independientemente del contexto) es una nota añadida a modo de explicación o comentario. Una vez que se secuencia un genoma, es necesario anotarlo para que tenga sentido. [1] Los genes en el genoma eucariota se pueden anotar usando FINDER. [2]
Para la anotación de ADN, una representación de secuencia de material genético previamente desconocida se enriquece con información que relaciona la posición genómica con los límites intrón - exón , secuencias reguladoras , repeticiones , nombres de genes y productos proteicos . Esta anotación se almacena en bases de datos genómicas como Mouse Genome Informatics , FlyBase y WormBase . Los materiales educativos sobre algunos aspectos de la anotación biológica del campo de anotación de Gene Ontology 2006 y eventos similares están disponibles en el sitio web de Gene Ontology. [3]
El Centro Nacional de Ontología Biomédica (www.bioontology.org) desarrolla herramientas para la anotación automatizada [4] de registros de bases de datos basándose en las descripciones textuales de esos registros.
Como método general, dcGO [5] tiene un procedimiento automatizado para inferir estadísticamente asociaciones entre términos de ontología y dominios de proteínas o combinaciones de dominios a partir de las anotaciones existentes a nivel de gen / proteína.
Proceso
La anotación del genoma consta de tres pasos principales: [6]
- Identificar porciones del genoma que no codifican proteínas.
- identificar elementos en el genoma , un proceso llamado predicción genética
- adjuntar información biológica a estos elementos
Las herramientas de anotación automática intentan realizar estos pasos a través del análisis informático, en contraposición a la anotación manual (también conocida como curación) que implica la experiencia humana. Idealmente, estos enfoques coexisten y se complementan entre sí en la misma canalización de anotaciones .
Un método simple de anotación de genes se basa en herramientas de búsqueda basadas en homología, como BLAST , para buscar genes homólogos en bases de datos específicas, la información resultante se utiliza luego para anotar genes y genomas. [7] Sin embargo, a medida que se agrega información a la plataforma de anotación, los anotadores manuales se vuelven capaces de desconvocar las discrepancias entre genes que reciben la misma anotación. Algunas bases de datos utilizan información del contexto del genoma, puntuaciones de similitud, datos experimentales e integraciones de otros recursos para proporcionar anotaciones del genoma a través de su enfoque de subsistemas. Otras bases de datos (por ejemplo, Ensembl ) se basan en fuentes de datos seleccionadas, así como en una variedad de diferentes herramientas de software en su canal de anotación automatizada del genoma. [8]
La anotación estructural consiste en la identificación de elementos genómicos.
- ORF y su localización
- estructura genética
- regiones de codificación
- ubicación de motivos regulatorios
La anotación funcional consiste en adjuntar información biológica a elementos genómicos.
- función bioquímica
- función biológica
- regulación e interacciones involucradas
- expresión
Estos pasos pueden involucrar tanto experimentos biológicos como análisis in silico . Los enfoques basados en la proteogenómica utilizan información de proteínas expresadas, a menudo derivadas de la espectrometría de masas , para mejorar las anotaciones genómicas. [9]
Se ha desarrollado una variedad de herramientas de software para permitir a los científicos ver y compartir anotaciones del genoma; por ejemplo, FABRICANTE .
La anotación del genoma sigue siendo un gran desafío para los científicos que investigan el genoma humano , ahora que las secuencias del genoma de más de mil individuos humanos (The 100,000 Genomes Project, Reino Unido) y varios organismos modelo están en gran parte completas. [10] [11] La identificación de la ubicación de los genes y otros elementos de control genético a menudo se describe como la definición de la "lista de partes" biológica para el ensamblaje y el funcionamiento normal de un organismo. [7] Los científicos aún se encuentran en una etapa temprana en el proceso de delinear esta lista de partes y comprender cómo todas las partes "encajan". [12]
La anotación del genoma es un área activa de investigación e involucra a varias organizaciones diferentes en la comunidad de las ciencias de la vida que publican los resultados de sus esfuerzos en bases de datos biológicas disponibles públicamente a través de la web y otros medios electrónicos. Aquí hay una lista alfabética de proyectos en curso relevantes para la anotación del genoma:
- Enciclopedia de elementos de ADN (ENCODE)
- Entrez Gene
- Ensembl
- GENCODE
- Consorcio de Ontología Genética
- GeneRIF
- RefSeq
- Uniprot
- Proyecto de anotación de vertebrados y genomas (Vega)
En Wikipedia, la anotación del genoma ha comenzado a automatizarse bajo los auspicios del portal Gene Wiki, que opera un bot que recolecta datos genéticos de bases de datos de investigación y crea talones genéticos sobre esa base. [13]
Referencias
- ^ "Definición de anotación del genoma" .
- ^ Banerjee S, Bhandary P, Woodhouse M, Sen TZ, Wise RP, Andorf CM (abril de 2021). "FINDER: un paquete de software automatizado para anotar genes eucariotas de datos de RNA-Seq y secuencias de proteínas asociadas" . BMC Bioinformática . 44 (9): e89. doi : 10.1186 / s12859-021-04120-9 . PMID 33879057 .
- ^ "GO Recursos didácticos" . Archivado desde el original el 10 de octubre de 2006 . Consultado el 21 de septiembre de 2006 .
- ^ http://bioontology.stanford.edu/annotator-service
- ^ Fang, H; Gough, J (2013). "DcGO: Base de datos de ontologías centradas en dominios sobre funciones, fenotipos, enfermedades y más" . Investigación de ácidos nucleicos . 41 (Problema de la base de datos): D536–44. doi : 10.1093 / nar / gks1080 . PMC 3531119 . PMID 23161684 .
- ^ Stein, L. (2001). "Anotación del genoma: de la secuencia a la biología". Nature Reviews Genética . 2 (7): 493–503. doi : 10.1038 / 35080529 . PMID 11433356 . S2CID 12044602 .
- ^ a b Pevsner, Jonathan (2009). Bioinformática y genómica funcional (2ª ed.). Hoboken, Nueva Jersey: Wiley-Blackwell. ISBN 9780470085851.
- ^ "Documentación en línea de la canalización de anotación del genoma de Ensembl" . Archivado desde el original el 5 de marzo de 2016.
- ^ Gupta, Nitin; Stephen Tanner; Navdeep Jaitly; Joshua N Adkins; Mary Lipton; Robert Edwards; Margaret Romine; Andrei Osterman; Vineet Bafna; Richard D Smith; Pavel A Pevzner (septiembre de 2007). "Análisis de proteoma completo de modificaciones postraduccionales: aplicaciones de espectrometría de masas para anotación proteogenómica" . Investigación del genoma . 17 (9): 1362-1377. doi : 10.1101 / gr.6427907 . ISSN 1088-9051 . PMC 1950905 . PMID 17690205 .
- ^ Consorcio Proyecto ENCODE (2011). Becker PB (ed.). "Una guía del usuario de la enciclopedia de elementos del ADN (ENCODE)" . PLOS Biología . 9 (4): e1001046. doi : 10.1371 / journal.pbio.1001046 . PMC 3079585 . PMID 21526222 .
- ^ McVean, GA; Abecasis, DM; Auton, RM; Brooks, GAR; Depristo, DR; Durbin, A .; Handsaker, AG; Kang, P .; Marth, EE; McVean, P .; Gabriel, SB; Gibbs, RA; Verde, DE; Hurles, ME; Knoppers, BM; Korbel, JO; Lander, ES; Lee, C .; Lehrach, H .; Mardis, ER; Marth, GT; McVean, GA; Nickerson, DA; Schmidt, JP; Jerez, ST; Wang, J .; Wilson, RK; Gibbs (investigador principal), RA; Dinh, H .; et al. (2012). "Un mapa integrado de variación genética de 1.092 genomas humanos" . Naturaleza . 491 (7422): 56–65. Código Bib : 2012Natur.491 ... 56T . doi : 10.1038 / nature11632 . PMC 3498066 . PMID 23128226 .
- ^ Dunham, I .; Bernstein, A .; Birney, SF; Dunham, PJ; Green, CA; Gunter, F .; Snyder, CB; Frietze, S .; Harrow, J .; Kaul, R .; Khatun, J .; Lajoie, BR; Landt, SG; Lee, BK; Pauli, F .; Rosenbloom, KR; Sabo, P .; Safi, A .; Sanyal, A .; Shoresh, N .; Simon, JM; Song, L .; Trinklein, ND; Altshuler, RC; Birney, E .; Brown, JB; Cheng, C .; Djebali, S .; Dong, X .; et al. (2012). "Una enciclopedia integrada de elementos del ADN en el genoma humano" . Naturaleza . 489 (7414): 57–74. Código Bibliográfico : 2012Natur.489 ... 57T . doi : 10.1038 / nature11247 . PMC 3439153 . PMID 22955616 .
- ^ Huss, Jon W .; Orozco, C; Goodale, J; Wu, C; Batalov, S; Vickers, TJ; Valafar, F; Su, AI (2008). "Un Wiki genético para la anotación comunitaria de la función genética" . PLOS Biología . 6 (7): e175. doi : 10.1371 / journal.pbio.0060175 . PMC 2443188 . PMID 18613750 .