El European Nucleotide Archive ( ENA ) es un repositorio que proporciona acceso gratuito y sin restricciones a secuencias de ADN y ARN anotadas . También almacena información complementaria como procedimientos experimentales, detalles del ensamblaje de secuencias y otros metadatos relacionados con proyectos de secuenciación . [1] El archivo se compone de tres bases de datos principales: el archivo de lectura de secuencia , el archivo de seguimiento y la base de datos de secuencia de nucleótidos EMBL (también conocida como banco EMBL). [2] La ENA es producida y mantenida por el Instituto Europeo de Bioinformática y es miembro de laColaboración internacional de bases de datos de secuencias de nucleótidos (INSDC) junto con el Banco de datos de ADN de Japón y GenBank .
Contenido | |
---|---|
Descripción | Archivo completo de secuencias de nucleótidos, anotaciones y datos asociados. |
Tipos de datos capturados | Secuencia de nucleótidos , anotación funcional , lecturas de secuenciación e información del secuenciador , detalles de la muestra , otros registros relacionados. |
Organismos | Todas |
Contacto | |
Centro de Investigación | Instituto Europeo de Bioinformática |
Laboratorio | Grupo PANDA |
Cita primaria | PMID 20972220 |
Fecha de lanzamiento | Abril de 1982 |
Acceso | |
Formato de datos | Formato XML FASTQ EMBL-Bank |
Sitio web | ENA |
URL de descarga | Descarga ENA |
URL del servicio web | Navegador ENA |
Herramientas | |
Ser único | Kit de herramientas CRAM |
Diverso | |
Licencia | Irrestricto |
La ENA ha surgido de la biblioteca de datos EMBL, que se publicó en 1982 como el primer recurso con apoyo internacional para datos de secuencias de nucleótidos. [3] A principios de 2012, la ENA y otras bases de datos de miembros del INSDC contenían genomas completos de 5.682 organismos y datos de secuencia de casi 700.000. [4] Además, el volumen de datos está aumentando exponencialmente con un tiempo de duplicación de aproximadamente 10 meses. [5]
Historia
El Archivo Europeo de Nucleótidos se originó a partir de bases de datos independientes, la primera de las cuales fue la Biblioteca de Datos EMBL, establecida en octubre de 1980 en el Laboratorio Europeo de Biología Molecular (EMBL), Heidelberg . [3] La primera versión de esta base de datos se realizó en abril de 1982 y contenía un total de 568 entradas separadas que constaban de alrededor de 500.000 pares de bases . [6] En 1984, refiriéndose a la biblioteca de datos EMBL, Kneale y Kennard comentaron que "estaba claro hace algunos años que una gran base de datos computarizada de secuencias sería esencial para la investigación en biología molecular". [6]
A pesar de que el método de distribución principal en ese momento era a través de cinta magnética , en 1987, la biblioteca de datos EMBL estaba siendo utilizada por aproximadamente 10,000 científicos a nivel internacional. [7] El mismo año, se introdujo el servidor de archivos EMBL para servir registros de bases de datos a través de BITNET , EARN e Internet . [8] En mayo de 1988, la revista Nucleic Acids Research introdujo una política que establece que "los manuscritos enviados a [Nucleic Acids Research] y que contengan o discutan datos de secuencia deben ir acompañados de evidencia de que los datos se han depositado en la biblioteca de datos EMBL". [9]
Durante la década de 1990, la biblioteca de datos EMBL pasó a llamarse Base de datos de secuencias de nucleótidos EMBL [10] y se trasladó formalmente al Instituto Europeo de Bioinformática (EBI) de Heidelberg. [11] En 2003, la base de datos de secuencias de nucleótidos se amplió con la adición del archivo de versiones de secuencias (SVA), que mantiene registros de todas las entradas actuales y anteriores en la base de datos. [1] Un año más tarde, en junio de 2004, se eliminaron los límites de la longitud máxima de secuencia para cada registro (entonces 350 kilobases ), lo que permitió que las secuencias del genoma completo se almacenaran como una sola entrada en la base de datos . [12]
Tras la adopción de la secuenciación de Sanger , el Wellcome Trust Sanger Institute (entonces conocido como The Sanger Center) había comenzado a catalogar secuencias de lectura junto con información de calidad en una base de datos llamada The Trace Archive. [13] Trace Archive creció sustancialmente con la comercialización de tecnologías de secuenciación paralela de alto rendimiento por parte de empresas como Roche e Illumina . [14] En 2008, el EBI combinó el Archivo de Trazas, la Base de Datos de Secuencias de Nucleótidos EMBL (ahora también conocida como EMBL-Bank) [2] y un Archivo de Lectura de Secuencia (o Breve) recientemente desarrollado (SRA) para componer la ENA, con el objetivo de en proporcionar un archivo completo de secuencias de nucleótidos . [13] Como miembro de la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos , la ENA intercambia envíos de datos todos los días tanto con el Banco de Datos de ADN de Japón como con el GenBank . [15]
Base de datos de secuencias de nucleótidos EMBL
La base de datos de secuencias de nucleótidos EMBL (también conocida como EMBL-Bank) es la sección de la ENA que contiene detalles de ensamblaje del genoma de alto nivel , así como secuencias ensambladas y su anotación funcional . [12] [17] Se contribuye al EMBL-Bank mediante la presentación directa de consorcios de genoma y grupos de investigación más pequeños, así como mediante la recuperación de datos de secuencia asociados con solicitudes de patente . [2] [18]
A partir de la versión 114 (diciembre de 2012), la base de datos de secuencias de nucleótidos EMBL contiene aproximadamente 5 × 10 11 nucleótidos con un contenido sin comprimir de 1,6 terabytes . [dieciséis]
Clases de datos
La base de datos de secuencias de nucleótidos EMBL admite una variedad de datos derivados de diferentes fuentes que incluyen, entre otros: [19]
- Etiquetas de secuencia expresadas con sus datos de muestra asociados.
- Se genera la secuencia de nucleótidos a partir de proyectos de secuenciación del genoma completo en diferentes etapas de ensamblaje, incluidos los contigs completos y la secuencia anotada y completamente ensamblada.
- Datos relacionados con la transcriptómica , como el ADN complementario , con anotación opcional.
- Anotaciones nuevas o ampliadas de secuencias codificantes existentes , por ejemplo, nuevas versiones de secuencia con codones de inicio o parada corregidos .
Formato EMBL-Bank
La base de datos de secuencias de nucleótidos EMBL utiliza un formato de texto plano de archivo plano para representar y almacenar datos que normalmente se conoce como formato EMBL-Bank. [20] El formato EMBL-Bank usa una sintaxis diferente a los registros en DDBJ y GenBank, aunque cada formato usa cierta nomenclatura estandarizada, como las taxonomías definidas por la base de datos NCBI Taxon. Cada línea de un archivo en formato EMBL comienza con un código de dos letras, como para etiquetar el número de acceso y para una lista de palabras clave relevantes para el registro; cada registro termina con . [20]AC
KW
//
Archivo de lectura de secuencia
La ENA opera una instancia de Sequence Read Archive (SRA), un repositorio de archivo de lecturas y análisis de secuencias que están destinados al lanzamiento público. [23] Originalmente llamado Archivo de lectura corta, el nombre se cambió en previsión de que las tecnologías de secuenciación futuras pudieran producir lecturas de secuencia más largas. [24] Actualmente, el archivo acepta lecturas de secuencia generadas por plataformas de secuenciación de próxima generación como Illumina Genome Analyzer y ABI SOLiD , así como algunos análisis y alineaciones correspondientes . [25] La SRA funciona bajo la dirección de la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC) [23] y es el repositorio de más rápido crecimiento en la ENA. [14]
En 2010, el Archivo de Lectura de Secuencia constituía aproximadamente el 95% de los datos de pares de bases disponibles a través de la ENA, [13] que abarca más de 500.000.000.000 de lecturas de secuencias compuestas por más de 60 billones (6 × 10 13 ) de pares de bases. [23] Casi la mitad de estos datos se depositaron en relación con el Proyecto 1000 Genomas [23], en el que los investigadores publicaron sus datos de secuencia en la SRA en tiempo real . [26] En total, en septiembre de 2010, el 65% del archivo de lectura de secuencias era una secuencia genómica humana , y otro 16% se relacionaba con lecturas de secuencias de metagenomas humanos . [23]
El formato de datos preferido para los archivos enviados a la SRA es el formato BAM, que es capaz de almacenar lecturas alineadas y no alineadas. [23] Internamente, la SRA se basa en NCBI SRA Toolkit, que se utiliza en las tres bases de datos miembros del INSDC, para proporcionar compresión de datos flexible , acceso API y conversión a otros formatos como FASTQ . [22]
Acceso a los datos
Se puede acceder a los datos contenidos en la ENA de forma manual o programática a través de la URL REST a través del navegador ENA. Inicialmente limitado al Sequence Read Archive [14], el navegador ENA ahora también brinda acceso al Trace Archive y al EMBL-Bank, lo que permite la recuperación de archivos en una variedad de formatos, incluidos XML , HTML , FASTA y FASTQ. [13] Se puede acceder a los registros individuales utilizando sus números de acceso y se habilitan otras consultas de texto a través del motor de búsqueda EB-eye . [13] Además, las búsquedas basadas en similitudes de secuencia implementadas utilizando gráficos de De Bruijn ofrecen otro método para recuperar registros de la ENA. [14]
La ENA es accesible a través de las API de EBI SOAP y REST, que también ofrecen acceso a otras bases de datos alojadas en EBI, como Ensembl e InterPro . [27]
Almacenamiento
El European Nucleotide Archive maneja grandes volúmenes de datos que representan un importante desafío de almacenamiento. [5] [28] A partir de 2012, los requisitos de almacenamiento de la ENA continúan creciendo exponencialmente , con un tiempo de duplicación de aproximadamente 10 meses. [5] Para gestionar este aumento, la ENA descarta de forma selectiva los datos de la plataforma de secuenciación menos valiosos e implementa estrategias de compresión avanzadas . [23] [29] El conjunto de herramientas de compresión basado en referencias CRAM se desarrolló para ayudar a reducir los requisitos de almacenamiento de ENA. [5] [30]
Fondos
Actualmente, la ENA está financiada conjuntamente por el Laboratorio Europeo de Biología Molecular , la Comisión Europea y el Wellcome Trust . [13] El marco emergente ELIXIR, coordinado por la directora de EBI, Janet Thornton , tiene como objetivo asegurar una infraestructura de financiación europea sostenible para respaldar la disponibilidad continua de bases de datos de ciencias de la vida como la ENA. [29] [31] [32]
Ver también
- Banco de datos de ADN de Japón
- CODIFICAR
- Conjunto de genomas
- GenBank
- RefSeq
- UniGene
Referencias
- ^ a b Cochrane, G .; Akhtar, R .; Aldebert, P .; Althorpe, N .; Baldwin, A .; Bates, K .; Bhattacharyya, S .; Bonfield, J .; Bower, L. (2007). "Prioridades para la captura de datos de trazas, secuencias y anotaciones de nucleótidos en el Archivo de Trazas de Ensembl y la Base de Datos de Secuencias de Nucleótidos EMBL" . Investigación de ácidos nucleicos . 36 (Base de datos): D5 – D12. doi : 10.1093 / nar / gkm1018 . ISSN 0305-1048 . PMC 2238915 . PMID 18039715 .
- ^ a b c EMBL-EBI. "Base de datos de secuencia de nucleótidos EMBL" . Consultado el 8 de enero de 2013 .
- ^ a b Hamm, GH; Cameron, GN (1986). "La biblioteca de datos EMBL" . Investigación de ácidos nucleicos . 14 (1): 5–9. doi : 10.1093 / nar / 14.1.5 . PMC 339348 . PMID 3945550 .
- ^ Cochrane, Guy; Cook, Charles E; Birney, Ewan (2012). "El futuro del archivo de secuencias de ADN" . GigaScience . 1 (1): 2. doi : 10.1186 / 2047-217X-1-2 . ISSN 2047-217X . PMC 3617450 . PMID 23587147 .
- ^ a b c d Cochrane, G .; Alako, B .; Amid, C .; Bower, L .; Cerdeno-Tarraga, A .; Cleland, I .; Gibson, R .; Goodgame, N .; Jang, M. (2012). "Frente al crecimiento en el archivo europeo de nucleótidos" . Investigación de ácidos nucleicos . 41 (D1): D30 – D35. doi : 10.1093 / nar / gks1175 . ISSN 0305-1048 . PMC 3531187 . PMID 23203883 .
- ^ a b Kneale, G .; Kennard, O. (1984). "La biblioteca de datos de secuencia de nucleótidos EMBL". Transacciones de la sociedad bioquímica . 12 (6): 1011–1014. doi : 10.1042 / bst0121011 . PMID 6530028 .
- ^ Cameron, GN (1988). "La biblioteca de datos EMBL" . Investigación de ácidos nucleicos . 16 (5): 1865–1867. doi : 10.1093 / nar / 16.5.1865 . PMC 338182 . PMID 3353226 .
- ^ Fuchs, R .; Stoehr, P .; Rice, P .; Omond, R .; Cameron, G. (1990). "Nuevos servicios de la Biblioteca de datos EMBL" . Investigación de ácidos nucleicos . 18 (15): 4319–4323. doi : 10.1093 / nar / 18.15.4319 . PMC 331247 . PMID 2388823 .
- ^ Kahn, P .; Hazledine, D. (1988). "Nuevo requisito de NAR para el envío de datos a la biblioteca de datos EMBL: información para los autores" . Investigación de ácidos nucleicos . 16 (10): I – IV. PMC 336623 . PMID 16617480 .
- ^ "¿Qué es el Archivo Europeo de Nucleótidos?" . EMBL-EBI . Consultado el 6 de enero de 2013 .
- ^ Rodríguez-Tomé, P .; Stoehr, PJ; Cameron, GN; Flores, TP (1996). "Las bases de datos del Instituto Europeo de Bioinformática (EBI)" . Investigación de ácidos nucleicos . 24 (1): 6–12. doi : 10.1093 / nar / 24.1.6 . PMC 145572 . PMID 8594602 .
- ^ a b Stoesser, G .; Baker, W; Van Den Broek, A; García-Pastor, M; Kanz, C; Kulikova, T; Leinonen, R; Lin, Q; Lombard, V (2003). "La base de datos de secuencias de nucleótidos EMBL: importantes novedades" . Investigación de ácidos nucleicos . 31 (1): 17-22. doi : 10.1093 / nar / gkg021 . ISSN 1362-4962 . PMC 165468 . PMID 12519939 .
- ^ a b c d e f Leinonen R, Akhtar R, Birney E, et al. (Enero de 2011). "El archivo europeo de nucleótidos" . Ácidos nucleicos Res . 39 (Problema de la base de datos): D28–31. doi : 10.1093 / nar / gkq967 . PMC 3013801 . PMID 20972220 .
- ^ a b c d Leinonen, R .; Akhtar, R .; Birney, E .; Bonfield, J .; Bower, L .; Corbett, M .; Cheng, Y .; Demiralp, F .; Faruque, N. (2009). "Mejoras en los servicios del Archivo Europeo de Nucleótidos" . Investigación de ácidos nucleicos . 38 (Base de datos): D39 – D45. doi : 10.1093 / nar / gkp998 . ISSN 0305-1048 . PMC 2808951 . PMID 19906712 .
- ^ EMBL-EBI. "Acerca del archivo europeo de nucleótidos" . Consultado el 7 de enero de 2013 .
- ^ a b "Base de datos de secuencia de nucleótidos EMBL: notas de la versión" . Notas de la versión del EMBL-Bank 114 . EMBL-EBI. Diciembre de 2012. Archivado desde el original el 2 de enero de 2013 . Consultado el 7 de enero de 2013 .
- ^ Amid, C .; Birney, E .; Bower, L .; Cerdeno-Tarraga, A .; Cheng, Y .; Cleland, I .; Faruque, N .; Gibson, R .; Goodgame, N. (2011). "Principales desarrollos de herramientas de presentación en el archivo europeo de nucleótidos" . Investigación de ácidos nucleicos . 40 (D1): D43 – D47. doi : 10.1093 / nar / gkr946 . ISSN 0305-1048 . PMC 3245037 . PMID 22080548 .
- ^ Stoesser, G .; Baker, W; Van Den Broek, A; Camon, E; García-Pastor, M; Kanz, C; Kulikova, T; Leinonen, R; Lin, Q (2002). "La base de datos de secuencias de nucleótidos EMBL" . Investigación de ácidos nucleicos . 30 (1): 21-26. doi : 10.1093 / nar / 30.1.21 . ISSN 1362-4962 . PMC 99098 . PMID 11752244 .
- ^ "Clases de datos de EMBL-Bank" . EBML-EBI. 2012 . Consultado el 8 de enero de 2013 .
- ^ a b "EMBL-Bank User Manual (Release 129)" (Texto sin formato) . EMBL-EBI. Septiembre de 2016 . Consultado el 3 de noviembre de 2016 .
- ^ "Descripción general de NCBI SRA" . NCBI. 1 de enero de 2013. Archivado desde el original el 8 de febrero de 2013 . Consultado el 8 de enero de 2013 .
- ^ a b Kodama, Y .; Shumway, M .; Leinonen, R. (2011). "El archivo de lectura de secuencia: crecimiento explosivo de datos de secuenciación" . Investigación de ácidos nucleicos . 40 (D1): D54 – D56. doi : 10.1093 / nar / gkr854 . ISSN 0305-1048 . PMC 3245110 . PMID 22009675 .
- ^ a b c d e f g Leinonen R, Sugawara H, Shumway M (enero de 2011). "La secuencia de lectura del archivo" . Ácidos nucleicos Res . 39 (Problema de la base de datos): D19–21. doi : 10.1093 / nar / gkq1019 . PMC 3013647 . PMID 21062823 .
- ^ Ostell, Jim (2009). "Archivo de lectura de secuencia de NCBI: una infraestructura de habilitación central" . Bio IT World . Consultado el 8 de enero de 2013 .
- ^ "Acerca del archivo de lectura de secuencia de NCBI" . NCBI. 8 de enero de 2013. Archivado desde el original el 19 de abril de 2013 . Consultado el 10 de enero de 2013 .
- ^ Shumway, M .; Cochrane, G .; Sugawara, H. (2009). "Archivado de datos de secuenciación de próxima generación" . Investigación de ácidos nucleicos . 38 (Base de datos): D870 – D871. doi : 10.1093 / nar / gkp1078 . ISSN 0305-1048 . PMC 2808927 . PMID 19965774 .
- ^ Mcwilliam, H .; Valentin, F .; Goujon, M .; Li, W .; Narayanasamy, M .; Martin, J .; Miyar, T .; López, R. (2009). "Servicios web en el Instituto Europeo de Bioinformática-2009" . Investigación de ácidos nucleicos . 37 (servidor web): W6 – W10. doi : 10.1093 / nar / gkp302 . ISSN 0305-1048 . PMC 2703973 . PMID 19435877 .
- ^ Cochrane, G .; Akhtar, R .; Bonfield, J .; Bower, L .; Demiralp, F .; Faruque, N .; Gibson, R .; Hoad, G .; Hubbard, T. (2009). "Innovaciones a escala de petabytes en el archivo europeo de nucleótidos" . Investigación de ácidos nucleicos . 37 (Base de datos): D19 – D25. doi : 10.1093 / nar / gkn765 . ISSN 0305-1048 . PMC 2686451 . PMID 18978013 .
- ^ a b "EMBL-EBI seguirá admitiendo el archivo de lectura de secuencia para datos sin procesar" (PDF) . Comunicado de prensa . EMBL-EBI. 16 de febrero de 2011. Archivado desde el original (PDF) el 15 de mayo de 2011 . Consultado el 7 de enero de 2013 .
- ^ Hsi-Yang Fritz, M .; Leinonen, R .; Cochrane, G .; Birney, E. (2011). "Almacenamiento eficiente de datos de secuenciación de ADN de alto rendimiento mediante compresión basada en referencias" . Investigación del genoma . 21 (5): 734–740. doi : 10.1101 / gr.114819.110 . ISSN 1088-9051 . PMC 3083090 . PMID 21245279 .
- ^ "Sobre ELIXIR" . ELIXIR . Consultado el 9 de enero de 2013 .
- ^ Crosswell, Lindsey C .; Thornton, Janet M. (2012). "ELIXIR: una infraestructura distribuida para datos biológicos europeos". Tendencias en biotecnología . 30 (5): 241–242. doi : 10.1016 / j.tibtech.2012.02.002 . ISSN 0167-7799 . PMID 22417641 .
enlaces externos
- Archivo europeo de nucleótidos
- Base de datos de secuencias de nucleótidos EMBL
- Archivo europeo de nucleótidos: recorrido rápido