De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

La base de datos de secuencias de GenBank es una colección anotada de acceso abierto de todas las secuencias de nucleótidos disponibles públicamente y sus traducciones de proteínas . Es producido y mantenido por el Centro Nacional de Información Biotecnológica (NCBI; una parte de los Institutos Nacionales de Salud de los Estados Unidos ) como parte de la Colaboración Internacional de Base de Datos de Secuencias de Nucleótidos (INSDC).

GenBank y sus colaboradores reciben secuencias producidas en laboratorios de todo el mundo a partir de más de 100.000 organismos distintos . La base de datos comenzó en 1982 por Walter Goad y el Laboratorio Nacional de Los Alamos . GenBank se ha convertido en una base de datos importante para la investigación en campos biológicos y ha crecido en los últimos años a un ritmo exponencial al duplicarse aproximadamente cada 18 meses. [2] [3]

La versión 242.0, producida en febrero de 2021, contenía más de 12 billones de bases de nucleótidos en más de 2 mil millones de secuencias. [4] GenBank se crea mediante presentaciones directas de laboratorios individuales, así como a partir de presentaciones masivas de centros de secuenciación a gran escala .

Envíos [ editar ]

Solo se pueden enviar secuencias originales a GenBank. Las presentaciones directas se realizan a GenBank utilizando BankIt , que es un formulario basado en la web, o el programa de presentación independiente, Sequin . Al recibir una presentación de secuencia, el personal de GenBank examina la originalidad de los datos, asigna un número de acceso a la secuencia y realiza controles de garantía de calidad. A continuación, los envíos se envían a la base de datos pública, donde Entrez puede recuperar las entradas o descargarlas mediante FTP . Envíos masivos de etiqueta de secuencia expresada (EST), sitio etiquetado de secuencia (STS), secuencia de estudio del genoma (GSS) yLos datos de la secuencia del genoma de alto rendimiento (HTGS) suelen ser enviados por centros de secuenciación a gran escala. El grupo de presentaciones directas de GenBank también procesa secuencias completas del genoma microbiano.

Historia [ editar ]

Walter Goad de la Biología Teórica y del Grupo de Biofísica en el Laboratorio Nacional de Los Alamos y otros establecieron la base de datos de secuencias de Los Alamos en 1979, que culminó en 1982 con la creación del GenBank público. [5] La financiación fue proporcionada por los Institutos Nacionales de Salud , la Fundación Nacional de Ciencias, el Departamento de Energía y el Departamento de Defensa. LANL colaboró ​​en GenBank con la firma Bolt, Beranek y Newman , y a fines de 1983 se almacenaron en él más de 2.000 secuencias.

A mediados de la década de 1980, la empresa de bioinformática Intelligenetics de la Universidad de Stanford gestionó el proyecto GenBank en colaboración con LANL. [6] Como uno de los primeros proyectos comunitarios de bioinformática en Internet, el proyecto GenBank inició grupos de noticias BIOSCI / Bionet para promover las comunicaciones de acceso abierto entre los biocientíficos. Durante 1989 a 1992, el proyecto GenBank pasó al recién creado Centro Nacional de Información Biotecnológica . [7]

Genbank y EMBL: NucleotideSequences 1986/1987 Volúmenes I a VII.
CDRom de Genbank v100

Crecimiento [ editar ]

Crecimiento de pares de bases de GenBank, 1982 a 2018, en una escala semilogarítmica

Las notas de la versión de GenBank para la versión 162.0 (octubre de 2007) establecen que "desde 1982 hasta el presente, el número de bases en GenBank se ha duplicado aproximadamente cada 18 meses". [4] [8] Desde el 15 de junio de 2019 , la versión 232.0 de GenBank tiene 213,383,758 loci , 329,835,282,370 bases, de 213,383,758 secuencias reportadas. [4]

La base de datos de GenBank incluye conjuntos de datos adicionales que se construyen mecánicamente a partir de la recopilación de datos de la secuencia principal y, por lo tanto, se excluyen de este recuento.

Identificaciones incompletas [ editar ]

Las bases de datos públicas en las que se pueden realizar búsquedas utilizando la herramienta de búsqueda de alineación local básica del Centro Nacional de Información Biotecnológica (NCBI BLAST) carecen de secuencias revisadas por pares de cepas tipo y secuencias de cepas no tipo. Por otro lado, aunque las bases de datos comerciales contienen potencialmente datos de secuencia filtrados de alta calidad, hay un número limitado de secuencias de referencia.

Un artículo publicado en el Journal of Clinical Microbiology [10] evaluó los resultados de la secuenciación del gen 16S rRNA analizados con GenBank junto con otras bases de datos públicas basadas en la web, de calidad controlada y disponibles gratuitamente, como EzTaxon -e [11] y Bases de datos BIBI [12] . Los resultados mostraron que los análisis realizados usando GenBank combinado con EzTaxon -e (kappa = 0.79) fueron más discriminativos que usando GenBank (kappa = 0.66) u otras bases de datos por sí solas.

Ver también [ editar ]

  • Ensembl
  • Base de datos de referencia de proteínas humanas (HPRD)
  • Análisis de secuencia
  • UniProt
  • Lista de genomas eucariotas secuenciados
  • Lista de genomas de arqueas secuenciados
  • RefSeq : la base de datos de secuencias de referencia
  • Geneious : incluye una herramienta de envío de GenBank
  • Datos científicos abiertos

Referencias [ editar ]

  1. ^ La página de descarga de UCSC dice " NCBI no impone restricciones al uso o distribución de los datos de GenBank. Sin embargo, algunos remitentes pueden reclamar patentes , derechos de autor u otros derechos de propiedad intelectual sobre todos o una parte de los datos que han enviado. NCBI no está en posición de evaluar la validez de tales afirmaciones y, por lo tanto, no puede proporcionar comentarios o permisos irrestrictos con respecto al uso, copia o distribución de la información contenida en GenBank ".
  2. ^ Benson D; Karsch-Mizrachi, I .; Lipman, DJ; Ostell, J .; Wheeler, DL; et al. (2008). "GenBank" . Investigación de ácidos nucleicos . 36 (Base de datos): D25 – D30. doi : 10.1093 / nar / gkm929 . PMC 2238942 . PMID 18073190 .  
  3. ^ Benson D; Karsch-Mizrachi, I .; Lipman, DJ; Ostell, J .; Sayers, EW; et al. (2009). "GenBank" . Investigación de ácidos nucleicos . 37 (Base de datos): D26 – D31. doi : 10.1093 / nar / gkn723 . PMC 2686462 . PMID 18940867 .  
  4. ^ a b c "Notas de la versión de GenBank" . NCBI.
  5. Hanson, Todd (21 de noviembre de 2000). "Muere Walter Goad, fundador de GenBank" . Boletín de noticias: obituario . Laboratorio Nacional de Los Alamos.
  6. ^ Historia de LANL GenBank
  7. ^ Benton D (1990). "Cambios recientes en el Servicio On-line de GenBank" . Investigación de ácidos nucleicos . 18 (6): 1517-1520. doi : 10.1093 / nar / 18.6.1517 . PMC 330520 . PMID 2326192 .  
  8. ^ Benson, DA; Cavanaugh, M .; Clark, K .; Karsch-Mizrachi, I .; Lipman, DJ; Ostell, J .; Sayers, EW (2012). "GenBank" . Investigación de ácidos nucleicos . 41 (Problema de la base de datos): D36 – D42. doi : 10.1093 / nar / gks1195 . PMC 3531190 . PMID 23193287 .  
  9. ^ Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (enero de 2011). "GenBank" . Ácidos nucleicos Res . 39 (Problema de la base de datos): D32–37. doi : 10.1093 / nar / gkq1079 . PMC 3013681 . PMID 21071399 .  
  10. ^ Kyung Sun Parka, Chang-Seok Kia, Cheol-In Kangb, Yae-Jean Kimc, Doo Ryeon Chungb, Kyong Ran Peckb, Jae-Hoon Songb y Nam Yong Lee (mayo de 2012). "Evaluación de los servicios GenBank, EzTaxon y BIBI para la identificación molecular de aislados de hemocultivos clínicos que no eran identificables o estaban mal identificados por métodos convencionales" . J. Clin. Microbiol . 50 (5): 1792-1795. doi : 10.1128 / JCM.00081-12 . PMC 3347139 . PMID 22403421 .  Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
  11. ^ EzTaxon-e Database eztaxon-e.ezbiocloud.net (archivo consultado el 25 de marzo de 2021)
  12. ^ leBIBI V5 pbil.univ-lyon1.fr (archivo consultado el 25 de marzo de 2021)
  •  Este artículo incorpora  material de dominio público del documento del Centro Nacional de Información Biotecnológica : "Manual del NCBI" .


Enlaces externos [ editar ]

  • GenBank
  • Ejemplo de registro de secuencia, para hemoglobina beta
  • BankIt
  • Sequin : una herramienta de software independiente desarrollada por NCBI para enviar y actualizar entradas a la base de datos de secuencias de GenBank.
  • EMBOSS : software de código abierto gratuito para biología molecular
  • GenBank, RefSeq, TPA y UniProt: ¿Qué hay en un nombre?