Base de datos genérica de organismos modelo

El proyecto Generic Model Organism Database ( GMOD ) proporciona a las comunidades de investigación biológica un conjunto de herramientas de componentes de software de código abierto para visualizar, anotar, administrar y almacenar datos biológicos. El proyecto GMOD está financiado por los Institutos Nacionales de Salud de los Estados Unidos , la Fundación Nacional de Ciencias y el Servicio de Investigación Agrícola del USDA .

Logotipo del proyecto de base de datos de organismos modelo genérico

Historia

El proyecto GMOD se inició a principios de la década de 2000 como una colaboración entre varias bases de datos de organismos modelo (MOD) que compartían la necesidad de crear herramientas de software similares para procesar datos de proyectos de secuenciación. Las MOD, o bases de datos específicas de organismos , describen el genoma y otra información sobre organismos experimentales importantes en las ciencias de la vida y capturan los grandes volúmenes de datos e información que genera la biología moderna . En lugar de que cada grupo diseñara su propio software, cuatro MOD principales ( FlyBase , Saccharomyces Genome Database , Mouse Genome Database y WormBase) trabajaron juntos para crear aplicaciones que brindan la funcionalidad necesaria para todos los MOD, como el software para ayudar a administrar los datos dentro de la MOD, y para ayudar a los usuarios a acceder y consultar los datos.

El proyecto GMOD trabaja para mantener la interoperabilidad de los componentes del software. Con este fin, muchas de las herramientas utilizan un formato de archivo de entrada / salida común o se ejecutan en una base de datos de esquema Chado.

Esquema de base de datos de Chado

El esquema de Chado ^[1] tiene como objetivo cubrir muchas de las clases de datos utilizados con frecuencia por los biólogos modernos, desde datos genéticos hasta árboles filogenéticos, publicaciones, organismos, datos de microarreglos, identificaciones y expresión de ARN / proteínas. Chado hace un uso extensivo de vocabularios controlados para escribir todas las entidades en la base de datos; por ejemplo: genes, transcripciones, exones, elementos transponibles, etc., se almacenan en una tabla de características, con el tipo proporcionado por Sequence Ontology . Cuando se agrega un nuevo tipo a la ontología de secuencia, la tabla de características no requiere modificación, solo una actualización de los datos en la base de datos. Lo mismo ocurre en gran medida con los datos de análisis que también se pueden almacenar en Chado.

Los módulos centrales existentes de Chado son:

secuencia - para secuencias / características
cv - para ontologías / vocabulario controlado
general - actualmente solo dbxrefs
organismo - datos taxonómicos
pub - publicación y referencias
companalysis - módulo de secuencia de aumentos con datos de análisis computacional
mapa - mapas sin secuencia
genéticos - datos genéticos y fenotípicos
expresión - expresión genética
diversidad natural - datos de población

Software

La lista completa de componentes de software de GMOD se encuentra en la página Componentes de GMOD. Estos componentes incluyen:

GMOD Core (base de datos y herramientas de Chado)
- Chado: el esquema de Chado y las herramientas para instalarlo.
- XORT: una herramienta para cargar y descargar chado-xml
- GMODTools: extrae datos de una base de datos de Chado en formatos comunes de genoma masivo (GFF, Fasta, etc.)
Sitio web de MOD
- Tripal: una interfaz web basada en Drupal .
Edición y visualización del genoma
- Apollo: una aplicación Java para ver y editar anotaciones del genoma
- GBrowse: una aplicación CGI para mostrar anotaciones del genoma ^[2]
- JBrowse: una aplicación de JavaScript para mostrar anotaciones del genoma
- Pathway Tools : un navegador del genoma con un modo comparativo
Genómica comparada
- GBrowse_syn: un visor de synteny basado en GBrowse
- CMap: una aplicación CGI para mostrar mapas comparativos
Curaduría de literatura
- Textpresso: un sistema de minería de textos para literatura científica
Herramientas de consulta de bases de datos
- BioMart : un sistema de gestión de datos orientado a consultas
- InterMine : sistema de almacenamiento de datos de código abierto
Vías biológicas
- Pathway Tools: herramientas para la información de las vías metabólicas y el análisis de datos genómicos funcionales de alto rendimiento
Redes reguladoras
- Pathway Tools: admite la definición de interacciones regulatorias y la exploración de redes regulatorias
Análisis
- Galaxy ^[3]
- FABRICANTE

Bases de datos participantes

Las siguientes bases de datos de organismos están contribuyendo y / o adoptando componentes de GMOD para bases de datos de organismos modelo.

ANÍS	AntonosporaDB	Arabidopsis
Beebase	BeetleBase ^[4]	Base de datos del genoma bovino (BGD)
BioHealthBase	Visor QTL bovino	Base de datos de familias de genes EST de ganado
CGD	CGL	ChromDB
Proyecto de anotación del cromosoma 7	CSHLmpd	Base de datos de variantes genómicas
DictyBase ^[5]	DroSpeGe	EcoCyc
FlyBase	Genómica comparativa de hongos	Navegador de telómeros fúngicos
Navegador del genoma de Gallus	GeneDB	GrainGenes
Gramene	HapMap	Humano 2q33
Base de datos de duplicación segmentaria del genoma humano	IVDB	LOS REYES MAGOS
Bases de datos de organismos de laboratorio biológico marino	Informática del genoma del ratón	Base de datos de duplicación segmentaria no humana
OMAP	OryGenesDB	Cromosoma 8 de Oryza
Herramientas de ruta	ParameciumDB ^[6]	ManíMapa
PlantsDB	PlasmoDB	PomBase
PseudoCAP	PossumBase	PUMAdb
Base de datos del genoma de ratas	Base de datos del genoma de Saccharomyces	SGD Lite
SmedDB	Red de Sol Genomics	Base de soja
Base de datos de soja Gbrowse	T1DBase	El recurso de información de Arabidopsis
TGD	El Instituto del Genoma	El Instituto de Investigaciones Genómicas
Navegador del genoma de arroz TIGR	ToxoDB	Visor TriAnnot BAC
VectorBase	wFleaBase ^[7]	WormBase
XanthusBase	Xenbase

Proyectos relacionados

Bioperl , BioJava , Biopython , BioRuby , etc.
Ensembl
Ontología de genes
DAS
Esquema unificado de genómica
Manatee: herramienta de anotación manual
Biocurator.org
Ontologías biomédicas abiertas
Proyecto Sequence Ontology

Ver también

Base de datos biológica
Proyecto genoma
Genómica
Genoma
Genome Compiler : una plataforma de software todo en uno para el diseño y visualización de ADN, la gestión de datos y la colaboración.

Referencias

^ Christopher J. Mungall; David B. Emmert; El consorcio FlyBase (2007). "Un estudio de caso de Chado: un esquema modular basado en ontología para representar información biológica asociada al genoma" . Bioinformática . 23 (13): i337 – i346. doi : 10.1093 / bioinformatics / btm189 . PMID 17646315 .
^ Stein LD; Mungall C; Shu S; Caudy M; Mangone M; Día A; Nickerson E; Stajich JE; Harris TW; Arva A; Lewis S. (2002). "El navegador del genoma genérico: un bloque de construcción para una base de datos del sistema del organismo modelo" . Genome Res . 12 (10): 1599–610. doi : 10.1101 / gr.403602 . PMC 187535 . PMID 12368253 .
^ Afgan, E .; Baker, D .; van den Beek, M .; Blankenberg, D .; Bouvier, D .; Čech, M .; Chilton, J .; Clements, D .; Coraor, N .; Eberhard, C .; Grüning, B .; Guerler, A .; Hillman-Jackson, J .; Von Kuster, G .; Rasche, E .; Soranzo, N .; Turaga, N .; Taylor, J .; Nekrutenko, A .; Goecks, J. (8 de julio de 2016). "La plataforma Galaxy para análisis biomédicos accesibles, reproducibles y colaborativos: actualización de 2016" . Investigación de ácidos nucleicos . 44 (W1): W3 – W10. doi : 10.1093 / nar / gkw343 . PMC 4987906 . PMID 27137889 .
^ Wang L; Wang S; Li Y; Paradesi MS; Brown SJ. (2007). "BeetleBase: la base de datos de organismos modelo para Tribolium castaneum" . Ácidos nucleicos Res . 35 (Problema de la base de datos): D476–9. doi : 10.1093 / nar / gkl776 . PMC 1669707 . PMID 17090595 .
^ Chisholm RL; Gaudet P; Solo EM; Pilcher KE; Fey P; Comerciante SN; Kibbe WA. (2006). "dictyBase, la base de datos de organismos modelo para Dictyostelium discoideum" . Ácidos nucleicos Res . 34 (Problema de la base de datos): D423–7. doi : 10.1093 / nar / gkj090 . PMC 1347453 . PMID 16381903 .
^ Arnaiz O; Cain S; Cohen J; Sperling L. (2007). "ParameciumDB: un recurso comunitario que integra la secuencia del genoma de Paramecium tetraurelia con datos genéticos" . Ácidos nucleicos Res . 35 (Problema de la base de datos): D439–44. doi : 10.1093 / nar / gkl777 . PMC 1669747 . PMID 17142227 .
^ Colbourne JK; Singan VR; Gilbert DG. (2005). "wFleaBase: la base de datos del genoma de Daphnia" . BMC Bioinformática . 6 : 45. doi : 10.1186 / 1471-2105-6-45 . PMC 555599 . PMID 15752432 .

enlaces externos

Sitio web de GMOD

[1] Christopher J. Mungall; David B. Emmert; El consorcio FlyBase (2007). "Un estudio de caso de Chado: un esquema modular basado en ontología para representar información biológica asociada al genoma" . Bioinformática . 23 (13): i337 – i346. doi : 10.1093 / bioinformatics / btm189 . PMID 17646315 .

[2] Stein LD; Mungall C; Shu S; Caudy M; Mangone M; Día A; Nickerson E; Stajich JE; Harris TW; Arva A; Lewis S. (2002). "El navegador del genoma genérico: un bloque de construcción para una base de datos del sistema del organismo modelo" . Genome Res . 12 (10): 1599–610. doi : 10.1101 / gr.403602 . PMC 187535 . PMID 12368253 .

[3] Afgan, E .; Baker, D .; van den Beek, M .; Blankenberg, D .; Bouvier, D .; Čech, M .; Chilton, J .; Clements, D .; Coraor, N .; Eberhard, C .; Grüning, B .; Guerler, A .; Hillman-Jackson, J .; Von Kuster, G .; Rasche, E .; Soranzo, N .; Turaga, N .; Taylor, J .; Nekrutenko, A .; Goecks, J. (8 de julio de 2016). "La plataforma Galaxy para análisis biomédicos accesibles, reproducibles y colaborativos: actualización de 2016" . Investigación de ácidos nucleicos . 44 (W1): W3 – W10. doi : 10.1093 / nar / gkw343 . PMC 4987906 . PMID 27137889 .

[4] Wang L; Wang S; Li Y; Paradesi MS; Brown SJ. (2007). "BeetleBase: la base de datos de organismos modelo para Tribolium castaneum" . Ácidos nucleicos Res . 35 (Problema de la base de datos): D476–9. doi : 10.1093 / nar / gkl776 . PMC 1669707 . PMID 17090595 .

[5] Chisholm RL; Gaudet P; Solo EM; Pilcher KE; Fey P; Comerciante SN; Kibbe WA. (2006). "dictyBase, la base de datos de organismos modelo para Dictyostelium discoideum" . Ácidos nucleicos Res . 34 (Problema de la base de datos): D423–7. doi : 10.1093 / nar / gkj090 . PMC 1347453 . PMID 16381903 .

[6] Arnaiz O; Cain S; Cohen J; Sperling L. (2007). "ParameciumDB: un recurso comunitario que integra la secuencia del genoma de Paramecium tetraurelia con datos genéticos" . Ácidos nucleicos Res . 35 (Problema de la base de datos): D439–44. doi : 10.1093 / nar / gkl777 . PMC 1669747 . PMID 17142227 .

[7] Colbourne JK; Singan VR; Gilbert DG. (2005). "wFleaBase: la base de datos del genoma de Daphnia" . BMC Bioinformática . 6 : 45. doi : 10.1186 / 1471-2105-6-45 . PMC 555599 . PMID 15752432 .

[1]