El proyecto Generic Model Organism Database ( GMOD ) proporciona a las comunidades de investigación biológica un conjunto de herramientas de componentes de software de código abierto para visualizar, anotar, administrar y almacenar datos biológicos. El proyecto GMOD está financiado por los Institutos Nacionales de Salud de los Estados Unidos , la Fundación Nacional de Ciencias y el Servicio de Investigación Agrícola del USDA .
Historia
El proyecto GMOD se inició a principios de la década de 2000 como una colaboración entre varias bases de datos de organismos modelo (MOD) que compartían la necesidad de crear herramientas de software similares para procesar datos de proyectos de secuenciación. Las MOD, o bases de datos específicas de organismos , describen el genoma y otra información sobre organismos experimentales importantes en las ciencias de la vida y capturan los grandes volúmenes de datos e información que genera la biología moderna . En lugar de que cada grupo diseñara su propio software, cuatro MOD principales ( FlyBase , Saccharomyces Genome Database , Mouse Genome Database y WormBase) trabajaron juntos para crear aplicaciones que brindan la funcionalidad necesaria para todos los MOD, como el software para ayudar a administrar los datos dentro de la MOD, y para ayudar a los usuarios a acceder y consultar los datos.
El proyecto GMOD trabaja para mantener la interoperabilidad de los componentes del software. Con este fin, muchas de las herramientas utilizan un formato de archivo de entrada / salida común o se ejecutan en una base de datos de esquema Chado.
Esquema de base de datos de Chado
El esquema de Chado [1] tiene como objetivo cubrir muchas de las clases de datos utilizados con frecuencia por los biólogos modernos, desde datos genéticos hasta árboles filogenéticos, publicaciones, organismos, datos de microarreglos, identificaciones y expresión de ARN / proteínas. Chado hace un uso extensivo de vocabularios controlados para escribir todas las entidades en la base de datos; por ejemplo: genes, transcripciones, exones, elementos transponibles, etc., se almacenan en una tabla de características, con el tipo proporcionado por Sequence Ontology . Cuando se agrega un nuevo tipo a la ontología de secuencia, la tabla de características no requiere modificación, solo una actualización de los datos en la base de datos. Lo mismo ocurre en gran medida con los datos de análisis que también se pueden almacenar en Chado.
Los módulos centrales existentes de Chado son:
- secuencia - para secuencias / características
- cv - para ontologías / vocabulario controlado
- general - actualmente solo dbxrefs
- organismo - datos taxonómicos
- pub - publicación y referencias
- companalysis - módulo de secuencia de aumentos con datos de análisis computacional
- mapa - mapas sin secuencia
- genéticos - datos genéticos y fenotípicos
- expresión - expresión genética
- diversidad natural - datos de población
Software
La lista completa de componentes de software de GMOD se encuentra en la página Componentes de GMOD. Estos componentes incluyen:
|
|
Bases de datos participantes
Las siguientes bases de datos de organismos están contribuyendo y / o adoptando componentes de GMOD para bases de datos de organismos modelo.
ANÍS | AntonosporaDB | Arabidopsis |
Beebase | BeetleBase [4] | Base de datos del genoma bovino (BGD) |
BioHealthBase | Visor QTL bovino | Base de datos de familias de genes EST de ganado |
CGD | CGL | ChromDB |
Proyecto de anotación del cromosoma 7 | CSHLmpd | Base de datos de variantes genómicas |
DictyBase [5] | DroSpeGe | EcoCyc |
FlyBase | Genómica comparativa de hongos | Navegador de telómeros fúngicos |
Navegador del genoma de Gallus | GeneDB | GrainGenes |
Gramene | HapMap | Humano 2q33 |
Base de datos de duplicación segmentaria del genoma humano | IVDB | LOS REYES MAGOS |
Bases de datos de organismos de laboratorio biológico marino | Informática del genoma del ratón | Base de datos de duplicación segmentaria no humana |
OMAP | OryGenesDB | Cromosoma 8 de Oryza |
Herramientas de ruta | ParameciumDB [6] | ManíMapa |
PlantsDB | PlasmoDB | PomBase |
PseudoCAP | PossumBase | PUMAdb |
Base de datos del genoma de ratas | Base de datos del genoma de Saccharomyces | SGD Lite |
SmedDB | Red de Sol Genomics | Base de soja |
Base de datos de soja Gbrowse | T1DBase | El recurso de información de Arabidopsis |
TGD | El Instituto del Genoma | El Instituto de Investigaciones Genómicas |
Navegador del genoma de arroz TIGR | ToxoDB | Visor TriAnnot BAC |
VectorBase | wFleaBase [7] | WormBase |
XanthusBase | Xenbase |
Proyectos relacionados
Ver también
- Base de datos biológica
- Proyecto genoma
- Genómica
- Genoma
- Genome Compiler : una plataforma de software todo en uno para el diseño y visualización de ADN, la gestión de datos y la colaboración.
Referencias
- ^ Christopher J. Mungall; David B. Emmert; El consorcio FlyBase (2007). "Un estudio de caso de Chado: un esquema modular basado en ontología para representar información biológica asociada al genoma" . Bioinformática . 23 (13): i337 – i346. doi : 10.1093 / bioinformatics / btm189 . PMID 17646315 .
- ^ Stein LD; Mungall C; Shu S; Caudy M; Mangone M; Día A; Nickerson E; Stajich JE; Harris TW; Arva A; Lewis S. (2002). "El navegador del genoma genérico: un bloque de construcción para una base de datos del sistema del organismo modelo" . Genome Res . 12 (10): 1599–610. doi : 10.1101 / gr.403602 . PMC 187535 . PMID 12368253 .
- ^ Afgan, E .; Baker, D .; van den Beek, M .; Blankenberg, D .; Bouvier, D .; Čech, M .; Chilton, J .; Clements, D .; Coraor, N .; Eberhard, C .; Grüning, B .; Guerler, A .; Hillman-Jackson, J .; Von Kuster, G .; Rasche, E .; Soranzo, N .; Turaga, N .; Taylor, J .; Nekrutenko, A .; Goecks, J. (8 de julio de 2016). "La plataforma Galaxy para análisis biomédicos accesibles, reproducibles y colaborativos: actualización de 2016" . Investigación de ácidos nucleicos . 44 (W1): W3 – W10. doi : 10.1093 / nar / gkw343 . PMC 4987906 . PMID 27137889 .
- ^ Wang L; Wang S; Li Y; Paradesi MS; Brown SJ. (2007). "BeetleBase: la base de datos de organismos modelo para Tribolium castaneum" . Ácidos nucleicos Res . 35 (Problema de la base de datos): D476–9. doi : 10.1093 / nar / gkl776 . PMC 1669707 . PMID 17090595 .
- ^ Chisholm RL; Gaudet P; Solo EM; Pilcher KE; Fey P; Comerciante SN; Kibbe WA. (2006). "dictyBase, la base de datos de organismos modelo para Dictyostelium discoideum" . Ácidos nucleicos Res . 34 (Problema de la base de datos): D423–7. doi : 10.1093 / nar / gkj090 . PMC 1347453 . PMID 16381903 .
- ^ Arnaiz O; Cain S; Cohen J; Sperling L. (2007). "ParameciumDB: un recurso comunitario que integra la secuencia del genoma de Paramecium tetraurelia con datos genéticos" . Ácidos nucleicos Res . 35 (Problema de la base de datos): D439–44. doi : 10.1093 / nar / gkl777 . PMC 1669747 . PMID 17142227 .
- ^ Colbourne JK; Singan VR; Gilbert DG. (2005). "wFleaBase: la base de datos del genoma de Daphnia" . BMC Bioinformática . 6 : 45. doi : 10.1186 / 1471-2105-6-45 . PMC 555599 . PMID 15752432 .
enlaces externos
- Sitio web de GMOD