De Wikipedia, la enciclopedia libre
  (Redirigido desde Ensembl )
Saltar a navegación Saltar a búsqueda

El proyecto de base de datos del genoma Ensembl es un proyecto científico del Instituto Europeo de Bioinformática , que se lanzó en 1999 en respuesta a la inminente finalización del Proyecto Genoma Humano . [2] Ensembl tiene como objetivo proporcionar un recurso centralizado para genetistas, biólogos moleculares y otros investigadores que estudian los genomas de nuestra propia especie y otros vertebrados y organismos modelo . [3] Ensembl es uno de varios navegadores genómicos conocidos para la recuperación de información genómica .

Se encuentran bases de datos y navegadores similares en NCBI y la Universidad de California, Santa Cruz (UCSC) .

Antecedentes [ editar ]

El genoma humano consta de tres mil millones de pares de bases , que codifican aproximadamente entre 20 000 y 25 000 genes . Sin embargo, el genoma por sí solo es de poca utilidad, a menos que se puedan identificar las ubicaciones y relaciones de genes individuales. Una opción es la anotación manual , mediante la cual un equipo de científicos intenta localizar genes utilizando datos experimentales de revistas científicas y bases de datos públicas. Sin embargo, esta es una tarea lenta y laboriosa. La alternativa, conocida como anotación automatizada, es utilizar el poder de las computadoras para hacer la compleja combinación de patrones de proteína con ADN . [ cita requerida ]

En el proyecto Ensembl, los datos de secuencia se introducen en el sistema de anotación de genes (una colección de "pipelines" de software escritos en Perl ) que crea un conjunto de ubicaciones de genes predichas y las guarda en una base de datos MySQL para su posterior análisis y visualización. Ensembl hace que estos datos sean de libre acceso para la comunidad investigadora mundial. Todos los datos y códigos producidos por el proyecto Ensembl están disponibles para descargar, [4] y también hay un servidor de base de datos de acceso público que permite el acceso remoto. Además, el sitio web de Ensembl ofrece presentaciones visuales generadas por computadora de gran parte de los datos.

Con el tiempo, el proyecto se ha ampliado para incluir especies adicionales (incluidos organismos modelo clave como el ratón , la mosca de la fruta y el pez cebra ), así como una gama más amplia de datos genómicos, incluidas variaciones genéticas y características reguladoras. Desde abril de 2009, un proyecto hermano, Ensembl Genomes , ha ampliado el alcance de Ensembl a metazoos invertebrados , plantas , hongos , bacterias y protistas , mientras que el proyecto original sigue centrándose en los vertebrados.

Visualización de datos genómicos [ editar ]

Gen SGCB alineado con el genoma humano

Un elemento central del concepto Ensembl es la capacidad de generar automáticamente vistas gráficas de la alineación de genes y otros datos genómicos frente a un genoma de referencia . Estos se muestran como pistas de datos, y las pistas individuales se pueden activar y desactivar, lo que permite al usuario personalizar la pantalla para que se adapte a sus intereses de investigación. La interfaz también permite al usuario acercarse a una región o moverse a lo largo del genoma en cualquier dirección.

Otras pantallas muestran datos en diferentes niveles de resolución, desde cariotipos completos hasta representaciones basadas en texto de secuencias de ADN y aminoácidos , o presentan otros tipos de visualización, como árboles de genes similares ( homólogos ) en una variedad de especies. Los gráficos se complementan con pantallas tabulares y, en muchos casos, los datos se pueden exportar directamente desde la página en una variedad de formatos de archivo estándar, como FASTA .

Los datos producidos externamente también se pueden agregar a la pantalla cargando un archivo adecuado en uno de los formatos admitidos, como BAM , BED o PSL .

Los gráficos se generan utilizando un conjunto de módulos personalizados de Perl basados ​​en GD , la biblioteca de visualización de gráficos estándar de Perl.

Métodos de acceso alternativos [ editar ]

Además de su sitio web, Ensembl proporciona una API REST y una API Perl [5] (Interfaz de programación de aplicaciones) que modela objetos biológicos como genes y proteínas, lo que permite escribir scripts simples para recuperar datos de interés. La interfaz web utiliza la misma API internamente para mostrar los datos. Se divide en secciones como la API central, la API de comparación (para datos de genómica comparativa), la API de variación (para acceder a SNP, SNV, CNV ...) y la API de genómica funcional (para acceder a datos regulatorios). El sitio web de Ensembl proporciona una amplia información sobre cómo instalar y utilizar la API .

Este software se puede utilizar para acceder a la base de datos pública MySQL , evitando la necesidad de descargar enormes conjuntos de datos. Los usuarios incluso podrían optar por recuperar datos de MySQL con consultas SQL directas, pero esto requiere un amplio conocimiento del esquema de base de datos actual.

Se pueden recuperar grandes conjuntos de datos utilizando la herramienta de minería de datos BioMart . Proporciona una interfaz web para descargar conjuntos de datos mediante consultas complejas.

Por último, hay un servidor FTP que se puede utilizar para descargar bases de datos MySQL completas, así como algunos conjuntos de datos seleccionados en otros formatos.

Especies actuales [ editar ]

Los genomas anotados incluyen la mayoría de vertebrados completamente secuenciados y organismos modelo seleccionados. Todos ellos son eucariotas, no hay procariotas. A partir de 2008 , esto incluye:

  • Chordata
    • Mammalia
      • Euarchontoglires
        • Primates : bushbaby , chimpancé , humano, macaco , lémur ratón , orangután , tarsero ;
        • Scandentia : musaraña de árbol  ;
        • Glires (= roedores + lagomorfos): cochinillo , rata canguro , ratón , rata , ardilla de tierra , pika , conejo  ;
      • Laurasiatheria : vaca , delfín , alpaca , cerdo , gato , perro , caballo , megabat , microchiroptera , erizo , la musaraña  ;
      • Afrotheria: elefante , hyrax , tenrec
      • Xenarthra : armadillo , perezoso  ;
      • Marsupialia : zarigüeya , ualabí  ;
      • Monotremas : ornitorrinco ;
    • Aves : pollo , pinzón cebra ;
    • Lepidosauria : lagarto anole (pre);
    • Lissamphibia : Xenopus tropicalis ;
    • Peces teleósteos : Takifugu rubripes ( fugu ), Tetraodon nigroviridis (pez globo con manchas verdes), Danio rerio ( pez cebra ), Oryzias latipes ( medaka ), Gasterosteus aculeatus ( espinoso );
    • Cyclostomata : Petromyzon marinus ( lamprea de mar ) (pre);
    • Tunicados : Ciona intestinalis , Ciona savignyi ;
  • No vertebrados
    • Insectos : Drosophila melanogaster (mosca de la fruta), Anopheles gambiae (mosquito), Aedes aegypti (mosquito)
    • Gusano : Caenorhabditis elegans
  • Levadura : Saccharomyces cerevisiae (levadura de panadería)

Ver también [ editar ]

  • Lista de genomas eucariotas secuenciados
  • Análisis de secuencia
  • Herramienta de creación de perfiles de secuencia
  • Motivo de secuencia
  • Navegador UCSC Genome

Referencias [ editar ]

  1. ^ Yates AD; et al. (Enero de 2020). "Ensembl 2020" . Ácidos nucleicos Res . 48 (D1): D682 – D688. doi : 10.1093 / nar / gkz966 . PMC  7145704 . PMID  31691826 . Consultado el 31 de julio de 2020 .
  2. ^ Flicek P, Amode MR, Barrell D, et al. (Noviembre de 2010). "Ensembl 2011" . Ácidos nucleicos Res . 39 (Problema de la base de datos): D800 – D806. doi : 10.1093 / nar / gkq1064 . PMC 3013672 . PMID 21045057 .  
  3. ^ Flicek P, Aken BL, Ballester B, et al. (Enero de 2010). "10º año de Ensembl" . Ácidos nucleicos Res . 38 (Problema de la base de datos): D557–62. doi : 10.1093 / nar / gkp972 . PMC 2808936 . PMID 19906699 .  
  4. ^ Ruffier, Magali; Kähäri, Andreas; Komorowska, Monika; Keenan, Stephen; Laird, Matthew; Longden, Ian; Proctor, Glenn; Searle, Steve; Staines, Daniel; Taylor, Kieron; Vullo, Alessandro; Yates, Andrew; Zerbino, Daniel; Flicek, Paul (enero de 2017). "Recursos de software básicos de Ensembl: almacenamiento y acceso programático para la secuencia de ADN y la anotación del genoma" . Base de datos . 2017 (1): bax020. doi : 10.1093 / base de datos / bax020 . PMC 5467575 . PMID 28365736 .  
  5. ^ Stabenau A, McVicker G, Melsopp C, Proctor G, Clamp M, Birney E (febrero de 2004). "Las bibliotecas de software de Ensembl Core" . Investigación del genoma . 14 (5): 929–933. doi : 10.1101 / gr.1857204 . PMC 479122 . PMID 15123588 .  

Enlaces externos [ editar ]

  • Página web oficial
  • Vega
  • Pre-Ensambl
  • Genomas conjuntos
  • Navegador UCSC Genome
  • NCBI
  • Conjunto: exploración de genomas de cordados en EBI Train OnLine