Galaxy [2] es un flujo de trabajo científico , integración de datos , [3] [4] y una plataforma de publicación y persistencia de análisis y datos que tiene como objetivo hacer que la biología computacional sea accesible para los científicos investigadores que no tienen experiencia en programación o administración de sistemas . Aunque inicialmente se desarrolló para la investigación genómica, es en gran parte independiente del dominio y ahora se utiliza como un sistema de gestión de flujo de trabajo bioinformático general . [5]
Desarrollador (es) | Comunidad Galaxy |
---|---|
Versión inicial | 16 de septiembre de 2005 |
Lanzamiento estable | 20.09 / 17 de noviembre de 2020 |
Repositorio | github |
Escrito en | Python , JavaScript |
Sistema operativo | Tipo Unix |
Plataforma | Linux, OSX |
Disponible en | inglés |
Tipo | Flujo de trabajo científico , integración de datos , análisis y publicación de datos |
Licencia | Licencia académica gratuita [1] |
Sitio web | galaxyproject |
Funcionalidad
Galaxy es un sistema de flujo de trabajo científico . Estos sistemas proporcionan un medio para construir análisis computacionales de varios pasos similares a una receta. Por lo general, proporcionan una interfaz gráfica de usuario [6] para especificar en qué datos operar, qué pasos tomar y en qué orden hacerlo.
Galaxy también es una plataforma de integración de datos para datos biológicos. Admite cargas de datos desde la computadora del usuario, por URL y directamente desde muchos recursos en línea (como UCSC Genome Browser , BioMart e InterMine ). Galaxy admite una variedad de formatos de datos biológicos ampliamente utilizados y la traducción entre esos formatos. Galaxy proporciona una interfaz web para muchas utilidades de manipulación de texto, lo que permite a los investigadores realizar su propio reformateo y manipulación personalizados sin tener que programar . Galaxy incluye utilidades de manipulación de intervalos para realizar operaciones teóricas de conjuntos (por ejemplo , intersección , unión , ...) en intervalos. Muchos formatos de archivos biológicos incluyen datos de intervalo genómico (un marco de referencia, por ejemplo, nombre de cromosoma o contig y posiciones de inicio y finalización), lo que permite integrar estos datos.
Galaxy fue escrito originalmente para el análisis de datos biológicos, particularmente genómica . El conjunto de herramientas disponibles se ha ampliado enormemente a lo largo de los años y Galaxy ahora también se utiliza para la expresión génica , el ensamblaje del genoma , la proteómica , la epigenómica , la transcriptómica y muchas otras disciplinas de las ciencias de la vida. La plataforma en sí es realmente independiente del dominio y se puede aplicar, en teoría, a cualquier dominio científico, como la quimioinformática . [7] Por ejemplo, existen servidores Galaxy para análisis de imágenes, [8] química computacional [9] y diseño de fármacos, [10] cosmología, modelado climático, ciencias sociales [11] y lingüística.
Por último, Galaxy también admite la persistencia y publicación de datos y análisis. Consulte Reproducibilidad y transparencia a continuación.
Objetivos del proyecto
Galaxy es "una plataforma abierta basada en la web para realizar ciencia genómica accesible, reproducible y transparente". [12]
Accesibilidad
La biología computacional es un dominio especializado que a menudo requiere conocimientos de programación informática . Galaxy tiene como objetivo brindar a los investigadores biomédicos acceso a la biología computacional sin requerir también que comprendan la programación de computadoras. [13] [14] Galaxy hace esto al enfatizar una interfaz de usuario simple [15] sobre la capacidad de construir flujos de trabajo complejos. Esta elección de diseño hace que sea relativamente fácil construir análisis típicos, pero más difícil construir flujos de trabajo complejos que incluyan, por ejemplo, construcciones en bucle. (Consulte Apache Taverna para ver un ejemplo de un sistema de flujo de trabajo basado en datos que admite bucles. [16] )
Reproducibilidad
La reproducibilidad es un objetivo clave de la ciencia: cuando se publican resultados científicos, las publicaciones deben incluir suficiente información para que otros puedan repetir el experimento y obtener los mismos resultados. Ha habido muchos esfuerzos recientes para extender este objetivo desde el banco (el " laboratorio húmedo ") a los experimentos computacionales (el " laboratorio seco ") también. Esta ha resultado ser una tarea más difícil de lo esperado inicialmente. [17]
Galaxy admite la reproducibilidad al capturar suficiente información sobre cada paso en un análisis computacional, de modo que el análisis se pueda repetir, exactamente, en cualquier momento en el futuro. Esto incluye realizar un seguimiento de todos los conjuntos de datos de entrada, intermedios y finales, así como los parámetros proporcionados y el orden de cada paso del análisis.
Transparencia
Galaxy apoya la transparencia en la investigación científica al permitir que los investigadores compartan cualquiera de sus Objetos Galaxy, ya sea públicamente o con individuos específicos. Los elementos compartidos se pueden examinar en detalle, volver a ejecutar a voluntad y copiar y modificar para probar hipótesis.
Objetos Galaxy: Historias, flujos de trabajo, conjuntos de datos y páginas
Los objetos Galaxy son cualquier cosa que se pueda guardar, conservar y compartir en Galaxy:
- Historias
- Las historias son análisis computacionales (recetas) ejecutados con conjuntos de datos de entrada, pasos computacionales y parámetros especificados. Las historias también incluyen todos los conjuntos de datos intermedios y de salida.
- Flujos de trabajo
- Los flujos de trabajo son análisis computacionales que especifican todos los pasos (y parámetros) del análisis, pero ninguno de los datos. Los flujos de trabajo se utilizan para ejecutar el mismo análisis en varios conjuntos de datos de entrada.
- Conjuntos de datos
- Los conjuntos de datos incluyen cualquier conjunto de datos de entrada, intermedio o de salida, utilizado o producido en un análisis.
- Paginas
- Los historiales, los flujos de trabajo y los conjuntos de datos pueden incluir anotaciones proporcionadas por el usuario. Galaxy Pages permite la creación de un artículo virtual que describe el cómo y el por qué del experimento en general. La estrecha integración de páginas con historiales, flujos de trabajo y conjuntos de datos respalda este objetivo.
Disponibilidad
Galaxy está disponible:
- Como servidor web público gratuito, [18] respaldado por Galaxy Project. [19] Este servidor incluye muchas herramientas bioinformáticas que son ampliamente útiles en muchas áreas de la investigación genómica. Los usuarios pueden crear inicios de sesión y guardar historiales , flujos de trabajo y conjuntos de datos en el servidor. Estos elementos guardados también se pueden compartir con otros.
- Como software de código abierto que se puede descargar, instalar y personalizar para satisfacer necesidades específicas. [20] Galaxy se puede instalar localmente o mediante una nube informática . [21]
- Servidores web públicos alojados por otras organizaciones. [22] Varias organizaciones con su propia instalación de Galaxy también han optado por poner esos servidores a disposición de otros.
Implementación
Galaxy es un software de código abierto implementado utilizando el lenguaje de programación Python . Está desarrollado por el equipo de Galaxy [23] en Penn State , la Universidad Johns Hopkins , la Universidad de Salud y Ciencia de Oregon y la Comunidad Galaxy . [24]
Galaxy es extensible, ya que se pueden integrar y compartir nuevas herramientas de línea de comandos dentro de Galaxy ToolShed . [25]
Un ejemplo de extensión de Galaxy es Galaxy-P del Instituto de Supercomputación de la Universidad de Minnesota , que está personalizado como una plataforma de análisis de datos para proteómica basada en espectrometría de masas . [26]
Comunidad
Galaxy es un proyecto de código abierto y la comunidad incluye usuarios, organizaciones que instalan su propia instancia, desarrolladores de Galaxy y desarrolladores de herramientas bioinformáticas. El proyecto Galaxy tiene listas de correo [27], un centro comunitario [28] y reuniones anuales. [29]
Ver también
- Sistemas de gestión del flujo de trabajo de bioinformática
Referencias
- ^ "Derechos de autor y licencias" .
- ^ Afgan, E .; Baker, D .; van den Beek, M .; Blankenberg, D .; Bouvier, D .; Čech, M .; Chilton, J .; Clements, D .; Coraor, N .; Eberhard, C .; Grüning, B .; Guerler, A .; Hillman-Jackson, J .; Von Kuster, G .; Rasche, E .; Soranzo, N .; Turaga, N .; Taylor, J .; Nekrutenko, A .; Goecks, J. (8 de julio de 2016). "La plataforma Galaxy para análisis biomédicos accesibles, reproducibles y colaborativos: actualización de 2016" . Investigación de ácidos nucleicos . 44 (W1): W3 – W10. doi : 10.1093 / nar / gkw343 . PMC 4987906 . PMID 27137889 .
- ^ Blankenberg, D .; Coraor, N .; Von Kuster, G .; Taylor, J .; Nekrutenko, A .; Galaxy, T. (2011). "Integración de diversas bases de datos en un marco de análisis unificado: un enfoque de Galaxy" . Base de datos . 2011 : bar011. doi : 10.1093 / database / bar011 . PMC 3092608 . PMID 21531983 .
- ^ Blankenberg, D .; Gordon, A .; Von Kuster, G .; Coraor, N .; Taylor, J .; Nekrutenko, A .; Galaxy, T. (2010). "Manipulación de datos FASTQ con Galaxy" . Bioinformática . 26 (14): 1783-1785. doi : 10.1093 / bioinformatics / btq281 . PMC 2894519 . PMID 20562416 .
- ^ https://galaxyproject.org/public-galaxy-servers
- ^ Schatz, MC (2010). "La interfaz gráfica de usuario que falta para la genómica" . Biología del genoma . 11 (8): 128-201. doi : 10.1186 / gb-2010-11-8-128 . PMC 2945776 . PMID 20804568 .
- ^ Bray, Simon A .; Lucas, Xavier; Kumar, Anup; Grüning, Björn A. (1 de junio de 2020). "The ChemicalToolbox: análisis químico-informático reproducible y fácil de usar en la plataforma Galaxy" . Revista de Cheminformatics . 12 (1): 40. doi : 10.1186 / s13321-020-00442-7 . PMC 7268608 . PMID 33431029 .
- ^ https://bio.tools/galaxy_image_analysis
- ^ Hildebrandt, AK; Stöckel, D; Fischer, NM; de la Garza, L; Krüger, J; Nickels, S; Röttig, M; Schärfe, C; Schumann, M; Thiel, P; Lenhof, HP; Kohlbacher, O; Hildebrandt, A (2014). "Ballaxy: servicios web para bioinformática estructural" . Bioinformática . 31 (1): 121–2. doi : 10.1093 / bioinformatics / btu574 . PMID 25183489 .
- ^ "Copia archivada" . Archivado desde el original el 7 de mayo de 2016 . Consultado el 17 de noviembre de 2014 .CS1 maint: copia archivada como título ( enlace )
- ^ "Galaxy" .
- ^ Goecks, J .; Nekrutenko, A .; Taylor, J .; Equipo Galaxy, T. (2010). "Galaxy: un enfoque integral para apoyar la investigación computacional accesible, reproducible y transparente en las ciencias de la vida" . Biología del genoma . 11 (8): R86. doi : 10.1186 / gb-2010-11-8-r86 . PMC 2945788 . PMID 20738864 .
- ^ Blankenberg, D .; Taylor, J .; Nekrutenko, A .; La galaxia, T. (2011). "Haciendo que los biólogos utilicen múltiples alineaciones del genoma" . Bioinformática . 27 (17): 2426–8. doi : 10.1093 / bioinformatics / btr398 . PMC 3157923 . PMID 21775304 .
- ^ Blankenberg, D .; Taylor, J .; Schenck, I .; Él, J .; Zhang, Y .; Gante, M .; Veeraraghavan, N .; Albert, I .; Miller, W .; Makova, KD; Hardison, RC; Nekrutenko, A. (2007). "Un marco para el análisis colaborativo de datos ENCODE: hacer análisis a gran escala amigables para los biólogos" . Investigación del genoma . 17 (6): 960–964. doi : 10.1101 / gr.5578007 . PMC 1891355 . PMID 17568012 .
- ^ Schatz, MC (2010). "La interfaz gráfica de usuario que falta para la genómica" . Biología del genoma . 11 (8): 128-201. doi : 10.1186 / gb-2010-11-8-128 . PMC 2945776 . PMID 20804568 .
- ^ Soiland-Reyes, S (13 de diciembre de 2010). "Bucle" . El blog Taverna Knowledge . knowledgeblog.org. Archivado desde el original el 30 de diciembre de 2016 . Consultado el 28 de enero de 2015 .
- ^ Ioannidis, JPA; Allison, DB; Ball, CA; Coulibaly, I .; Cui, X .; Culhane, ANC; Falchi, M .; Furlanello, C .; Juego, L .; Jurman, G .; Mangion, J .; Mehta, T .; Nitzberg, M .; Page, GP; Petretto, E .; Van Noort, V. (2008). "Repetibilidad de los análisis de expresión génica de microarrays publicados". Genética de la naturaleza . 41 (2): 149-155. doi : 10.1038 / ng.295 . PMID 19174838 . S2CID 5153795 .
- ^ https://usegalaxy.org/
- ^ http://galaxyproject.org/
- ^ http://getgalaxy.org/
- ^ Afgan, E .; Baker, D .; Coraor, N .; Chapman, B .; Nekrutenko, A .; Taylor, J. (2010). "Galaxy CloudMan: entrega de clústeres de computación en la nube" . BMC Bioinformática . 11 : S4. doi : 10.1186 / 1471-2105-11-S12-S4 . PMC 3040530 . PMID 21210983 .
- ^ https://galaxyproject.org/public-galaxy-servers
- ^ https://galaxyproject.org/galaxy-team
- ^ Lázaro, R .; Taylor, J .; Qiu, W .; Nekrutenko, A. (2008). "Hacia la mercantilización de la investigación genómica traslacional: características de diseño e implementación del banco de trabajo genómico Galaxy" . Cumbre de Bioinformática Traslacional . 2008 : 56–60. PMC 3041519 . PMID 21347127 .
- ^ Blankenberg, Daniel; Von Kuster, Gregory; Bouvier, Emil; Baker, Dannon; Afgan, Enis; Stoler, Nicholas; Taylor, James; Nekrutenko, Anton (2014). "Difusión de software científico con Galaxy ToolShed" . Biología del genoma . 15 (2): 403. doi : 10.1186 / gb4161 . PMC 4038738 . PMID 25001293 .
- ^ Sheynkman, GM; Johnson, JE; Jagtap, PD; Shortreed, MR; Onsongo, G; Frey, BL; Griffin, TJ; Smith, LM (22 de agosto de 2014). "Uso de Galaxy-P para aprovechar RNA-Seq para el descubrimiento de nuevas variaciones de proteínas" . BMC Genomics . 15 (703): 703. doi : 10.1186 / 1471-2164-15-703 . PMC 4158061 . PMID 25149441 .
- ^ https://galaxyproject.org/mailing-lists
- ^ https://galaxyproject.org/
- ^ https://galaxyproject.org/gcc/
enlaces externos
- Centro de la comunidad Galaxy
- Descargue e instale localmente o en la nube
- Servidor público gratuito de Galaxy, alojado por Galaxy Project
- Lista de otros servidores públicos de Galaxy
- Estadísticas del proyecto