Un sistema de gestión de flujo de trabajo de bioinformática es una forma especializada de sistema de gestión de flujo de trabajo diseñado específicamente para componer y ejecutar una serie de pasos computacionales o de manipulación de datos, o un flujo de trabajo , que se relacionan con la bioinformática .
Actualmente existen muchos sistemas de flujo de trabajo diferentes. Algunos se han desarrollado de manera más general como sistemas de flujo de trabajo científico para que los utilicen científicos de muchas disciplinas diferentes, como la astronomía y las ciencias de la tierra . Todos estos sistemas se basan en una representación abstracta de cómo procede un cálculo en forma de un gráfico dirigido, donde cada nodo representa una tarea a ejecutar y los bordes representan el flujo de datos o las dependencias de ejecución entre diferentes tareas. Por lo general, cada sistema proporciona una interfaz visual que permite al usuario crear y modificar aplicaciones complejas con poca o ninguna experiencia en programación. [1] [2] [3]
Ejemplos de
En orden alfabético, algunos ejemplos de sistemas de gestión de flujo de trabajo de bioinformática incluyen:
- Análisis de imágenes y bioinformática de Anduril [4] [5]
- BioBIKE : una base de conocimientos biológicos integrada, programable y basada en la web [6]
- CLC bio , una plataforma de gestión de flujo de trabajo y análisis bioinformático de QIAGEN Digital Insights .
- Administrador de clones de Sci-Ed.
- Cuneiforme : un lenguaje de flujo de trabajo funcional para el análisis de datos a gran escala [7]
- Discovery Net : uno de los primeros ejemplos de un sistema de flujo de trabajo científico, luego comercializado como InforSense, que luego fue adquirido por IDBS. [ cita requerida ]
- Galaxy : inicialmente dirigido a la genómica [8]
- GenePattern : un poderoso sistema de flujo de trabajo científico que brinda acceso a cientos de herramientas de análisis genómico. [9]
- KNIME the Konstanz Information Miner [10]
- Diseñador de flujo de trabajo OnlineHPC Online basado en Taverna [ cita requerida ]
- UGENE proporciona un sistema de gestión de flujo de trabajo que se instala en una computadora local [11]
- VisTrails [12]
Comparaciones entre sistemas de flujo de trabajo
Con una gran cantidad de sistemas de flujo de trabajo bioinformáticos para elegir, [13] resulta difícil comprender y comparar las características de los diferentes sistemas de flujo de trabajo. Se ha realizado poco trabajo para evaluar y comparar los sistemas desde la perspectiva de un bioinformático, especialmente cuando se trata de comparar los tipos de datos con los que pueden tratar, las funcionalidades integradas que se proporcionan al usuario o incluso su rendimiento o usabilidad. Ejemplos de comparaciones existentes incluyen:
- El documento "Sistemas de flujo de trabajo científico: ¿puede una talla para todos?", [3] que proporciona un marco de alto nivel para comparar sistemas de flujo de trabajo en función de sus propiedades de flujo de control y flujo de datos. Los sistemas comparados incluyen Discovery Net , Taverna , Triana, Kepler , así como Yawl y BPEL .
- El documento "Meta-workflows: interoperabilidad basada en patrones entre Galaxy y Taverna" [14], que proporciona una comparación más orientada al usuario entre Taverna y Galaxy en el contexto de permitir la interoperabilidad entre ambos sistemas.
- El documento de infraestructura "Entrega de infraestructura de TIC para la investigación biomédica" [15] compara dos sistemas de flujo de trabajo, Anduril y Chipster, [16] en términos de requisitos de infraestructura en un modelo de entrega en la nube.
- El artículo "Una revisión de los marcos de procesos bioinformáticos" [17] intenta clasificar los sistemas de gestión del flujo de trabajo en tres dimensiones: "utilizando una sintaxis implícita o explícita, utilizando una configuración, convención o paradigma de diseño basado en clases y ofreciendo una línea de comandos o un banco de trabajo interfaz".
Referencias
- ^ Oinn, T .; Greenwood, M .; Addis, M .; Alpdemir, MN; Ferris, J .; Glover, K .; Goble, C .; Goderis, A .; Hull, D .; Marvin, D .; Li, P .; Señor, P .; Pocock, MR; Senger, M .; Stevens, R .; Wipat, A .; Wroe, C. (2006). "Taverna: lecciones en la creación de un entorno de flujo de trabajo para las ciencias de la vida" (PDF) . Concurrencia y Computación: Práctica y Experiencia . 18 (10): 1067-1100. doi : 10.1002 / cpe.993 . S2CID 10219281 .
- ^ Yu, J .; Buyya, R. (2005). "Una taxonomía de los sistemas de flujo de trabajo científico para la computación en cuadrícula". Registro ACM SIGMOD . 34 (3): 44. CiteSeerX 10.1.1.63.3176 . doi : 10.1145 / 1084805.1084814 . S2CID 538714 .
- ^ a b Curcin, V .; Ghanem, M. (2008). Sistemas de flujo de trabajo científico: ¿se puede aplicar una talla para todos? . 2008 Conferencia Internacional de Ingeniería Biomédica de El Cairo . págs. 1–9. doi : 10.1109 / CIBEC.2008.4786077 . ISBN 978-1-4244-2694-2. S2CID 1885579 .
- ^ "Sitio web de flujo de trabajo de Anduril" .
- ^ Ovaska, Kristian; Laakso, Marko; Haapa-Paananen, Saija; Louhimo, Riku; Chen, Ping; Aittomäki, Viljami; Valo, Erkka; Núñez-Fontarnau, Javier; Rantanen, Ville (7 de septiembre de 2010). "El marco de integración de datos a gran escala proporciona una visión completa del glioblastoma multiforme" . Medicina del genoma . 2 (9): 65. doi : 10.1186 / gm186 . ISSN 1756-994X . PMC 3092116 . PMID 20822536 .
- ^ Elhai, J .; Taton, A .; Massar, J .; Myers, JK; Travers, M .; Casey, J .; Slupesky, M .; Shrager, J. (2009). "BioBIKE: una base de conocimientos biológicos integrada, programable y basada en la web" . Investigación de ácidos nucleicos . 37 (Problema del servidor web): W28 – W32. doi : 10.1093 / nar / gkp354 . PMC 2703918 . PMID 19433511 .
- ^ Brandt, Jörgen; Bux, Marc N .; Leser, Ulf (2015). "Cuneiforme: un lenguaje funcional para el análisis de datos científicos a gran escala" (PDF) . Actas de los Talleres de la EDBT / ICDT . 1330 : 17-26.
- ^ Goecks, J .; Nekrutenko, A .; Taylor, J .; Equipo Galaxy, T. (2010). "Galaxy: un enfoque integral para apoyar la investigación computacional accesible, reproducible y transparente en las ciencias de la vida" . Biología del genoma . 11 (8): R86. doi : 10.1186 / gb-2010-11-8-r86 . PMC 2945788 . PMID 20738864 .
- ^ Reich, Michael; et al. (2006). "GenePattern 2.0". Genética de la naturaleza . 38 (1): 500–5001. doi : 10.1038 / ng0506-500 . PMID 16642009 . S2CID 5503897 .
- ^ Tiwari, Abhishek; Sekhar, Arvind KT (2007). "Marco basado en flujo de trabajo para informática de ciencias de la vida". Biología y Química Computacional . 31 (5–6): 305–319. doi : 10.1016 / j.compbiolchem.2007.08.009 . PMID 17931570 .
- ^ Okonechnikov, K; Golosova, O; Fursov, M; Ugene, Equipo (2012). "Unipro UGENE: un conjunto de herramientas de bioinformática unificada" . Bioinformática . 28 (8): 1166–7. doi : 10.1093 / bioinformatics / bts091 . PMID 22368248 .
- ^ Bavoil, L .; Callahan, SP; Crossno, PJ; Freire, J .; Scheidegger, CE; Silva, CT; Vo, HT (2005). VisTrails: habilitación de visualizaciones interactivas de múltiples vistas . VIS 05. Visualización IEEE, 2005 . págs. 135-142. doi : 10.1109 / VISUAL.2005.1532788 . ISBN 978-0-7803-9462-9.
- ^ "Sistemas de flujo de trabajo existentes" . Wiki de Common Workflow Language . Archivado desde el original el 17 de octubre de 2019 . Consultado el 17 de octubre de 2019 .
- ^ Abouelhoda, M .; Alaa, S .; Ghanem, M. (2010). "Metaflujos de trabajo". Actas del primer taller internacional sobre enfoques de flujo de trabajo para la nueva ciencia centrada en datos: Wands '10 . pag. 1. doi : 10.1145 / 1833398.1833400 . ISBN 9781450301886. S2CID 17343728 .
- ^ Nyrönen, TH; Laitinen, J; et al. (2012), Entrega de infraestructura de TIC para la investigación biomédica , Actas del volumen complementario de WICSA / ECSA 2012 (WICSA / ECSA '12), ACM, págs. 37–44, doi : 10.1145 / 2361999.2362006 , ISBN 9781450315685, S2CID 18199745
- ^ Kallio, MA; Tuimala, JT; Hupponen, T; Klemelä, P; Gentil, M; Scheinin, yo; Koski, M; Käki, J; Korpelainen, IE (2011). "Chipster: software de análisis fácil de usar para microarrays y otros datos de alto rendimiento" . BMC Genomics . 12 : 507. doi : 10.1186 / 1471-2164-12-507 . PMC 3215701 . PMID 21999641 .
- ^ Leipzig J (2016). "Una revisión de los marcos de tubería bioinformática" . Sesiones informativas en bioinformática . 18 (3): 530–536. doi : 10.1093 / bib / bbw020 . PMC 5429012 . PMID 27013646 .