Pipeline Pilot es un programa de software de escritorio vendido por Dassault Systèmes para procesar y analizar datos. Originalmente utilizado en las ciencias naturales, las capacidades básicas de ETL ( Extraer, transformar, cargar ) y análisis del producto se han ampliado. El producto ahora se utiliza para ciencia de datos , ETL, informes, predicción y análisis en varios sectores. La característica principal del producto es la capacidad de diseñar flujos de trabajo de datos utilizando una interfaz gráfica de usuario. El programa es un ejemplo de programación visual y de flujo de datos . Tiene uso en una variedad de configuraciones, tales como quimioformática y QSAR, [1] [2] [3] Secuenciación de próxima generación, [4] análisis de imágenes,[5] [6] y análisis de texto. [7]
Desarrollador (es) | Accelrys |
---|---|
Versión inicial | 1999 |
Lanzamiento estable | 18.1 / mayo 2018 |
Escrito en | C ++ |
Sistema operativo | Windows y Linux |
Tipo | Lenguaje de programación visual y de flujo de datos |
Licencia | Propiedad |
Sitio web | accelrys |
Historia
El producto fue creado por SciTegic . Posteriormente, BIOVIA adquirió SciTegic y Pipeline Pilot en 2004. BIOVIA fue comprado por Dassault Systèmes en 2014. El producto se expandió desde un enfoque inicial en la química para incluir capacidades generales de extracción, transformación y carga (ETL). Más allá del producto base, Dassault ha agregado colecciones analíticas y de procesamiento de datos para la generación de informes, visualización de datos y varios sectores científicos y de ingeniería. Actualmente, el producto se utiliza para ETL, análisis y aprendizaje automático en las industrias química, energética, de bienes de consumo envasados, aeroespacial, automotriz y de fabricación de productos electrónicos.
Descripción general
Pipeline Pilot es parte de una clase de productos de software que proporcionan interfaces de usuario para manipular y analizar datos. Pipeline Pilot y productos similares permiten a los usuarios con capacidades de codificación limitadas o nulas transformar y manipular conjuntos de datos. Por lo general, esto es un precursor de la realización de análisis de datos. Al igual que otros productos ETL gráficos, permite a los usuarios extraer de diferentes fuentes de datos, como archivos CSV, archivos de texto y bases de datos.
Componentes, canalizaciones, protocolos y registros de datos
La interfaz gráfica de usuario , llamada Pipeline Pilot Professional Client, permite a los usuarios arrastrar y soltar unidades de procesamiento de datos discretas llamadas "componentes". Los componentes pueden cargar, filtrar, unir o manipular datos. Los componentes también pueden realizar manipulaciones de datos mucho más avanzadas, como construir modelos de regresión, entrenar redes neuronales o procesar conjuntos de datos en informes PDF.
Pipeline Pilot implementa un paradigma de componentes . Los componentes se representan como nodos en un flujo de trabajo. En un sentido matemático, los componentes se modelan como nodos en un gráfico dirigido : "tuberías" (bordes del gráfico) conectan componentes y mueven datos a lo largo de un nodo a otro donde se realizan las operaciones sobre los datos. Los usuarios tienen la opción de utilizar componentes predefinidos o desarrollar los suyos propios. Para ayudar en aplicaciones específicas de la industria, como la secuenciación de próxima generación (consulte Métodos de secuenciación de alto rendimiento (HTS) ), BIOVIA ha desarrollado componentes que reducen en gran medida la cantidad de tiempo que los usuarios necesitan para realizar tareas comunes específicas de la industria.
Los usuarios pueden elegir entre componentes que vienen preinstalados o crear sus propios componentes en flujos de trabajo llamados "protocolos". Los protocolos son conjuntos de componentes vinculados. Los protocolos se pueden guardar, reutilizar y compartir. Los usuarios pueden mezclar y combinar los componentes que se proporcionan con el software de BIOVIA con sus propios componentes personalizados. Las conexiones entre dos componentes se denominan "tuberías" y se visualizan en el software como dos componentes conectados por una tubería. Los usuarios finales diseñan sus flujos de trabajo / protocolos y luego los ejecutan ejecutando el protocolo. Los datos fluyen de izquierda a derecha a lo largo de las tuberías.
El análisis y procesamiento de datos modernos puede implicar una gran cantidad de manipulaciones y transformaciones. Una característica importante de Pipeline Pilot es la capacidad de condensar visualmente una larga serie de manipulaciones de datos que involucran muchos componentes. Un flujo de trabajo de cualquier longitud se puede condensar visualmente en un componente que se utiliza en un flujo de trabajo de alto nivel. Esto significa que un protocolo se puede guardar y utilizar como componente de otro protocolo. En la terminología utilizada en Pipeline Pilot, los protocolos que se utilizan como componentes en otros protocolos se denominan "subprotocolos". Esto permite a los usuarios agregar capas de complejidad a sus flujos de trabajo de procesamiento y manipulación de datos, y luego ocultar esa complejidad para que puedan diseñar el flujo de trabajo a un nivel más alto de abstracción.
Colecciones de componentes
Pipeline Pilot presenta una serie de complementos llamados "colecciones". Las colecciones son grupos de funciones especializadas como procesar información genética o analizar polímeros que se ofrecen a los usuarios finales por una tarifa de licencia adicional. Actualmente, existen varias de estas colecciones. [8]
Grupo | Dominio | Colección de componentes |
---|---|---|
Específico de la ciencia | Química | Química |
ADMET | ||
Quimioformática | ||
Biología | La expresion genica | |
Análisis de secuencia | ||
Espectrometría de masas para proteómica | ||
Secuenciación de próxima generación | ||
Modelado y simulación de materiales | Estudio de materiales | |
Propiedades del polímero (Synthia) | ||
Genérico | Informes y visualización | Reportando |
Integración de aplicaciones y bases de datos | Integración | |
Imagen | Imagen | |
Análisis y estadísticas | Modelado de datos | |
Modelado de datos avanzado | ||
Estadísticas R | ||
Búsqueda y análisis de documentos | Minería de textos químicos | |
Análisis de texto | ||
Laboratorio | Análisis de datos de placa | |
Instrumentación analítica |
Dada la cantidad de complementos diferentes que ofrece ahora BIOVIA, los casos de uso de Pipeline Pilot son muy amplios y difíciles de resumir de manera sucinta. El producto se ha utilizado en:
- Mantenimiento predictivo
- Análisis de imágenes, por ejemplo, la determinación de la acción inhibidora de una sustancia sobre procesos biológicos ( IC50 ) mediante el cálculo de la relación dosis-respuesta directamente a partir de la información extraída de imágenes de ensayos de detección de alto contenido , asociadas con la dilución en el diseño de la placa y la información química sobre los compuestos probados (Imaging, Chemistry, Plate Data Analytics)
- Un sistema de recomendación para literatura científica basado en un modelo bayesiano construido usando huellas dactilares y lista de lectura del usuario o clasificación de artículos.
- Acceso a métodos y resultados de experimentos desde un cuaderno de laboratorio electrónico o un sistema de gestión de información de laboratorio , con informes resultantes para la planificación de la capacidad de recursos
PilotScript y scripts personalizados
Al igual que con otras soluciones ETL y de análisis, Pipeline Pilot se utiliza a menudo cuando se procesan uno o más conjuntos de datos grandes (1TB +) y / o complejos. En estas situaciones, los usuarios finales pueden querer utilizar scripts de programación que hayan escrito. Al principio de su desarrollo, Pipeline Pilot creó un lenguaje de scripting simplificado y reducido llamado PilotScript que permitía a los usuarios finales escribir fácilmente scripts de programación básicos que podrían incorporarse en un protocolo Pipeline Pilot. Más tarde libera soporte extendido para una variedad de lenguajes de programación, incluyendo Python , .NET , Matlab , Perl , SQL , Java , VBScript y R . [9]
La sintaxis de PilotScript se basa en PLSQL . Se puede utilizar en componentes como el manipulador personalizado (PilotScript) o el filtro personalizado (PilotScript) . Como ejemplo, la siguiente secuencia de comandos se puede utilizar para agregar una propiedad denominada "Hola" a cada registro que pasa por un componente de secuencia de comandos personalizado en un protocolo Pipeline Pilot. El valor de la propiedad es la cadena "¡Hola mundo!".
Hola : = "¡Hola mundo!" ;
Actualmente, el producto admite una serie de API para diferentes lenguajes de programación que se pueden ejecutar sin la interfaz gráfica de usuario del programa.
Referencias
- ^ Hassan, Moises; Brown, Robert D .; Varma-O'Brien, Shikha; Rogers, David (2007). "Análisis y aprendizaje de la quimioinformática en un entorno de canalización de datos". ChemInform . 38 (12). doi : 10.1002 / chin.200712278 . ISSN 0931-7597 .
- ^ Hu, Ye; Lounkine, Eugen; Bajorath, Jürgen (2009). "Mejora del rendimiento de búsqueda de huellas dactilares de conectividad extendida a través del filtrado de características orientadas a la actividad y la aplicación de una función de similitud dependiente de la densidad de bits". ChemMedChem . 4 (4): 540–548. doi : 10.1002 / cmdc.200800408 . ISSN 1860-7179 . PMID 19263458 .
- ^ Warr, Wendy A. (2012). "Sistemas de flujo de trabajo científico: Pipeline Pilot y KNIME" . Revista de diseño molecular asistido por computadora . 26 (7): 801–804. Código bibliográfico : 2012JCAMD..26..801W . doi : 10.1007 / s10822-012-9577-7 . ISSN 0920-654X . PMC 3414708 . PMID 22644661 .
- ^ "Accelrys entra en el mercado de secuenciación de próxima generación con NGS Collection para Pipeline Pilot" . Business Wire. 2011-02-23 . Consultado el 15 de febrero de 2013 .
- ^ Rabal, Obdulia; Link, Wolfgang; G. Serelde, Beatriz; Bischoff, James R .; Oyarzabal, Julen (2010). "Un sistema integrado de un solo paso para extraer, analizar y anotar toda la información relevante del cribado celular basado en imágenes de bibliotecas químicas". Biosistemas moleculares . 6 (4): 711-20. doi : 10.1039 / b919830j . ISSN 1742-206X . PMID 20237649 .
- ^ Paveley, Ross A .; Mansour, Nuha R .; Hallyburton, Irene; Bleicher, Leo S .; Benn, Alex E .; Mikic, Ivana; Guidi, Alessandra; Gilbert, Ian H .; Hopkins, Andrew L .; Bickle, Quentin D. (2012). "Detección de alto contenido de organismo completo mediante clasificación bayesiana basada en imágenes sin etiquetas para enfermedades parasitarias" . PLoS Enfermedades Tropicales Desatendidas . 6 (7): e1762. doi : 10.1371 / journal.pntd.0001762 . ISSN 1935-2735 . PMC 3409125 . PMID 22860151 .
- ^ Vellay, SG; Latimer, NE; Paillard, G (2009). "Minería de texto interactiva con Pipeline Pilot: una herramienta bibliográfica basada en web para PubMed". Objetivos de fármacos para trastornos infecciosos . 9 (3): 366–74. doi : 10.2174 / 1871526510909030366 . PMID 19519489 .
- ^ "Colecciones de componentes piloto de oleoductos" . Accelrys. Archivado desde el original el 15 de enero de 2013 . Consultado el 26 de enero de 2013 .
- ^ "Hoja de datos de la colección de componentes de integración piloto de canalización" (PDF) . Accelrys . Consultado el 8 de febrero de 2013 .