La bioinformática integrativa es una disciplina de la bioinformática que se centra en problemas de integración de datos para las ciencias de la vida .
Con el auge de las tecnologías de alto rendimiento (HTP) en las ciencias de la vida, particularmente en biología molecular , la cantidad de datos recopilados ha crecido de manera exponencial. Además, los datos se encuentran dispersos en una gran cantidad de repositorios públicos y privados , y se almacenan utilizando una gran cantidad de formatos diferentes . Esta situación dificulta la búsqueda de estos datos y la realización del análisis necesario para la extracción de nuevos conocimientos del conjunto completo de datos disponibles. La bioinformática integradora intenta abordar este problema proporcionando un acceso unificado a los datos de las ciencias de la vida.
Enfoques
Enfoques de la web semántica
En el enfoque de la Web Semántica , los datos de varios sitios web o bases de datos se buscan a través de metadatos . Los metadatos son un código legible por máquina , que define el contenido de la página del programa para que las comparaciones entre los datos y los términos de búsqueda sean más precisas. Esto sirve para disminuir la cantidad de resultados que son irrelevantes o inútiles. Algunos metadatos existen como definiciones llamadas ontologías , que pueden ser etiquetadas por usuarios o programas; estos sirven para facilitar las búsquedas mediante el uso de términos o frases clave para encontrar y devolver los datos. [1] Las ventajas de este enfoque incluyen el aumento general de la calidad de los datos devueltos en las búsquedas y con el etiquetado adecuado, ontologías que encuentran entradas que pueden no indicar explícitamente el término de búsqueda pero que siguen siendo relevantes. Una desventaja de este enfoque es que los resultados que se devuelven vienen en el formato de la base de datos de su origen y, como tal, las comparaciones directas pueden ser difíciles. Otro problema es que los términos utilizados en el etiquetado y la búsqueda a veces pueden ser ambiguos y pueden causar confusión entre los resultados. [2] Además, el enfoque de la web semántica todavía se considera una tecnología emergente y no se utiliza a gran escala en este momento. [3]
Una de las aplicaciones actuales de la búsqueda basada en ontologías en las ciencias biomédicas es GoPubMed , que busca en la base de datos PubMed de literatura científica. [1] Otro uso de las ontologías se encuentra en bases de datos como SwissProt , Ensembl y TrEMBL , que utilizan esta tecnología para buscar en los almacenes de datos relacionados con el proteoma humano etiquetas relacionadas con el término de búsqueda. [4]
Parte de la investigación en este campo se ha centrado en la creación de ontologías nuevas y específicas. [5] Otros investigadores han trabajado para verificar los resultados de las ontologías existentes. [2] En un ejemplo específico, el objetivo de Verschelde, et al. fue la integración de varias bibliotecas de ontologías diferentes en una más grande que contenía más definiciones de diferentes subespecialidades (médica, biológica molecular, etc.) y pudo distinguir entre etiquetas ambiguas; el resultado fue un efecto similar al de un almacén de datos, con fácil acceso a múltiples bases de datos mediante el uso de ontologías. [4] En un proyecto separado, Bertens, et al. construyó un trabajo de celosía de tres ontologías (para la anatomía y el desarrollo de organismos modelo) sobre una nueva ontología marco de órganos genéricos. Por ejemplo, los resultados de una búsqueda de 'corazón' en esta ontología devolverían los planes de corazón para cada una de las especies de vertebrados cuyas ontologías se incluyeron. El objetivo declarado del proyecto es facilitar estudios comparativos y evolutivos. [6]
Enfoques de almacenamiento de datos
En la estrategia de almacenamiento de datos , los datos de diferentes fuentes se extraen e integran en una sola base de datos. Por ejemplo, se pueden integrar varios conjuntos de datos "ómicos" para proporcionar conocimientos biológicos sobre los sistemas biológicos. Los ejemplos incluyen datos de genómica, transcriptómica, proteómica, interactómica, metabolómica. Idealmente, los cambios en estas fuentes se sincronizan regularmente con la base de datos integrada. Los datos se presentan a los usuarios en un formato común. Muchos programas destinados a ayudar en la creación de tales almacenes están diseñados para ser extremadamente versátiles para permitir su implementación en diversos proyectos de investigación. [7] Una ventaja de este enfoque es que los datos están disponibles para su análisis en un solo sitio, utilizando un esquema uniforme. Algunas desventajas son que los conjuntos de datos suelen ser enormes y difíciles de mantener actualizados. Otro problema con este método es que resulta costoso compilar un almacén de este tipo. [8]
Los formatos estandarizados para diferentes tipos de datos (por ejemplo, datos de proteínas) están surgiendo ahora debido a la influencia de grupos como la Proteomics Standards Initiative (PSI). Algunos proyectos de almacenamiento de datos incluso requieren el envío de datos en uno de estos nuevos formatos. [9]
Otros enfoques
La minería de datos utiliza métodos estadísticos para buscar patrones en los datos existentes. Este método generalmente devuelve muchos patrones, de los cuales algunos son falsos y otros significativos, pero todos los patrones que encuentra el programa deben evaluarse individualmente. Actualmente, algunas investigaciones se centran en incorporar técnicas de minería de datos existentes con métodos de análisis de patrones novedosos que reducen la necesidad de pasar tiempo repasando cada patrón encontrado por el programa inicial, pero en cambio, devuelven algunos resultados con una alta probabilidad de relevancia. [10] Un inconveniente de este enfoque es que no integra múltiples bases de datos, lo que significa que no es posible realizar comparaciones entre bases de datos. La principal ventaja de este enfoque es que permite la generación de nuevas hipótesis para probar.
Ver también
- Base de datos biológica
- Visualización de datos biológicos
- InterMine : un sistema de almacenamiento de datos biológicos de código abierto
Referencias
- ^ a b Doms, A .; Schroeder, M. (2005). "GoPubMed: explorar PubMed con la ontología genética" (PDF) . Investigación de ácidos nucleicos . 33 (Problema del servidor web): W783–6. doi : 10.1093 / nar / gki470 . PMC 1160231 . PMID 15980585 . Consultado el 28 de septiembre de 2012 .
- ↑ a b Van Ophuizen, EAA y Leunissen, JAM (2010). "Una evaluación del desempeño de tres fuentes de conocimiento de fondo semántico en anatomía comparada". Revista de Bioinformática Integrativa. Consultado el 28 de octubre de 2012.
- ^ Ruttenberg, et al. (2007). "Avanzando en la investigación traslacional con la Web Semántica". BMC Bioinformática. Consultado el 28 de septiembre de 2012.
- ^ a b Verschelde, et al. (2007). "Integración de bases de datos asistida por ontología para respaldar el procesamiento del lenguaje natural y la minería de datos biomédicos". Revista de Bioinformática Integrativa. Consultado el 28 de octubre de 2012.
- ^ Castillo, et al. (2012). "Construcción de redes de transcriptomas de café basadas en la semántica de anotación de genes". Revista de Bioinformática Integrativa. Consultado el 29 de octubre de 2012.
- ^ Bertens, et al. (2011). "Un sistema de ontología genérico basado en órganos, aplicado a la anatomía, el desarrollo y la fisiología del corazón de los vertebrados". Revista de Bioinformática Integrativa. Consultado el 30 de octubre de 2012.
- ^ Shah, et al. (2005). "Atlas: un almacén de datos para bioinformática integradora". BMC Bioinformática. Consultado el 30 de septiembre de 2012.
- ^ Kuenne, et al. (2007). "Uso de la tecnología de almacenamiento de datos en bioinformática de plantas de cultivos". Revista de Bioinformática Integrativa. Consultado el 30 de septiembre de 2012.
- ^ Thiele, et al. (2010). "Estrategias de bioinformática en ciencias de la vida: desde el procesamiento y almacenamiento de datos hasta la extracción de conocimientos biológicos". Revista de Bioinformática Integrativa. Consultado el 29 de octubre de 2012.
- ^ Belmamoune, et al. (2010). "Minería y análisis de patrones espacio-temporales de expresión genética en un marco de base de datos integrador". Revista de Bioinformática Integrativa. Consultado el 27 de octubre de 2012.
enlaces externos
- Revista de bioinformática integrativa
- IMBio
- GoPubMed
- Bioinformática BMC
- Centro de Bioinformática de los Países Bajos