Base de datos de enfermedades genéticas

En bioinformática , una base de datos de enfermedades génicas es una colección sistematizada de datos, típicamente estructurada para modelar aspectos de la realidad, de manera que se comprendan los mecanismos subyacentes de enfermedades complejas, mediante la comprensión de múltiples interacciones compuestas entre las relaciones fenotipo - genotipo y los mecanismos gen-enfermedad. ^{[1] Las} bases de datos de enfermedades genéticas integran asociaciones de enfermedades genéticas humanas de varias bases de datos curadas por expertos y asociaciones derivadas de la minería de textos, incluidas las enfermedades mendelianas, complejas y ambientales. ^[2]^[3]

Base de datos de enfermedades genéticas
Clasificación	Bioinformática
Subclasificación	Bases de datos
Tipo de bases de datos	Biológico
Subtipo de bases de datos	Enfermedad genética

Introducción

Expertos en diferentes áreas de la biología y la bioinformática llevan mucho tiempo intentando comprender los mecanismos moleculares de las enfermedades para diseñar estrategias preventivas y terapéuticas. Para algunas enfermedades, se ha hecho evidente que la cantidad adecuada de animosidad no es suficiente para obtener un índice de los genes relacionados con la enfermedad, sino para descubrir cómo las alteraciones de las rejillas moleculares en la célula dan lugar a fenotipos de enfermedades. ^[4] Además, incluso con la riqueza sin precedentes de información disponible, obtener dichos catálogos es extremadamente difícil.

Genética En términos generales, las enfermedades genéticas son causadas por aberraciones en genes o cromosomas . Muchas enfermedades genéticas se desarrollan desde antes del nacimiento. Los trastornos genéticos representan una parte importante de los problemas sanitarios de nuestra sociedad. Los avances en la comprensión de estas enfermedades han aumentado tanto la esperanza de vida como la calidad de vida de muchos de los afectados por trastornos genéticos. Los desarrollos recientes en bioinformática y genética de laboratorio han hecho posible una mejor delimitación de ciertos síndromes de malformación y retraso mental, de modo que se pueda comprender su modo de herencia. Esta información permite al asesor genético predecir el riesgo de aparición de una gran cantidad de trastornos genéticos. ^[2] Sin embargo, la mayor parte del asesoramiento genético se realiza solo después de que el nacimiento de al menos un individuo afectado haya alertado a la familia sobre su predilección por tener hijos con un trastorno genético. La asociación de un solo gen con una enfermedad es poco común y una enfermedad genética puede ser o no un trastorno transmisible. ^[5] Algunas enfermedades genéticas se heredan de los genes de los padres, pero otras son causadas por nuevas mutaciones o cambios en el ADN . En otros casos, la misma enfermedad, por ejemplo, algunas formas de carcinoma o melanoma , puede provenir de una condición endogámica en algunas personas, de nuevos cambios en otras personas y de causas no genéticas en otras personas. ^[6]

Hay más de seis mil trastornos conocidos de un solo gen (monogénicos), que ocurren en aproximadamente 1 de cada 200 nacimientos. ^[1] Como sugiere su término, estas enfermedades son causadas por una mutación en un gen. Por el contrario, los trastornos poligénicos son causados por varios genes, habitualmente en combinación con factores ambientales. ^[7] Ejemplos de fenotipos genéticos incluyen enfermedad de Alzheimer , cáncer de mama, leucemia, síndrome de Down, defectos cardíacos y sordera; por lo tanto, se necesita catalogar para clasificar todas las enfermedades relacionadas con los genes.

Desafíos con la creación

Flujo de trabajo de priorización de genes de enfermedades humanas : las listas típicas provienen de regiones de ligamiento, aberraciones cromosómicas, loci de estudio de asociación, listas de genes expresados deferentemente o genes identificados mediante variantes de secuenciación. Alternativamente, se puede priorizar el genoma completo, pero entonces se esperarían sustancialmente más falsos positivos.

En las diferentes etapas de cualquier proyecto de enfermedad genética, los biólogos moleculares deben elegir, incluso después de un cuidadoso análisis de datos estadísticos, qué genes o proteínas investigar más experimentalmente y cuáles dejar de lado debido a los recursos limitados. Los métodos computacionales que integran conjuntos de datos complejos y heterogéneos, como datos de expresión, información de secuencia, anotación funcional y la literatura biomédica, permiten priorizar genes para estudios futuros de una manera más informada. Estos métodos pueden aumentar sustancialmente el rendimiento de los estudios posteriores y se están volviendo invaluables para los investigadores. Entonces, una de las principales preocupaciones en la investigación biológica y biomédica es reconocer los mecanismos subyacentes detrás de estos intrincados fenotipos genéticos. Se ha realizado un gran esfuerzo para encontrar los genes relacionados con las enfermedades ^[8].

Sin embargo, cada vez hay más evidencias que señalan que la mayoría de las enfermedades humanas no se pueden atribuir a un solo gen, sino que surgen debido a interacciones complejas entre múltiples variantes genéticas y factores de riesgo ambientales. Se han desarrollado varias bases de datos que almacenan asociaciones entre genes y enfermedades como la Comparative Toxicogenomics Database (CTD), Online Mendelian Inheritance in Man (OMIM), la Base de datos de asociaciones genéticas (GAD) o la Base de datos de asociaciones genéticas de enfermedades (DisGeNET). Cada una de estas bases de datos se centra en diferentes aspectos de la relación fenotipo-genotipo y, debido a la naturaleza del proceso de conservación de la base de datos, no están completas, pero en cierto modo son completamente complementarias entre sí. ^[9]

Tipos de bases de datos

Básicamente, hay cuatro tipos de bases de datos: bases de datos seleccionadas, bases de datos predictivas, bases de datos bibliográficas y bases de datos integradoras ^[1]

Bases de datos seleccionadas

El término datos curados se refiere a información, que puede comprender los formatos computacionales más sofisticados para datos estructurados, actualizaciones científicas y conocimiento curado, que ha sido compuesta y preparada bajo la regulación de uno o más expertos considerados calificados para participar en tal actividad ^[10] La implicación es que la base de datos resultante es de alta calidad. El contraste está con los datos que pueden haber sido recopilados a través de algún proceso automatizado o usando una calidad de datos particularmente baja o inexperta, no respaldada y posiblemente no confiable. ^[10] Algunos de los ejemplos más comunes incluyen: CTD y UNIPROT.

La base de datos comparativa de toxicogenómica (CTD)

La base de datos comparativa de toxicogenómica ayuda a comprender los efectos de los compuestos ambientales en la salud humana al integrar datos de literatura científica curada para describir interacciones bioquímicas con genes y proteínas, y vínculos entre enfermedades y sustancias químicas, enfermedades y genes o proteínas. ^[11] CTD contiene datos curados que definen las interacciones químico-gen / proteína entre especies y las asociaciones químicas y gen-enfermedades para iluminar los mecanismos moleculares subyacentes a la susceptibilidad variable y las enfermedades influenciadas por el medio ambiente. Estos datos brindan información sobre redes complejas de interacción químico-genético y proteico. Una de las principales fuentes de esta base de datos es la información seleccionada de OMIM. ^[11]

CTD es un recurso único donde los especialistas en bioinformática leen la literatura científica y seleccionan manualmente cuatro tipos de datos básicos:

Interacciones químico-genético
Asociaciones de enfermedades químicas
Asociaciones gen-enfermedad
Asociaciones químico-fenotipo

El recurso proteico universal (UNIPROT)

El Universal Protein Resource ( UniProt ) es un recurso inclusivo para la secuencia de proteínas y los datos de anotación. Es una base de datos completa, de primera clase y de acceso libre de secuencias de proteínas e información funcional, que tiene muchas entradas derivadas de proyectos de secuenciación del genoma . Contiene una gran cantidad de información sobre la función biológica de las proteínas derivada de la literatura de estudio, que puede sugerir una conexión directa entre gen-proteína-enfermedad. ^[12]

UniProt
Contenido
Descripción	UniProt es el recurso universal de proteínas , un depósito central de datos de proteínas creado mediante la combinación de las bases de datos Swiss-Prot, TrEMBL y PIR-PSD .
Tipos de datos capturados	Anotación de proteínas
Organismos	Todas
Contacto
Centro de Investigación	EMBL-EBI , Reino Unido; SIB , Suiza; PIR , EE. UU.
Cita primaria	Desarrollos actuales y futuros en Universal Protein Resource ^[13]
Acceso
Formato de datos	Archivo plano personalizado, FASTA , GFF , RDF , XML .
Sitio web	www .uniprot .org www .uniprot .org / news /
URL de descarga	www .uniprot .org / downloads y para descargar conjuntos de datos completos ftp .uniprot .org
URL del servicio web	Sí - JAVA API ver información aquí y REST ver información aquí
Herramientas
Web	Búsqueda avanzada, BLAST , Clustal O, recuperación / descarga masiva, mapeo de ID
Diverso
Licencia	Creative Commons Attribution-NoDerivs
Control de versiones	sí
Frecuencia de publicación de datos	4 semanas
Política de curación	Sí, manual y automático. Reglas de anotación automática generadas por curadores de bases de datos y algoritmos computacionales.
Entidades que se pueden marcar	Sí, tanto las entradas como las búsquedas de proteínas individuales

El proceso de recopilación y conservación de la base de datos
Los datos seleccionados pueden comprender un proceso que va desde la experiencia práctica y la revisión de la literatura hasta la publicación en la web de la base de datos ^[14]

Bases de datos predictivas

Una base de datos predictiva es aquella que se basa en inferencias estadísticas. Un enfoque particular de tal inferencia se conoce como inferencia predictiva, pero la predicción se puede realizar dentro de cualquiera de los varios enfoques de inferencia estadística. De hecho, una descripción de la bioestadística es que proporciona un medio para transferir el conocimiento sobre una muestra de una población genética a toda la población ( genómica ) y a otros genes o genomas relacionados, lo que no es necesariamente lo mismo que la predicción a lo largo del tiempo. ^[15] Cuando la información se transfiere a lo largo del tiempo, a menudo a puntos específicos en el tiempo, el proceso se conoce como pronóstico. Tres de los principales ejemplos de bases de datos que se pueden considerar en esta categoría incluyen: la base de datos del genoma del ratón (MGD), la base de datos del genoma de la rata (RGD), OMIM y la herramienta SIFT de Ensembl. ^[1]

La base de datos del genoma del ratón (MGD)

La base de datos del genoma del ratón (MGD) es el recurso de la comunidad internacional para datos genéticos, genómicos y biológicos integrados sobre el ratón de laboratorio. MGD proporciona una anotación completa de fenotipos y asociaciones de enfermedades humanas para modelos de ratón (genotipos) utilizando términos de Mammalian Phenotype Ontology y nombres de enfermedades de OMIM. ^[dieciséis]

La base de datos del genoma de la rata (RGD)

RGD
Contenido
Descripción	La base de datos del genoma de la rata
Organismos	Rattus norvegicus (rata)
Contacto
Centro de Investigación	Colegio Médico de Wisconsin
Laboratorio	Centro de Genética y Molecular Humana
Autores	Mary E. Shimoyama, PhD; Howard J. Jacob, Doctorado
Cita primaria	PMID 25355511
Acceso
Sitio web	rgd .mcw .edu
URL de descarga	Publicación de datos RGD

La base de datos del genoma de ratas (RGD) comenzó como un esfuerzo de colaboración entre las principales instituciones de investigación involucradas en la investigación genética y genómica de ratas. Los investigadores siguen utilizando ampliamente la rata como organismo modelo para investigar la biología y la fisiopatología de las enfermedades. En los últimos años, ha habido un rápido aumento de los datos genéticos y genómicos de ratas. ^[17] Esta explosión de información destacó la necesidad de una base de datos centralizada para recopilar, administrar y distribuir de manera eficiente y efectiva una vista centrada en las ratas de estos datos a los investigadores de todo el mundo. La base de datos del genoma de ratas se creó para servir como depósito de datos genéticos y genómicos de ratas, así como de cartografía, cepas e información fisiológica. También facilita los esfuerzos de investigación de los investigadores al proporcionar herramientas para buscar, extraer y predecir estos datos. ^[17]

Los datos del RGD que son útiles para los investigadores que investigan genes de enfermedades incluyen anotaciones de enfermedades para genes de rata, ratón y humanos. Las anotaciones se seleccionan manualmente de la literatura o se descargan a través de canales automatizados de otras bases de datos relacionadas con enfermedades. Las anotaciones descargadas se asignan al mismo vocabulario de enfermedades que se utiliza para las anotaciones manuales para proporcionar coherencia en todo el conjunto de datos. RGD también mantiene datos fenotípicos cuantitativos relacionados con la enfermedad para la rata (PhenoMiner). ^[18]

La herencia mendeliana en línea en el hombre ( OMIM )

La herencia mendeliana en línea en el hombre
Contenido
Descripción	OMIM es un compendio de genes humanos y fenotipos genéticos.
Organismos	Humano ( H. Sapiens )
Contacto
Centro de Investigación	NCBI
Cita primaria	PMID 25398906
Acceso
Sitio web	www .ncbi .nlm .nih .gov / omim

Con el apoyo del NCBI, The Online Mendelian Inheritance in Man (OMIM) es una base de datos que cataloga todas las enfermedades conocidas con un componente genético, predice su relación con genes relevantes en el genoma humano y proporciona referencias para futuras investigaciones y herramientas para el análisis genómico. de un gen catalogado. ^[19] OMIM es un compendio completo y autorizado de genes humanos y fenotipos genéticos que está disponible gratuitamente y se actualiza diariamente. La base de datos se ha utilizado como recurso para predecir información relevante para condiciones heredadas. ^[19]

Hogeneidad de la vía frente a genes asociados Al mostrar el concepto de que las enfermedades tienen una gran asociación con una variedad de genes, se trazan valores medios de homogeneidad de la vía de enfermedades individuales y controles aleatorios para cuatro redes agrupadas por el número de productos génicos asociados por enfermedad. Este gráfico muestra lo difícil que es correlacionar un mayor número de enfermedades frente a la concordancia en 4 bases de datos diferentes, por lo tanto, las bases de datos de enfermedades genéticas prueban estas relaciones

Herramienta Ensembl SIFT

El proyecto de base de datos del genoma Ensembl.

Contenido
Descripción	Ensembl
Contacto
Centro de Investigación	Wellcome Trust Sanger Institute Instituto Europeo de Bioinformática
Cita primaria	Hubbard y col. (2002) ^[20]
Acceso
Sitio web	www .ensembl .org

Este es uno de los recursos más grandes disponibles para todos los estudios genéticos y genómicos, proporciona un recurso centralizado para genetistas, biólogos moleculares y otros investigadores que estudian los genomas de nuestra propia especie y otros vertebrados y organismos patógenos modelo. Ensembl es uno de varios navegadores genómicos conocidos para la recuperación de información sobre enfermedades genómicas. Ensembl importa datos de variación de una variedad de fuentes diferentes, Ensembl predice los efectos de las variantes. ^[21] Para cada variación que se asigna al genoma de referencia, se identifica cada transcripción de Ensembl que se superpone a la variación. Luego, utiliza un enfoque basado en reglas para predecir los efectos que cada alelo de la variación puede tener en la transcripción. El conjunto de términos de consecuencia, definido por la ontología de secuencia (SO), se puede asignar actualmente a cada combinación de un alelo y una transcripción. Cada alelo de cada variación puede tener un efecto diferente en diferentes transcripciones. Se utilizan una variedad de herramientas diferentes para predecir mutaciones humanas en la base de datos Ensembl, una de las más utilizadas es SIFT, que predice si es probable que una sustitución de aminoácidos afecte la función de la proteína en función de la homología de secuencia y la similitud físico-química entre aminoácidos alternos. Los datos proporcionados para cada sustitución de aminoácidos son una puntuación y una predicción cualitativa ("tolerada" o "perjudicial"). La puntuación es la probabilidad normalizada de que se tolere el cambio de aminoácidos, por lo que es más probable que las puntuaciones cercanas a 0 sean perjudiciales. La predicción cualitativa se deriva de esta puntuación de modo que las sustituciones con una puntuación <0,05 se denominan "perjudiciales" y todas las demás se denominan "toleradas". SIFT se puede aplicar a polimorfismos no sinónimos que ocurren naturalmente y mutaciones sin sentido inducidas por el laboratorio, que conducirán a establecer relaciones en las características fenotípicas, proteómica y genómica. ^[21]

Bases de datos de literatura

Este tipo de bases de datos resumen libros, artículos, reseñas de libros, disertaciones y anotaciones sobre bases de datos de enfermedades genéticas. Algunos de los siguientes son ejemplos de este tipo: GAD, LGHDN y BeFree Data.

Base de datos de asociaciones genéticas (GAD)

La base de datos de asociaciones genéticas es un archivo de estudios de asociación genética humana de enfermedades complejas. GAD se centra principalmente en el archivo de información sobre enfermedades humanas complejas comunes en lugar de los trastornos mendelianos raros que se encuentran en el OMIM. Incluye datos resumidos curados extraídos de artículos publicados en revistas revisadas por pares sobre genes candidatos y estudios de asociación amplia del genoma ( GWAS ). ^[22] El GAD se congeló a partir del 01/09/2014, pero aún está disponible para descargar. ^[23]

Red de enfermedades genéticas humanas derivadas de la literatura (LHGDN)

La red de enfermedades de genes humanos derivada de la literatura (LHGDN) es una base de datos derivada de la minería de textos que se centra en extraer y clasificar asociaciones de enfermedades de genes con respecto a varias condiciones biomoleculares. Utiliza un algoritmo basado en el aprendizaje automático para extraer relaciones semánticas entre genes y enfermedades de una fuente textual de interés. Es parte de Linked Life Data, de la LMU en Munchen, Alemania. ^[1]

BeFree Data

Extrae asociaciones de genes y enfermedades del resumen de MEDLINE utilizando el sistema BeFree. BeFree está compuesto por un módulo biomédico de Reconocimiento de Entidades Nombradas (BioNER) para detectar enfermedades y genes y un módulo de extracción de relaciones basado en información morfosintáctica. ^[24]

Bases de datos integradoras

Este tipo de bases de datos incluyen enfermedades mendelianas, compuestas y ambientales en un archivo integrado de asociación gen-enfermedad y muestran que el concepto de modularidad se aplica a todas ellas.Proporcionan un análisis funcional de enfermedades en caso de nuevos conocimientos biológicos importantes, que podrían no ser descubierto al considerar cada una de las asociaciones gen-enfermedad de forma independiente. Por tanto, presentan un marco adecuado para el estudio de cómo los factores genéticos y ambientales, como los fármacos, contribuyen a las enfermedades. El mejor ejemplo de este tipo de base de datos es DisGeNET. ^[8]^[25]

La base de datos de asociaciones de enfermedades genéticas DisGeNET

DisGeNET
Contenido
Descripción	Integra asociaciones de enfermedades de genes humanos
Tipos de datos capturados	Base de datos de asociaciones
Organismos	Humano ( H. Sapiens )
Contacto
Centro de Investigación	Programa de Investigación en Informática Biomédica (GRIB) IMIM-UPF
Laboratorio	Grupo de Informática Biomédica Integrativa
Autores	Ferran Sanz y Laura I. Furlong (Pinero et al, 2015)
Cita primaria	PMID 25877637
Acceso
Sitio web	www .disgenet .org
Diverso
Frecuencia de publicación de datos	anual
Versión	3

DisGeNET es una base de datos completa de asociaciones entre genes y enfermedades que integra asociaciones de varias fuentes que cubren diferentes aspectos biomédicos de las enfermedades. ^[25] En particular, se centra en el conocimiento actual de las enfermedades genéticas humanas, incluidas las enfermedades mendelianas, complejas y ambientales. Para evaluar el concepto de modularidad de las enfermedades humanas, esta base de datos realiza un estudio sistemático de las propiedades emergentes de las redes de genes y enfermedades humanas mediante la topología de redes y el análisis de anotaciones funcionales. ^[1] Los resultados indican un origen genético muy compartido de las enfermedades humanas y muestran que para la mayoría de las enfermedades, incluidas las enfermedades mendelianas, complejas y ambientales, existen módulos funcionales. Además, un conjunto básico de vías biológicas está asociado con la mayoría de las enfermedades humanas. Al obtener resultados similares al estudiar grupos de enfermedades, los hallazgos en esta base de datos sugieren que podrían surgir enfermedades relacionadas debido a la disfunción de procesos biológicos comunes en la célula. El análisis de la red de esta base de datos integrada señala que la integración de datos es necesaria para obtener una visión completa del panorama genético de las enfermedades humanas y que el origen genético de las enfermedades complejas es mucho más común de lo esperado. ^[1]

Ontología de asociación entre el gen y la enfermedad de DisGeNET
La descripción de cada tipo de asociación en esta ontología es: # Asociación terapéutica: el gen / proteína tiene un papel terapéutico en la mejora de la enfermedad. Asociación de biomarcadores: el gen / proteína juega un papel en la etiología de la enfermedad (por ejemplo, participa en el mecanismo molecular que conduce a la enfermedad) o es un biomarcador de una enfermedad. # Asociación de variación genética: se utiliza cuando una variación de secuencia (una mutación, un SNP) está asociada al fenotipo de la enfermedad, pero aún no hay evidencia que indique que la variación causa la enfermedad. En algunos casos, la presencia de variantes aumenta la susceptibilidad a la enfermedad. En general, se proporcionan los identificadores NCBI SNP. # Asociación de expresión alterada: Las alteraciones en la función de la proteína por medio de la expresión alterada del gen están asociadas al fenotipo de la enfermedad. # Asociación de modificaciones postraduccionales: Las alteraciones en la función de la proteína mediante modificaciones postraduccionales (metilación o fosforilación de la proteína) están asociadas al fenotipo de la enfermedad. ^[1]

Algunos casos de uso

Algunos de los casos más interesantes que utilizan bases de datos de enfermedades genéticas se pueden encontrar en los siguientes artículos: ^[1]^[8]

Santiago, Jose A .; Potashkin, Judith A. (2014). "Un enfoque en red para la intervención clínica en enfermedades neurodegenerativas". Tendencias en Medicina Molecular . 20 (12): 694–703. doi : 10.1016 / j.molmed.2014.10.002 . PMID 25455073 .
Kaikkonen, Minna U .; Niskanen, Henri; Romanoski, Casey E .; Kansanen, Emilia; Kivelä, Annukka M .; Laitalainen, Jarkko; Heinz, Sven; Benner, Christopher; Glass, Christopher K .; Ylä-Herttuala, Seppo (2014). "Control de programas transcripcionales de VEGF-A por pausa y compartimentación genómica" . Investigación de ácidos nucleicos . 42 (20): 12570-12584. doi : 10.1093 / nar / gku1036 . PMC 4227755 . PMID 25352550 .
Grosdidier, Solène; Ferrer, Antoni; Faner, Rosa; Piñero, Janet; Roca, Josep; Cosío, Borja; Agustí, Alvar; Gea, Joaquim; Sanz, Ferran; Furlong, Laura I. (2014). "Análisis de la medicina en red de las multimorbilidades de la EPOC" . Investigación respiratoria . 15 : 111. doi : 10.1186 / s12931-014-0111-4 . PMC 4177421 . PMID 25248857 .
Cristiano, Francesca; Veltri, Pierangelo (2014). "Una herramienta basada en R para el análisis de datos de miARN y la correlación con ontologías clínicas". Actas de la 5ª Conferencia ACM sobre Bioinformática, Biología Computacional e Informática de la Salud - BCB '14 . págs. 768–773. doi : 10.1145 / 2649387.2660847 . ISBN 9781450328944.
Gallagher, Suzanne Renick; Dombrower, Micah; Goldberg, Debra S. (2014). "Utilizando coeficientes de agrupación de hipergráficos de 2 nodos para analizar redes de genes de enfermedades". Actas de la 5ª Conferencia ACM sobre Bioinformática, Biología Computacional e Informática de la Salud - BCB '14 . págs. 647–648. doi : 10.1145 / 2649387.2660817 . ISBN 9781450328944.
Mannil, Deepthi; Vogt, Ingo; Prinz, Jeanette; Campillos, Mónica (2015). "DB heterogeneidad del sistema de órganos: una base de datos para la visualización de fenotipos a nivel del sistema de órganos" . Investigación de ácidos nucleicos . 43 (Problema de la base de datos): D900 – D906. doi : 10.1093 / nar / gku948 . PMC 4384019 . PMID 25313158 .
Vogt, Ingo; Prinz, Jeanette; Campillos, Mónica (2014). "Los fármacos y las enfermedades relacionados desde el punto de vista clínico y molecular se enriquecen en pares de fármacos y enfermedades fenotípicamente similares" . Medicina del genoma . 6 (7). doi : 10.1186 / s13073-014-0052-z .
Santiago, Jose A .; Potashkin, Judith A. (2014). "Enfoques basados en sistemas para decodificar los vínculos moleculares en la enfermedad de Parkinson y la diabetes". Neurobiología de la enfermedad . 72 : 84–91. doi : 10.1016 / j.nbd.2014.03.019 . PMID 24718034 .
Lee, In-Hee; Lee, Kyungjoon; Hsing, Michael; Choe, Yongjoon; Park, Jin-Ho; Kim, Shu Hee; Bohn, Justin M .; Neu, Matthew B .; Hwang, Kyu-Baek; Green, Robert C .; Kohane, Isaac S .; Kong, Sek Won (2014). "Priorización de variantes, genes y vías vinculadas a enfermedades con un canal de análisis interactivo del genoma completo" . Mutación humana . 35 (5): 537–547. doi : 10.1002 / humu.22520 . PMC 4130156 . PMID 24478219 .
Liu, Ming-Xi; Chen, Xing; Chen, Geng; Cui, Qing-Hua; Yan, Gui-Ying (2014). "Un marco computacional para inferir ARN largos no codificantes asociados a enfermedades humanas" . PLOS One . 9 (1): e84408. Código bibliográfico : 2014PLoSO ... 984408L . doi : 10.1371 / journal.pone.0084408 . PMC 3879311 . PMID 24392133 .
Zhao, Yilei; Wang, Chen; Wu, Jianwei; Wang, Yan; Zhu, Wenliang; Zhang, Yong; Du, Zhimin (2013). "La colina protege contra la hipertrofia cardíaca inducida por una mayor poscarga" . Revista Internacional de Ciencias Biológicas . 9 (3): 295-302. doi : 10.7150 / ijbs.5976 . PMC 3596715 . PMID 23493786 .
Koczor, Christopher A .; Lee, Eva K .; Torres, Rebecca A .; Boyd, Amy; Vega, J. David; Uppal, Karan; Yuan, Fan; Fields, Earl J .; Samarel, Allen M .; Lewis, William (2013). "Detección de promotores de genes metilados diferencialmente en miocardio del ventrículo izquierdo humano fallido y no fallido mediante análisis de cálculo" . Genómica fisiológica . 45 (14): 597–605. doi : 10.1152 / fisiolgenómica.00013.2013 . PMC 3727018 . PMID 23695888 .
Gu, Ying; Liu, Guang-Hui; Plongthongkum, Nongluk; Benner, Christopher; Yi, Fei; Qu, Jing; Suzuki, Keiichiro; Yang, Jiping; Zhang, Weiqi; Li, Mo; Montserrat, Nuria; Crespo, Isaac; Del Sol, Antonio; Esteban, Concepción Rodríguez; Zhang, Kun; Izpisua Belmonte, Juan Carlos (2014). "Metilación de ADN global y análisis transcripcional de cardiomiocitos derivados de ESC humanos" . Proteínas y células . 5 : 59–68. doi : 10.1007 / s13238-013-0016-x . PMC 3938846 . PMID 24474197 .
Galhardo, Mafalda; Sinkkonen, Lasse; Berninger, Philipp; Lin, Jake; Sauter, Thomas; Heinäniemi, Merja (2014). "El análisis integrado de la regulación del metabolismo a nivel de transcripción revela nodos relevantes para la enfermedad de la red metabólica humana" . Investigación de ácidos nucleicos . 42 (3): 1474–1496. doi : 10.1093 / nar / gkt989 . PMC 3919568 . PMID 24198249 .
Tieri, Paolo; Termanini, Alberto; Bellavista, Elena; Salvioli, Stefano; Capri, Miriam; Franceschi, Claudio (2012). "Trazando el mapa del interactoma de la vía NF-κB" . PLOS One . 7 (3): e32678. Código bibliográfico : 2012PLoSO ... 732678T . doi : 10.1371 / journal.pone.0032678 . PMC 3293857 . PMID 22403694 .

Comentarios sobre el futuro en las bases de datos de enfermedades genéticas

Relaciones en las enfermedades genéticas

La finalización del genoma humano ha cambiado la forma en que se realiza la búsqueda de genes de enfermedades. En el pasado, el enfoque consistía en centrarse en uno o unos pocos genes a la vez. Ahora, proyectos como DisGeNET ejemplifican los esfuerzos por analizar sistemáticamente todas las alteraciones genéticas involucradas en una o múltiples enfermedades. ^[26] El siguiente paso es producir una imagen completa de los aspectos mecanicistas de las enfermedades y el diseño de medicamentos contra ellas. Para eso, se necesitará una combinación de dos enfoques: una búsqueda sistemática y un estudio en profundidad de cada gen. El futuro del campo estará definido por nuevas técnicas para integrar grandes cuerpos de datos de diferentes fuentes e incorporar información funcional en el análisis de datos a gran escala generados por estudios bioinformáticos. ^[1]

La bioinformática es tanto un término para el cuerpo de estudios de enfermedades genéticas biológicas que utilizan la programación informática como parte de su metodología, como una referencia a líneas de análisis específicas que se utilizan repetidamente, particularmente en los campos de la genética y la genómica. ^[1] Los usos comunes de la bioinformática incluyen la identificación de genes y nucleótidos candidatos, SNP . A menudo, dicha identificación se realiza con el objetivo de comprender mejor la base genética de la enfermedad, las adaptaciones únicas, las propiedades deseables o las diferencias entre poblaciones. De una manera menos formal, la bioinformática también intenta comprender los principios organizativos dentro de las secuencias de ácidos nucleicos y proteínas. ^[1]

La respuesta de la bioinformática a las nuevas técnicas experimentales aporta una nueva perspectiva al análisis de los datos experimentales, como lo demuestran los avances en el análisis de la información de las bases de datos de enfermedades genéticas y otras tecnologías. Se espera que esta tendencia continúe con enfoques novedosos para responder a nuevas técnicas, como las tecnologías de secuenciación de próxima generación. Por ejemplo, la disponibilidad de un gran número de genomas humanos individuales promoverá el desarrollo de análisis computacionales de variantes raras, incluida la extracción estadística de sus relaciones con los estilos de vida, las interacciones farmacológicas y otros factores. ^{[1] La} investigación biomédica también se verá impulsada por nuestra capacidad para extraer de manera eficiente la gran cantidad de datos biomédicos existentes y generados continuamente. Las técnicas de minería de textos, en particular, cuando se combinan con otros datos moleculares, pueden proporcionar información sobre mutaciones e interacciones genéticas y serán cruciales para mantenerse a la vanguardia del crecimiento exponencial de los datos generados en la investigación biomédica. Otro campo que se está beneficiando de los avances en la minería y la integración del análisis molecular, clínico y de fármacos es la farmacogenómica. Los estudios in silico de las relaciones entre las variaciones humanas y su efecto sobre las enfermedades serán clave para el desarrollo de la medicina personalizada. ^[8] En resumen, las bases de datos de enfermedades genéticas ya han transformado la búsqueda de genes de enfermedades y tienen el potencial de convertirse en un componente crucial de otras áreas de la investigación médica. ^[1]

Ver también

Informática de la biodiversidad
Empresas de bioinformática
Biomedicina
Biología Computacional
Biomodelado computacional
Genómica computacional
Identificación del gen de la enfermedad
Instituto Europeo de Bioinformática
Genómica funcional
Informática de la salud
Proyecto Genoma Humano
Bioinformática integradora
Sociedad Internacional de Biología Computacional
Biblioteca de salto
Lista de revistas de bioinformática
Lista de bases de datos biológicas
Lista de software bioinformático de código abierto
Patología
Filogenética
Bioinformática estructural

Referencias

^ a b c d e f g h i j k l m n A. Bauer-Mehren, "El análisis de la red de enfermedades genéticas revela módulos funcionales en enfermedades mendelianas , complejas y ambientales ", PLOS One, págs. 1-3, 2011.
^ a b Botstein, D (2003). "Descubrimiento de genotipos subyacentes a fenotipos humanos: éxitos pasados de la enfermedad mendeliana, enfoques futuros para enfermedades complejas". Genética de la naturaleza . 33 (1): 228-237. doi : 10.1038 / ng1090 . PMID 12610532 .
^ Wren JD, Bateman A (2008). "Bases de datos, tumbas de datos y polvo en el viento" . Bioinformática . 24 (19): 2127–8. doi : 10.1093 / bioinformatics / btn464 . PMID 18819940 .
^ Asociación Estadounidense de Informática Médica, "Plan estratégico de la Asociación Estadounidense de Informática Médica", agosto de 2011. [En línea]. Disponible: http://www.amia.org/inside/stratplan/ . [Consultado el 15 de octubre de 2014].
^ Oti, M (2007). "La naturaleza modular de las enfermedades genéticas". Genética clínica . 71 (1): 1–11. doi : 10.1111 / j.1399-0004.2006.00708.x . PMID 17204041 .
^ Davis, A .; King, B. (2011). "La Base de Datos de Toxicogenómica Comparativa: actualización 2011" . Ácidos nucleicos Res . 39 (1): 1067–1072. doi : 10.1093 / nar / gkq813 . PMC 3013756 . PMID 20864448 .
^ Davis, A .; Wiegers, T. (2013). "Text Mining puntúa y clasifica eficazmente la literatura para mejorar la curación de enfermedades de genes químicos en la base de datos de toxicogenómica comparativa" . PLOS One . 8 (4): 1–29. Código bibliográfico : 2013PLoSO ... 858201D . doi : 10.1371 / journal.pone.0058201 . PMC 3629079 . PMID 23613709 .
^ a b c d Bauer-Mehren, A .; Rautscha, M. (2010). "DisGeNET: un complemento de Cytoscape para visualizar, integrar, buscar y analizar redes de enfermedades genéticas" . Bioinformática . 26 (22): 2924–2926. doi : 10.1093 / bioinformatics / btq538 . PMID 20861032 .
^ Vogt, I. (2014). "Análisis sistemático de las propiedades de los genes que influyen en los fenotipos del sistema de órganos en las perturbaciones de los mamíferos" . Bioinformática . 30 (21): 3093–3100. doi : 10.1093 / bioinformatics / btu487 .
^ a b Buneman, P. (2008). "Bases de datos seleccionadas". Bibliometría . 978 (1): 152–162.
^ a b Murphy, C .; Davis, A. (2009). "Base de datos comparativa de toxicogenómica: una base de conocimientos y una herramienta de descubrimiento para redes de enfermedades químicas-genéticas" . Bioinformática . 37 (1): 786–792. doi : 10.1093 / nar / gkn580 . PMC 2686584 . PMID 18782832 .
^ "El recurso proteico universal (UniProt)" . Investigación de ácidos nucleicos . 36 (1): 190-195. 2008. doi : 10.1093 / nar / gkm895 . PMC 1669721 . PMID 18045787 .
^ Uniprot, C. (2010). "Desarrollos actuales y futuros en Universal Protein Resource" . Investigación de ácidos nucleicos . 39 (Problema de la base de datos): D214 – D219. doi : 10.1093 / nar / gkq1020 . PMC 3013648 . PMID 21051339 .
^ K. Brown, "Base de datos de interacción humana prevista en línea", Bioinformática , vol. 21, no. 9, págs. 2076-2082, 2005.
^ S. Hunter y P. Jones, "InterPro en 2011: nuevos desarrollos en la base de datos de predicción de dominios y familias", Nucleic Acids Research , vol. 10, no. 1, págs. 12-22, 2011
^ C. Bult y J. Eppig, "La base de datos del genoma del ratón (MGD): biología del ratón y sistemas modelo", Investigación de ácidos nucleicos , vol. 36, no. 1, págs. 724-728, 2007
^ a b M. Dwinell, E. Worthey y S. M, "La base de datos del genoma de la rata 2009: variación, ontologías y vías" , Investigación de ácidos nucleicos , vol. 37, no. 1, págs. 744-749, 2009
^ Shimoyama M, De Pons J, Hayman GT, et al. (2015). "La base de datos del genoma de la rata 2015: enfermedades y variaciones genómicas, fenotípicas y ambientales" . Investigación de ácidos nucleicos . 43 (Problema de la base de datos): D743–50. doi : 10.1093 / nar / gku1026 . PMC 4383884 . PMID 25355511 .
^ a b A. Homosh, "Herencia mendeliana en línea en el hombre (OMIM), una base de conocimientos sobre genes humanos y trastornos genéticos" , Investigación de ácidos nucleicos , vol. 33, no. 1, págs. 514-517, 2005
^ Hubbard T y col. (Enero de 2002). "El proyecto de base de datos del genoma Ensembl" . Investigación de ácidos nucleicos . 30 (1): 38–41. doi : 10.1093 / nar / 30.1.38 . PMC 99161 . PMID 11752248 .
^ a b P. Flicek y M. Ridwan, "Ensembl 2012" , Investigación de ácidos nucleicos , vol. 40, no. 1, págs. 84-90, 2012
^ Becker, K .; Barnes, K. (2004). "La base de datos de la asociación genética" . Genética de la naturaleza . 36 (5): 431–432. doi : 10.1038 / ng0504-431 . PMID 15118671 .
^ https://geneticassociationdb.nih.gov/
^ Bravo, A; et al. (2014). "Extracción de relaciones entre genes y enfermedades de texto y análisis de datos a gran escala: implicaciones para la investigación traslacional" . BMC Bioinformática . 16 (1): 55. doi : 10.1186 / s12859-015-0472-9 . PMC 4466840 . PMID 25886734 .
^ a b Piñero; et al. (2015). "DisGeNET: una plataforma de descubrimiento para la exploración dinámica de enfermedades humanas y sus genes" . Base de datos . 2015 : bav028. doi : 10.1093 / base de datos / bav028 . PMC 4397996 . PMID 25877637 .
^ Oti, M (2006). "Predicción de genes de enfermedades mediante interacciones proteína-proteína" . J. Med. Genet . 43 (8): 691–698. doi : 10.1136 / jmg.2006.041376 . PMC 2564594 . PMID 16611749 .

[A._Bauer1-1] ^ a b c d e f g h i j k l m n A. Bauer-Mehren, "El análisis de la red de enfermedades genéticas revela módulos funcionales en enfermedades mendelianas , complejas y ambientales ", PLOS One, págs. 1-3, 2011.

[Botstein2-2] Botstein, D (2003). "Descubrimiento de genotipos subyacentes a fenotipos humanos: éxitos pasados de la enfermedad mendeliana, enfoques futuros para enfermedades complejas". Genética de la naturaleza . 33 (1): 228-237. doi : 10.1038 / ng1090 . PMID 12610532 .

[pmid18819940-3] Wren JD, Bateman A (2008). "Bases de datos, tumbas de datos y polvo en el viento" . Bioinformática . 24 (19): 2127–8. doi : 10.1093 / bioinformatics / btn464 . PMID 18819940 .

[3_American-4] Asociación Estadounidense de Informática Médica, "Plan estratégico de la Asociación Estadounidense de Informática Médica", agosto de 2011. [En línea]. Disponible: http://www.amia.org/inside/stratplan/ . [Consultado el 15 de octubre de 2014].

[5] Oti, M (2007). "La naturaleza modular de las enfermedades genéticas". Genética clínica . 71 (1): 1–11. doi : 10.1111 / j.1399-0004.2006.00708.x . PMID 17204041 .

[6] Davis, A .; King, B. (2011). "La Base de Datos de Toxicogenómica Comparativa: actualización 2011" . Ácidos nucleicos Res . 39 (1): 1067–1072. doi : 10.1093 / nar / gkq813 . PMC 3013756 . PMID 20864448 .

[7] Davis, A .; Wiegers, T. (2013). "Text Mining puntúa y clasifica eficazmente la literatura para mejorar la curación de enfermedades de genes químicos en la base de datos de toxicogenómica comparativa" . PLOS One . 8 (4): 1–29. Código bibliográfico : 2013PLoSO ... 858201D . doi : 10.1371 / journal.pone.0058201 . PMC 3629079 . PMID 23613709 .

[A._Bauer2-8] Bauer-Mehren, A .; Rautscha, M. (2010). "DisGeNET: un complemento de Cytoscape para visualizar, integrar, buscar y analizar redes de enfermedades genéticas" . Bioinformática . 26 (22): 2924–2926. doi : 10.1093 / bioinformatics / btq538 . PMID 20861032 .

[9] Vogt, I. (2014). "Análisis sistemático de las propiedades de los genes que influyen en los fenotipos del sistema de órganos en las perturbaciones de los mamíferos" . Bioinformática . 30 (21): 3093–3100. doi : 10.1093 / bioinformatics / btu487 .

[Buneman-10] Buneman, P. (2008). "Bases de datos seleccionadas". Bibliometría . 978 (1): 152–162.

[Murphy-11] Murphy, C .; Davis, A. (2009). "Base de datos comparativa de toxicogenómica: una base de conocimientos y una herramienta de descubrimiento para redes de enfermedades químicas-genéticas" . Bioinformática . 37 (1): 786–792. doi : 10.1093 / nar / gkn580 . PMC 2686584 . PMID 18782832 .

[12] "El recurso proteico universal (UniProt)" . Investigación de ácidos nucleicos . 36 (1): 190-195. 2008. doi : 10.1093 / nar / gkm895 . PMC 1669721 . PMID 18045787 .

[pmid21051339-13] Uniprot, C. (2010). "Desarrollos actuales y futuros en Universal Protein Resource" . Investigación de ácidos nucleicos . 39 (Problema de la base de datos): D214 – D219. doi : 10.1093 / nar / gkq1020 . PMC 3013648 . PMID 21051339 .

[14] K. Brown, "Base de datos de interacción humana prevista en línea", Bioinformática , vol. 21, no. 9, págs. 2076-2082, 2005.

[15] S. Hunter y P. Jones, "InterPro en 2011: nuevos desarrollos en la base de datos de predicción de dominios y familias", Nucleic Acids Research , vol. 10, no. 1, págs. 12-22, 2011

[16] C. Bult y J. Eppig, "La base de datos del genoma del ratón (MGD): biología del ratón y sistemas modelo", Investigación de ácidos nucleicos , vol. 36, no. 1, págs. 724-728, 2007

[Dwinell-17] M. Dwinell, E. Worthey y S. M, "La base de datos del genoma de la rata 2009: variación, ontologías y vías" , Investigación de ácidos nucleicos , vol. 37, no. 1, págs. 744-749, 2009

[pmid25355511-18] Shimoyama M, De Pons J, Hayman GT, et al. (2015). "La base de datos del genoma de la rata 2015: enfermedades y variaciones genómicas, fenotípicas y ambientales" . Investigación de ácidos nucleicos . 43 (Problema de la base de datos): D743–50. doi : 10.1093 / nar / gku1026 . PMC 4383884 . PMID 25355511 .

[Homosh-19] A. Homosh, "Herencia mendeliana en línea en el hombre (OMIM), una base de conocimientos sobre genes humanos y trastornos genéticos" , Investigación de ácidos nucleicos , vol. 33, no. 1, págs. 514-517, 2005

[Hubbard2002-20] Hubbard T y col. (Enero de 2002). "El proyecto de base de datos del genoma Ensembl" . Investigación de ácidos nucleicos . 30 (1): 38–41. doi : 10.1093 / nar / 30.1.38 . PMC 99161 . PMID 11752248 .

[Flicek-21] P. Flicek y M. Ridwan, "Ensembl 2012" , Investigación de ácidos nucleicos , vol. 40, no. 1, págs. 84-90, 2012

[22] Becker, K .; Barnes, K. (2004). "La base de datos de la asociación genética" . Genética de la naturaleza . 36 (5): 431–432. doi : 10.1038 / ng0504-431 . PMID 15118671 .

[23] ttps://geneticassociationdb.nih.gov/

[24] Bravo, A; et al. (2014). "Extracción de relaciones entre genes y enfermedades de texto y análisis de datos a gran escala: implicaciones para la investigación traslacional" . BMC Bioinformática . 16 (1): 55. doi : 10.1186 / s12859-015-0472-9 . PMC 4466840 . PMID 25886734 .

[Pinero-25] Piñero; et al. (2015). "DisGeNET: una plataforma de descubrimiento para la exploración dinámica de enfermedades humanas y sus genes" . Base de datos . 2015 : bav028. doi : 10.1093 / base de datos / bav028 . PMC 4397996 . PMID 25877637 .

[26] Oti, M (2006). "Predicción de genes de enfermedades mediante interacciones proteína-proteína" . J. Med. Genet . 43 (8): 691–698. doi : 10.1136 / jmg.2006.041376 . PMC 2564594 . PMID 16611749 .

[1] Las