La genómica computacional (a menudo denominada de manera incorrecta Genética Computacional [1] ) se refiere al uso de análisis estadístico y computacional para descifrar la biología de las secuencias del genoma y datos relacionados, [2] que incluyen tanto la secuencia de ADN como la de ARN , así como otras secuencias "posgenómicas "datos (es decir, datos experimentales obtenidos con tecnologías que requieren la secuencia del genoma, como microarrays de ADN genómico ). Estos, en combinación con enfoques computacionales y estadísticos para comprender la función de los genes y el análisis de asociación estadística, este campo también se conoce como Genética Computacional y Estadística./ genómica. Como tal, la genómica computacional puede considerarse como un subconjunto de la bioinformática y la biología computacional , pero con un enfoque en el uso de genomas completos (en lugar de genes individuales) para comprender los principios de cómo el ADN de una especie controla su biología a nivel molecular y más allá de. Con la abundancia actual de conjuntos de datos biológicos masivos, los estudios computacionales se han convertido en uno de los medios más importantes para el descubrimiento biológico. [3]
Historia
Las raíces de la genómica computacional se comparten con las de la bioinformática . Durante la década de 1960, Margaret Dayhoff y otros en la Fundación Nacional de Investigación Biomédica reunieron bases de datos de secuencias de proteínas homólogas para el estudio evolutivo. [4] Su investigación desarrolló un árbol filogenético que determinaba los cambios evolutivos que se requerían para que una proteína en particular se transformara en otra proteína basándose en las secuencias de aminoácidos subyacentes . Esto los llevó a crear una matriz de puntuación que evaluaba la probabilidad de que una proteína estuviera relacionada con otra.
A partir de la década de 1980, se empezaron a registrar bases de datos de secuencias de genomas, pero esto presentó nuevos desafíos en la forma de buscar y comparar las bases de datos de información genética. A diferencia de los algoritmos de búsqueda de texto que se utilizan en sitios web como Google o Wikipedia, la búsqueda de secciones de similitud genética requiere que uno encuentre cadenas que no sean simplemente idénticas, sino similares. Esto llevó al desarrollo del algoritmo Needleman-Wunsch , que es un algoritmo de programación dinámica para comparar conjuntos de secuencias de aminoácidos entre sí mediante el uso de matrices de puntuación derivadas de la investigación anterior de Dayhoff. Posteriormente, se desarrolló el algoritmo BLAST para realizar búsquedas rápidas y optimizadas de bases de datos de secuencias de genes. BLAST y sus derivados son probablemente los algoritmos más utilizados para este propósito. [5]
La aparición de la frase "genómica computacional" coincide con la disponibilidad de genomas secuenciados completos a mediados y finales de la década de 1990. La primera reunión de la Conferencia Anual sobre Genómica Computacional fue organizada por científicos del Instituto de Investigación Genómica (TIGR) en 1998, proporcionando un foro para esta especialidad y distinguiendo efectivamente esta área de la ciencia de los campos más generales de la Genómica o Biología Computacional . [ cita requerida ] El primer uso de este término en la literatura científica, según los resúmenes de MEDLINE , fue apenas un año antes en Nucleic Acids Research . [6] La última conferencia de Computational Genomics se llevó a cabo en 2006, con una charla principal del premio Nobel Barry Marshall , co-descubridor del vínculo entre Helicobacter pylori y úlceras de estómago. A partir de 2014, las conferencias líderes en el campo incluyen Sistemas Inteligentes para Biología Molecular (ISMB) e Investigación en Biología Molecular Computacional (RECOMB).
El desarrollo de las matemáticas asistidas por computadora (utilizando productos como Mathematica o Matlab ) ha ayudado a ingenieros, matemáticos e informáticos a comenzar a operar en este dominio, y está creciendo una colección pública de estudios de casos y demostraciones, que van desde comparaciones de genomas completos hasta pruebas genéticas. análisis de expresión . [7] Esto ha aumentado la introducción de diferentes ideas, incluidos conceptos de sistemas y control, teoría de la información, análisis de cadenas y minería de datos. Se anticipa que los enfoques computacionales se convertirán y seguirán siendo un tema estándar para la investigación y la enseñanza, mientras que los estudiantes con fluidez en ambos temas comienzan a formarse en los múltiples cursos creados en los últimos años.
Contribuciones de la investigación en genómica computacional a la biología
Las contribuciones de la investigación de la genómica computacional a la biología incluyen: [3]
- proponer redes de señalización celular
- proponer mecanismos de evolución del genoma
- predecir ubicaciones precisas de todos los genes humanos utilizando técnicas de genómica comparativa con varias especies de mamíferos y vertebrados
- predecir regiones genómicas conservadas que están relacionadas con el desarrollo embrionario temprano
- descubrir posibles vínculos entre los motivos de secuencia repetida y la expresión génica específica de tejido
- medir regiones de genomas que han experimentado una evolución inusualmente rápida
Comparación del genoma
Se han desarrollado herramientas computacionales para evaluar la similitud de secuencias genómicas. Algunos de ellos son distancias basadas en alineación , como la Identidad Nucleótida Promedio . [8] Estos métodos son muy específicos, aunque computacionalmente lentos. Otros métodos sin alineación incluyen enfoques estadísticos y probabilísticos. Un ejemplo es Mash, [9] un enfoque probabilístico que utiliza minhash . En este método, dado un número k, una secuencia genómica se transforma en un esquema más corto a través de una función hash aleatoria en los posibles k-mers . Por ejemplo, si, se están construyendo bocetos de tamaño 4 y se les está dando la siguiente función hash ,
el boceto de la secuencia
es que son los valores hash más pequeños de sus k-mers de tamaño 2. Estos bocetos se comparan luego para estimar la fracción de k-mers compartidos ( índice de Jaccard ) de las secuencias correspondientes. Vale la pena notar que un valor hash es un número binario. En un entorno genómico real, un tamaño útil de k-mers varía de 14 a 21, y el tamaño de los bocetos sería de alrededor de 1000. [10]
Al reducir el tamaño de las secuencias, incluso cientos de veces, y compararlas sin alineación, este método reduce significativamente el tiempo de estimación de la similitud de secuencias.
Agrupación de datos genómicos
La agrupación de datos es una herramienta que se utiliza para simplificar el análisis estadístico de una muestra genómica. Por ejemplo, en [11] los autores desarrollaron una herramienta (BiG-SCAPE) para analizar redes de similitud de secuencias de grupos de genes biosintéticos (BGC). En [12] capas sucesivas de agrupación de agrupaciones de genes biosintéticos se utilizan en la herramienta automatizada BiG-MAP, tanto para filtrar datos redundantes como para identificar familias de agrupaciones de genes. Esta herramienta perfila los niveles de abundancia y expresión de BGC en muestras de microbioma.
Agrupaciones de genes biosintéticos
Se han desarrollado herramientas bioinformáticas para predecir y determinar la abundancia y expresión de este tipo de grupo de genes en muestras de microbioma, a partir de datos metagenómicos. [13] Dado que el tamaño de los datos metagenómicos es considerable, el filtrado y la agrupación de los mismos son partes importantes de estas herramientas. Estos procesos pueden consistir en técnicas de reducción de dimensionalidad, como Minhash , [14] y algoritmos de clusterización como k-medoides y propagación por afinidad . También se han desarrollado varias métricas y similitudes para compararlas.
La minería del genoma para los grupos de genes biosintéticos (BGC) se ha convertido en una parte integral del descubrimiento de productos naturales. Los> 200.000 genomas microbianos ahora disponibles públicamente contienen información sobre abundante química novedosa. Una forma de navegar por esta vasta diversidad genómica es a través del análisis comparativo de BGC homólogas, que permite la identificación de patrones de especies cruzadas que pueden coincidir con la presencia de metabolitos o actividades biológicas. Sin embargo, las herramientas actuales se ven obstaculizadas por un cuello de botella causado por el costoso enfoque basado en redes utilizado para agrupar estas BGC en familias de grupos de genes (GCF). BiG-SLiCE (Motor de agrupación superlineal de genes biosintéticos), una herramienta diseñada para agrupar cantidades masivas de BGC. Al representarlos en el espacio euclidiano, BiG-SLiCE puede agrupar BGC en GCF de una manera casi lineal y no por pares.
Satria et. al, 2021 [15] en BiG-SLiCE demuestran la utilidad de tales análisis mediante la reconstrucción de un mapa global de la diversidad metabólica secundaria a través de la taxonomía para identificar el potencial biosintético inexplorado, abre nuevas posibilidades para acelerar el descubrimiento de productos naturales y ofrece un primer paso hacia la construcción de un Red interconectada global y de búsqueda de BGC. A medida que se secuencian más genomas de taxones poco estudiados, se puede extraer más información para resaltar su química potencialmente nueva. [dieciséis]
Ver también
- Bioinformática
- Biología Computacional
- Genómica
- Microarray
- EXPLOSIÓN
- Epigenética computacional
Referencias
- ^ Definiciones de la OMS de genética y genómica
- ^ Koonin EV (marzo de 2001). "Genómica computacional". Biología actual . 11 (5): R155–8. doi : 10.1016 / S0960-9822 (01) 00081-1 . PMID 11267880 . S2CID 17202180 .
- ^ a b Genómica y proteómica computacional en MIT
- ^ Monte D (2000). Bioinformática, Secuenciación y Análisis del Genoma . Prensa de laboratorio de Cold Spring Harbor. págs. 2-3. ISBN 978-0-87969-597-2.
- ^ Brown TA (1999). Genomas . Wiley. ISBN 978-0-471-31618-3.
- ^ Wagner A (septiembre de 1997). "Un enfoque de genómica computacional para la identificación de redes de genes" . Investigación de ácidos nucleicos . 25 (18): 3594–604. doi : 10.1093 / nar / 25.18.3594 . PMC 146952 . PMID 9278479 .
- ^ Cristianini N, Hahn M (2006). Introducción a la genómica computacional . Prensa de la Universidad de Cambridge. ISBN 978-0-521-67191-0.
- ^ {{cite journal | vauthors = Konstantinidis KT, Tiedje JM | title = Información genómica que avanza en la definición de especie para procariotas | journal = Proc Natl Acad Sci US A. | date = 2005; | volume = 102 | pages = 2567–72 .
- ^ Ondov B, Treangen T, Melsted P, Mallonee A, Bergman N, Koren S, Phillippy A (2016). "Mash: estimación rápida de distancia de genoma y metagenoma utilizando MinHash" . Biología del genoma . 17 (32): 14. doi : 10.1186 / s13059-016-0997-x . PMC 4915045 . PMID 27323842 .
- ^ Ondov B, Treangen T, Melsted P, Mallonee A, Bergman N, Koren S, Phillippy A (2016). "Mash: estimación rápida de distancia de genoma y metagenoma utilizando MinHash" . Biología del genoma . 17 (32): 14. doi : 10.1186 / s13059-016-0997-x . PMC 4915045 . PMID 27323842 .
- ^ Navarro-Muñoz J, Selem-Mojica N, Mullowney M, Kautsar S, Tryon J, Parkinson E, De Los Santos E, Yeong M, Cruz-Morales P, Abubucker S, Roeters A, Lokhorst W, Fernandez-Guerra A, Dias -Cappelini L, Goering A, Thomson R, Metcalf W, Kelleher N, Barona-Gomez F, Medema M (2020). "Un marco computacional para explorar la diversidad biosintética a gran escala" . Nat Chem Biol . 16 (1): 60–68. doi : 10.1038 / s41589-019-0400-9 . PMC 6917865 . PMID 31768033 .
- ^ Pascal-Andreu V, Augustijn H, van den Berg K, van der Hooft J, Fischbach M, Medema M (2020). "BiG-MAP: una tubería automatizada para perfilar la abundancia y expresión de grupos de genes metabólicos en microbiomas": 32. doi : 10.1101 / 2020.12.14.422671 . Cite journal requiere
|journal=
( ayuda ) - ^ Pascal-Andreu V, Augustijn H, van den Berg K, van der Hooft J, Fischbach M, Medema M (2020). "BiG-MAP: una tubería automatizada para perfilar la abundancia y expresión de grupos de genes metabólicos en microbiomas". bioRxiv : 32. doi : 10.1101 / 2020.12.14.422671 .
- ^ Ondov B, Treangen T, Melsted P, Mallonee A, Bergman N, Koren S, Phillippy A (2016). "Mash: estimación rápida de distancia de genoma y metagenoma utilizando MinHash" . Biología del genoma . 17 (32): 14. doi : 10.1186 / s13059-016-0997-x . PMC 4915045 . PMID 27323842 .
- ^ Kautsar, Satria A; van der Hooft, Justin JJ; de Ridder, Dick; Medema, Marnix H (13 de enero de 2021). "BiG-SLiCE: una herramienta altamente escalable mapea la diversidad de 1,2 millones de grupos de genes biosintéticos" . GigaScience . 10 (1): giaa154. doi : 10.1093 / gigascience / giaa154 . PMC 7804863 . PMID 33438731 .
- ^ Kautsar, Satria A; van der Hooft, Justin JJ; de Ridder, Dick; Medema, Marnix H (13 de enero de 2021). "BiG-SLiCE: una herramienta altamente escalable mapea la diversidad de 1,2 millones de grupos de genes biosintéticos" . GigaScience . 10 (1): giaa154. doi : 10.1093 / gigascience / giaa154 . PMC 7804863 . PMID 33438731 .
enlaces externos
- Harvard Extension School Biofísica 101, Genómica y Biología Computacional, http://www.courses.fas.harvard.edu/~bphys101/info/syllabus.html
- Curso de Genómica Computacional de la Universidad de Bristol, http://www.computational-genomics.net/