Aprendizaje automático en bioinformática

El aprendizaje automático en bioinformática es la aplicación de algoritmos de aprendizaje automático a la bioinformática , ^[1] que incluye genómica , proteómica , micromatrices , biología de sistemas , evolución y minería de textos . ^[2]^[3]

Antes de la aparición del aprendizaje automático, los algoritmos bioinformáticos tenían que programarse a mano; para problemas como la predicción de la estructura de proteínas , esto resultó difícil. ^[4] Las técnicas de aprendizaje automático, como el aprendizaje profundo, pueden aprender características de conjuntos de datos, en lugar de requerir que el programador los defina individualmente. El algoritmo puede aprender más cómo combinar características de bajo nivel en características más abstractas, y así sucesivamente. Este enfoque de múltiples capas permite que dichos sistemas realicen predicciones sofisticadas cuando se entrenan adecuadamente. Estos métodos contrastan con otros métodos de biología computacional.enfoques que, si bien explotan los conjuntos de datos existentes, no permiten que los datos se interpreten y analicen de formas imprevistas. En los últimos años, el tamaño y la cantidad de conjuntos de datos biológicos disponibles se han disparado. ^[2]

Los algoritmos de aprendizaje automático en bioinformática se pueden usar para predicción, clasificación y selección de características. Los métodos para lograr esta tarea son variados y abarcan muchas disciplinas; los más conocidos entre ellos son el aprendizaje automático y las estadísticas. Las tareas de clasificación y predicción tienen como objetivo construir modelos que describan y distingan clases o conceptos para futuras predicciones. Las diferencias entre ellos son las siguientes:

Debido al crecimiento exponencial de las tecnologías de la información y los modelos aplicables, incluida la inteligencia artificial y la minería de datos, además del acceso a conjuntos de datos cada vez más completos, se han creado nuevas y mejores técnicas de análisis de la información, basadas en su capacidad de aprendizaje. Dichos modelos permiten ir más allá de la descripción y brindan información en forma de modelos comprobables.

La forma en que las características, a menudo vectores en un espacio multidimensional, se extraen de los datos del dominio es un componente importante de los sistemas de aprendizaje. ^[6] En genómica, una representación típica de una secuencia es un vector de frecuencias k-mers , que es un vector de dimensión cuyas entradas cuentan la aparición de cada subsecuencia de longitud en una secuencia dada. Dado que para un valor tan pequeño como la dimensionalidad de estos vectores es enorme (por ejemplo, en este caso la dimensión es ), se utilizan técnicas como el análisis de componentes principales para proyectar los datos a un espacio dimensional más bajo, seleccionando así un conjunto más pequeño de características de las secuencias ^[6]^[^{cita(s) adicional(es) necesaria(s)} ${\ estilo de visualización 4^{k}}$ ${\ estilo de visualización k}$ ${\ estilo de visualización k = 12}$ $4^{12}\aprox. 16\times 10^{6}$ ^]

En este tipo de tarea de aprendizaje automático, la salida es una variable discreta. Un ejemplo de este tipo de tarea en bioinformática es el etiquetado de nuevos datos genómicos (como genomas de bacterias no cultivables) en base a un modelo de datos ya etiquetados. ^[6]

Algunas aplicaciones bioinformáticas ^{[ ¿cuáles? ]} de Random Forest.

El crecimiento exponencial de GenBank, una base de datos de secuencias genómicas proporcionada por el Centro Nacional de Información Biotecnológica (NCBI)

La secuencia de aminoácidos de una proteína anotada con la estructura secundaria de la proteína. Cada aminoácido está etiquetado como una hélice alfa, una hoja beta o una bobina.

La implementación de enfoques de aprendizaje automático en metagenómica nos ayuda a obtener más información sobre la importancia del microbioma en diferentes escenarios ^{[ palabras de comadreja ]}

Un análisis de micromatrices de ADN del linfoma de Burkitt y el linfoma difuso de células B grandes (DLBCL), cuyas diferencias en los patrones de expresión génica

Una descripción general del flujo de trabajo de análisis GCF de BiG-SLiCE

Flujo de trabajo BiG-MAP

Diagrama que muestra el funcionamiento del algoritmo RiPPMiner con respecto a la predicción de clases, división y enlaces cruzados.

Predicción de la estructura química por RiPPMiner.