El aprendizaje automático en bioinformática es la aplicación de algoritmos de aprendizaje automático que aprenden a realizar predicciones en el campo de la bioinformática que se ocupa de enfoques computacionales y matemáticos para comprender y procesar datos biológicos. [1]
Antes de la aparición de los algoritmos de aprendizaje automático, los algoritmos bioinformáticos tenían que programarse explícitamente a mano, lo que, para problemas como la predicción de la estructura de las proteínas , resulta extremadamente difícil. [2] Las técnicas de aprendizaje automático, como el aprendizaje profundo, permiten que el algoritmo haga uso del aprendizaje automático de características, lo que significa que, basándose únicamente en el conjunto de datos, el algoritmo puede aprender a combinar múltiples características de los datos de entrada en un conjunto más abstracto de características de que llevar a cabo un mayor aprendizaje. Este enfoque de múltiples capas para aprender patrones en los datos de entrada permite que dichos sistemas hagan predicciones bastante complejas cuando se entrenan en grandes conjuntos de datos. Estos métodos contrastan con otrosenfoques de biología computacional que, si bien aún tratan de manera efectiva con grandes conjuntos de datos, no permiten que los datos sean interpretados y analizados solo por el motor. En los últimos años, el tamaño y la cantidad de conjuntos de datos biológicos disponibles se han disparado, lo que permite a los investigadores de bioinformática hacer uso de estos sistemas de aprendizaje automático. [3] El aprendizaje automático se ha aplicado a seis dominios biológicos: genómica , proteómica , microarrays , biología de sistemas , evolución y minería de textos . [3]
Los avances en el campo de la bioinformática también son posibles gracias al uso de soluciones informáticas informáticas de alto rendimiento . [4]
Historia
El aprendizaje automático es un conjunto de algoritmos que mejoran con la experiencia. [5] "En general, dada una lista de elementos de secuencia de una determinada clase, un método de aprendizaje automático probablemente pueda entrenarse para reconocer esos elementos". [6] Por ejemplo, los métodos de aprendizaje automático se pueden entrenar para identificar los sitios de empalme. [7]
En 1985 Terry Sejnowski , combinando sus conocimientos en biología y redes neuronales, desarrolló NETtalk (red neuronal artificial) un programa que aprende a pronunciar 20.000 palabras en inglés de la misma manera que lo hace un bebé. [8]
Las SVM de Support Vector Machine se han utilizado ampliamente en estudios genómicos de cáncer. [9] Además, el aprendizaje profundo se ha incorporado a los algoritmos bioinformáticos. En 2016, Angermueller [10] revisó las aplicaciones de aprendizaje profundo para genómica regulatoria e imágenes celulares.
Otras aplicaciones incluyen clasificación de imágenes médicas, análisis de secuencias genómicas, así como clasificación y predicción de estructuras de proteínas. [11] En 2019, una revisión explora el aprendizaje profundo para la genómica regulatoria, la llamada de variantes y las puntuaciones de patogenicidad. [12]
El procesamiento del lenguaje natural y la minería de textos son herramientas informáticas que se han involucrado en los trabajos de investigación bioinformática para generar nuevos conocimientos sobre datos biológicos. Estas dos ramas de la informática han ayudado a comprender fenómenos como la interacción proteína-proteína, la relación gen-enfermedad, así como a predecir estructuras y funciones de biomoléculas. [13]
Introducción a la medicina personalizada.
Los algoritmos de Procesamiento del Lenguaje Natural han logrado diseñar una medicina personalizada para pacientes que padecen enfermedades genéticas, combinando la extracción de información clínica y datos genómicos disponibles de los pacientes. Institutos como la Red de Investigación en Farmacogenómica financiada por la salud se centran en encontrar tratamientos para el cáncer de mama. [14]
Enfoques computacionales en medicina de precisión.
La medicina de precisión tiene el propósito de considerar la variabilidad genómica individual, lo que hoy en día es posible debido a la cantidad de bases de datos biológicas a gran escala que comprenden y la valiosa información sobre fenotipos y genotipos. Por lo tanto, existe una necesidad emergente de encontrar modelos computacionales que tengan la capacidad de predecir nuevos tratamientos especializados para cada persona en el mundo. [15]
Tareas y algoritmos
Los algoritmos de aprendizaje automático en bioinformática se pueden utilizar para la predicción, clasificación y selección de características. Los métodos para lograr esta tarea son variados y abarcan muchas disciplinas, siendo las más conocidas el aprendizaje automático y la estadística. Las tareas de clasificación y predicción tienen como objetivo la construcción de modelos que describen y distinguen clases o conceptos para predicciones futuras. Las diferencias entre ellos son las siguientes:
- La clasificación genera una clase de valor categórico, mientras que la predicción genera una característica de valor numérico.
- El tipo de algoritmo o proceso utilizado para construir los modelos predictivos a partir de datos, ya sea que se base en analogías, reglas, redes neuronales, probabilidades o estadísticas.
Debido al crecimiento exponencial de las tecnologías de la información como los clústeres (para una gestión eficiente de la información), las nubes (para el almacenamiento masivo de datos) y los modelos aplicables, incluida la inteligencia artificial, la minería de datos, la máquina de aprendizaje, además de la accesibilidad a la información científica mundial, nuevas y se han creado mejores análisis de la información, técnicas que se adaptan con la capacidad de aprender. Estos modelos permiten ir más allá de una mera descripción de los datos y proporcionan información en forma de modelos comprobables. Esto contribuye a dejar de lado la sociedad de la información para entrar en una sociedad del conocimiento.
Además de todas estas aplicaciones, se utilizan técnicas computacionales para resolver otros problemas, como el diseño eficiente de cebadores para PCR , el análisis de imágenes biológicas y la retrotraducción de proteínas (que es, dada la degeneración del código genético, un problema combinatorio complejo) [3 ]
Red neuronal artificial en bioinformática
Artificial Neural Network es el algoritmo de aprendizaje automático ampliamente aplicado en bioinformática [16]
- La tarea de comparar y alinear las secuencias relacionadas con ARN, proteínas y ADN.
- La tarea de identificación de promotores y búsqueda de genes a partir de secuencias relacionadas con el ADN.
- La tarea de interpretar el gen de expresión y los datos de microarreglos.
- La tarea de identificar la red (reguladora) de genes.
- La tarea de aprender la relación evolutiva mediante la construcción de árboles filogenéticos.
- La tarea de clasificar y predecir la estructura de las proteínas.
- La tarea de diseño molecular y acoplamiento.
Ingeniería de características
Un componente importante de un sistema de aprendizaje es cómo se extraen las características de los datos del dominio, que a menudo es un vector en un espacio multidimensional. [17] En genómica, una representación habitual de una secuencia es un vector de frecuencias k-mers . Este es un vector de dimensión cuyas entradas cuentan las apariciones de cada subsecuencia de longitud en una secuencia dada. Dado que por un valor tan pequeño dela dimensión de estos vectores es enorme, se utilizan técnicas como el análisis de componentes principales para proyectar los datos a un espacio dimensional inferior, seleccionando así un conjunto más pequeño de características de las secuencias.
Clasificación
El resultado de este tipo de tarea de aprendizaje automático es una variable discreta. Un ejemplo de esta tarea en un entorno bioinformático es el etiquetado de nuevos datos genómicos (por ejemplo, genomas de bacterias no cultivables) basados en un modelo de datos ya etiquetados. [18]
Modelos ocultos de Markov
Los modelos ocultos de Markov (HMM) son una clase de modelos estadísticos para datos secuenciales, en la mayoría de los casos relacionados con sistemas que evolucionan con el tiempo. Los HMM se utilizan para perfilar y convertir una alineación de secuencia múltiple en un sistema de puntuación específico de posición adecuado para buscar en bases de datos secuencias homólogas de forma remota. [19] El sistema de interés se modela utilizando un proceso de estado (o proceso del sistema), que evoluciona dinámicamente de manera que los estados futuros dependen del estado actual. Muchos fenómenos ecológicos pueden describirse naturalmente mediante tal proceso. [20] En un HMM, el proceso de estado no se observa directamente, es una variable 'oculta' (o 'latente'). En cambio, las observaciones se hacen de un proceso dependiente del estado (o proceso de observación) que es impulsado por el proceso de estado subyacente. Como resultado, las observaciones pueden considerarse mediciones ruidosas de los estados de interés del sistema, pero normalmente son insuficientes para determinar con precisión el estado. Un HMM se compone de dos objetos matemáticos:
Un proceso dependiente del estado observado ;
Un proceso de estado no observado (oculto) .
Los HMM también se pueden formular en tiempo continuo. [21] [22]
Red neuronal convolucional
Abreviado como CNN, las redes neuronales convolucionales son una clase de red neuronal profunda que se usa principalmente para el procesamiento de imágenes, pero no se limita a. CNN tiene una arquitectura basada en la arquitectura de peso compartido de los núcleos o filtros de convolución que se deslizan a lo largo de las características de entrada y brindan respuestas equivariantes de traducción conocidas como mapas de características. [23] [24]
Las CNN son versiones regularizadas de perceptrones multicapa . Los perceptrones multicapa generalmente significan redes completamente conectadas, es decir, cada neurona de una capa está conectada a todas las neuronas de la siguiente. La "conectividad total" de estas redes las hace propensas a sobreajustar los datos. Las formas típicas de regularización, o prevenir el sobreajuste, incluyen: penalizar los parámetros durante el entrenamiento (como la disminución del peso) o recortar la conectividad (conexiones omitidas, abandono, etc.) Las CNN adoptan un enfoque diferente hacia la regularización: aprovechan el patrón jerárquico en los datos y ensamblar patrones de complejidad creciente utilizando patrones más pequeños y simples estampados en sus filtros. Por lo tanto, en una escala de conectividad y complejidad, las CNN están en el extremo inferior.
Las redes convolucionales se inspiraron en procesos biológicos [25] [26] [27] [28] en el sentido de que el patrón de conectividad entre neuronas se asemeja a la organización de la corteza visual animal . Las neuronas corticales individuales responden a los estímulos solo en una región restringida del campo visual conocida como campo receptivo . Los campos receptivos de diferentes neuronas se superponen parcialmente de modo que cubren todo el campo visual.
CNN utiliza relativamente poco procesamiento previo en comparación con otros algoritmos de clasificación de imágenes . Esto significa que la red aprende a optimizar los filtros (o núcleos) a través del aprendizaje automatizado, mientras que en los algoritmos tradicionales estos filtros se diseñan a mano . Esta independencia del conocimiento previo y la intervención humana en la extracción de características es una gran ventaja.
Redes neuronales convolucionales filogenéticas
Abreviado como Ph-CNN, la red neuronal convolucional filogenética es una nueva arquitectura de red neuronal profunda propuesta por Fioranti et al. [29] para la clasificación de datos metagenómicos basados en las redes neuronales convolucionales. Su enfoque intenta dotar a los datos filogenéticos con una noción de vecindad utilizando la distancia patrística para seleccionar k-vecindarios para cada OTU . Cada OTU y su vecindario se procesan con un filtro convolucional para imitar el flujo de trabajo de CNN. Según sus resultados publicados, Ph-CNN alcanza resultados prometedores en comparación con las redes neuronales completamente conectadas, el bosque aleatorio y las máquinas de vectores de soporte.
Bosque aleatorio
El bosque aleatorio (RF) es un método de clasificación que opera mediante la construcción de una multitud de árboles de decisión que operan como un conjunto, y el resultado es la clase o predicción promedio de los árboles individuales. [30] El algoritmo de RF es una modificación de la agregación bootstrap que agrega una gran colección de árboles de decisión y se puede usar para una variable de respuesta categórica como clasificación o una respuesta continua, conocida como regresión . [31] [32]
RF proporciona una estimación interna del error de generalización, por lo que la validación cruzada es innecesaria. Además, produce proximidades, que se pueden utilizar para imputar valores perdidos. Las proximidades también pueden proporcionar una gran cantidad de información al permitir visualizaciones novedosas de los datos. Los bosques aleatorios se han utilizado con éxito para una amplia variedad de aplicaciones y gozan de una popularidad considerable en varias disciplinas. [33]
Desde un punto de vista computacional, el algoritmo de RF es atractivo porque: (i) maneja naturalmente tanto la regresión como la clasificación (multiclase), (ii) es relativamente rápido de entrenar y predecir, (iii) depende solo de uno o dos parámetros de ajuste, (iv) ) tiene una estimación incorporada del error de generalización, (v) se puede usar directamente para problemas de alta dimensión, (vi) se puede implementar fácilmente en paralelo. Estadísticamente, el algoritmo de RF es atractivo debido a las características adicionales que proporciona, tales como: (i) medidas de importancia variable, (ii) ponderación diferencial de clases, (iii) imputación de valores perdidos, (iv) visualización, (v) detección de valores atípicos, (vi) aprendizaje no supervisado. [33]
Agrupación
La agrupación es una técnica común para el análisis de datos estadísticos. Es una técnica de aprendizaje no supervisada que se utiliza en muchos campos, incluido el aprendizaje automático, la minería de datos, el reconocimiento de patrones, el análisis de imágenes y la bioinformática . La agrupación en clústeres es el proceso de agrupar objetos similares en diferentes grupos, o más precisamente, la partición de un conjunto de datos en subconjuntos disjuntos, de modo que los datos de cada subconjunto estén lo más cerca posible entre sí y lo más distante posible de los datos en cualquier subconjunto. otro subconjunto, de acuerdo con alguna función de distancia o similitud definida . [34]
La agrupación es fundamental para muchas investigaciones bioinformáticas basadas en datos y sirve como un poderoso método computacional mediante el cual la clasificación de mapas jerárquica, basada en centroides, basada en distribución, basada en densidad y autoorganizada, se ha estudiado y utilizado durante mucho tiempo en el aprendizaje automático clásico. ajustes. En particular, la agrupación ayuda a analizar datos no estructurados y de gran dimensión en forma de secuencias, expresiones, textos, imágenes, etc. La agrupación también se utiliza para comprender los procesos biológicos a nivel genómico , por ejemplo, funciones de genes, procesos celulares, subtipos de células, regulación de genes y procesos metabólicos. [35]
Algoritmos de agrupación utilizados en bioinformática
Los algoritmos de agrupación de datos pueden ser jerárquicos o particionales. Los algoritmos jerárquicos encuentran agrupaciones sucesivas utilizando agrupaciones previamente establecidas, mientras que los algoritmos particionales determinan todas las agrupaciones a la vez. Los algoritmos jerárquicos pueden ser aglomerativos (de abajo hacia arriba) o divisivos (de arriba hacia abajo).
Los algoritmos de aglomeración comienzan con cada elemento como un grupo separado y los fusionan en grupos sucesivamente más grandes. Los algoritmos divisivos comienzan con el conjunto completo y proceden a dividirlo en grupos sucesivamente más pequeños. El agrupamiento jerárquico se calcula utilizando métricas sobre espacios euclidianos , la más utilizada es la distancia euclidiana calculada al encontrar el cuadrado de la diferencia entre cada variable, sumando todos los cuadrados y encontrando la raíz cuadrada de dicha suma, un ejemplo de agrupamiento jerárquico El algoritmo es BIRCH, que es particularmente bueno en bioinformática por su complejidad temporal casi lineal, ya que los conjuntos de datos son generalmente grandes. [36] Los algoritmos de particionamiento se basan en especificar un número inicial de grupos y en la reasignación iterativa de objetos entre grupos para lograr la convergencia. Este algoritmo normalmente determina todos los clústeres a la vez. La mayoría de las aplicaciones adoptan uno de los dos métodos heurísticos más populares, como el algoritmo k-means y el algoritmo k-medoids . También existen algoritmos que no requieren un número inicial de grupos, como la propagación por afinidad . En un entorno genómico, este algoritmo se ha utilizado tanto para agrupar grupos de genes biosintéticos en familias de grupos de genes (GCF) como para agrupar dichos GCF. [37]
Flujo de trabajo
Un flujo de trabajo de aprendizaje automático aplicado a datos biológicos generalmente pasa por los siguientes cuatro pasos: [3]
- Registro de datos . Incluye los diferentes desafíos y herramientas en cuanto a la captura y almacenamiento de datos. En este paso, es necesario integrar y fusionar las diferentes fuentes de información en un solo formato.
- Preprocesamiento de datos . Esto incluye todas las operaciones de limpieza y apropiación de los datos capturados al formulario listo para analizar para optimizar el paso de análisis. En este paso, necesitamos eliminar o corregir los datos no corregidos, así como decidir la estrategia para imputar los datos faltantes y decidir las posibles variables relevantes utilizando técnicas de selección de características .
- Análisis de datos . La tarea de evaluar datos utilizando algoritmos supervisados o no supervisados siguiendo un razonamiento lógico para examinar cada componente de los datos proporcionados, con el objetivo de proporcionar resultados perspicaces. El algoritmo se entrena con un subconjunto de datos y, después de una evaluación del rendimiento, puede ocurrir una iteración de optimización de parámetros. Los algoritmos pueden ser algoritmos de clasificación o predicción; a continuación se ofrece una descripción general de estos algoritmos.
- Visualización e interpretación de datos . El paso que involucra la representación efectiva del conocimiento utilizando diferentes métodos para determinar el significado y la importancia de los hallazgos.
Errores de datos
- La presencia de datos duplicados es un problema importante en bioinformática. Con la llegada de Internet, los datos están disponibles públicamente, lo que dificulta la detección de errores y la medición de la calidad de los datos. [38]
- Errores durante la experimentación. [38]
- Interpretación errónea de los biólogos. [38]
- Errores de escritura debidos a errores humanos. [38]
- En los experimentos se utilizan métodos no estandarizados (estructura 3D en PDB de múltiples fuentes, difracción de rayos X, modelado teórico, resonancia magnética nuclear, etc.). [38]
Aplicaciones
Genómica
La genómica implica el estudio del genoma , la secuencia completa del ADN de los organismos. Si bien los datos de la secuencia genómica han sido históricamente escasos debido a la dificultad técnica de secuenciar un fragmento de ADN, el número de secuencias disponibles está creciendo exponencialmente. [39] Sin embargo, mientras que los datos brutos están cada vez más disponibles y accesibles, la interpretación biológica de estos datos se está produciendo a un ritmo mucho más lento. [40] Por lo tanto, existe una creciente necesidad de desarrollar herramientas de genómica computacional , entre ellos sistemas de aprendizaje automático, que puedan determinar automáticamente la ubicación de genes que codifican proteínas dentro de una secuencia de ADN dada. [40] Este es un problema en biología computacional conocido como predicción genética .
La predicción de genes se realiza comúnmente a través de una combinación de lo que se conoce como búsquedas extrínsecas e intrínsecas. [40] Para la búsqueda extrínseca, la secuencia de ADN de entrada se ejecuta a través de una gran base de datos de secuencias cuyos genes han sido previamente descubiertos y sus ubicaciones anotadas. Se pueden identificar varios genes de la secuencia determinando qué cadenas de bases dentro de la secuencia son homólogas a las secuencias de genes conocidas. Sin embargo, dada la limitación en el tamaño de la base de datos de secuencias de genes conocidas y anotadas, no todos los genes de una secuencia de entrada determinada pueden identificarse únicamente mediante homología. Por lo tanto, se necesita una búsqueda intrínseca donde un programa de predicción de genes intenta identificar los genes restantes a partir de la secuencia de ADN únicamente. [40]
El aprendizaje automático también se ha utilizado para el problema de la alineación de múltiples secuencias que implica alinear muchas secuencias de ADN o de aminoácidos para determinar regiones de similitud que podrían indicar una historia evolutiva compartida. [3] También se puede utilizar para detectar y visualizar reordenamientos del genoma. [41]
Proteómica
Las proteínas , cadenas de aminoácidos , obtienen gran parte de su función a partir del plegamiento de proteínas en el que se conforman en una estructura tridimensional. Esta estructura se compone de varias capas de plegado, incluida la estructura primaria (es decir, la cadena plana de aminoácidos), la estructura secundaria ( hélices alfa y láminas beta ), la estructura terciaria y la estructura cuaternaria .
La predicción de la estructura secundaria de la proteína es un enfoque principal de este subcampo, ya que los plegamientos de proteínas adicionales (estructuras terciarias y cuaternarias) se determinan en función de la estructura secundaria. [2] Resolver la verdadera estructura de una proteína es un proceso increíblemente costoso y que requiere mucho tiempo, lo que aumenta la necesidad de sistemas que puedan predecir con precisión la estructura de una proteína mediante el análisis directo de la secuencia de aminoácidos. [2] [3] Antes del aprendizaje automático, los investigadores debían realizar esta predicción manualmente. Esta tendencia comenzó en 1951 cuando Pauling y Corey publicaron su trabajo sobre la predicción de las configuraciones de enlaces de hidrógeno de una proteína a partir de una cadena polipeptídica. [42] Hoy en día, mediante el uso del aprendizaje automático de funciones, las mejores técnicas de aprendizaje automático pueden lograr una precisión del 82-84%. [2] [43] El estado de la técnica actual en predicción de estructuras secundarias utiliza un sistema llamado DeepCNF (campos neuronales convolucionales profundos) que se basa en el modelo de aprendizaje automático de redes neuronales artificiales para lograr una precisión de aproximadamente el 84% cuando encargado de clasificar los aminoácidos de una secuencia de proteínas en una de tres clases estructurales (hélice, hoja o espiral). [43] El límite teórico para la estructura secundaria de la proteína de tres estados es 88-90%. [2]
El aprendizaje automático también se ha aplicado a problemas de proteómica, como la predicción de la cadena lateral de proteínas , el modelado de bucles de proteínas y la predicción de mapas de contacto de proteínas . [3]
Metagenómica
La metagenómica es el estudio de comunidades microbianas a partir de muestras de ADN ambiental. [44] Actualmente, existen muchas limitaciones y desafíos en la implementación de herramientas de aprendizaje automático debido a la gran cantidad de datos provenientes de muestras ambientales. [45] Según Lin y sus colegas, [46] el aprendizaje automático requiere una gran potencia informática, pero el desarrollo de supercomputadoras y servidores web rápidos ha facilitado el acceso a estas herramientas en la actualidad. Un desafío importante en la caracterización de las diferencias en la composición del microbioma entre grupos de muestras es la alta dimensionalidad de los conjuntos de datos del microbioma, lo que reduce significativamente el poder de los enfoques actuales para identificar diferencias verdaderas y aumenta la posibilidad de descubrimientos falsos. [47]
A pesar de su importancia para procesar la gran cantidad de información proveniente de muestras ambientales, el desarrollo de herramientas de aprendizaje automático relacionadas con la metagenómica se ha centrado en el estudio de la microbiota intestinal y la relación con enfermedades digestivas, como; Enfermedad inflamatoria intestinal (EII), infección por Clostridioides difficile (ICD), cáncer colorrectal y diabetes , con el objetivo de obtener mejores enfoques de diagnóstico y tratamiento de estas patologías. [46] Hay muchos ejemplos de algoritmos desarrollados para tratar de clasificar las comunidades microbianas de acuerdo con el estado de salud del huésped, independientemente del tipo de datos de secuencia, por ejemplo, ARNr 16S o secuenciación del genoma completo (WGS) mediante el uso de métodos. como; clasificador de operador de selección y contracción mínima absoluta, bosque aleatorio , modelo de clasificación supervisado y modelo de árbol potenciado por gradiente. Recientemente, se han desarrollado modelos más avanzados mediante el uso de redes neuronales . Por ejemplo, red neuronal recurrente (RNN), red neuronal convolucional (CNN) y red neuronal Hopfield . [46] Por ejemplo, Fioravanti y sus colegas en 2018 [48] trabajaron en el desarrollo de un algoritmo llamado Ph-CNN. Utilizan este algoritmo para clasificar muestras de datos de pacientes sanos y pacientes con síntomas de EII mediante el uso de árboles filogenéticos y redes neuronales convolucionales. Como resultado, pueden establecer la clasificación entre pacientes sanos y enfermos.
Además, los métodos forestales aleatorios (RF) y las medidas de importancia implementadas ayudarán en la identificación de especies de microbiomas que pueden usarse para distinguir muestras enfermas y no enfermas. Sin embargo, el rendimiento de un árbol de decisión y la diversidad de árboles de decisión en el conjunto influyen significativamente en el rendimiento de los algoritmos de RF. El error de generalización para RF involucra medidas de cuán precisos son los clasificadores individuales y su interdependencia. Por lo tanto, los problemas de alta dimensionalidad de los conjuntos de datos de microbiomas plantean una serie de desafíos. Los enfoques efectivos requieren muchas combinaciones posibles de variables, lo que aumenta exponencialmente la carga computacional a medida que aumenta el número de características involucradas. [47] Para el análisis de microbiomas en 2020, Dang & Kishino [47] desarrollaron una nueva línea de análisis que aborda los desafíos descritos anteriormente. El núcleo de la tubería es un clasificador de RF junto con la selección de variables de reenvío (RF-FVS), que selecciona un conjunto básico de especies microbianas o firmas funcionales de tamaño mínimo que maximizan el rendimiento predictivo del clasificador de RF. El marco combina (i) la identificación de algunas características significativas mediante un procedimiento de selección de variable directa masivamente paralelo , (ii) mapeo de las especies seleccionadas en un árbol filogenético y (iii) predicción de perfiles funcionales mediante análisis de enriquecimiento genético funcional a partir del ARNr 16S metagenómico datos. Demostraron el rendimiento del enfoque propuesto mediante el análisis de dos conjuntos de datos publicados de estudios de casos y controles a gran escala: (i) datos de amplicones del gen de ARNr 16S para la infección por Clostridioides difficile (CDI) y (ii) datos de metagenómica de escopeta para el cáncer colorrectal humano (CCR) ). El enfoque propuesto mejoró la precisión del 81% al 99,01% para CDI y del 75,14% al 90,17% para CRC.
Por otro lado, el uso del aprendizaje automático en muestras ambientales se ha explorado menos, tal vez por la complejidad de los datos, especialmente los datos de WGS. Sin embargo, recientemente algunos trabajos muestran que es posible aplicar estas herramientas en muestras ambientales. En 2021, Dhungel et al. [49] diseñaron un paquete R llamado MegaR. Este paquete permite trabajar con ARNr 16S y secuencias metagenómicas completas para realizar perfiles taxonómicos y modelos de clasificación mediante modelos de aprendizaje automático. MegaR incluye un entorno de visualización cómodo para mejorar la experiencia fácil de usar. Luego, la aplicación del aprendizaje automático en la metagenómica ambiental puede ayudar a responder preguntas relacionadas con las interacciones entre las comunidades microbianas y los ecosistemas, por ejemplo, el trabajo de Xun et al., En 2021 [50] donde el uso de diferentes métodos de aprendizaje automático podría abrir nuevas perspectivas para comprender la relación entre el suelo, la biodiversidad del microbioma y la estabilidad del ecosistema.
Microarrays
Los microarrays , un tipo de laboratorio en un chip , se utilizan para recopilar automáticamente datos sobre grandes cantidades de material biológico. El aprendizaje automático puede ayudar en el análisis de estos datos y se ha aplicado a la identificación de patrones de expresión, clasificación e inducción de redes genéticas. [3]
Esta tecnología es especialmente útil para monitorear la expresión de genes dentro de un genoma, ayudando a diagnosticar diferentes tipos de cáncer según los genes que se expresan. [51] Uno de los principales problemas en este campo es identificar qué genes se expresan en función de los datos recopilados. [3] Además, debido a la gran cantidad de genes sobre los que se recopilan datos mediante el microarray, existe una gran cantidad de datos irrelevantes para la tarea de identificación de genes expresados, lo que complica aún más este problema. El aprendizaje automático presenta una posible solución a este problema, ya que se pueden utilizar varios métodos de clasificación para realizar esta identificación. Los métodos más utilizados son las redes de funciones de base radial , el aprendizaje profundo , la clasificación bayesiana , los árboles de decisión y el bosque aleatorio . [51]
Biologia de sistemas
La biología de sistemas se centra en el estudio de los comportamientos emergentes de interacciones complejas de componentes biológicos simples en un sistema. Dichos componentes pueden incluir moléculas como ADN, ARN, proteínas y metabolitos. [52]
El aprendizaje automático se ha utilizado para ayudar en el modelado de estas complejas interacciones en sistemas biológicos en dominios como redes genéticas, redes de transducción de señales y vías metabólicas. [3] Los modelos gráficos probabilísticos , una técnica de aprendizaje automático para determinar la estructura entre diferentes variables, son uno de los métodos más utilizados para modelar redes genéticas. [3] Además, el aprendizaje automático se ha aplicado a problemas de biología de sistemas, como la identificación de sitios de unión de factores de transcripción mediante una técnica conocida como optimización de la cadena de Markov . [3] Los algoritmos genéticos , técnicas de aprendizaje automático que se basan en el proceso natural de evolución, se han utilizado para modelar redes genéticas y estructuras reguladoras. [3]
Otras aplicaciones de biología de sistemas del aprendizaje automático incluyen la tarea de predicción de la función enzimática, análisis de datos de microarrays de alto rendimiento, análisis de estudios de asociación de todo el genoma para comprender mejor los marcadores de enfermedad y predicción de la función de las proteínas. [53]
Evolución
Este dominio, en particular la reconstrucción de árboles filogenéticos, utiliza las características de las técnicas de aprendizaje automático. Los árboles filogenéticos son una representación esquemática de la evolución de los organismos. Inicialmente, se construyeron utilizando diferentes características como características morfológicas y metabólicas. Posteriormente, debido a la gran cantidad de secuencias genómicas disponibles, la construcción del algoritmo del árbol filogenético utilizó el concepto basado en la comparación de genomas. Con la ayuda de técnicas de optimización, se realizó una comparación mediante alineación de múltiples secuencias. [54]
Diagnóstico de accidente cerebrovascular
Los métodos de aprendizaje automático para el análisis de datos de neuroimagen se utilizan para ayudar a diagnosticar el accidente cerebrovascular . Históricamente, ha habido múltiples enfoques para resolver este problema que involucran diferentes arquitecturas de redes neuronales. [55] [56]
En esta área se han propuesto múltiples enfoques para detectar accidentes cerebrovasculares mediante el aprendizaje automático, como propone Mirtskhulava [57]. Se probaron redes de alimentación directa para detectar accidentes cerebrovasculares mediante imágenes neuronales. Según lo propuesto por Titano [58], las técnicas 3D-CNN se probaron en clasificación supervisada para examinar las imágenes de TC de la cabeza en busca de eventos neurológicos agudos. A menudo se utilizan métodos CNN y SVM tridimensionales . [56]
Extracción de textos
El aumento de las publicaciones biológicas disponibles dio lugar al problema del aumento de la dificultad para buscar y recopilar toda la información relevante disponible sobre un tema determinado en todas las fuentes. Esta tarea se conoce como extracción de conocimiento . Esto es necesario para la recopilación de datos biológicos que, a su vez, pueden introducirse en algoritmos de aprendizaje automático para generar nuevos conocimientos biológicos. [3] [59] El aprendizaje automático se puede utilizar para esta tarea de extracción de conocimiento utilizando técnicas como el procesamiento del lenguaje natural para extraer la información útil de los informes generados por humanos en una base de datos. Text Nailing , un enfoque alternativo al aprendizaje automático, capaz de extraer características de notas narrativas clínicas se introdujo en 2017.
Esta técnica se ha aplicado a la búsqueda de nuevos objetivos farmacológicos, ya que esta tarea requiere el examen de la información almacenada en bases de datos y revistas biológicas. [59] Las anotaciones de proteínas en las bases de datos de proteínas a menudo no reflejan el conjunto completo de conocimientos conocidos de cada proteína, por lo que se debe extraer información adicional de la literatura biomédica. El aprendizaje automático se ha aplicado a la anotación automática de la función de genes y proteínas, la determinación de la localización subcelular de una proteína , el análisis de matrices de expresión de ADN , el análisis de interacción de proteínas a gran escala y el análisis de interacción de moléculas. [59]
Otra aplicación de la minería de textos es la detección y visualización de distintas regiones de ADN con suficientes datos de referencia. [60]
Agrupación y perfiles de abundancia de BGC
Dado que las comunidades microbianas se consideran conjuntos complejos de diversos microorganismos en la Tierra, [61] donde los socios simbiontes producen constantemente diversos metabolitos derivados del metabolismo primario y secundario (especializado), a partir de los cuales el metabolismo especializado juega un papel importante en la interacción microbiana, [62] Los datos metagenómicos y metatranscriptómicos son una fuente importante para descifrar las señales de comunicación que ocurren en el entorno de interacción.
Actualmente, existe un interés creciente en dilucidar los mecanismos moleculares por los que se producen metabolitos especializados. Por lo tanto, los grupos de genes biosintéticos (BGC) están bajo atención, ya que varios metabolitos son agentes antimicrobianos, antifúngicos, antiparasitarios, antitumorales e inmunosupresores clínicamente valiosos producidos por la acción modular de grupos de genes multienzimáticos y de múltiples dominios. , tales como péptido sintetasas no ribosomales (NRPS) y policétido sintasas (PKS). [63] Diversos estudios [64] [65] [66] [67] [68] [69] [70] [71] muestran que agrupar BGC con arquitectura similar (es decir, compartir un conjunto similar de genes centrales homólogos) en genes Las familias de grupos (GCF) pueden proporcionar información útil sobre la diversidad química de las cepas analizadas y pueden respaldar la vinculación de BGC con sus metabolitos secundarios. [65] [67] Los GCF también se han utilizado como marcadores funcionales en estudios de salud humana [72] [73] y para estudiar la capacidad del suelo para suprimir patógenos fúngicos. [74] Dada su relación directa con las enzimas catalíticas y, posteriormente, los compuestos producidos a partir de sus vías codificadas, las BGC (y, por extensión, los GCF) pueden servir como un proxy para explorar el espacio químico del metabolismo secundario microbiano. Al catalogar todos los GCF en genomas microbianos secuenciados, se puede obtener una descripción general de la diversidad química existente y obtener información sobre qué esfuerzos futuros de descubrimiento de plomo deberían priorizar. [64] [66] Es por eso que varias herramientas como BiG-SLiCE y BIG-MAP [75] han surgido con el único propósito de revelar la importancia de las BGC en entornos naturales.
BIG-SLiCE
BiG-SLiCE (Biosynthetic Genes Super-Linear Clustering Engine), es una herramienta automatizada de canalización de Python diseñada para agrupar cantidades masivas de BGC. Al representarlos en el espacio euclidiano , BiG-SLiCE puede agrupar BGC en GCF de una manera casi lineal y no por pares. [76] a partir de datos genómicos y metagenómicos de diversos organismos.
El flujo de trabajo de BiG-SLiCE comienza en la vectorización [ desambiguación necesaria ] ( extracción de características ), convirtiendo los BGC de entrada proporcionados desde el conjunto de datos de archivos de clúster GenBank de antiSMASH y MIBiG en vectores de características numéricas basadas en la ausencia / presencia y bitscores de aciertos obtenidos de consultas Secuencias de genes BGC frente a una biblioteca seleccionada del perfil Hidden Markov Model [77] (pHMM) de dominios biosintéticos de BGC. A continuación, esas características se procesan mediante un algoritmo de agrupación superlineal basado en la agrupación de BIRCH [36], lo que da como resultado un conjunto de vectores de características centroides que representan los modelos GCF. Todos los BGC en el conjunto de datos finalmente se consultan de nuevo contra esos modelos, generando una lista de valores de membresía de GCF para cada BGC. Luego, se realiza un mapeo de clúster global usando k-means para agrupar todas las características de centroide de GCF en contenedores de GCF, después de eso se realiza otra ronda de asignación de membresía para hacer coincidir el conjunto completo de características de BGC en los contenedores de GCF resultantes. Al final, se produce un conjunto de archivos basados en una base de datos SQL , que luego se puede utilizar para realizar más análisis (a través de scripts externos) o para visualizar el resultado en una aplicación interactiva con el usuario.
Satria et. al [76] a través de BiG-SLiCE demuestran la utilidad de tales análisis mediante la reconstrucción de un mapa global de diversidad metabólica secundaria a través de la taxonomía para identificar el potencial biosintético inexplorado de 1,2 millones de grupos de genes biosintéticos. Esto abre nuevas posibilidades para acelerar el descubrimiento de productos naturales y ofrece un primer paso hacia la construcción de una red interconectada global y de búsqueda de BGC. A medida que se secuencian más genomas de taxones poco estudiados , se puede extraer más información para resaltar su química potencialmente nueva. [76]
BiG-MAP
Dado que las BGC son una fuente importante de producción de metabolitos, las herramientas actuales para identificar BGC centran sus esfuerzos en la extracción de genomas para identificar su paisaje genómico, descuidando la información relevante sobre su abundancia y niveles de expresión que, de hecho, juegan un papel ecológico importante en la activación del fenotipo dependiente. concentración de metabolitos. Es por eso que en 2020 BiG-MAP (Biosynthetic Gene cluster Meta'omics Abundance Profiler), [75] una tubería de python automatizada que ayuda a determinar la abundancia (datos metagenómicos) y la expresión (datos metatranscriptómicos) de BGC en muestras de comunidades microbianas, surgió para superar este desafío mediante la selección de lecturas de secuenciación en grupos de genes que han sido predichos por antiSMASH o gutSMASH.
En resumen, BiG-MAP divide su flujo de trabajo en cuatro módulos principales. 1-BiG-MAP.family: este módulo realiza un filtrado de redundancia en la colección de grupos de genes para reducir el tiempo de computación y evitar mapeos ambiguos. Mediante el uso de un algoritmo basado en MinHash , [78] MASH, [79] BiG-MAP estima la distancia entre las secuencias de proteínas que luego se utiliza para seleccionar un grupo de genes representativo con la ayuda de la agrupación de k-medoides . Por último, los grupos de genes seleccionados se agrupan en familias de grupos de genes (GCF) utilizando BiG-SCAPE, [64] teniendo en cuenta la similitud arquitectónica, relacionando así grupos de genes relacionados más lejanamente que producen el mismo producto químico en diferentes organismos; 2- BiG-MAP.download: es un módulo opcional que utiliza una lista de la base de datos Sequence Read Archive (SRA); 3- BiG-MAP.map: este módulo asigna lecturas al conjunto de GCF representativos obtenidos del primer módulo. BiG-MAP.maps puede mapear lecturas a GCF por separado y también puede informar niveles combinados de abundancia o expresión por familia. Para lograr este objetivo, las lecturas se asignan al representante de los GCF utilizando el alineador de lectura corta Bowtie2, [80] que luego se convierten en Lecturas por Kilobase Million (RPKM) para promediar el tamaño de los GCF; y, 4- BiG-MAP.analyse: para finalmente perfilar la abundancia, en este último módulo los valores de RPKM se normalizan utilizando el Escalado de Sumas Acumulativas [81] (CSS) para dar cuenta de la dispersión. Luego, los análisis de expresiones diferenciales se realizan utilizando modelos de mezcla de distribución gaussiana inflados en cero (modelos ZIG) o utilizando el modelo de Kruskal-Wallis. Al final, la canalización muestra los resultados en gráficos que muestran la abundancia / expresión de los grupos de genes (mapas de calor), el cambio de pliegue logarítmico (gráfico de barras), los valores de cobertura y los valores de expresión génica de mantenimiento para los datos metatranscriptómicos (mapa de calor).
Decodificación de estructuras químicas RiPPs
El aumento acelerado de RiPPs (péptidos ribosómicamente sintetizados y postraduccionalmente modificados ) que han sido caracterizados experimentalmente, junto con la disponibilidad de información sobre la secuencia y estructura química de un gran número de ellos, seleccionados de bases de datos como BAGEL, BACTIBASE, MIBIG y THIOBASE, brindan la oportunidad de desarrollar herramientas de aprendizaje automático para decodificar la estructura química de los RiPP y lograr una clasificación entre ellos.
En 2017, investigadores del Instituto Nacional de Inmunología de Nueva Delhi, India, desarrollaron el software RiPPMiner [82] , un recurso bioinformático para decodificar estructuras químicas RiPP mediante la extracción del genoma. El servidor web RiPPMiner consta de dos componentes principales, una interfaz de consulta y la base de datos RiPPDB. RiPPMiner clasifica en 12 subclases de RiPP, prediciendo el sitio de escisión del péptido líder y el entrecruzamiento final de la estructura química de RiPP.
Identificación de RiPP y predicción de la clase RiPP
Las herramientas de análisis de RiPP como antiSMASH y RiPP-PRISM utilizan el modelo de Markov oculto [77] de enzimas modificadoras presentes en grupos de genes biosintéticos en RiPP para predecir la subclase RiPP. A diferencia de estas herramientas, RiPPMiner utiliza un modelo de aprendizaje automático , entrenado con 513 RiPP, que utiliza la secuencia de aminoácidos del gen RiPP de forma única para identificar RiPP y, posteriormente, predecir su subclase. RiPPMiner diferencia las RiPP de otras proteínas y péptidos utilizando un modelo de máquina de vector de soporte que se entrena utilizando 293 RiPP caracterizados experimentalmente como conjunto de datos positivos y 8140 polipéptidos no RiPP codificados por el genoma como conjunto de datos negativos. El conjunto de datos negativos incluyó entradas SWISSProt de longitud similar a RiPP, por ejemplo, proteínas ribosomales 30s, proteínas de matriz, proteínas del citocromo B, etc. Los vectores de soporte del modelo de máquina de vector de soporte constan de composición de aminoácidos y frecuencias de dipéptidos.
La evaluación comparativa de estos métodos de identificación de RiPP en un conjunto de datos independiente (no incluido en el entrenamiento) utilizando un enfoque de validación cruzada doble indicó valores de sensibilidad, especificidad, precisión y MCC de 0,93, 0,90, 0,90 y 0,85 respectivamente. Esto indica un buen poder predictivo del modelo SVM para distinguir entre RiPP y no RiPP. Para la predicción de la clase o subclase de RiPP, se entrenó una SVM de clase múltiple utilizando la composición de aminoácidos y las frecuencias de dipéptidos como vectores de características. Durante el entrenamiento de la SVM de múltiples clases para la predicción de la clase RiPP, las secuencias precursoras de RiPP disponibles que pertenecen a una clase determinada (por ejemplo, péptido de lazo) se utilizaron como conjunto positivo, mientras que las RiPP pertenecientes a todas las demás clases se utilizaron como conjunto negativo.
Predicción del sitio de escisión
De las cuatro clases principales de RiPP que tenían más de 50 RiPP caracterizadas experimentalmente en RiPPDB, se pudieron desarrollar modelos de SVM para la predicción de sitios de escisión para lantipéptidos, cianobactinas y péptidos de lazo. Con el fin de desarrollar SVM para la predicción del sitio de escisión para lantipéptidos, se extrajeron secuencias de péptidos de 12 unidades centradas en los sitios de escisión de un conjunto de 115 secuencias precursoras de lantipéptidos con patrón de escisión conocido. Esto dio como resultado un conjunto de datos positivo de 103 péptidos de 12 meros únicos que albergan el sitio de escisión en el centro, mientras que todos los demás péptidos de 12 meros únicos en estos 115 lantiepéptidos constituyeron el conjunto de datos negativos ya que carecían del sitio de escisión. Los vectores de características para cada uno de estos 12 meros consistieron en la concatenación de 20 vectores dimensionales correspondientes a cada uno de los 20 aminoácidos. El modelo SVM para la predicción del sitio de escisión se desarrolló y comparó utilizando un enfoque de validación cruzada doble, donde la mitad de los datos se usaron en el entrenamiento y la otra mitad se usó en las pruebas. También se desarrollaron modelos de SVM para la predicción del sitio de escisión en cianobactina y péptidos de lazo. Basándose en el análisis de las curvas ROC, se eligió un punto de corte adecuado para la predicción de los sitios de escisión en lantipéptidos y péptidos de lazo.
Predicción de enlaces cruzados
El algoritmo para la predicción de enlaces cruzados y descifrar la estructura química completa de RiPP se ha implementado para lantipéptidos, péptido lazo, cianobactinas y tiopéptidos. La predicción de enlaces de lantionina en lantipéptidos se ha llevado a cabo utilizando un enfoque de aprendizaje automático. Con el fin de desarrollar clasificadores basados en aprendizaje automático para la predicción de enlaces lantionina, se tomó de RiPPDB un conjunto de datos de 93 lantipéptidos con estructuras químicas conocidas. Para cada lantipéptido de este conjunto, se escaneó la secuencia del péptido central en busca de cadenas o subsecuencias del tipo Ser / Thr- (X) n-Cys o Cys- (X) n-Ser / Thr para enumerar todas las ciclaciones teóricamente posibles. patrones. De estas cadenas de secuencia, las cadenas correspondientes a los pares Ser / Thr-Cys o Cys-Ser / Thr que estaban unidas por puentes de lantionina en los lantipéptidos se incluyeron en el conjunto positivo, mientras que todas las demás cadenas se incluyeron en el conjunto negativo.
Puntuación de similitud espectral de masas
Muchos estudios de metabolómica basados en espectrometría de masas en tándem (MS / MS) , como el emparejamiento de bibliotecas y las redes moleculares, utilizan la similitud espectral como un indicador de la similitud estructural. Sin embargo, Spec2Vec ha surgido de la necesidad de encontrar similitudes estructurales a través de similitudes espectrales, debido a que los métodos ya existentes presentan algunas áreas de debilidad y oportunidad. El algoritmo Spec2vec nos proporciona una nueva forma de puntuación de similitud espectral, basada en los algoritmos de procesamiento del lenguaje natural Word2Vec . Pero esta vez, Spec2Vec aprende relaciones fragmentarias dentro de un gran conjunto de datos espectrales, con el fin de evaluar similitudes espectrales entre moléculas y también para clasificar moléculas desconocidas a través de estas comparaciones.
Para la anotación sistémica, algunos estudios de metabolómica se basan en el ajuste de espectros de masas de fragmentación medidos a espectros de biblioteca o espectros contrastantes mediante análisis de red. Las funciones de puntuación se utilizan para determinar la similitud entre pares de espectros de fragmentos como parte de estos procesos. Hasta ahora, ninguna investigación ha sugerido puntuaciones que sean significativamente diferentes de la similitud basada en coseno comúnmente utilizada . [83]
Bases de datos
Una parte importante de la bioinformática es la gestión de grandes conjuntos de datos, conocidos como bases de datos de referencia. Existen bases de datos especialmente para cada tipo de datos biológicos, por ejemplo para grupos de genes biosintéticos y metagenomas.
Bases de datos generales por bioinformática
Centro Nacional de Información Biotecnológica
El Centro Nacional de Información Biotecnológica (NCBI) proporciona un gran conjunto de recursos en línea para información y datos biológicos, incluida la base de datos de secuencias de ácidos nucleicos GenBank y la base de datos PubMed de citas y resúmenes de revistas de ciencias biológicas publicadas. El aumento de muchas de las aplicaciones web son implementaciones personalizadas del programa BLAST optimizadas para buscar conjuntos de datos especializados. Los nuevos recursos lanzados incluyen PubMed Data Management, RefSeq Functional Elements, descarga de datos del genoma, API de servicios de variación, Magic-BLAST, QuickBLASTp e Identical Protein Groups. Se puede acceder a todos estos recursos a través de NCBI. [84]
Análisis bioinformático para grupos de genes biosintéticos
antiSMASH
antiSMASH permite la identificación, anotación y análisis rápidos de todo el genoma de grupos de genes de biosíntesis de metabolitos secundarios en genomas bacterianos y fúngicos. Se integra y se enlaza con una gran cantidad de herramientas de análisis de metabolitos secundarios in silico que se han publicado anteriormente. [85]
gutSMASH
gutSMASH es una herramienta que se ha desarrollado para evaluar sistemáticamente el potencial metabólico de las bacterias mediante la predicción de grupos de genes metabólicos anaeróbicos (MGC) nuevos y conocidos a partir del microbioma intestinal .
MIBiG
MIBiG , la información mínima sobre la especificación de un grupo de genes biosintéticos, proporciona un estándar comunitario sólido para anotaciones y metadatos sobre grupos de genes biosintéticos y sus productos moleculares. MIBiG es un proyecto del Consorcio de Estándares Genómicos que se basa en la información mínima sobre cualquier marco de secuencia (MIxS). [86]
MIBiG facilitará la deposición y recuperación estandarizadas de datos de grupos de genes biosintéticos, así como el desarrollo de herramientas integrales de análisis comparativo. Potenciará la investigación de próxima generación sobre la biosíntesis, la química y la ecología de amplias clases de metabolitos secundarios bioactivos relevantes para la sociedad , guiada por pruebas experimentales sólidas y componentes de metadatos ricos. [87]
Análisis bioinformático para metagenómica
Existe una gran variedad de microorganismos en el suelo, dentro de los cuales se encuentran: hongos , bacterias , protozoos , algas y virus . Estos microorganismos generan comunidades microbianas en todos los diferentes ecosistemas . Estas comunidades microbianas son posiblemente los entornos más diversos y abundantes del planeta y pueden contribuir a la calidad y funcionalidad del suelo.
La metagenómica ayuda al estudio y caracterización de comunidades microbianas, utilizando secuencias de ADN o comúnmente ARN ribosómico (ARNr). Con esto, los diferentes microorganismos pueden identificarse taxonómicamente y, por lo tanto, compararse entre muestras y entornos específicos.
SILVA
SILVA es un proyecto interdisciplinario entre biólogos y científicos informáticos que ensamblan una base de datos completa de secuencias de genes de ARN ribosómico (ARNr), tanto subunidades pequeñas ( 16S [ desambiguación necesaria ] , 18S , SSU) como grandes ( 23S , 28S , LSU), que pertenecen a los dominios de bacterias, archea y eukarya. Estos datos están disponibles gratuitamente para uso académico y comercial. [88]
Greengenes
Greengenes es una base de datos de genes de ARNr 16S de longitud completa que proporciona detección de quimeras, alineación estándar y una taxonomía seleccionada basada en inferencias de árboles de novo. [89] [90]
Resumen
- 1.012.863 secuencias de ARN de 92.684 organismos contribuyeron a RNAcentral.
- La secuencia más corta tiene 1253 nucleótidos, la más larga, 2368.
- La longitud media es de 1.402 nucleótidos.
- Versión de la base de datos: 13.5.
Taxonomía abierta del árbol de la vida
La Taxonomía Open Tree of Life ( OTT ) tiene como objetivo construir un Árbol de la Vida completo, dinámico y disponible digitalmente mediante la síntesis de árboles filogenéticos publicados junto con datos taxonómicos. Los árboles filogenéticos se han clasificado, alineado y fusionado, las taxonomías se han utilizado para llenar regiones dispersas y los vacíos que dejan las filogenias. OTT es una base que se ha utilizado poco para los análisis de secuenciación de la región 16S, sin embargo, tiene un mayor número de secuencias clasificadas taxonómicamente hasta el nivel de género en comparación con bases como SILVA y Greengenes. Sin embargo, en términos de clasificación a nivel de borde, contiene una cantidad menor de información [91]
Proyecto de base de datos ribosomal
Ribosomal Database Project ( RDP ) es una base de datos que proporciona secuencias de ARN ribosómico (ARNr) de pequeñas subunidades de dominio bacteriano y arqueal ( 16S [ desambiguación necesaria ] ); y secuencias de ARNr fúngico de grandes subunidades ( 28S ). [92]
Referencias
- ^ Chicco D (diciembre de 2017). "Diez consejos rápidos para el aprendizaje automático en biología computacional" . Minería de Biodatos . 10 (35): 35. doi : 10.1186 / s13040-017-0155-3 . PMC 5721660 . PMID 29234465 .
- ^ a b c d e Yang Y, Gao J, Wang J, Heffernan R, Hanson J, Paliwal K, Zhou Y (mayo de 2018). "Sesenta y cinco años de la larga marcha en la predicción de la estructura secundaria de las proteínas: ¿el tramo final?" . Sesiones informativas en bioinformática . 19 (3): 482–494. doi : 10.1093 / bib / bbw129 . PMC 5952956 . PMID 28040746 .
- ^ a b c d e f g h yo j k l m n Larrañaga P, Calvo B, Santana R, Bielza C, Galdiano J, Inza I, et al. (Marzo de 2006). "Machine learning en bioinformática" . Sesiones informativas en bioinformática . 7 (1): 86-112. doi : 10.1093 / bib / bbk007 . PMID 16761367 .
- ^ Pérez-Wohlfeil E, Torrenoa O, Bellis LJ, Fernandes PL, Leskosek B, Trellesa O (diciembre de 2018). "Formación de bioinformáticos en Computación de Alto Rendimiento" . Heliyon . 4 (12): e01057. doi : 10.1016 / j.heliyon.2018.e01057 . PMC 6299036 . PMID 30582061 .
- ^ Mitchell, T (1997). Aprendizaje automático . ISBN 978-0-07-042807-2.
- ^ Libbrecht MW, Noble WS (junio de 2015). "Aplicaciones de aprendizaje automático en genética y genómica" . Reseñas de la naturaleza. Genética . 16 (6): 321–32. doi : 10.1038 / nrg3920 . PMC 5204302 . PMID 25948244 .
- ^ Degroeve S, De Baets B, Van de Peer Y, Rouzé P (2002). "Selección de subconjunto de características para la predicción del sitio de empalme" . Bioinformática . 18 Suppl 2: S75-83. doi : 10.1093 / bioinformatics / 18.suppl_2.s75 . PMID 12385987 .
- ^ Marr B. "Una breve historia del aprendizaje automático: todo gerente debería leer" . Forbes . Consultado el 28 de septiembre de 2016 .
- ^ Huang S, Cai N, Pacheco PP, Narrandes S, Wang Y, Xu W (enero de 2018). "Aplicaciones del aprendizaje de la máquina de vectores de soporte (SVM) en la genómica del cáncer" . Genómica y proteómica del cáncer . 15 (1): 41–51. doi : 10.21873 / cgp.20063 . PMC 5822181 . PMID 29275361 .
- ^ Angermueller C, Pärnamaa T, Parts L, Stegle O (julio de 2016). "Aprendizaje profundo para biología computacional" . Biología de sistemas moleculares . 12 (7): 878. doi : 10.15252 / msb.20156651 . PMC 4965871 . PMID 27474269 .
- ^ Cao C, Liu F, Tan H, Song D, Shu W, Li W, et al. (Febrero de 2018). "Deep Learning y sus aplicaciones en biomedicina" . Genómica, proteómica y bioinformática . 16 (1): 17–32. doi : 10.1016 / j.gpb.2017.07.003 . PMC 6000200 . PMID 29522900 .
- ^ Zou J, Huss M, Abid A, Mohammadi P, Torkamani A, Telenti A (enero de 2019). "Una introducción al aprendizaje profundo en genómica". Genética de la naturaleza . 51 (1): 12–18. doi : 10.1038 / s41588-018-0295-5 . PMID 30478442 . S2CID 205572042 .
- ^ Zeng Z, Shi H, Wu Y, Hong Z (2015). "Estudio de las técnicas de procesamiento del lenguaje natural en bioinformática" . Métodos computacionales y matemáticos en medicina . 2015 (D1): 674296. doi : 10.1155 / 2015/674296 . PMC 4615216 . PMID 26525745 .
- ^ Zeng Z, Shi H, Wu Y, Hong Z (2012). "Estudio de las técnicas de procesamiento del lenguaje natural en bioinformática" . Métodos computacionales y matemáticos en medicina . 2015 (D1): 674296. doi : 10.1016 / B978-0-12-385467-4.00006-3 . PMC 4615216 . PMID 26525745 .
- ^ Zeng Z, Shi H, Wu Y, Hong Z (2017). "Estudio de las técnicas de procesamiento del lenguaje natural en bioinformática" . Métodos computacionales y matemáticos en medicina . 2015 (D1): 674296. doi : 10.1016 / B978-0-12-809411-2.00013-1 . PMC 4615216 . PMID 26525745 .
- ^ Shastry KA, Sanjay HA (2020). "Aprendizaje automático para la bioinformática". En Srinivasa K, Siddesh G, Manisekhar S (eds.). Principios de modelado estadístico y aprendizaje automático para técnicas, herramientas y aplicaciones de bioinformática . Algoritmos para sistemas inteligentes. Singapur: Springer. págs. 25–39. doi : 10.1007 / 978-981-15-2445-5_3 . ISBN 978-981-15-2445-5.
- ^ Soueidan H, Nikolski M (2019). "Machine learning para metagenómica: métodos y herramientas" (PDF) . Metagenómica . 1 . arXiv : 1510.06621 . doi : 10.1515 / metgen-2016-0001 . S2CID 17418188 .
- ^ Soueidan H, Nikolski M (2019). "Machine learning para metagenómica: métodos y herramientas" (PDF) . Metagenómica . 1 . arXiv : 1510.06621 . doi : 10.1515 / metgen-2016-0001 . S2CID 17418188 .
- ^ Eddy SR (1 de octubre de 1998). "Perfil de modelos ocultos de Markov" . Bioinformática . 14 (9): 755–63. doi : 10.1093 / bioinformatics / 14.9.755 . PMID 9918945 .
- ^ McClintock BT, Langrock R, Gimenez O, Cam E, Borchers DL, Glennie R, Patterson TA (diciembre de 2020). "Descubriendo la dinámica del estado ecológico con modelos ocultos de Markov" . Cartas de ecología . 23 (12): 1878-1903. arXiv : 2002.10497 . doi : 10.1111 / ele.13610 . PMC 7702077 . PMID 33073921 .
- ^ Jackson CH, Sharples LD, Thompson SG, Duffy SW, Couto E (julio de 2003). "Modelos de Markov multiestado para la progresión de la enfermedad con error de clasificación". Revista de la Royal Statistical Society: Serie D (El estadístico) . 52 (2): 193–209. doi : 10.1111 / 1467-9884.00351 .
- ^ Amoros R, King R, Toyoda H, Kumada T, Johnson PJ, Bird TG (30 de mayo de 2019). "Un modelo de Markov oculto en tiempo continuo para la vigilancia del cáncer utilizando biomarcadores séricos con aplicación al carcinoma hepatocelular" . Metron . 77 (2): 67–86. doi : 10.1007 / s40300-019-00151-8 . PMC 6820468 . PMID 31708595 .
- ^ Zhang W. (1988). "Red neuronal de reconocimiento de patrones de cambio invariante y su arquitectura óptica" . Actas de la Conferencia Anual de la Sociedad Japonesa de Física Aplicada .
- ^ Zhang W, Itoh K, Tanida J, Ichioka Y (noviembre de 1990). "Modelo de procesamiento distribuido en paralelo con interconexiones locales invariantes en el espacio y su arquitectura óptica". Óptica aplicada . 29 (32): 4790–7. Código bibliográfico : 1990ApOpt..29.4790Z . doi : 10.1364 / AO.29.004790 . PMID 20577468 .
- ^ Fukushima K (2007). "Neocognitron" . Scholarpedia . 2 (1): 1717. Bibcode : 2007SchpJ ... 2.1717F . doi : 10.4249 / scholarpedia.1717 .
- ^ Hubel DH, Wiesel TN (marzo de 1968). "Campos receptivos y arquitectura funcional de la corteza estriada del mono" . La revista de fisiología . 195 (1): 215–43. doi : 10.1113 / jphysiol.1968.sp008455 . PMC 1557912 . PMID 4966457 .
- ^ Fukushima K (1980). "Neocognitron: un modelo de red neuronal autoorganizadora para un mecanismo de reconocimiento de patrones que no se ve afectado por el cambio de posición". Cibernética biológica . 36 (4): 193–202. doi : 10.1007 / BF00344251 . PMID 7370364 . S2CID 206775608 .
- ^ Matsugu M, Mori K, Mitari Y, Kaneda Y (2003). "Reconocimiento de expresión facial independiente del sujeto con detección robusta de rostros utilizando una red neuronal convolucional". Redes neuronales . 16 (5–6): 555–9. doi : 10.1016 / S0893-6080 (03) 00115-1 . PMID 12850007 .
- ^ Fioravanti D, Giarratano Y, Maggio V, Agostinelli C, Chierici M, Jurman G, Furlanello C (marzo de 2018). "Redes neuronales convolucionales filogenéticas en metagenómica" . BMC Bioinformática . 19 (Suppl 2): 49. doi : 10.1186 / s12859-018-2033-5 . PMC 5850953 . PMID 29536822 .
- ^ Ho TK (1995). Bosques de decisión aleatoria . Actas de la 3ª Conferencia Internacional sobre Análisis y Reconocimiento de Documentos, Montreal, QC, 14–16 de agosto de 1995. págs. 278–282.
- ^ Dietterich T (2000). Una comparación experimental de tres métodos para construir conjuntos de árboles de decisión: ensacado, refuerzo y aleatorización . Editores académicos de Kluwer. págs. 139-157.
- ^ Breiman L. (2001). Bosque aleatorio (45 ed.). Aprendizaje automático: Kluwer Academic Publisers. págs. 5-32.
- ^ a b Zhang C, Ma Y (2012). Ensemble machine learning: métodos y aplicaciones . Nueva York: Springer New York Dordrecht Heidelberg London. págs. 157-175. ISBN 978-1-4419-9325-0.
- ^ Madhulatha TS (5 de mayo de 2012). "Una descripción general de los métodos de agrupación en clústeres". págs. 719–725. arXiv : 1205.1117 [ cs.DS ]. Parámetro desconocido
|issue=
ignorado ( ayuda ); Parámetro desconocido|volume=
ignorado ( ayuda ) - ^ Karim MR, Beyan O, Zappa A, Costa IG, Rebholz-Schuhmann D, Cochez M, Decker S (enero de 2021). "Enfoques de agrupación en clústeres basados en aprendizaje profundo para bioinformática" . Sesiones informativas en bioinformática . 22 (1): 393–415. doi : 10.1093 / bib / bbz170 . PMC 7820885 . PMID 32008043 .
- ^ a b Lorbeer B, Kosareva A, Deva B, Softić D, Ruppel P, Küpper A (1 de marzo de 2018). "Variaciones sobre el algoritmo de agrupamiento BIRCH" . Investigación de Big Data . 11 : 44–53. doi : 10.1016 / j.bdr.2017.09.002 .
- ^ Navarro-Muñoz JC, Selem-Mojica N, Mullowney MW, Kautsar SA, Tryon JH, Parkinson EI, et al. (Enero de 2020). "Un marco computacional para explorar la diversidad biosintética a gran escala" . Biología química de la naturaleza . 16 (1): 60–68. doi : 10.1038 / s41589-019-0400-9 . PMC 6917865 . PMID 31768033 .
- ^ a b c d e Shastry KA, Sanjay HA (2020). "Aprendizaje automático para la bioinformática". Principios de modelado estadístico y aprendizaje automático para técnicas, herramientas y aplicaciones de bioinformática . Algoritmos para sistemas inteligentes. Springer Singapur. págs. 25–39. doi : 10.1007 / 978-981-15-2445-5_3 . ISBN 978-981-15-2444-8.
- ^ "Estadísticas de GenBank y WGS" . www.ncbi.nlm.nih.gov . Consultado el 6 de mayo de 2017 .
- ^ a b c d Mathé C, Sagot MF, Schiex T, Rouzé P (octubre de 2002). "Los métodos actuales de predicción de genes, sus fortalezas y debilidades" . Investigación de ácidos nucleicos . 30 (19): 4103–17. doi : 10.1093 / nar / gkf543 . PMC 140543 . PMID 12364589 .
- ^ Pratas D, Silva RM, Pinho AJ, Ferreira PJ (mayo de 2015). "Un método sin alineación para encontrar y visualizar reordenamientos entre pares de secuencias de ADN" . Informes científicos . 5 (10203): 10203. Código Bibliográfico : 2015NatSR ... 510203P . doi : 10.1038 / srep10203 . PMC 4434998 . PMID 25984837 .
- ^ Pauling L, Corey RB, Branson HR (abril de 1951). "La estructura de las proteínas; dos configuraciones helicoidales con enlaces de hidrógeno de la cadena polipeptídica" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 37 (4): 205-11. Código Bibliográfico : 1951PNAS ... 37..205P . doi : 10.1073 / pnas.37.4.205 . PMC 1063337 . PMID 14816373 .
- ^ a b Wang S, Peng J, Ma J, Xu J (enero de 2016). "Predicción de la estructura secundaria de proteínas mediante campos neuronales convolucionales profundos" . Informes científicos . 6 : 18962. arXiv : 1512.00843 . Código Bib : 2016NatSR ... 618962W . doi : 10.1038 / srep18962 . PMC 4707437 . PMID 26752681 .
- ^ Riesenfeld CS, Schloss PD, Handelsman J (2004). "Metagenómica: análisis genómico de comunidades microbianas". Revisión anual de genética . 38 (1): 525–52. doi : 10.1146 / annurev.genet.38.072902.091216 . PMID 15568985 .
- ^ Soueidan H, Nikolski M (8 de marzo de 2016). "Machine learning para metagenómica: métodos y herramientas". arXiv : 1510.06621 [ q-bio.GN ].
- ^ a b c Lin Y, Wang G, Yu J, Sung JJ (abril de 2021). "Inteligencia artificial y metagenómica en enfermedades intestinales" . Revista de Gastroenterología y Hepatología . 36 (4): 841–847. doi : 10.1111 / jgh.15501 . PMID 33880764 . S2CID 233312307 .
- ^ a b c Dang T, Kishino H (enero de 2020). "Detección de componentes significativos de microbiomas por bosque aleatorio con selección de variables directas y filogenia". bioRxiv 10.1101 / 2020.10.29.361360 .
- ^ Fioravanti D, Giarratano Y, Maggio V, Agostinelli C, Chierici M, Jurman G, Furlanello C (marzo de 2018). "Redes neuronales convolucionales filogenéticas en metagenómica" . BMC Bioinformática . 19 (Suppl 2): 49. doi : 10.1186 / s12859-018-2033-5 . PMC 5850953 . PMID 29536822 .
- ^ Dhungel E, Mreyoud Y, Gwak HJ, Rajeh A, Rho M, Ahn TH (enero de 2021). "MegaR: un paquete R interactivo para la clasificación rápida de muestras y la predicción de fenotipos utilizando perfiles de metagenomas y aprendizaje automático" . BMC Bioinformática . 22 (1): 25. doi : 10.1186 / s12859-020-03933-4 . PMC 7814621 . PMID 33461494 .
- ^ Xun W, Liu Y, Li W, Ren Y, Xiong W, Xu Z, et al. (Enero de 2021). "Funciones metabólicas especializadas de taxones clave sostienen la estabilidad del microbioma del suelo" . Microbioma . 9 (1): 35. doi : 10.1186 / s40168-020-00985-9 . PMC 7849160 . PMID 33517892 .
- ^ a b Pirooznia M, Yang JY, Yang MQ, Deng Y (2008). "Un estudio comparativo de diferentes métodos de aprendizaje automático sobre datos de expresión génica de microarrays" . BMC Genomics . 9 Supl. 1 (1): S13. doi : 10.1186 / 1471-2164-9-S1-S13 . PMC 2386055 . PMID 18366602 .
- ^ "Aprendizaje automático en biología de sistemas moleculares" . Fronteras . Consultado el 9 de junio de 2017 .
- ^ d'Alché-Buc F, Wehenkel L (diciembre de 2008). "Machine learning en biología de sistemas" . Procedimientos de BMC . 2 Suppl 4 (4): S1. doi : 10.1186 / 1753-6561-2-S4-S1 . PMC 2654969 . PMID 19091048 .
- ^ Bhattacharya M (2020). "Técnicas no supervisadas en genómica". En Srinivasa MG, Siddesh GM, MAnisekhar SR (eds.). Principios de modelado estadístico y aprendizaje automático para técnicas, herramientas y aplicaciones de bioinformática . Springer Singapur. págs. 164-188. ISBN 978-981-15-2445-5.
- ^ Topol EJ (enero de 2019). "Medicina de alto rendimiento: la convergencia de la inteligencia humana y artificial". Medicina de la naturaleza . 25 (1): 44–56. doi : 10.1038 / s41591-018-0300-7 . PMID 30617339 . S2CID 57574615 .
- ^ a b Jiang F, Jiang Y, Zhi H, Dong Y, Li H, Ma S, et al. (Diciembre de 2017). "Inteligencia artificial en la salud: pasado, presente y futuro" . Accidente cerebrovascular y neurología vascular . 2 (4): 230–243. doi : 10.1136 / svn-2017-000101 . PMC 5829945 . PMID 29507784 .
- ^ Mirtskhulava L, Wong J, Al-Majeed S, Pearce G (marzo de 2015). "Modelo de red neuronal artificial en el diagnóstico de accidentes cerebrovasculares" (PDF) . 2015 XVII Conferencia Internacional UKSim-AMSS sobre Modelado y Simulación (UKSim) : 50–53. doi : 10.1109 / UKSim.2015.33 . ISBN 978-1-4799-8713-9. S2CID 6391733 .
- ^ Titano JJ, Badgeley M, Schefflein J, Pain M, Su A, Cai M, et al. (Septiembre de 2018). "Vigilancia automatizada de redes neuronales profundas de imágenes craneales para eventos neurológicos agudos". Medicina de la naturaleza . 24 (9): 1337-1341. doi : 10.1038 / s41591-018-0147-y . PMID 30104767 . S2CID 51976344 .
- ^ a b c Krallinger M, Erhardt RA, Valencia A (marzo de 2005). "Enfoques de minería de textos en biología molecular y biomedicina". Descubrimiento de drogas hoy . 10 (6): 439–45. doi : 10.1016 / S1359-6446 (05) 03376-3 . PMID 15808823 .
- ^ Pratas D, Hosseini M, Silva R, Pinho A, Ferreira P (20 al 23 de junio de 2017). "Visualización de distintas regiones de ADN del ser humano moderno en relación con un genoma neandertal". Reconocimiento de patrones y análisis de imágenes . Congreso Ibérico de Reconocimiento de Patrones y Análisis de Imágenes. Springer . Apuntes de conferencias en informática. 10255 . págs. 235–242. doi : 10.1007 / 978-3-319-58838-4_26 . ISBN 978-3-319-58837-7.
- ^ Bardgett RD, Caruso T (marzo de 2020). "Respuestas de la comunidad microbiana del suelo a los extremos climáticos: resistencia, resiliencia y transiciones a estados alternativos" . Transacciones filosóficas de la Royal Society de Londres. Serie B, Ciencias Biológicas . 375 (1794): 20190112. doi : 10.1098 / rstb.2019.0112 . PMC 7017770 . PMID 31983338 .
- ^ Deveau A, Bonito G, Uehling J, Paoletti M, Becker M, Bindschedler S, et al. (Mayo de 2018). "Interacciones bacteriano-fúngicas: ecología, mecanismos y desafíos" . Reseñas de Microbiología FEMS . 42 (3): 335–352. doi : 10.1093 / femsre / fuy008 . PMID 29471481 .
- ^ Ansari MZ, Yadav G, Gokhale RS, Mohanty D (julio de 2004). "NRPS-PKS: un recurso basado en el conocimiento para el análisis de megasintetasas NRPS / PKS" . Investigación de ácidos nucleicos . 32 (problema del servidor web): W405-13. doi : 10.1093 / nar / gkh359 . PMC 441497 . PMID 15215420 .
- ^ a b c Navarro-Muñoz JC, Selem-Mojica N, Mullowney MW, Kautsar SA, Tryon JH, Parkinson EI, et al. (Enero de 2020). "Un marco computacional para explorar la diversidad biosintética a gran escala" . Biología química de la naturaleza . 16 (1): 60–68. doi : 10.1038 / s41589-019-0400-9 . PMC 6917865 . PMID 31768033 .
- ^ a b Doroghazi JR, Albright JC, Goering AW, Ju KS, Haines RR, Tchalukov KA, et al. (Noviembre de 2014). "Una hoja de ruta para el descubrimiento de productos naturales basada en la genómica y la metabolómica a gran escala" . Biología química de la naturaleza . 10 (11): 963–8. doi : 10.1038 / nchembio.1659 . PMC 4201863 . PMID 25262415 .
- ^ a b Cimermancic P, Medema MH, Claesen J, Kurita K, Wieland Brown LC, Mavrommatis K, et al. (Julio de 2014). "Información sobre el metabolismo secundario de un análisis global de grupos de genes biosintéticos procariotas" . Celular . 158 (2): 412–421. doi : 10.1016 / j.cell.2014.06.034 . PMC 4123684 . PMID 25036635 .
- ^ a b Goering AW, McClure RA, Doroghazi JR, Albright JC, Haverland NA, Zhang Y, et al. (Febrero de 2016). "Metabologenómica: la correlación de grupos de genes microbianos con metabolitos impulsa el descubrimiento de un péptido no ribosómico con un monómero de aminoácido inusual" . Ciencia Central ACS . 2 (2): 99–108. doi : 10.1021 / acscentsci.5b00331 . PMC 4827660 . PMID 27163034 .
- ^ Amiri Moghaddam J, Crüsemann M, Alanjary M, Harms H, Dávila-Céspedes A, Blom J, et al. (Noviembre de 2018). "El análisis del genoma y el metaboloma de las mixobacterias marinas revela un alto potencial para la biosíntesis de nuevos metabolitos especializados" . Informes científicos . 8 (1): 16600. Bibcode : 2018NatSR ... 816600A . doi : 10.1038 / s41598-018-34954-y . PMC 6226438 . PMID 30413766 .
- ^ Duncan KR, Crüsemann M, Lechner A, Sarkar A, Li J, Ziemert N, et al. (Abril de 2015). "Las redes moleculares y la minería del genoma basada en patrones mejoran el descubrimiento de grupos de genes biosintéticos y sus productos a partir de especies de Salinispora" . Química y Biología . 22 (4): 460–471. doi : 10.1016 / j.chembiol.2015.03.010 . PMC 4409930 . PMID 25865308 .
- ^ Nielsen JC, Grijseels S, Prigent S, Ji B, Dainat J, Nielsen KF y col. (Abril de 2017). "El análisis global de grupos de genes biosintéticos revela un gran potencial de producción de metabolitos secundarios en especies de Penicillium". Microbiología de la naturaleza . 2 (6): 17044. doi : 10.1038 / nmicrobiol.2017.44 . PMID 28368369 . S2CID 22699928 .
- ^ McClure RA, Goering AW, Ju KS, Baccile JA, Schroeder FC, Metcalf WW, et al. (Diciembre de 2016). "Elucidar las familias de productos naturales de rimosamida-detoxina y su biosíntesis mediante correlaciones de clústeres de metabolitos / genes" . Biología Química ACS . 11 (12): 3452–3460. doi : 10.1021 / acschembio.6b00779 . PMC 5295535 . PMID 27809474 .
- ^ Cao L, Shcherbin E, Mohimani H (agosto de 2019). "Una red de asociaciones de metaboloma y metagenoma completo revela productos naturales microbianos y productos de biotransformación microbiana de la microbiota humana" . mSystems . 4 (4): e00387–19, /msystems/4/4/msys.00387–19.atom. doi : 10.1128 / mSystems.00387-19 . PMC 6712304 . PMID 31455639 .
- ^ Olm MR, Bhattacharya N, Crits-Christoph A, Firek BA, Baker R, Song YS, et al. (Diciembre de 2019). "La enterocolitis necrotizante está precedida por un aumento de la replicación bacteriana intestinal, Klebsiella y bacterias que codifican fimbrias" . Avances científicos . 5 (12): eaax5727. Bibcode : 2019SciA .... 5.5727O . doi : 10.1126 / sciadv.aax5727 . PMC 6905865 . PMID 31844663 .
- ^ Carrión VJ, Perez-Jaramillo J, Cordovez V, Tracanna V, de Hollander M, Ruiz-Buck D, et al. (Noviembre de 2019). "Activación inducida por patógenos de funciones supresoras de enfermedades en el microbioma de la raíz endofítica" . Ciencia . 366 (6465): 606–612. Código bibliográfico : 2019Sci ... 366..606C . doi : 10.1126 / science.aaw9285 . PMID 31672892 . S2CID 207814746 .
- ^ a b Andreu VP, Augustijn HE, van den Berg K, van der Hooft JJ, Fischbach MA, Medema MH (15 de diciembre de 2020). "BiG-MAP: una tubería automatizada para perfilar la abundancia y expresión de grupos de genes metabólicos en microbiomas". bioRxiv 10.1101 / 2020.12.14.422671 .
- ^ a b c Kautsar SA, van der Hooft JJ, de Ridder D, Medema MH (enero de 2021). "BiG-SLiCE: una herramienta altamente escalable mapea la diversidad de 1,2 millones de grupos de genes biosintéticos" . GigaScience . 10 (1): giaa154. doi : 10.1093 / gigascience / giaa154 . PMC 7804863 . PMID 33438731 .
- ^ a b Medema MH, Blin K, Cimermancic P, de Jager V, Zakrzewski P, Fischbach MA, et al. (Julio de 2011). "antiSMASH: rápida identificación, anotación y análisis de grupos de genes de biosíntesis de metabolitos secundarios en secuencias del genoma bacteriano y fúngico" . Investigación de ácidos nucleicos . 39 (Problema del servidor web): W339-46. doi : 10.1093 / nar / gkr466 . PMC 3125804 . PMID 21672958 .
- ^ "MinHash" . Wikipedia . 17 de abril de 2021.
- ^ Ondov BD, Treangen TJ, Melsted P, Mallonee AB, Bergman NH, Koren S, Phillippy AM (junio de 2016). "Mash: estimación rápida de distancia de genoma y metagenoma utilizando MinHash" . Biología del genoma . 17 (1): 132. doi : 10.1186 / s13059-016-0997-x . PMC 4915045 . PMID 27323842 .
- ^ Langmead B, Salzberg SL (marzo de 2012). "Alineación rápida de lectura con espacios vacíos con Bowtie 2" . Métodos de la naturaleza . 9 (4): 357–9. doi : 10.1038 / nmeth.1923 . PMC 3322381 . PMID 22388286 .
- ^ "CSS - Metagenómica" . www.metagenomics.wiki .
- ^ Agrawal P, Khater S, Gupta M, Sain N, Mohanty D (julio de 2017). "RiPPMiner: un recurso bioinformático para descifrar estructuras químicas de RiPPs basado en la predicción de escisión y enlaces cruzados" . Investigación de ácidos nucleicos . 45 (W1): W80 – W88. doi : 10.1093 / nar / gkx408 . PMC 5570163 . PMID 28499008 .
- ^ Huber F, Ridder L, Verhoeven S, Spaaks JH, Diblen F, Rogers S, van der Hooft JJ (febrero de 2021). "Spec2Vec: puntuación de similitud espectral de masas mejorada mediante el aprendizaje de relaciones estructurales" . PLOS Biología Computacional . 17 (2): e1008724. Código bibliográfico : 2021PLSCB..17E8724H . doi : 10.1371 / journal.pcbi.1008724 . PMC 7909622 . PMID 33591968 .
- ^ Agarwala, Richa; et al. (Enero de 2018). "Base de datos de recursos del Centro Nacional de Información Biotecnológica" . Investigación de ácidos nucleicos . 46 (D1): D8 – D13. doi : 10.1093 / nar / gkx1095 . PMC 5753372 . PMID 29140470 .
- ^ "Base de datos antiSMASH" . antismash-db.secondarymetabolites.org .
- ^ MiBiG
- ^ Kautsar SA, Blin K, Shaw S, Navarro-Muñoz JC, Terlouw BR, van der Hooft JJ, et al. (Enero de 2020). "MIBiG 2.0: un repositorio de grupos de genes biosintéticos de función conocida" . Investigación de ácidos nucleicos . 48 (D1): D454 – D458. doi : 10.1093 / nar / gkz882 . PMC 7145714 . PMID 31612915 .
- ^ Quast C, Pruesse E, Yilmaz P, Gerken J, Schweer T, Yarza P, et al. (Enero 2013). "El proyecto de base de datos de genes de ARN ribosómico SILVA: procesamiento de datos mejorado y herramientas basadas en web" . Investigación de ácidos nucleicos . 41 (Problema de la base de datos): D590-6. doi : 10.1093 / nar / gks1219 . PMC 3531112 . PMID 23193283 .
- ^ DeSantis TZ, Hugenholtz P, Larsen N, Rojas M, Brodie EL, Keller K, et al. (Julio de 2006). "Greengenes, una base de datos de genes de ARNr 16S comprobada por quimera y un banco de trabajo compatible con ARB" . Microbiología aplicada y ambiental . 72 (7): 5069–72. doi : 10.1128 / AEM.03006-05 . PMC 1489311 . PMID 16820507 .
- ^ McDonald D, Price MN, Goodrich J, Nawrocki EP, DeSantis TZ, Probst A y col. (Marzo de 2012). "Una taxonomía de Greengenes mejorada con rangos explícitos para análisis ecológicos y evolutivos de bacterias y arqueas" . El diario ISME . 6 (3): 610–8. doi : 10.1038 / ismej.2011.139 . PMC 3280142 . PMID 22134646 .
- ^ Hinchliff CE, Smith SA, Allman JF, Burleigh JG, Chaudhary R, Coghill LM, et al. (Octubre de 2015). "Síntesis de filogenia y taxonomía en un árbol de la vida integral" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 112 (41): 12764–9. Código bibliográfico : 2015PNAS..11212764H . doi : 10.1073 / pnas.1423041112 . PMC 4611642 . PMID 26385966 .
- ^ Cole JR, Wang Q, Fish JA, Chai B, McGarrell DM, Sun Y, et al. (Enero 2014). "Proyecto de base de datos ribosomales: datos y herramientas para el análisis de ARNr de alto rendimiento" . Investigación de ácidos nucleicos . 42 (Problema de la base de datos): D633-42. doi : 10.1093 / nar / gkt1244 . PMC 3965039 . PMID 24288368 .