EM múltiple para la obtención de motivos

La maximización de expectativas múltiples para la obtención de motivos (MEME) es una herramienta para descubrir motivos en un grupo de secuencias de proteínas o ADN relacionadas . ^[1]

Un motivo es un patrón de secuencia que ocurre repetidamente en un grupo de proteínas o secuencias de ADN relacionadas y, a menudo, se asocia con alguna función biológica. MEME representa motivos como matrices de probabilidad de letras dependientes de la posición que describen la probabilidad de cada letra posible en cada posición del patrón. Los motivos individuales de MEME no contienen espacios. MEME divide los patrones con espacios de longitud variable en dos o más motivos separados.

MEME toma como entrada un grupo de secuencias de ADN o proteínas (el conjunto de entrenamiento) y genera tantos motivos como se soliciten. Utiliza técnicas de modelado estadístico para elegir automáticamente el mejor ancho, número de ocurrencias y descripción para cada motivo.

MEME es la primera de una colección de herramientas para analizar motivos llamada suite MEME .

Definición

El algoritmo MEME podría entenderse desde dos perspectivas diferentes. Desde un punto de vista biológico, MEME identifica y caracteriza motivos compartidos en un conjunto de secuencias no alineadas. Desde el aspecto de la informática, MEME encuentra un conjunto de subcadenas que no se superponen y que coinciden aproximadamente con un conjunto inicial de cadenas. ^{[ cita requerida ]}

Usar

MEME se puede utilizar para encontrar estructuras y funciones biológicas similares en diferentes secuencias. Es necesario tener en cuenta que la variación de secuencias puede ser significativa y que los motivos a veces son muy pequeños. También es útil tener en cuenta que los sitios de unión de las proteínas son muy específicos. Esto hace que sea más fácil reducir los experimentos de laboratorio húmedo (ahorrando costos y tiempo). De hecho, para descubrir mejor los motivos relevantes desde un punto biológico es necesario elegir cuidadosamente: el mejor ancho de motivos, el número de ocurrencias en cada secuencia y la composición de cada motivo.

Componentes del algoritmo

El algoritmo utiliza varios tipos de funciones conocidas:

Maximización de expectativas (EM).
Heurística basada en EM para elegir el punto de partida de EM.
Basado en el índice de máxima verosimilitud (basado en LRT). Heurística para determinar el mejor número de parámetros sin modelo.
Multi-inicio para buscar posibles anchos de motivos.
Búsqueda codiciosa para encontrar múltiples motivos.

Sin embargo, a menudo uno no sabe dónde está la posición inicial. Existen varias posibilidades: exactamente un motivo por secuencia, o uno o cero motivos por secuencia, o cualquier número de motivos por secuencia.

Ver también

Referencias

^ Bailey TL, Elkan C. Aprendizaje no supervisado de múltiples motivos en biopolímeros usando EM. Mach. Aprender. 1995; 21: 51–80.

enlaces externos

MEME Suite : herramientas de análisis de secuencias basadas en motivos
Versión acelerada por GPU de MEME
EXTREME : una implementación de EM en línea del modelo MEME para el descubrimiento rápido de motivos en grandes datos ChIP-Seq y DNase-Seq Footprinting

[Bailey_and_Elkan_1995-1] Bailey TL, Elkan C. Aprendizaje no supervisado de múltiples motivos en biopolímeros usando EM. Mach. Aprender. 1995; 21: 51–80.

[1]