GeneMark


GeneMark es un nombre genérico para una familia de programas de predicción genética ab initio desarrollados en el Instituto de Tecnología de Georgia en Atlanta . Desarrollado en 1993, el GeneMark original se utilizó en 1995 como una herramienta primaria de predicción de genes para la anotación del primer genoma bacteriano completamente secuenciado de Haemophilus influenzae , y en 1996 para el primer genoma de arqueas de Methanococcus jannaschii . El algoritmo introdujo modelos de cadena de Markov de tres períodos no homogéneos de secuencia de ADN codificante de proteínas.que se convirtió en estándar en la predicción de genes, así como en el enfoque bayesiano de la predicción de genes en dos cadenas de ADN simultáneamente. Los parámetros específicos de las especies de los modelos se estimaron a partir de conjuntos de entrenamiento de secuencias de tipo conocido (codificantes y no codificantes de proteínas). El paso principal del algoritmo calcula las probabilidades posteriores de que un fragmento de ADN determinado sea "codificador de proteínas" (portador de código genético ) en cada uno de los seis marcos de lectura posibles (incluidos tres marcos en la cadena de ADN complementaria ) o "no codificante" . Original GeneMark (desarrollado antes de la era HMM en bioinformática) es un algoritmo similar a HMM; puede verse como una aproximación a lo conocido en el algoritmo de decodificación posterior de la teoría HMM para HMM adecuadamente definido.

El algoritmo GeneMark.hmm (1998) fue diseñado para mejorar la precisión de la predicción de genes en la búsqueda de genes cortos y comienzos de genes. La idea era integrar los modelos de cadena de Markov utilizados en GeneMark en un marco de modelo de Markov oculto , con la transición entre regiones codificantes y no codificantes interpretadas formalmente como transiciones entre estados ocultos. Además, el sitio de unión del ribosoma Se utilizó el modelo para mejorar la precisión de la predicción del inicio de genes. El siguiente paso se realizó con el desarrollo de la herramienta de predicción de genes de autoentrenamiento GeneMarkS (2001). GeneMarkS ha estado en uso activo por la comunidad genómica para la identificación de genes en nuevas secuencias genómicas procarióticas. GeneMarkS +, extensión de GeneMarkS que integra información sobre proteínas homólogas en la predicción de genes, se utiliza en la tubería NCBI para la anotación de genomas procarióticos; la tubería puede anotar hasta 2000 genomas por día ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).

La identificación precisa de los parámetros específicos de las especies de los algoritmos GeneMark y GeneMark.hmm fue la condición clave para realizar predicciones genéticas precisas. Sin embargo, surgió la pregunta, motivada por estudios de genomas virales, cómo definir parámetros para la predicción de genes en una secuencia bastante corta que no tiene un gran contexto genómico. En 1999, esta cuestión se abordó mediante el desarrollo de un "método heurístico" cálculos de los parámetros como funciones de la secuencia de contenido G + C. Desde 2004, los modelos construidos por el enfoque heurístico se han utilizado para encontrar genes en secuencias metagenómicas. Posteriormente, el análisis de varios cientos de genomas procarióticos condujo al desarrollo de un método heurístico más avanzado (implementado en MetaGeneMark) en 2010.

En los genomas eucariotas, el modelado de los bordes de los exones con intrones y regiones intergénicas presenta un desafío importante que se aborda mediante el uso de HMM. La arquitectura HMM de GeneMark.hmm eucariota incluye estados ocultos para exones, intrones y regiones intergénicas iniciales, internas y terminales.y genes de un solo exón ubicados en ambas cadenas de ADN. GeneMark.hmm eucariota inicial necesitaba conjuntos de entrenamiento para la estimación de los parámetros del algoritmo. En 2005 se desarrolló la primera versión del algoritmo de autoaprendizaje GeneMark-ES. En 2008, el algoritmo GeneMark-ES se extendió a los genomas de hongos mediante el desarrollo de un modelo de intrón especial y una estrategia más compleja de autoentrenamiento. Luego, en 2014, se agregó a la familia GeneMark-ET, el algoritmo que aumentó el autoentrenamiento mediante la información de las lecturas de RNA-Seq mapeadas y no ensambladas del genoma. La predicción de genes en transcripciones eucariotas se puede realizar mediante el nuevo algoritmo GeneMarkS-T (2015)