En bioinformática , GLIMMER (localizador de genes y modelo de Markov interpolado) se utiliza para encontrar genes en el ADN procariótico . [1] "Es eficaz para encontrar genes en bacterias , archea , virus , encontrando típicamente entre el 98 y el 99% de todos los genes codificadores de proteínas relativamente largos ". [1] GLIMMER fue el primer sistema que utilizó el modelo de Markov interpolado [2] para identificar regiones codificantes. El software GLIMMER es de código abierto y lo mantienen Steven Salzberg , Art Delcher y sus colegas en el Centro de Biología Computacional [3] de la Universidad Johns Hopkins . Los algoritmos y el software GLIMMER originales fueron diseñados por Art Delcher, Simon Kasif y Steven Salzberg y aplicados a la anotación del genoma bacteriano en colaboración con Owen White .
Desarrollador (es) | Steven Salzberg y Arthur Delcher |
---|---|
Lanzamiento estable | 3.02 / 9 de mayo de 2006 |
Disponible en | C ++ |
Tipo | Herramienta de bioinformática |
Licencia | Software de código abierto certificado por OSI bajo la licencia artística |
Sitio web | ccb |
Versiones
GLIMMER 1.0
La primera versión de GLIMMER "es decir, GLIMMER 1.0" se publicó en 1998 y se publicó en el artículo Identificación de genes microbianos utilizando el modelo de Markov interpolado . [1] Se utilizaron modelos de Markov para identificar genes microbianos en GLIMMER 1.0. GLIMMER considera las dependencias de la secuencia de composición local, lo que hace que GLIMMER sea más flexible y más potente en comparación con el modelo de Markov de orden fijo .
Se realizó una comparación entre el modelo de Markov interpolado utilizado por GLIMMER y el modelo de Markov de quinto orden en el documento Identificación de genes microbianos utilizando modelos de Markov interpolados . [1] "El algoritmo GLIMMER encontró 1680 genes de 1717 genes anotados en Haemophilus influenzae donde el modelo de Markov de quinto orden encontró 1574 genes. GLIMMER encontró 209 genes adicionales que no estaban incluidos en 1717 genes anotados donde el modelo de Markov de quinto orden encontró 104 genes". [1]
GLIMMER 2.0
La segunda versión de GLIMMER, es decir, GLIMMER 2.0 se lanzó en 1999 y se publicó en el artículo Identificación microbiana mejorada con GLIMMER . [4] Este artículo [4] proporciona importantes mejoras técnicas, como el uso del modelo de contexto interpolado en lugar del modelo de Markov interpolado y la resolución de genes superpuestos, lo que mejora la precisión de GLIMMER.
Interpoladas modelos de contexto se utilizan en lugar de interpolada modelo de Markov que da la flexibilidad para seleccionar cualquier base. En el modelo de Markov interpolado, la distribución de probabilidad de una base se determina a partir de las bases inmediatamente precedentes. Si la base precedente inmediata es una traducción de aminoácidos irrelevante , el modelo de Markov interpolado aún considera la base anterior para determinar la probabilidad de una base dada, donde el modelo de contexto interpolado que se usó en GLIMMER 2.0 puede ignorar las bases irrelevantes. Las predicciones de falsos positivos se incrementaron en GLIMMER 2.0 para reducir el número de predicciones de falsos negativos. Los genes superpuestos también se resuelven en GLIMMER 2.0.
En el artículo se realizaron varias comparaciones entre GLIMMER 1.0 y GLIMMER 2.0 Identificación microbiana mejorada con GLIMMER [4], que muestra una mejora en la versión posterior. "La sensibilidad de GLIMMER 1.0 varía del 98,4 al 99,7% con un promedio del 99,1%, mientras que GLIMMER 2.0 tiene un rango de sensibilidad del 98,6 al 99,8% con un promedio del 99,3%. GLIMMER 2.0 es muy eficaz para encontrar genes de alta densidad. El parásito Trypanosoma brucei , responsable de la enfermedad del sueño africana, está siendo identificado por GLIMMER 2.0 " [4]
GLIMMER 3.0
La tercera versión de GLIMMER, "GLIMMER 3.0" se lanzó en 2007 y se publicó en el artículo Identifying bacterial genes and endosymbiont DNA with Glimmer . [5] Este artículo describe varios cambios importantes realizados en el sistema GLIMMER, incluidos métodos mejorados para identificar las regiones codificantes y el codón de inicio . La puntuación de ORF en GLIMMER 3.0 se realiza en orden inverso, es decir, comenzando desde el codón de terminación y retrocediendo hacia el codón de inicio. El escaneo inverso ayuda a identificar la porción codificante del gen con mayor precisión que está contenida en la ventana de contexto de IMM. GLIMMER 3.0 también mejora los datos generados del conjunto de entrenamiento al comparar el ORF largo con la distribución universal de aminoácidos de genomas bacterianos muy dispares. "GLIMMER 3.0 tiene una salida de ORF larga promedio del 57% para varios organismos, mientras que GLIMMER 2.0 tiene un ORF largo promedio -ORF de salida del 39%. " [5]
GLIMMER 3.0 reduce la tasa de predicciones falsas positivas que se incrementaron en GLIMMER 2.0 para reducir el número de predicciones falsas negativas. "GLIMMER 3.0 tiene una precisión de predicción del sitio de inicio del 99,5% para partidos de 3'5 ', mientras que GLIMMER 2.0 tiene un 99,1% para partidos de 3'5'. GLIMMER 3.0 utiliza un nuevo algoritmo para escanear regiones de codificación, un nuevo módulo de detección del sitio de inicio y una arquitectura que integra todas las predicciones de genes en todo un genoma ". [5]
Longitud mínima de la descripción
Fundamento teórico y biológico
El proyecto GLIMMER ayudó a introducir y popularizar el uso de modelos de longitud variable en Biología Computacional y Bioinformática que posteriormente se han aplicado a numerosos problemas como la clasificación de proteínas y otros. El modelado de longitud variable fue iniciado originalmente por los teóricos de la información y posteriormente se aplicó y popularizó ingeniosamente en la compresión de datos (por ejemplo, compresión Ziv-Lempel). La predicción y la compresión están íntimamente vinculadas mediante los principios de longitud mínima de descripción . La idea básica es crear un diccionario de palabras frecuentes (motivos en secuencias biológicas). La intuición es que es probable que los motivos que ocurren con frecuencia sean más predictivos e informativos. En GLIMMER, el modelo interpolado es un modelo mixto de las probabilidades de estos motivos relativamente comunes. De manera similar al desarrollo de HMM en Biología Computacional, los autores de GLIMMER fueron influenciados conceptualmente por la aplicación previa de otra variante de modelos de Markov interpolados al reconocimiento de voz por parte de investigadores como Fred Jelinek (IBM) y Eric Ristad (Princeton). El algoritmo de aprendizaje en GLIMMER es diferente de estos enfoques anteriores.
Acceso
GLIMMER se puede descargar desde la página de inicio de The Glimmer (requiere un compilador C ++ ). Alternativamente, NCBI [1] aloja una versión en línea .
Cómo funciona
- GLIMMER busca principalmente ORFS largos . Un marco de lectura abierto puede superponerse con cualquier otro marco de lectura abierto que se resolverá utilizando la técnica descrita en la subsección. Usando estos ORFS largos y siguiendo cierta distribución de aminoácidos, GLIMMER genera datos de conjuntos de entrenamiento .
- Utilizando estos datos de entrenamiento, GLIMMER entrena los seis modelos de Markov de ADN codificante de orden cero a octavo y también entrena el modelo para ADN no codificante.
- GLIMMER intenta calcular las probabilidades a partir de los datos. Según el número de observaciones, GLIMMER determina si se debe utilizar el modelo de Markov de orden fijo o el modelo de Markov interpolado .
- Si el número de observaciones es mayor que 400, GLIMMER usa el modelo de Markov de orden fijo para obtener sus probabilidades.
- Si el número de observaciones es inferior a 400, GLIMMER utiliza el modelo de Markov interpolado que se explica brevemente en la siguiente subsección.
- GLIMMER obtiene una puntuación por cada ORF largo generado utilizando los seis modelos de ADN codificante y también utilizando el modelo de ADN no codificante.
- Si la puntuación obtenida en el paso anterior es superior a un determinado umbral, GLIMMER predice que se trata de un gen.
Los pasos explicados anteriormente describen la funcionalidad básica de GLIMMER. Se han realizado varias mejoras en GLIMMER y algunas de ellas se describen en las siguientes subsecciones.
El sistema GLIMMER
El sistema GLIMMER consta de dos programas. Primer programa llamado build-imm, que toma un conjunto de secuencias de entrada y genera el modelo de Markov interpolado de la siguiente manera.
Se calcula la probabilidad para cada base, es decir, A, C, G, T para todos los k-mers para 0 ≤ k ≤ 8. Luego, para cada k-mer , GLIMMER calcula el peso. La probabilidad de nueva secuencia se calcula de la siguiente manera.
donde n es la longitud de la secuencia es el oligómero en la posición x., la -La puntuación del modelo de Markov interpolado por orden se calcula como
"dónde es el peso del k-mer en la posición x-1 en la secuencia S y es la estimación obtenida de los datos de entrenamiento de la probabilidad de la base ubicada en la posición x en el -Modelo de pedido ". [1]
La probabilidad de base dadas las i bases anteriores se calcula de la siguiente manera.
"El valor de asociado con puede considerarse como una medida de confianza en la precisión de este valor como una estimación de la probabilidad real. GLIMMER utiliza dos criterios para determinar. El primero de ellos es una ocurrencia de frecuencia simple en la que el número de ocurrencias de la cadena de contexto en los datos de entrenamiento excede un valor de umbral específico, entonces está establecido en 1.0. El valor predeterminado actual para el umbral es 400, lo que proporciona un 95% de confianza. Cuando no hay suficientes ocurrencias de muestra de una cadena de contexto, build-imm emplea criterios adicionales para determinarvalor. Para una cadena de contexto dada de longitud i, build-imm compare las frecuencias observadas de la siguiente base , , , con las probabilidades del modelo de Markov interpolado previamente calculadas utilizando el siguiente contexto más corto,, , , . Usando untest, build-imm determinar qué tan probable es que las cuatro frecuencias observadas sean consistentes con los valores de IMM del siguiente contexto más corto ". [1]
El segundo programa, llamado destello, usa este IMM para identificar un gen putativo en un genoma completo. GLIMMER identifica todos los marcos de lectura abiertos que puntúan por encima del umbral y comprueba la superposición de genes. La resolución de genes superpuestos se explica en la siguiente subsección.
Las ecuaciones y la explicación de los términos utilizados anteriormente se toman del artículo 'Identificación de genes microbianos utilizando modelos de Markov interpolados [1]
Resolución de genes superpuestos
En GLIMMER 1.0, cuando dos genes A y B se superponen, se puntúa la región de superposición. Si A es más largo que B, y si A obtiene una puntuación más alta en la región de superposición, y si mover el sitio de inicio de B no resuelve la superposición, entonces B se rechaza.
GLIMMER 2.0 proporcionó una mejor solución para resolver la superposición. En GLIMMER 2.0, cuando dos genes potenciales A y B se superponen, se puntúa la región de superposición. Supongamos que el gen A puntúa más alto, se consideran cuatro orientaciones diferentes.
En el caso anterior, mover los sitios de inicio no elimina la superposición. Si A es significativamente más largo que B, entonces B se rechaza o bien, tanto A como B se denominan genes, con una superposición dudosa.
En el caso anterior, el movimiento de B puede resolver la superposición, A y B se pueden llamar genes no superpuestos, pero si B es significativamente más corto que A, entonces B se rechaza.
En el caso anterior, mover A puede resolver la superposición. A solo se mueve si la superposición es una pequeña fracción de A o si B se rechaza.
En el caso anterior, tanto A como B se pueden mover. Primero movemos el inicio de B hasta que la región de superposición puntúe más alto para B. Luego movemos el inicio de A hasta que puntúe más alto. Luego B nuevamente, y así sucesivamente, hasta que se elimine la superposición o no se puedan realizar más movimientos.
El ejemplo anterior se ha tomado del artículo "Identificación de genes bacterianos y ADN endosimbionte con Glimmer" [5]
Sitios de unión a ribosomas
La señal del sitio de unión al ribosoma (RBS) se puede utilizar para encontrar la posición del sitio de inicio real. Los resultados de GLIMMER se pasan como una entrada para el programa RBSfinder para predecir los sitios de unión de los ribosomas. GLIMMER 3.0 integra el programa RBSfinder en la propia función de predicción de genes.
El software ELPH (que se determinó como altamente efectivo para identificar RBS en el documento [5] ) se utiliza para identificar RBS y está disponible en este sitio web . El algoritmo de muestreo de Gibbs se utiliza para identificar un motivo compartido en cualquier conjunto de secuencias. Estas secuencias de motivos compartidos y su longitud se proporcionan como entrada a ELPH. ELPH luego calcula la matriz de peso de posición (PWM) que será utilizada por GLIMMER 3 para calificar cualquier RBS potencial encontrado por RBSfinder. El proceso anterior se realiza cuando tenemos una cantidad sustancial de genes de entrenamiento. Si hay un número inadecuado de genes de entrenamiento, GLIMMER 3 puede iniciarse para generar un conjunto de predicciones de genes que se pueden utilizar como entrada para ELPH. ELPH ahora calcula PWM y este PWM se puede usar nuevamente en el mismo conjunto de genes para obtener resultados más precisos para los sitios de inicio. Este proceso se puede repetir durante muchas iteraciones para obtener resultados de predicción de genes y PWM más consistentes.
Actuación
Glimmer apoya los esfuerzos de anotación del genoma en una amplia gama de especies bacterianas, arqueales y virales. En un esfuerzo de reanotación a gran escala en el Banco de datos de ADN de Japón (DDBJ, que refleja Genbank ). Kosuge y col. (2006) [6] examinaron los métodos de búsqueda de genes utilizados para 183 genomas. Informaron que de estos proyectos, Glimmer fue el buscador de genes para el 49%, seguido de GeneMark con el 12%, con otros algoritmos utilizados en el 3% o menos de los proyectos. (También informaron que el 33% de los genomas usaban "otros" programas, lo que en muchos casos significaba que no podían identificar el método. Excluyendo esos casos, Glimmer se usó para el 73% de los genomas para los cuales los métodos podían identificarse sin ambigüedades. ) El DDBJ utilizó Glimmer para volver a anotar todos los genomas bacterianos en las bases de datos internacionales de secuencias de nucleótidos. [7] Este grupo también lo está utilizando para anotar virus. [8] Glimmer es parte del proceso de anotación bacteriana en el Centro Nacional de Información Biotecnológica (NCBI), [9] que también mantiene un servidor web para Glimmer, [10] al igual que sitios en Alemania, [11] Canadá ,. [12]
Según Google Scholar, a principios de 2011, el artículo original de Glimmer (Salzberg et al., 1998) [1] se ha citado 581 veces, y el artículo de Glimmer 2.0 (Delcher et al., 1999) [4] se ha citado 950 veces.
Referencias
- ^ a b c d e f g h i Salzberg, SL; Delcher, AL; Kasif, S .; White, O. (1998). "Identificación de genes microbianos utilizando modelos de Markov interpolados" . Investigación de ácidos nucleicos . 26 (2): 544–548. doi : 10.1093 / nar / 26.2.544 . PMC 147303 . PMID 9421513 .
- ^ Salzberg, SL; Por equipo.; Delcher, AL; Gardner, MJ; Tettelin, H. (1999). "Modelos de Markov interpolados para el hallazgo de genes eucariotas". Genómica . 59 (1): 24–31. CiteSeerX 10.1.1.126.431 . doi : 10.1006 / geno.1999.5854 . PMID 10395796 .
- ^ "Centro de Biología Computacional" . Universidad Johns Hopkins . Consultado el 23 de marzo de 2013 .
- ^ a b c d e Delcher, A .; Harmon, D .; Kasif, S .; White, O .; Salzberg, S. (1999). "Identificación mejorada de genes microbianos con GLIMMER" . Investigación de ácidos nucleicos . 27 (23): 4636–4641. doi : 10.1093 / nar / 27.23.4636 . PMC 148753 . PMID 10556321 .
- ^ a b c d e Delcher, AL; Bratke, KA; Poderes, CE; Salzberg, SL (2007). "Identificación de genes bacterianos y ADN endosimbionte con Glimmer" . Bioinformática . 23 (6): 673–679. doi : 10.1093 / bioinformatics / btm009 . PMC 2387122 . PMID 17237039 .
- ^ Kosuge, T .; Abe, T .; Okido, T .; Tanaka, N .; Hirahata, M .; Maruyama, Y .; Mashima, J .; Tomiki, A .; Kurokawa, M .; Himeno, R .; Fukuchi, S .; Miyazaki, S .; Gojobori, T .; Tateno, Y .; Sugawara, H. (2006). "Exploración y clasificación de posibles genes de 183 cepas bacterianas mediante un protocolo común para la identificación de nuevos genes: Gene Trek en espacio procariota (GTPS)" . Investigación de ADN . 13 (6): 245-254. doi : 10.1093 / dnares / dsl014 . PMID 17166861 .
- ^ Sugawara, H .; Abe, T .; Gojobori, T .; Tateno, Y. (2007). "DDBJ trabajando en la evaluación y clasificación de genes bacterianos en INSDC" . Investigación de ácidos nucleicos . 35 (Problema de la base de datos): D13 – D15. doi : 10.1093 / nar / gkl908 . PMC 1669713 . PMID 17108353 .
- ^ Hirahata, M .; Abe, T .; Tanaka, N .; Kuwana, Y .; Shigemoto, Y .; Miyazaki, S .; Suzuki, Y .; Sugawara, H. (2007). "Agente de información del genoma de virus (GIB-V): base de datos para el análisis comparativo de genomas de virus" . Investigación de ácidos nucleicos . 35 (Problema de la base de datos): D339 – D342. doi : 10.1093 / nar / gkl1004 . PMC 1781101 . PMID 17158166 .
- ^ "Canal de anotación automática de genomas procarióticos NCBI (PGAAP)" . Centro de Bioinformática y Biología Computacional . Consultado el 23 de marzo de 2012 .
- ^ "Herramientas de anotación del genoma microbiano" . Centro de Bioinformática y Biología Computacional . Consultado el 23 de marzo de 2012 .
- ^ "TiCo" . Institut für Mikrobiologie und Genetik, Universität Göttingen. 2005-02-11 . Consultado el 23 de marzo de 2012 .
- ^ "Sistema de anotación bacteriana BASys" . Archivado desde el original el 24 de julio de 2012 . Consultado el 23 de marzo de 2012 .
enlaces externos
- La página de inicio de Glimmer en CCB, Johns Hopkins University , desde donde se puede descargar el software.