BLAT ( herramienta de alineación similar a BLAST ) es un algoritmo de alineación de secuencias por pares que fue desarrollado por Jim Kent en la Universidad de California Santa Cruz (UCSC) a principios de la década de 2000 para ayudar en el ensamblaje y anotación del genoma humano . [1] Fue diseñado principalmente para disminuir el tiempo necesario para alinear millones de lecturas genómicas de ratón y etiquetas de secuencia expresadas con la secuencia del genoma humano. Las herramientas de alineación de la época no eran capaces de realizar estas operaciones de una manera que permitiera una actualización regular del ensamblaje del genoma humano. En comparación con las herramientas preexistentes, BLAT fue ~ 500 veces más rápido con el rendimientoAlineaciones de ARNm / ADN y ~ 50 veces más rápido con alineaciones de proteína / proteína. [1]
Desarrollador (es) | Jim Kent , UCSC |
---|---|
Repositorio | |
Tipo | Herramienta de bioinformática |
Licencia | gratis para uso no comercial , fuente disponible |
Sitio web | genoma |
Descripción general
BLAT es uno de los múltiples algoritmos desarrollados para el análisis y la comparación de secuencias biológicas como ADN, ARN y proteínas, con el objetivo principal de inferir homología para descubrir la función biológica de las secuencias genómicas. [2] No está garantizado encontrar la alineación matemáticamente óptima entre dos secuencias como lo hacen los algoritmos clásicos de programación dinámica Needleman-Wunsch [3] y Smith-Waterman [4] ; más bien, primero intenta detectar rápidamente secuencias cortas que tienen más probabilidades de ser homólogas, y luego alinea y extiende aún más las regiones homólogas. Es similar a la familia de algoritmos heurísticos BLAST [5] [6] , pero cada herramienta ha intentado abordar el problema de alinear secuencias biológicas de manera oportuna y eficiente mediante el intento de diferentes técnicas algorítmicas. [2] [7]
Usos de BLAT
BLAT puede usarse para alinear secuencias de ADN así como secuencias de proteínas y nucleótidos traducidas (ARNm o ADN). Está diseñado para funcionar mejor en secuencias con gran similitud. La búsqueda de ADN es más eficaz para los primates y la búsqueda de proteínas es eficaz para los vertebrados terrestres. [1] [8] Además, las consultas de proteínas o secuencias traducidas son más efectivas para identificar coincidencias distantes y para el análisis de especies cruzadas que las consultas de secuencias de ADN. [9] Los usos típicos de BLAT incluyen los siguientes:
- Alineación de múltiples secuencias de ARNm en un ensamblaje del genoma para inferir sus coordenadas genómicas; [10]
- Alineación de una proteína o secuencia de ARNm de una especie en una base de datos de secuencias de otra especie para determinar la homología. Siempre que las dos especies no sean demasiado divergentes, la alineación entre especies es generalmente eficaz con BLAT. Esto es posible porque BLAT no requiere coincidencias perfectas, sino que acepta discrepancias en las alineaciones; [11]
- BLAT se puede utilizar para alineamientos de dos secuencias de proteínas. Sin embargo, no es la herramienta de elección para este tipo de alineaciones. BLASTP, la herramienta Standard Protein BLAST , es más eficaz en las alineaciones proteína-proteína; [1]
- Determinación de la distribución de regiones exónicas e intrónicas de un gen; [9] [10]
- Detección de miembros de la familia de genes de una consulta genética específica; [9] [10]
- Visualización de la secuencia codificadora de proteínas de un gen específico. [9] [10]
BLAT está diseñado para encontrar coincidencias entre secuencias de una longitud de al menos 40 bases que comparten ≥95% de identidad de nucleótidos o ≥80% de identidad de proteína traducida. [9] [10]
Proceso
BLAT se usa para encontrar regiones en una base de datos genómica diana que son similares a una secuencia de consulta bajo examen. El proceso algorítmico general seguido por BLAT es similar al de BLAST en que primero busca segmentos cortos en la base de datos y consulta secuencias que tienen un cierto número de elementos coincidentes. A continuación, estas semillas de alineación se extienden en ambas direcciones de las secuencias para formar pares de puntuación alta. [12] Sin embargo, BLAT utiliza un enfoque de indexación diferente de BLAST, que le permite escanear rápidamente bases de datos genómicas y de proteínas muy grandes en busca de similitudes con una secuencia de consulta. Para ello, mantiene una lista indexada ( tabla hash ) de la base de datos de destino en la memoria, lo que reduce significativamente el tiempo necesario para la comparación de las secuencias de consulta con la base de datos de destino. Este índice se construye tomando las coordenadas de todos los k-mers no superpuestos (palabras con k letras) en la base de datos de destino, excepto los k-mers muy repetidos. BLAT luego construye una lista de todos los k-mers superpuestos de la secuencia de consulta y los busca en la base de datos de destino, creando una lista de resultados donde hay coincidencias entre las secuencias [1] (la Figura 1 ilustra este proceso).
Etapa de búsqueda
Se utilizan tres estrategias diferentes para buscar regiones candidatas homólogas:
- El primer método requiere coincidencias únicas perfectas entre la consulta y las secuencias de la base de datos, es decir, las dos palabras k-mer son exactamente iguales. Este enfoque no se considera el más práctico. Esto se debe a que es necesario un tamaño pequeño de k-mer para lograr altos niveles de sensibilidad, pero esto aumenta el número de falsos positivos, aumentando así la cantidad de tiempo empleado en la etapa de alineación del algoritmo. [1]
- El segundo método permite al menos un desajuste entre las dos palabras k-mer. Esto disminuye la cantidad de falsos positivos, lo que permite tamaños de k-mer más grandes que son menos costosos computacionalmente de manejar que los producidos con el método anterior. Este método es muy eficaz para identificar pequeñas regiones homólogas. [1]
- El tercer método requiere múltiples coincidencias perfectas que están muy próximas entre sí. Como muestra Kent, [1] esta es una técnica muy efectiva capaz de tomar en consideración pequeñas inserciones y deleciones dentro de las regiones homólogas.
Al alinear nucleótidos, BLAT usa el tercer método que requiere dos coincidencias de palabras perfectas de tamaño 11 (11-mers). Al alinear proteínas, la versión BLAT determina la metodología de búsqueda utilizada: cuando se usa la versión cliente / servidor, BLAT busca tres coincidencias perfectas de 4 unidades; cuando se utiliza la versión independiente, BLAT busca un único 5-mer perfecto entre la consulta y las secuencias de la base de datos. [1]
BLAT frente a BLAST
Algunas de las diferencias entre BLAT y BLAST se describen a continuación:
- BLAT indexa la base de datos de genoma / proteínas, retiene el índice en la memoria y luego escanea la secuencia de consulta en busca de coincidencias. BLAST, por otro lado, crea un índice de las secuencias de consulta y busca coincidencias en la base de datos. [1] Una variante BLAST llamada MegaBLAST indexa 4 bases de datos para acelerar las alineaciones. [9]
- BLAT se puede extender en múltiples coincidencias perfectas y casi perfectas (el valor predeterminado es 2 coincidencias perfectas de longitud 11 para búsquedas de nucleótidos y 3 coincidencias perfectas de longitud 4 para búsquedas de proteínas), mientras que BLAST se extiende solo cuando una o dos coincidencias ocurren juntas. [1] [9]
- BLAT conecta cada área homóloga entre dos secuencias en una única alineación más grande, en contraste con BLAST que devuelve cada área homóloga como una alineación local separada. El resultado de BLAST es una lista de exones con cada alineación que se extiende más allá del final del exón. Sin embargo, BLAT coloca correctamente cada base del ARNm en el genoma, usando cada base solo una vez y puede usarse para identificar límites intrón- exón (es decir, sitios de empalme ). [1] [13]
- BLAT es menos sensible que BLAST. [2]
Uso del programa
BLAT se puede utilizar como un programa servidor-cliente basado en la web o como un programa independiente. [9]
Servidor-cliente
Se puede acceder a la aplicación basada en web de BLAT desde el sitio de UCSC Genome Bioinformatics. [8] La construcción del índice es un procedimiento relativamente lento. Por lo tanto, cada conjunto de genoma utilizado por el BLAT basado en la web está asociado con un servidor BLAT, con el fin de tener un índice precalculado disponible para las alineaciones. Estos servidores BLAT basados en la web mantienen el índice en la memoria para que los usuarios ingresen sus secuencias de consulta. [11]
Una vez que la secuencia de consulta se carga / pega en el campo de búsqueda, el usuario puede seleccionar varios parámetros, como el genoma de qué especie apuntar (actualmente hay más de 50 especies disponibles) y la versión de ensamblaje de ese genoma (por ejemplo, el genoma humano tiene cuatro conjuntos para seleccionar), el tipo de consulta (es decir, si la secuencia se relaciona con el ADN, la proteína, etc.) y la configuración de salida (es decir, cómo clasificar y visualizar la salida). A continuación, el usuario puede ejecutar la búsqueda enviando la consulta o utilizando la búsqueda BLAT "Me siento afortunado". [8]
Bhagwat y col. [9] proporciona protocolos paso a paso sobre cómo utilizar BLAT para:
- Mapear una secuencia de ARNm / ADNc con una secuencia genómica;
- Mapear una secuencia de proteínas en el genoma;
- Realizar búsquedas de homología.
Aporte
BLAT puede manejar largas secuencias de bases de datos, sin embargo, es más efectivo con secuencias de consulta cortas que con secuencias de consulta largas. Kent [1] recomienda una longitud máxima de consulta de 200.000 bases. El navegador UCSC limita las secuencias de consulta a menos de 25.000 letras (es decir, nucleótidos ) para búsquedas de ADN y menos de 10.000 letras (es decir, aminoácidos ) para búsquedas de proteínas y secuencias traducidas. [8]
El genoma de búsqueda BLAT disponible en el sitio web de UCSC acepta secuencias de consulta como texto (cortado y pegado en el cuadro de consulta) o cargadas como archivos de texto. BLAT Search Genome puede aceptar múltiples secuencias del mismo tipo a la vez, hasta un máximo de 25. Para múltiples secuencias, el número total de nucleótidos no debe exceder 50,000 para búsquedas de ADN o 25,000 letras para búsquedas de proteínas o secuencias traducidas. En la Figura 2 se muestra un ejemplo de búsqueda en una base de datos objetivo con una secuencia de consulta de ADN.
Producción
Una búsqueda BLAT devuelve una lista de resultados ordenados en orden decreciente según la puntuación. Se devuelve la siguiente información: la puntuación de la alineación, la región de la secuencia de consulta que coincide con la secuencia de la base de datos, el tamaño de la secuencia de consulta, el nivel de identidad como porcentaje de la alineación y el cromosoma y la posición que la secuencia de consulta mapas a. [9] Bhagwat y col. [9] describen cómo se calculan las medidas de "Puntuación" e "Identidad" de BLAT.
Para cada resultado de búsqueda, el usuario recibe un enlace al UCSC Genome Browser para que pueda visualizar la alineación en el cromosoma. Este es un gran beneficio del BLAT basado en la web sobre el BLAT independiente. El usuario puede obtener información biológica asociada con la alineación, como información sobre el gen con el que puede coincidir la consulta. [9] El usuario también recibe un enlace para ver la alineación de la secuencia de consulta con el ensamblaje del genoma. Las coincidencias entre la consulta y el ensamblaje del genoma son azules y los límites de las alineaciones son de color más claro. Estos límites de exón indican sitios de empalme. [8] [9] El resultado de búsqueda "Me siento afortunado" devuelve la alineación con la puntuación más alta para la primera secuencia de consulta según la opción de clasificación de salida seleccionada por el usuario. [8]
Ser único
El BLAT independiente es más adecuado para ejecuciones por lotes y más eficiente que el BLAT basado en la web. Es más eficiente porque puede almacenar el genoma en la memoria, a diferencia de la aplicación basada en web que solo almacena el índice en la memoria. [1] [9]
Licencia
Tanto la fuente como los archivos binarios precompilados de BLAT están disponibles gratuitamente para uso académico y personal. La licencia comercial de BLAT independiente es distribuida por Kent Informatics, Inc.
Ver también
- Herramienta de búsqueda de alineación local básica BLAST
- Software de alineación de secuencias
Referencias
- ↑ a b c d e f g h i j k l m n Kent, W James (2002). "BLAT - la herramienta de alineación similar a BLAST" . Investigación del genoma . 12 (4): 656–664. doi : 10.1101 / gr.229202 . PMC 187518 . PMID 11932250 .
- ^ a b c Imelfort, Michael (2009). Edwards, D; Stajich, J; Hansen, D (eds.). Bioinformática: herramientas y aplicaciones . Nueva York: Springer. pp. 19 -20. ISBN 978-0-387-92737-4.
- ^ Needleman, SB; Wunsch, CD (1970). "Un método general aplicable a la búsqueda de similitudes en la secuencia de aminoácidos de dos proteínas". Revista de Biología Molecular . 48 (3): 443–53. doi : 10.1016 / 0022-2836 (70) 90057-4 . PMID 5420325 .
- ^ Smith, TF; Waterman, MS (1981). "Identificación de subsecuencias moleculares comunes". Revista de Biología Molecular . 147 (1): 195–7. CiteSeerX 10.1.1.63.2897 . doi : 10.1016 / 0022-2836 (81) 90087-5 . PMID 7265238 .
- ^ Altschul, SF; Gish, W; Miller, W; Myers, EW; Lipman, DJ (1990). "Herramienta básica de búsqueda de alineación local". Revista de Biología Molecular . 215 (3): 403–10. doi : 10.1016 / S0022-2836 (05) 80360-2 . PMID 2231712 .
- ^ Altschul, SF; Madden, TL; Schäffer, AA; Zhang, J; Zhang, Z; Miller, W; Lipman, DJ (1997). "Gapped BLAST y PSI-BLAST: una nueva generación de programas de búsqueda de bases de datos de proteínas" . Investigación de ácidos nucleicos . 25 (17): 3389–402. doi : 10.1093 / nar / 25.17.3389 . PMC 146917 . PMID 9254694 .
- ^ Baxevanis, Andreas D .; Ouellette, BF Francis (2001). Bioinformática: una guía práctica para el análisis de genes y proteínas (2ª ed.). Nueva York: Wiley-Interscience. págs. 187–214 . ISBN 978-0-471-22392-4.
- ^ a b c d e f g Sitio de bioinformática del genoma de UCSC
- ^ a b c d e f g h yo j k l m n Bhagwat, Medha; Joven, Lynn; Robison, Rex R (marzo de 2012). Uso de BLAT para encontrar similitudes de secuencia en genomas estrechamente relacionados . Protocolos actuales en bioinformática . 10,8. 10 . págs. Unidad10.8. doi : 10.1002 / 0471250953.bi1008s37 . ISBN 978-0-471-25095-1. PMC 4101998 . PMID 22389010 .
- ^ a b c d e Ye, Shui Qing (2008). Bioinformática: un enfoque práctico . Londres: Chapman & Hall. pp. 11 -12. ISBN 978-1-58488-810-9.
- ^ a b Kuhn, RM; Haussler, D; Kent, WJ (2013). "El navegador del genoma UCSC y herramientas asociadas" . Sesiones informativas en bioinformática . 14 (2): 144–61. doi : 10.1093 / bib / bbs038 . PMC 3603215 . PMID 22908213 .
- ^ Lobo, Ingrid. "Herramienta básica de búsqueda de alineación local (BLAST)" . Educación en la naturaleza . Consultado el 15 de octubre de 2013 .
- ^ Pevsner, J (2009). Bioinformática y Genómica Funcional . Nueva Jersey: John Wiley & Sons, Inc. págs. 166-167 . ISBN 978-0-470-08585-1.
- ^ "NCBI - GenBank: AACZ03015565.1" . Consultado el 12 de octubre de 2013 .
enlaces externos
- Genoma de búsqueda UCSC BLAT
- Kent Informatics, Inc.
- Código fuente BLAT
- Preguntas frecuentes sobre BLAT - por UCSC
- Especificaciones del programa BLAT Suite y guía del usuario
- Búsqueda BLAT humana