BLAST (biotecnología)


En bioinformática , BLAST ( herramienta básica de búsqueda de alineación local ) [2] es un algoritmo y programa para comparar información de secuencia biológica primaria , como las secuencias de aminoácidos de proteínas o los nucleótidos de secuencias de ADN y / o ARN . Una búsqueda BLAST permite a un investigador comparar una proteína o secuencia de nucleótidos en cuestión (llamada consulta) con una biblioteca o base de datosde secuencias e identificar las secuencias de la base de datos que se asemejan a la secuencia de consulta por encima de un cierto umbral. Por ejemplo, tras el descubrimiento de un gen previamente desconocido en el ratón , un científico normalmente realizará una búsqueda BLAST del genoma humano para ver si los seres humanos son portadores de un gen similar; BLAST identificará secuencias en el genoma humano que se asemejen al gen del ratón basándose en la similitud de secuencia.

BLAST, que The New York Times llamó el Google de la investigación biológica , [2] es uno de los programas bioinformáticos más utilizados para la búsqueda de secuencias. [3] Aborda un problema fundamental en la investigación bioinformática. El algoritmo heurístico que utiliza es mucho más rápido que otros enfoques, como calcular una alineación óptima. Este énfasis en la velocidad es vital para que el algoritmo sea práctico en las enormes bases de datos del genoma disponibles actualmente, aunque los algoritmos posteriores pueden ser incluso más rápidos.

Antes de que se desarrollaran algoritmos rápidos como BLAST y FASTA , la búsqueda de bases de datos de proteínas o secuencias nucleicas consumía mucho tiempo porque se utilizaba un procedimiento de alineación completo (por ejemplo, el algoritmo de Smith-Waterman ).

BLAST proviene del modelo estocástico de 1990 de Samuel Karlin y Stephen Altschul [5]. Propusieron "un método para estimar las similitudes entre la secuencia de ADN conocida de un organismo con la de otro", [2] y su trabajo ha sido descrito como "el base estadística para BLAST ". [6] Posteriormente, Altschul, junto con Warren Gish , Webb Miller , Eugene Myers y David J. Lipman en los Institutos Nacionales de Salud diseñaron el algoritmo BLAST, que fue publicado en el Journal of Molecular Biology en 1990 y citado más de 75,000 veces. . [7]

Si bien BLAST es más rápido que cualquier implementación de Smith-Waterman en la mayoría de los casos, no puede "garantizar las alineaciones óptimas de las secuencias de consulta y base de datos" como lo hace el algoritmo de Smith-Waterman. La optimización de Smith-Waterman "aseguró el mejor rendimiento en precisión y los resultados más precisos" a expensas del tiempo y la potencia de la computadora.

BLAST es más eficiente en el tiempo que FASTA al buscar solo los patrones más significativos en las secuencias, pero con sensibilidad comparativa. Esto podría realizarse aún más si se comprende el algoritmo de BLAST que se presenta a continuación.


Fig. 1 El método para establecer la lista de palabras de consulta de letras k . [13]
Fig. 2 El proceso para extender la coincidencia exacta. Adaptado de Biological Sequence Analysis I, Current Topics in Genome Analysis [2] .
Fig. 3 Las posiciones de las coincidencias exactas.
Fig. 4 Visualización al estilo Circos de los resultados de BLAST generados con el software SequenceServer .
Fig. 5 Distribución de la longitud de los aciertos BLAST generados usando el software SequenceServer que muestra que la consulta (un producto génico predicho) es más larga en comparación con secuencias de bases de datos similares.