En bioinformática , la matriz BLOSUM ( BLO cks SU bstitution M atrix) es una matriz de sustitución utilizada para la alineación de secuencias de proteínas . Las matrices BLOSUM se utilizan para puntuar alineaciones entre secuencias de proteínas evolutivamente divergentes . Se basan en alineaciones locales. Las matrices BLOSUM fueron introducidas por primera vez en un artículo por Steven Henikoff y Jorja Henikoff. [1] Escanearon la base de datos BLOCKS en busca de regiones muy conservadas.de familias de proteínas (que no tienen espacios en la secuencia de alineación) y luego contaron las frecuencias relativas de los aminoácidos y sus probabilidades de sustitución. Luego, calcularon una puntuación logarítmica de probabilidades para cada uno de los 210 pares de sustitución posibles de los 20 aminoácidos estándar. Todas las matrices BLOSUM se basan en alineaciones observadas; no se extrapolan a partir de comparaciones de proteínas estrechamente relacionadas como las matrices PAM .
Antecedentes biologicos
Las instrucciones genéticas de cada célula que se replica en un organismo vivo están contenidas en su ADN. [2] A lo largo de la vida de la célula, esta información se transcribe y replica mediante mecanismos celulares para producir proteínas o para proporcionar instrucciones a las células hijas durante la división celular , y existe la posibilidad de que el ADN se altere durante estos procesos. [2] [3] Esto se conoce como mutación . A nivel molecular, existen sistemas reguladores que corrigen la mayoría, pero no todos, de estos cambios en el ADN antes de que se replique. [3] [4]
La funcionalidad de una proteína depende en gran medida de su estructura. [5] Cambiar un solo aminoácido en una proteína puede reducir su capacidad para llevar a cabo esta función, o la mutación puede incluso cambiar la función que realiza la proteína. [3] Cambios como estos pueden afectar severamente una función crucial en una célula, causando potencialmente la muerte de la célula y, en casos extremos, del organismo. [6] Por el contrario, el cambio puede permitir que la célula continúe funcionando aunque de manera diferente, y la mutación puede transmitirse a la descendencia del organismo. Si este cambio no resulta en ninguna desventaja física significativa para la descendencia, existe la posibilidad de que esta mutación persista dentro de la población. También existe la posibilidad de que el cambio de función resulte ventajoso.
Los 20 aminoácidos traducidos por el código genético varían mucho según las propiedades físicas y químicas de sus cadenas laterales. [5] Sin embargo, estos aminoácidos se pueden clasificar en grupos con propiedades fisicoquímicas similares. [5] Es más probable que la sustitución de un aminoácido por otro de la misma categoría tenga un impacto menor en la estructura y función de una proteína que el reemplazo con un aminoácido de una categoría diferente.
La alineación de secuencias es un método de investigación fundamental para la biología moderna. El alineamiento de secuencias más común para la proteína es buscar similitudes entre diferentes secuencias para inferir funciones o establecer relaciones evolutivas. Esto ayuda a los investigadores a comprender mejor el origen y la función de los genes a través de la naturaleza de la homología y la conservación . Las matrices de sustitución se utilizan en algoritmos para calcular la similitud de diferentes secuencias de proteínas; sin embargo, la utilidad de Dayhoff PAM Matrix ha disminuido con el tiempo debido a la necesidad de secuencias con una similitud superior al 85%. Para llenar este vacío, Henikoff y Henikoff introdujeron la matriz BLOSUM (BLOcks SUbstitution Matrix) que condujo a marcadas mejoras en las alineaciones y en las búsquedas utilizando consultas de cada uno de los grupos de proteínas relacionadas. [1]
Terminología
BLOSUM: Matriz de sustitución de bloques, una matriz de sustitución utilizada para la alineación de secuencias de proteínas .
Métricas de puntuación (estadísticas versus biológicas): al evaluar una alineación de secuencia, uno quisiera saber qué tan significativa es. Esto requiere una matriz de puntuación, o una tabla de valores que describa la probabilidad de que ocurra un par de residuos de aminoácidos o nucleótidos con significado biológico en una alineación. Las puntuaciones para cada posición se obtienen con frecuencias de sustituciones en bloques de alineamientos locales de secuencias de proteínas. [7]
Existen varios conjuntos de matrices BLOSUM que utilizan diferentes bases de datos de alineación, nombradas con números. Las matrices BLOSUM con números altos están diseñadas para comparar secuencias estrechamente relacionadas, mientras que aquellas con números bajos están diseñadas para comparar secuencias relacionadas distantes. Por ejemplo, BLOSUM80 se usa para alineaciones estrechamente relacionadas y BLOSUM45 se usa para alineaciones más distantes. Las matrices se crearon fusionando (agrupando) todas las secuencias que eran más similares que un porcentaje dado en una sola secuencia y luego comparando esas secuencias (que eran todas más divergentes que el valor porcentual dado) solamente; reduciendo así la contribución de secuencias estrechamente relacionadas. El porcentaje utilizado se añadió al nombre, dando BLOSUM80, por ejemplo, cuando se agruparon secuencias que eran más del 80% idénticas.
BLOSUM r: la matriz construida a partir de bloques con menos del r% de similitud - Por ejemplo, BLOSUM62 es la matriz construida usando secuencias con menos del 62% de similitud (las secuencias con ≥ 62% de identidad fueron agrupadas) - Nota: BLOSUM 62 es la matriz predeterminada para proteína BLAST. La experimentación ha demostrado que la matriz BLOSUM-62 se encuentra entre las mejores para detectar las similitudes de proteínas más débiles. [1]
Construcción de matrices BLOSUM
Las matrices BLOSUM se obtienen utilizando bloques de secuencias de aminoácidos similares como datos, luego aplicando métodos estadísticos a los datos para obtener las puntuaciones de similitud. Pasos de los métodos estadísticos: [8]
Eliminando Secuencias
Elimina las secuencias que son más de un r% idénticas. Hay dos formas de eliminar las secuencias. Se puede hacer eliminando secuencias del bloque o simplemente encontrando secuencias similares y reemplazándolas por nuevas secuencias que podrían representar el grupo. La eliminación se realiza para eliminar las secuencias de proteínas que son más similares que el umbral especificado.
Cálculo de frecuencia y probabilidad
Una base de datos que almacena las alineaciones de secuencias de las regiones más conservadas de familias de proteínas. Estas alineaciones se utilizan para derivar las matrices BLOSUM. Solo se utilizan las secuencias con un porcentaje de identidad inferior al umbral. Utilizando el bloque, contando los pares de aminoácidos en cada columna de la alineación múltiple.
Relación de impares
Proporciona la relación entre la aparición de cada combinación de aminoácidos en los datos observados y el valor esperado de aparición del par. Se redondea y se utiliza en la matriz de sustitución.
En el cual es la posibilidad de observar y es la posibilidad de esperarse.
Matrices BLOSUM
Las probabilidades de parentesco se calculan a partir de la razón logarítmica impar, que luego se redondean para obtener las matrices de sustitución BLOSUM matrices.
Puntuación de las matrices BLOSUM
Se requiere una matriz de puntuación o una tabla de valores para evaluar la importancia de un alineamiento de secuencia, tal como describir la probabilidad de que ocurra un par de residuos de aminoácidos o nucleótidos con significado biológico en un alineamiento. Normalmente, cuando se comparan dos secuencias de nucleótidos, todo lo que se puntúa es si dos bases son iguales en una posición o no. Todas las coincidencias y las discrepancias reciben respectivamente la misma puntuación (normalmente +1 o +5 para las coincidencias y -1 o -4 para las discrepancias). [9] Pero es diferente para las proteínas. Las matrices de sustitución de aminoácidos son más complicadas e implícitamente tienen en cuenta todo lo que pueda afectar la frecuencia con la que un aminoácido se sustituye por otro. El objetivo es proporcionar una penalización relativamente fuerte por alinear dos residuos juntos si tienen una baja probabilidad de ser homólogos (alineados correctamente por descendencia evolutiva). Dos fuerzas principales alejan las tasas de sustitución de aminoácidos de la uniformidad: las sustituciones ocurren con las diferentes frecuencias y disminuyen funcionalmente toleradas que otras. Por tanto, las sustituciones se seleccionan en contra. [7]
Las matrices de sustitución más utilizadas incluyen las matrices de sustitución de bloques (BLOSUM) [1] y de mutación puntual aceptada (PAM) [10] [11] . Ambos se basan en tomar conjuntos de alineaciones de alta confianza de muchas proteínas homólogas y evaluar las frecuencias de todas las sustituciones, pero se calculan utilizando métodos diferentes. [7]
Las puntuaciones dentro de un BLOSUM son puntuaciones log-odds que miden, en una alineación, el logaritmo de la proporción de la probabilidad de que aparezcan dos aminoácidos con un sentido biológico y la probabilidad de que los mismos aminoácidos aparezcan por casualidad. Las matrices se basan en el porcentaje mínimo de identidad de la secuencia de proteína alineada utilizada para calcularlas. [12] A cada posible identidad o sustitución se le asigna una puntuación basada en sus frecuencias observadas en la alineación de proteínas relacionadas. [13] Se da una puntuación positiva a las sustituciones más probables, mientras que se da una puntuación negativa a las sustituciones menos probables.
Para calcular una matriz BLOSUM, se utiliza la siguiente ecuación:
Aquí, es la probabilidad de dos aminoácidos y reemplazándose entre sí en una secuencia homóloga, y y son las probabilidades de fondo de encontrar los aminoácidos y en cualquier secuencia de proteínas. El factor es un factor de escala, establecido de manera que la matriz contenga valores enteros fácilmente calculables.
Un ejemplo: BLOSUM62
BLOSUM80: proteínas más relacionadas
BLOSUM62: rango medio
BLOSUM45: proteínas relacionadas lejanamente
Un artículo en Nature Biotechnology [14] reveló que el BLOSUM62 utilizado durante tantos años como estándar no es exactamente exacto según el algoritmo descrito por Henikoff y Henikoff. [1] Sorprendentemente, el BLOSUM62 mal calculado mejora el rendimiento de la búsqueda. [14]
La matriz BLOSUM62 con los aminoácidos de la tabla agrupados según la química de la cadena lateral, como en (a). Cada valor de la matriz se calcula dividiendo la frecuencia de aparición del par de aminoácidos en la base de datos BLOCKS, agrupada al nivel del 62%, dividida por la probabilidad de que los mismos dos aminoácidos puedan alinearse por azar. Luego, la relación se convierte a un logaritmo y se expresa como una puntuación logarítmica de probabilidades, como para PAM. Las matrices BLOSUM generalmente se escalan en unidades de medio bit. Una puntuación de cero indica que la frecuencia con la que dos aminoácidos dados se encontraron alineados en la base de datos fue la esperada por casualidad, mientras que una puntuación positiva indica que la alineación se encontró con más frecuencia que por casualidad, y una puntuación negativa indica que la alineación se encontró con menos frecuencia que por casualidad.
Algunos usos en bioinformática
Aplicaciones de investigación
Las puntuaciones BLOSUM se utilizaron para predecir y comprender las variantes de genes de superficie entre los portadores del virus de la hepatitis B [15] y los epítopos de células T. [dieciséis]
Variantes de genes de superficie entre los portadores del virus de la hepatitis B
Se obtuvieron secuencias de ADN de HBsAg de 180 pacientes, de los cuales 51 eran portadores crónicos del VHB y 129 pacientes recién diagnosticados, y se compararon con las secuencias consenso construidas con 168 secuencias del VHB importadas de GenBank. Se utilizaron la revisión de la literatura y las puntuaciones BLOSUM para definir la antigenicidad potencialmente alterada. [15]
Predicción confiable de epítopos de células T
Se ha desarrollado una nueva representación de entrada que consiste en una combinación de codificación escasa, codificación Blosum y entrada derivada de modelos de Markov ocultos. este método predice epítopos de células T para el genoma del virus de la hepatitis C y analiza las posibles aplicaciones del método de predicción para guiar el proceso de diseño racional de la vacuna. [dieciséis]
Usar en BLAST
Las matrices BLOSUM también se utilizan como matriz de puntuación cuando se comparan secuencias de ADN o secuencias de proteínas para juzgar la calidad del alineamiento. Esta forma de sistema de puntuación es utilizada por una amplia gama de software de alineación, incluido BLAST . [17]
Comparando PAM y BLOSUM
Además de las matrices BLOSUM, se puede utilizar una matriz de puntuación desarrollada previamente. Esto se conoce como PAM . Los dos dan como resultado el mismo resultado de puntuación, pero utilizan metodologías diferentes. BLOSUM analiza directamente las mutaciones en motivos de secuencias relacionadas, mientras que PAM extrapola información evolutiva basada en secuencias estrechamente relacionadas. [1]
Dado que tanto PAM como BLOSUM son métodos diferentes para mostrar la misma información de puntuación, los dos pueden compararse, pero debido al método muy diferente para obtener esta puntuación, un PAM100 no es igual a un BLOSUM100. [18]
PAM | BLOSUM |
---|---|
PAM100 | BLOSUM90 |
PAM120 | BLOSUM80 |
PAM160 | BLOSUM62 |
PAM200 | BLOSUM50 |
PAM250 | BLOSUM45 |
La relación entre PAM y BLOSUM
PAM | BLOSUM |
---|---|
Para comparar secuencias estrechamente relacionadas, se crean matrices PAM con números más bajos. | Para comparar secuencias estrechamente relacionadas, se crean matrices BLOSUM con números más altos. |
Para comparar proteínas relacionadas lejanamente, se crean matrices PAM con números altos. | Para comparar proteínas relacionadas lejanamente, se crean matrices BLOSUM con números bajos. |
Las diferencias entre PAM y BLOSUM
PAM | BLOSUM |
---|---|
Basado en alineaciones globales de proteínas estrechamente relacionadas. | Basado en alineaciones locales. |
PAM1 es la matriz calculada a partir de comparaciones de secuencias con no más del 1% de divergencia, pero corresponde a una identidad de secuencia del 99%. | BLOSUM 62 es una matriz calculada a partir de comparaciones de secuencias con una identidad por pares de no más del 62%. |
Otras matrices PAM se extrapolan de PAM1. | Basado en alineaciones observadas; no se extrapolan a partir de comparaciones de proteínas estrechamente relacionadas. |
Los números más altos en el esquema de nomenclatura de matrices denotan una mayor distancia evolutiva. | Los números más grandes en el esquema de nombres de matrices denotan una mayor similitud de secuencia y, por lo tanto, una menor distancia evolutiva. [19] |
Ver también
- Alineación de secuencia
- Punto de mutación aceptada
Referencias
- ↑ a b c d e f Henikoff, S .; Henikoff, JG (1992). "Matrices de sustitución de aminoácidos de bloques de proteínas" . PNAS . 89 (22): 10915–10919. Código Bibliográfico : 1992PNAS ... 8910915H . doi : 10.1073 / pnas.89.22.10915 . PMC 50453 . PMID 1438297 .
- ^ a b Campbell NA; Reece JB; Meyers N; Urry LA; Cain ML; Wasserman SA; Minorsky PV; Jackson RB (2009). "La base molecular de la herencia". Biología: versión australiana (8ª ed.). Pearson Education Australia. págs. 307–325. ISBN 9781442502215.
- ^ a b c Campbell NA; Reece JB; Meyers N; Urry LA; Cain ML; Wasserman SA; Minorsky PV; Jackson RB (2009). "Del gen a la proteína". Biología: versión australiana (8ª ed.). Pearson Education Australia. págs. 327–350. ISBN 9781442502215.
- ^ Pal JK, Ghaskadbi SS (2009). "Recombinación, reparación y daño del ADN". Fundamentos de Biología Molecular (1ª ed.). Prensa de la Universidad de Oxford. págs. 187-203 . ISBN 9780195697810.
- ^ a b c Campbell NA; Reece JB; Meyers N; Urry LA; Cain ML; Wasserman SA; Minorsky PV; Jackson RB (2009). "La estructura y función de las grandes moléculas biológicas". Biología: versión australiana (8ª ed.). Pearson Education Australia. págs. 68–89. ISBN 9781442502215.
- ^ Lobo, Ingrid (2008). "Razones mendelianas y genes letales" . Naturaleza . Consultado el 19 de octubre de 2013 .
- ^ a b c pertsemlidis A .; Fondon JW.3rd (septiembre de 2001). "Tener un BLAST con bioinformática (y evitar BLASTphemy)" . Biología del genoma . 2 (10): reviews2002.1-2002.10. doi : 10.1186 / gb-2001-2-10-reviews2002 . PMC 138974 . PMID 11597340 .
- ^ "MATRICES DE BLOSSUM: Introducción a la BIOINFORMÁTICA" (PDF) . UNIVERSITI TEKNOLOGI MALASIA . 2009 . Consultado el 9 de septiembre de 2014 .[ enlace muerto permanente ]
- ^ Murali Sivaramakrishnan; Ognjen Perisic; Shashi Ranjan. "CS # 594 - Grupo 13 (Herramientas y software)" (PDF) . Universidad de Illinois en Chicago - UIC . Consultado el 9 de septiembre de 2014 .
- ^ Margaret O., Dayhoff (1978). "22". Atlas de secuencia y estructura de proteínas . 5 . Washington DC: Fundación Nacional de Investigación Biomédica. págs. 345–352.
- ^ Estados DJ .; Gish W .; Altschul SF. (1991). "Mejora de la sensibilidad de las búsquedas de bases de datos de ácidos nucleicos utilizando matrices de puntuación específicas de la aplicación". Métodos: un compañero de los métodos en enzimología . 3 : 66–70. CiteSeerX 10.1.1.114.8183 . doi : 10.1016 / s1046-2023 (05) 80165-3 . ISSN 1046-2023 .
- ^ Albert Y. Zomaya (2006). Manual de informática innovadora e inspirada en la naturaleza . Nueva York, NY: Springer. ISBN 978-0-387-40532-2.página 673
- ^ NIH "Sistemas de puntuación"
- ^ a b Mark P Styczynski; Kyle L Jensen; Isidore Rigoutsos; Gregory Stephanopoulos (2008). "Los errores de cálculo de BLOSUM62 mejoran el rendimiento de la búsqueda". Nat. Biotechnol . 26 (3): 274–275. doi : 10.1038 / nbt0308-274 . PMID 18327232 . S2CID 205266180 .
- ^ a b Roque-Afonso AM, Ferey MP, Ly TD (2007). "Factores virales y clínicos asociados con variantes de genes de superficie entre los portadores del virus de la hepatitis B". Antivir Ther . 12 (8): 1255-1263. PMID 18240865 .
- ^ a b Nielsen M, Lundegaard C, Worning P y col. (2003). "Predicción confiable de epítopos de células T utilizando redes neuronales con representaciones de secuencias novedosas" (PDF) . Ciencia de las proteínas . 12 (5): 1007–1017. doi : 10.1110 / ps.0239403 . PMC 2323871 . PMID 12717023 .
- ^ "Las estadísticas de las puntuaciones de similitud de secuencia" . Centro Nacional de Información Biotecnológica . Consultado el 20 de octubre de 2013 .
- ^ Saud, Omama (2009). "Matrices de sustitución PAM y BLOSUM" . Birec . Archivado desde el original el 9 de marzo de 2013 . Consultado el 20 de octubre de 2013 .
- ^ "El arte de alinear secuencias de proteínas Parte 1 Matrices" . Dai hoc Can Tho - Universidad de Can Tho . Archivado desde el original el 11 de septiembre de 2014 . Consultado el 7 de septiembre de 2014 .
enlaces externos
- Sean R. Eddy (2004). "¿De dónde vino la matriz de puntuación de alineación BLOSUM62?". Biotecnología de la naturaleza . 22 (8): 1035–6. doi : 10.1038 / nbt0804-1035 . PMID 15286655 . S2CID 205269887 .
- Servidor WWW BLOCKS
- Sistemas de puntuación para BLAST en NCBI
- Archivos de datos de BLOSUM en el servidor FTP de NCBI .
- Visualización interactiva de BLOSUM Network Archivado el 30 de enero de 2017 en Wayback Machine