Posición de la matriz de peso

Una matriz de ponderación de posición (PWM) , también conocida como matriz de ponderación de posición específica (PSWM) o matriz de puntuación de posición específica (PSSM) , es una representación de uso común de motivos (patrones) en secuencias biológicas.

Los PWM a menudo se derivan de un conjunto de secuencias alineadas que se cree que están relacionadas funcionalmente y se han convertido en una parte importante de muchas herramientas de software para el descubrimiento de motivos computacionales.

La matriz de peso de posición fue introducida por el genetista estadounidense Gary Stormo y sus colegas en 1982 ^[1] como una alternativa a las secuencias de consenso . Las secuencias de consenso se habían utilizado anteriormente para representar patrones en secuencias biológicas, pero tenían dificultades en la predicción de nuevas apariciones de estos patrones. ^[2] El primer uso de PWM fue en el descubrimiento de sitios de ARN que funcionan como sitios de inicio de la traducción . El algoritmo del perceptrón fue sugerido por el matemático polaco-estadounidense Andrzej Ehrenfeucht para crear una matriz.de pesos que podrían distinguir los sitios de unión verdaderos de otros sitios no funcionales con secuencias similares. El entrenamiento del perceptrón en ambos conjuntos de sitios resultó en una matriz y un umbral para distinguir entre los dos conjuntos. ^{[1] El} uso de la matriz para escanear nuevas secuencias no incluidas en el conjunto de entrenamiento mostró que este método era más sensible y preciso que la mejor secuencia de consenso. ^[2]

Las ventajas de los PWM sobre las secuencias de consenso han hecho de los PWM un método popular para representar patrones en secuencias biológicas y un componente esencial en los algoritmos modernos para el descubrimiento de motivos . ^[3]^[4]

Un PWM tiene una fila para cada símbolo del alfabeto (4 filas para nucleótidos en secuencias de ADN o 20 filas para aminoácidos en secuencias de proteínas ) y una columna para cada posición en el patrón. En el primer paso para construir un PWM, se crea una matriz de frecuencia de posición básica (PFM) contando las apariciones de cada nucleótido en cada posición. A partir del PFM, ahora se puede crear una matriz de probabilidad de posición (PPM) dividiendo ese recuento de nucleótidos anterior en cada posición por el número de secuencias, normalizando así los valores. Formalmente, dado un conjunto X de N secuencias alineadas de longitud l , los elementos del PPM M se calculan:

donde i (1, ..., N ), j (1, ..., l ), k es el conjunto de símbolos en el alfabeto e I (a = k) es una función indicadora donde I (a = k) es 1 si a = k y 0 en caso contrario. ${\ Displaystyle \ in}$ ${\ Displaystyle \ in}$

Los PWM a menudo se representan gráficamente como logotipos de secuencia .

Los PWM fueron presentados por el genetista estadounidense Gary Stormo .