Matriz de peso de posición


Una matriz de ponderación de posición (PWM) , también conocida como matriz de ponderación específica de posición (PSWM) o matriz de puntuación específica de posición (PSSM) , es una representación de motivos (patrones) de uso común en secuencias biológicas.

Los PWM a menudo se derivan de un conjunto de secuencias alineadas que se cree que están funcionalmente relacionadas y se han convertido en una parte importante de muchas herramientas de software para el descubrimiento de motivos computacionales.

La matriz de peso de posición fue presentada por el genetista estadounidense Gary Stormo y sus colegas en 1982 [1] como una alternativa a las secuencias de consenso . Las secuencias de consenso se habían utilizado anteriormente para representar patrones en secuencias biológicas, pero tenían dificultades para predecir nuevas ocurrencias de estos patrones. [2] El primer uso de PWM fue en el descubrimiento de sitios de ARN que funcionan como sitios de iniciación de la traducción . El algoritmo del perceptrón fue sugerido por el matemático polaco estadounidense Andrzej Ehrenfeucht para crear una matrizde pesos que podrían distinguir los verdaderos sitios de unión de otros sitios no funcionales con secuencias similares. El entrenamiento del perceptrón en ambos conjuntos de sitios resultó en una matriz y un umbral para distinguir entre los dos conjuntos. [1] El uso de la matriz para escanear nuevas secuencias no incluidas en el conjunto de entrenamiento mostró que este método era más sensible y preciso que la mejor secuencia de consenso. [2]

Las ventajas de los PWM sobre las secuencias de consenso han hecho de los PWM un método popular para representar patrones en secuencias biológicas y un componente esencial en los algoritmos modernos para el descubrimiento de motivos . [3] [4]

Un PWM tiene una fila para cada símbolo del alfabeto (4 filas para nucleótidos en secuencias de ADN o 20 filas para aminoácidos en secuencias de proteínas ) y una columna para cada posición en el patrón. En el primer paso para construir un PWM, se crea una matriz de frecuencia de posición básica (PFM) contando las ocurrencias de cada nucleótido en cada posición. A partir del PFM, ahora se puede crear una matriz de probabilidad de posición (PPM) dividiendo el recuento anterior de nucleótidos en cada posición por el número de secuencias, normalizando así los valores. Formalmente, dado un conjunto X de N secuencias alineadas de longitud l , se calculan los elementos del PPM M :

donde i (1,..., N ), j (1,..., l ), k es el conjunto de símbolos del alfabeto e I(a=k) es una función indicadora donde I(a=k) es 1 si a=k y 0 en caso contrario.


Los PWM a menudo se representan gráficamente como logotipos de secuencias .
Los PWM fueron introducidos por el genetista estadounidense Gary Stormo .