Análisis de acoplamiento estadístico

El análisis de acoplamiento estadístico o SCA es una técnica utilizada en bioinformática para medir la covariación entre pares de aminoácidos en una alineación de secuencia múltiple de proteínas (MSA). Más específicamente, cuantifica cuánto cambia la distribución de aminoácidos en alguna posición i tras una perturbación de la distribución de aminoácidos en otra posición j . La energía de acoplamiento estadística resultante indica el grado de dependencia evolutiva entre los residuos, correspondiendo una mayor energía de acoplamiento a una mayor dependencia. ^[1]

Definición de energía de acoplamiento estadístico

La energía de acoplamiento estadístico mide cómo una perturbación de la distribución de aminoácidos en un sitio en un MSA afecta la distribución de aminoácidos en otro sitio. Por ejemplo, considere una alineación de secuencia múltiple con sitios (o columnas) de la a a la z , donde cada sitio tiene alguna distribución de aminoácidos. En la posición i , el 60% de las secuencias tienen una valina y el 40% restante de las secuencias tienen una leucina , en la posición j la distribución es 40% de isoleucina , 40% de histidina y 20% de metionina , k tiene una distribución promedio (los 20 amino ácidos están presentes en aproximadamente las mismas frecuencias se ven en todas las proteínas), y l tiene el 80% de histidina, 20% valina. Dado que las posiciones i , j y l tienen una distribución de aminoácidos diferente de la distribución media observada en todas las proteínas, se dice que tienen cierto grado de conservación .

En el análisis de acoplamiento estadístico, la conservación (ΔG ^stat ) en cada sitio ( i ) se define como: ${\ Displaystyle \ Delta G_ {i} ^ {stat} = {\ sqrt {\ sum _ {x} (\ ln P_ {i} ^ {x}) ^ {2}}}}$ . ^[2]

Aquí, P _i^x describe la probabilidad de encontrar el aminoácido x en la posición i , y se define mediante una función en forma binomial de la siguiente manera:

{\ Displaystyle P_ {i} ^ {x} = {\ frac {N!} {n_ {x}! (N-n_ {x})!}} p_ {x} ^ {n_ {x}} (1- p_ {x}) ^ {N-n_ {x}}}

,

donde N es 100, n _x es el porcentaje de secuencias con residuo x (por ejemplo, metionina) en la posición i , y p _x corresponde a la distribución aproximada del aminoácido x en todas las posiciones entre todas las proteínas secuenciadas. La suma abarca los 20 aminoácidos. Después de que se calcula ΔG _i^stat, se toma la conservación de la posición i en una subalineación producida después de una perturbación de la distribución de aminoácidos en j (ΔG _{i | δj}^stat ). La energía de acoplamiento estadístico, denominada ΔΔG _{i, j}^stat , es simplemente la diferencia entre estos dos valores. Es decir:

{\ Displaystyle \ Delta \ Delta G_ {i, j} ^ {stat} = \ Delta G_ {i | \ delta j} ^ {stat} - \ Delta G_ {i} ^ {stat}}

o, más comúnmente,

{\ Displaystyle \ Delta \ Delta G_ {i, j} ^ {stat} = {\ sqrt {\ sum _ {x} (\ ln P_ {i | \ delta j} ^ {x} - \ ln P_ {i} ^ {x}) ^ {2}}}}

La energía de acoplamiento estadístico a menudo se calcula sistemáticamente entre una posición fija perturbada y todas las demás posiciones en un MSA. Continuando con el ejemplo de MSA desde el principio de la sección, considere una perturbación en la posición j donde la distribución de amino cambia de 40% I, 40% H, 20% M a 100% I. Si, en una subalineación posterior, esto cambia la distribución en i de 60% V, 40% L a 90% V, 10% L, pero no cambia la distribución en la posición l , entonces habría alguna cantidad de energía de acoplamiento estadístico entre i y j pero ninguna entre l y j .

Aplicaciones

Ranganathan y Lockless desarrollaron originalmente SCA para examinar el acoplamiento termodinámico (energético) de pares de residuos en proteínas. ^[3] Utilizando la familia de dominios PDZ , pudieron identificar una pequeña red de residuos que estaban acoplados energéticamente a un residuo en el sitio de unión. La red constaba de ambos residuos espacialmente cercanos al sitio de unión en el pliegue terciario, llamados pares de contacto, y residuos más distantes que participan en interacciones energéticas de mayor alcance. Las aplicaciones posteriores de SCA por el grupo de Ranganathan en las familias de GPCR , serina proteasa y hemoglobina también mostraron un acoplamiento energético en redes dispersas de residuos que cooperan en la comunicación alostérica . ^[4]

El análisis de acoplamiento estadístico también se ha utilizado como base para el diseño computacional de proteínas. En 2005, Socolich et al. ^[5] utilizó un SCA para el dominio WW para crear proteínas artificiales con una estructura y estabilidad termodinámica similar a los dominios WW naturales. El hecho de que 12 de las 43 proteínas diseñadas con el mismo perfil de SCA que los dominios WW naturales estén correctamente plegadas proporcionó una fuerte evidencia de que se necesitaba poca información, solo información de acoplamiento, para especificar el plegado de la proteína. Este apoyo a la hipótesis SCA se hizo más convincente considerando que a) las proteínas plegadas con éxito tenían solo un 36% de identidad de secuencia promedio con los pliegues WW naturales, yb) ninguna de las proteínas artificiales diseñadas sin información de acoplamiento se plegaba correctamente. Un estudio adjunto mostró que los dominios WW artificiales eran funcionalmente similares a los dominios WW naturales en la afinidad y especificidad de unión al ligando . ^[6]

En la predicción de la estructura de la proteína de novo , se ha demostrado que, cuando se combina con una métrica simple de distancia residuo-residuo, la puntuación basada en SCA puede distinguir con bastante precisión los pliegues de proteínas nativas de las no nativas. ^[7]

Ver también

Información mutua

enlaces externos

¿Qué es un dominio WW?
Conferencia de Ranganathan sobre análisis de acoplamiento estadístico (audio incluido)
Plegado de proteínas: ¿un paso más cerca? - Un resumen del diseño basado en SCA del laboratorio de Ranganathan de dominios WW artificiales pero funcionales.

Referencias

^ "Material complementario para 'Redes de residuos conservadas evolutivamente median la comunicación alostérica en proteínas ' " .
^ Dekker; Fodor, A; Aldrich, RW; Yellen, G; et al. (2004). "Un método basado en perturbaciones para calcular la probabilidad explícita de covarianza evolutiva en múltiples alineaciones de secuencia" . Bioinformática . 20 (10): 1565-1572. doi : 10.1093 / bioinformatics / bth128 . PMID 14962924 .
^ Lockless SW, Ranaganathan R (1999). "Vías conservadas evolutivamente de conectividad energética en familias de proteínas". Ciencia . 286 (5438): 295–299. doi : 10.1126 / science.286.5438.295 . PMID 10514373 .
^ Suel; Sin cerradura, SW; Wall, MA; Ranganathan, R; et al. (2003). "Las redes de residuos conservadas evolutivamente median la comunicación alostérica en proteínas". Biología estructural de la naturaleza . 10 (1): 59–69. doi : 10.1038 / nsb881 . PMID 12483203 . S2CID 67749580 .
^ Socolich; Sin cerradura, SW; Russ, WP; Lee, H; Gardner, KH; Ranganathan, R; et al. (2005). "Información evolutiva para especificar un pliegue proteico". Naturaleza . 437 (7058): 512–518. Código Bib : 2005Natur.437..512S . doi : 10.1038 / nature03991 . PMID 16177782 . S2CID 4363255 .
^ Russ; Lowery, DM; Mishra, P; Yaffe, MB; Ranganathan, R; et al. (2005). "Función similar a la natural en dominios artificiales de WW". Naturaleza . 437 (7058): 579–583. Código Bibliográfico : 2005Natur.437..579R . doi : 10.1038 / nature03990 . PMID 16177795 . S2CID 4424336 .
^ Bartlett GJ, Taylor WR (2008). "Utilizando puntuaciones derivadas del análisis de acoplamiento estadístico para distinguir los pliegues correctos e incorrectos en la predicción de la estructura de la proteína de novo" . Las proteínas . 71 (1): 950–959. doi : 10.1002 / prot.21779 . PMID 18004776 . S2CID 33836866 . Archivado desde el original el 17 de diciembre de 2012.

[1] "Material complementario para 'Redes de residuos conservadas evolutivamente median la comunicación alostérica en proteínas ' " .

[2] Dekker; Fodor, A; Aldrich, RW; Yellen, G; et al. (2004). "Un método basado en perturbaciones para calcular la probabilidad explícita de covarianza evolutiva en múltiples alineaciones de secuencia" . Bioinformática . 20 (10): 1565-1572. doi : 10.1093 / bioinformatics / bth128 . PMID 14962924 .

[3] Lockless SW, Ranaganathan R (1999). "Vías conservadas evolutivamente de conectividad energética en familias de proteínas". Ciencia . 286 (5438): 295–299. doi : 10.1126 / science.286.5438.295 . PMID 10514373 .

[4] Suel; Sin cerradura, SW; Wall, MA; Ranganathan, R; et al. (2003). "Las redes de residuos conservadas evolutivamente median la comunicación alostérica en proteínas". Biología estructural de la naturaleza . 10 (1): 59–69. doi : 10.1038 / nsb881 . PMID 12483203 . S2CID 67749580 .

[5] Socolich; Sin cerradura, SW; Russ, WP; Lee, H; Gardner, KH; Ranganathan, R; et al. (2005). "Información evolutiva para especificar un pliegue proteico". Naturaleza . 437 (7058): 512–518. Código Bib : 2005Natur.437..512S . doi : 10.1038 / nature03991 . PMID 16177782 . S2CID 4363255 .

[6] Russ; Lowery, DM; Mishra, P; Yaffe, MB; Ranganathan, R; et al. (2005). "Función similar a la natural en dominios artificiales de WW". Naturaleza . 437 (7058): 579–583. Código Bibliográfico : 2005Natur.437..579R . doi : 10.1038 / nature03990 . PMID 16177795 . S2CID 4424336 .

[7] Bartlett GJ, Taylor WR (2008). "Utilizando puntuaciones derivadas del análisis de acoplamiento estadístico para distinguir los pliegues correctos e incorrectos en la predicción de la estructura de la proteína de novo" . Las proteínas . 71 (1): 950–959. doi : 10.1002 / prot.21779 . PMID 18004776 . S2CID 33836866 . Archivado desde el original el 17 de diciembre de 2012.

[1]