superfamilia de proteínas


Una superfamilia de proteínas es el grupo más grande ( clado ) de proteínas para el que se puede inferir un ancestro común (ver homología ). Por lo general, esta ascendencia común se deduce del alineamiento estructural [1] y la similitud mecánica, incluso si no hay una similitud de secuencia evidente. [2] La homología de secuencia puede deducirse incluso si no es aparente (debido a la baja similitud de secuencia). Las superfamilias normalmente contienen varias familias de proteínas que muestran similitud de secuencia dentro de cada familia. El término clan de proteínas se usa comúnmente para proteasas y glicosilhidrolasas.superfamilias basadas en los sistemas de clasificación MEROPS y CAZy . [2] [3]

Las superfamilias de proteínas se identifican utilizando una serie de métodos. Los miembros estrechamente relacionados se pueden identificar por métodos diferentes a los necesarios para agrupar a los miembros más divergentes evolutivamente.

Históricamente, la similitud de diferentes secuencias de aminoácidos ha sido el método más común para inferir la homología . [5] La similitud de secuencias se considera un buen predictor de parentesco, ya que es más probable que las secuencias similares sean el resultado de la duplicación de genes y la evolución divergente , en lugar del resultado de la evolución convergente . La secuencia de aminoácidos suele estar más conservada que la secuencia de ADN (debido al código genético degenerado ), por lo que es un método de detección más sensible. Dado que algunos de los aminoácidos tienen propiedades similares (p. ej., carga, hidrofobicidad, tamaño), las mutaciones conservativas que los intercambian suelen ser neutras .funcionar. Las regiones de secuencia más conservadas de una proteína a menudo corresponden a regiones funcionalmente importantes como sitios catalíticos y sitios de unión, ya que estas regiones son menos tolerantes a los cambios de secuencia.

El uso de la similitud de secuencia para inferir la homología tiene varias limitaciones. No hay un nivel mínimo de similitud de secuencia garantizado para producir estructuras idénticas. Durante largos períodos de evolución, las proteínas relacionadas pueden no mostrar una similitud de secuencia detectable entre sí. Las secuencias con muchas inserciones y deleciones a veces también pueden ser difíciles de alinear y así identificar las regiones de secuencias homólogas. En el clan de proteasas PA , por ejemplo, no se conserva ni un solo residuo a través de la superfamilia, ni siquiera los de la tríada catalítica.. Por el contrario, las familias individuales que componen una superfamilia se definen sobre la base de su alineamiento de secuencias, por ejemplo, la familia de proteasas C04 dentro del clan PA.

Sin embargo, la similitud de secuencia es la forma de evidencia más utilizada para inferir la relación, ya que el número de secuencias conocidas supera con creces el número de estructuras terciarias conocidas . [6] En ausencia de información estructural, la similitud de secuencia restringe los límites de qué proteínas se pueden asignar a una superfamilia. [6]

La estructura está mucho más conservada evolutivamente que la secuencia, de modo que las proteínas con estructuras muy similares pueden tener secuencias completamente diferentes. [7] Durante escalas de tiempo evolutivas muy largas, muy pocos residuos muestran una conservación detectable de la secuencia de aminoácidos, sin embargo, los elementos estructurales secundarios y los motivos estructurales terciarios están altamente conservados. También se pueden conservar algunas dinámicas de proteínas [8] y cambios conformacionales de la estructura de la proteína, como se ve en la superfamilia de las serpinas . [9]En consecuencia, la estructura terciaria de la proteína se puede utilizar para detectar homología entre proteínas incluso cuando no queda evidencia de relación en sus secuencias. Los programas de alineación estructural , como DALI , utilizan la estructura 3D de una proteína de interés para encontrar proteínas con pliegues similares. [10] Sin embargo, en raras ocasiones, las proteínas relacionadas pueden evolucionar para ser estructuralmente diferentes [11] y la relación solo puede inferirse mediante otros métodos. [12] [13] [14]


Arriba, conservación estructural secundaria de 80 miembros del clan de proteasas PA (superfamilia). H indica hélice α , E indica hoja β , L indica bucle. A continuación, conservación de la secuencia para el mismo alineamiento. Las flechas indican residuos de la tríada catalítica . Alineado sobre la base de la estructura por DALI
Una alineación de secuencias de proteínas histonas de mamíferos . La similitud de las secuencias implica que evolucionaron por duplicación de genes . Los residuos que se conservan en todas las secuencias se resaltan en gris. Debajo de las secuencias de proteínas hay una clave que indica: [4]
  • * secuencia conservada ,
  •  : mutaciones conservativas ,
  • . mutaciones semiconservadoras, y
  • ␣ mutaciones no conservativas .
Homología estructural en la superfamilia PA (clan PA). El doble barril β que caracteriza a la superfamilia está resaltado en rojo. Se muestran estructuras representativas de varias familias dentro de la superfamilia PA. Tenga en cuenta que algunas proteínas muestran estructuras parcialmente modificadas. Quimotripsina (1gg6), proteasa del virus del grabado del tabaco (1lvm), calicivirina (1wqs), proteasa del virus del Nilo occidental (1fp7), toxina exfoliatina (1exf), proteasa HtrA (1l1j), activador del plasminógeno del veneno de serpiente (1bqy), proteasa del cloroplasto (4fln ) y proteasa del virus de la arteritis equina (1mbm).