Superfamilia de proteínas


Una superfamilia de proteínas es el grupo más grande ( clado ) de proteínas para el cual se puede inferir un ancestro común (ver homología ). Por lo general, esta ascendencia común se infiere de la alineación estructural [1] y la similitud mecanicista, incluso si no hay similitud de secuencia evidente. [2] Entonces se puede deducir la homología de secuencia incluso si no es evidente (debido a la baja similitud de secuencia). Las superfamilias contienen típicamente varias familias de proteínas que muestran similitud de secuencia dentro de cada familia. El término clan de proteínas se usa comúnmente para proteasa y glicosil hidrolasas.superfamilias basadas en los sistemas de clasificación MEROPS y CAZy . [2] [3]

Las superfamilias de proteínas se identifican utilizando varios métodos. Los miembros estrechamente relacionados pueden identificarse mediante métodos diferentes a los necesarios para agrupar a los miembros más divergentes evolutivamente.

Históricamente, la similitud de diferentes secuencias de aminoácidos ha sido el método más común de inferir homología . [5] La similitud de secuencia se considera un buen predictor de parentesco, ya que las secuencias similares son más probablemente el resultado de la duplicación de genes y la evolución divergente , más que el resultado de la evolución convergente . La secuencia de aminoácidos suele estar más conservada que la secuencia de ADN (debido al código genético degenerado ), por lo que es un método de detección más sensible. Dado que algunos de los aminoácidos tienen propiedades similares (p. Ej., Carga, hidrofobicidad, tamaño), las mutaciones conservadoras que los intercambian suelen ser neutrales.funcionar. Las regiones de secuencia más conservadas de una proteína a menudo corresponden a regiones funcionalmente importantes como sitios catalíticos y sitios de unión, ya que estas regiones son menos tolerantes a los cambios de secuencia.

El uso de la similitud de secuencia para inferir homología tiene varias limitaciones. No existe un nivel mínimo de similitud de secuencia garantizado para producir estructuras idénticas. Durante largos períodos de evolución, las proteínas relacionadas pueden no mostrar similitudes de secuencia detectables entre sí. Las secuencias con muchas inserciones y deleciones a veces también pueden ser difíciles de alinear y así identificar las regiones de secuencia homólogas. En el clan de proteasas PA , por ejemplo, no se conserva un solo residuo a través de la superfamilia, ni siquiera los de la tríada catalítica.. Por el contrario, las familias individuales que forman una superfamilia se definen sobre la base de su alineación de secuencia, por ejemplo, la familia de proteasa C04 dentro del clan PA.

Sin embargo, la similitud de secuencia es la forma de evidencia más comúnmente utilizada para inferir la relación, ya que el número de secuencias conocidas supera ampliamente el número de estructuras terciarias conocidas . [6] En ausencia de información estructural, la similitud de secuencia limita los límites de las proteínas que se pueden asignar a una superfamilia. [6]

La estructura se conserva mucho más evolutivamente que la secuencia, de modo que las proteínas con estructuras muy similares pueden tener secuencias completamente diferentes. [7] En escalas de tiempo evolutivas muy largas, muy pocos residuos muestran una conservación detectable de la secuencia de aminoácidos, sin embargo, los elementos estructurales secundarios y los motivos estructurales terciarios están altamente conservados. También pueden conservarse algunas dinámicas de proteínas [8] y cambios conformacionales de la estructura de las proteínas, como se observa en la superfamilia de serpinas . [9]En consecuencia, la estructura terciaria de la proteína puede usarse para detectar homología entre proteínas incluso cuando no queda evidencia de parentesco en sus secuencias. Los programas de alineación estructural , como DALI , utilizan la estructura 3D de una proteína de interés para encontrar proteínas con pliegues similares. [10] Sin embargo, en raras ocasiones, las proteínas relacionadas pueden evolucionar para ser estructuralmente diferentes [11] y la relación solo puede inferirse mediante otros métodos. [12] [13] [14]


Arriba, conservación estructural secundaria de 80 miembros del clan de proteasas PA (superfamilia). H indica hélice α , E indica hoja β , L indica bucle. A continuación, conservación de la secuencia para la misma alineación. Las flechas indican residuos de la tríada catalítica . Alineado sobre la base de la estructura de DALI
Una secuencia de alineación de proteínas histonas de mamíferos . La similitud de las secuencias implica que evolucionaron por duplicación de genes . Los residuos que se conservan en todas las secuencias se resaltan en gris. Debajo de las secuencias de proteínas hay una clave que indica la secuencia conservadora (*), mutaciones conservadoras (:), mutaciones semiconservadoras (.) Y mutaciones no conservadoras (). [4]
Homología estructural en la superfamilia PA (clan PA). El doble barril β que caracteriza a la superfamilia está resaltado en rojo. Se muestran estructuras representativas de varias familias dentro de la superfamilia PA. Tenga en cuenta que algunas proteínas muestran una estructura parcialmente modificada. Quimotripsina (1gg6), proteasa del virus del grabado del tabaco (1lvm), calicivirina (1wqs), proteasa del virus del nilo occidental (1fp7), toxina exfoliatina (1exf), proteasa HtrA (1l1j), activador del plasminógeno del veneno de serpiente (1bqy), proteasa del cloroplasto (4flnqy) ) y proteasa del virus de la arteritis equina (1mbm).