Una matriz de repeticiones en tándem de proteínas se define como varias (al menos dos) copias adyacentes que tienen motivos de secuencia iguales o similares . Estas secuencias periódicas se generan por duplicaciones internas en secuencias genómicas codificantes y no codificantes. Las unidades repetitivas de repeticiones de proteínas en tándem son considerablemente diversas, desde la repetición de un solo aminoácido hasta dominios de 100 o más residuos. [1] [2]
"Se repite" en las proteínas
En las proteínas , una "repetición" es cualquier bloque de secuencia que devuelve más de una vez en la secuencia , ya sea de forma idéntica o muy similar. El grado de similitud puede ser muy variable, y algunas repeticiones mantienen solo unas pocas posiciones conservadas de aminoácidos y una longitud característica. Las repeticiones muy degeneradas pueden ser muy difíciles de detectar solo a partir de la secuencia. La similitud estructural puede ayudar a identificar patrones repetitivos en secuencia.
Estructura
La repetitividad no indica en sí misma nada sobre la estructura de la proteína. Como regla general, las secuencias repetitivas cortas (por ejemplo, aquellas por debajo de la longitud de 10 aminoácidos) pueden estar intrínsecamente desordenadas y no formar parte de ningún dominio de proteína plegado . Las repeticiones que tienen al menos 30 a 40 aminoácidos de longitud tienen muchas más probabilidades de doblarse como parte de un dominio. Tales repeticiones largas son frecuentemente indicativas de la presencia de un dominio solenoide en la proteína.
Aproximadamente la mitad de las regiones de repetición en tándem tienen una conformación intrínsecamente desordenada que se desarrolla de forma natural. [3] [4] [5] Ejemplos de secuencias repetitivas desordenadas incluyen las repeticiones de péptidos de 7 unidades que se encuentran en la subunidad RPB1 de la ARN polimerasa II , [6] o los motivos lineales de unión de beta-catenina o axina en tándem en APC (poliposis adenomatosa coli). [7] La otra mitad de las regiones con la estructura 3D estable tiene una plétora de formas y funciones. [8] [9] Ejemplos de repeticiones cortas que exhiben estructuras ordenadas incluyen la repetición de colágeno de tres residuos o la repetición de pentapéptido de cinco residuos que forma una estructura de hélice beta .
Clasificación
Dependiendo de la longitud de las unidades repetitivas, sus estructuras proteicas se pueden subdividir en cinco clases: [8] [9]
- agregados cristalinos formados por regiones con repeticiones largas de 1 o 2 residuos, regiones arquetípicas de baja complejidad
- estructuras fibrosas estabilizadas por interacciones entre cadenas con repeticiones de 3-7 residuos
- estructuras alargadas con repeticiones de 5-40 residuos dominados por proteínas solenoides
- estructuras cerradas (no alargadas) con repeticiones de 30-60 residuos como repeticiones toroidales
- perlas en estructuras de cadena con tamaño típico de repeticiones de más de 50 residuos, que ya son lo suficientemente grandes como para plegarse independientemente en dominios estables.
Función
Algunos ejemplos bien conocidos de proteínas con repeticiones en tándem son el colágeno , que juega un papel clave en la disposición de la matriz extracelular; bobinas en espiral alfa-helicoidales que tienen funciones estructurales y de oligomerización; proteínas repetidas ricas en leucina , que se unen específicamente a varias proteínas globulares por sus superficies cóncavas; y proteínas con dedos de zinc , que regulan la expresión de genes al unirse al ADN .
Las proteínas de repetición en tándem funcionan con frecuencia como módulos de interacción proteína-proteína. La repetición WD40 es un excelente ejemplo de esta función. [10]
Distribución en proteomas
Las repeticiones en tándem son ubicuas en los proteomas y ocurren en al menos el 14% de todas las proteínas. [11] Por ejemplo, están presentes en casi una tercera proteína humana e incluso en una de cada dos proteínas de Plasmodium falciparum o Dictyostelium discoideum . [11] [12] Las repeticiones en tándem con unidades repetitivas cortas (especialmente las homorrepetidas) son más frecuentes que otras. [11]
Métodos de anotación
Las repeticiones de proteínas en tándem pueden detectarse a partir de la secuencia o anotarse a partir de la estructura. Se construyeron métodos especializados para la identificación de proteínas repetidas. [13]
Las estrategias basadas en secuencia, basadas en la búsqueda de homología [14] o la asignación de dominio [15] [16] , subestiman principalmente los TR debido a la presencia de unidades repetidas altamente degeneradas. [17] Un estudio reciente para comprender y mejorar la cobertura de Pfam del proteoma humano [17] mostró que cinco de los diez grupos de secuencias más grandes no anotados con Pfam son regiones repetidas. Alternativamente, los métodos que no requieren conocimiento previo para la detección de subcadenas repetidas pueden basarse en la autocomparación, [18] [19] agrupamiento [20] [21] o modelos de Markov ocultos. [22] [23] Algunos otros se basan en mediciones de complejidad [13] o aprovechan las metabúsquedas para combinar resultados de diferentes fuentes. [24] [25]
En cambio, los métodos basados en estructura aprovechan la modularidad de las estructuras PDB disponibles para reconocer elementos repetitivos. [26] [27] [28] [29] [30]
Referencias
- ^ Heringa J (junio de 1998). "Detección de repeticiones internas: ¿qué tan comunes son?". Opinión actual en biología estructural . 8 (3): 338–45. doi : 10.1016 / s0959-440x (98) 80068-7 . PMID 9666330 .
- ^ Andrade MA, Ponting CP, Gibson TJ, Bork P (mayo de 2000). "Método basado en homología para la identificación de repeticiones de proteínas utilizando estimaciones de significación estadística". Revista de Biología Molecular . 298 (3): 521–37. doi : 10.1006 / jmbi.2000.3684 . PMID 10772867 .
- ^ Tompa P (septiembre de 2003). "Las proteínas intrínsecamente no estructuradas evolucionan por expansión repetida". BioEssays . 25 (9): 847–55. doi : 10.1002 / bies.10324 . PMID 12938174 . S2CID 32684524 .
- ^ Simon M, Hancock JM (2009). "Las repeticiones de aminoácidos en tándem y crípticos se acumulan en regiones desordenadas de proteínas" . Biología del genoma . 10 (6): R59. doi : 10.1186 / gb-2009-10-6-r59 . PMC 2718493 . PMID 19486509 .
- ^ Jorda J, Xue B, Uversky VN, Kajava AV (junio de 2010). "Repeticiones en tándem de proteínas: cuanto más perfectas, menos estructuradas" (PDF) . La revista FEBS . 277 (12): 2673–82. doi : 10.1111 / j.1742-4658.2010.07684.x . PMC 2928880 . PMID 20553501 .
- ^ Meyer PA, Ye P, Zhang M, Suh MH, Fu J (junio de 2006). "Phasing RNA polimerasa II utilizando átomos de Zn intrínsecamente unidos: un modelo estructural actualizado" . Estructura . 14 (6): 973–82. doi : 10.1016 / j.str.2006.04.003 . PMID 16765890 .
- ^ Liu J, Xing Y, Hinds TR, Zheng J, Xu W (junio de 2006). "La tercera repetición de 20 aminoácidos es el sitio de unión más estrecho de APC para la beta-catenina". J. Mol. Biol . 360 (1): 133–44. doi : 10.1016 / j.jmb.2006.04.064 . PMID 16753179 .
- ^ a b Kajava AV (septiembre de 2012). "Repeticiones en tándem en proteínas: de secuencia a estructura". Revista de Biología Estructural . 179 (3): 279–88. doi : 10.1016 / j.jsb.2011.08.009 . PMID 21884799 .
- ^ a b Paladin L, Hirsh L, Piovesan D, Andrade-Navarro MA, Kajava AV, Tosatto SC (enero de 2017). "RepeatsDB 2.0: anotación mejorada, clasificación, búsqueda y visualización de estructuras de proteínas repetidas" . Investigación de ácidos nucleicos . 45 (D1): D308 – D312. doi : 10.1093 / nar / gkw1136 . PMC 5210593 . PMID 27899671 .
- ^ Stirnimann CU, Petsalaki E, Russell RB, Müller CW (octubre de 2010). "Las proteínas WD40 impulsan las redes celulares". Tendencias en Ciencias Bioquímicas . 35 (10): 565–74. doi : 10.1016 / j.tibs.2010.04.003 . PMID 20451393 .
- ^ a b c Marcotte EM, Pellegrini M, Yeates TO, Eisenberg D (octubre de 1999). "Un censo de repeticiones de proteínas". Revista de Biología Molecular . 293 (1): 151–60. doi : 10.1006 / jmbi.1999.3136 . PMID 10512723 .
- ^ Pellegrini M (2015). "Repeticiones en tándem en proteínas: algoritmos de predicción y papel biológico" . Fronteras en Bioingeniería y Biotecnología . 3 : 143. doi : 10.3389 / fbioe.2015.00143 . PMC 4585158 . PMID 26442257 .
- ^ a b Pellegrini M, Renda ME, Vecchio A (2012). "Detección ab initio de repeticiones en tándem de aminoácidos difusos en secuencias de proteínas" . BMC Bioinformática . 13 Supl. 3: S8. doi : 10.1186 / 1471-2105-13-S3-S8 . PMC 3402919 . PMID 22536906 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Andrade MA, Ponting CP, Gibson TJ, Bork P (2000). "Método basado en homología para la identificación de repeticiones de proteínas utilizando estimaciones de significación estadística" . J Mol Biol . 298 (3): 521–37. doi : 10.1006 / jmbi.2000.3684 . PMID 10772867 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ El-Gebali S, Mistry J, Bateman A, Eddy SR, Luciani A, Potter SC; et al. (2019). "La base de datos de familias de proteínas Pfam en 2019" . Ácidos nucleicos Res . 47 (D1): D427 – D432. doi : 10.1093 / nar / gky995 . PMC 6324024 . PMID 30357350 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Mitchell AL, Attwood TK, Babbitt PC, Blum M, Bork P, Puente A; et al. (2019). "InterPro en 2019: mejora de cobertura, clasificación y acceso a anotaciones de secuencias de proteínas" . Ácidos nucleicos Res . 47 (D1): D351 – D360. doi : 10.1093 / nar / gky1100 . PMC 6323941 . PMID 30398656 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ a b Mistry J, Coggill P, Eberhardt RY, Deiana A, Giansanti A, Finn RD; et al. (2013). "El desafío de aumentar la cobertura de Pfam del proteoma humano" . Base de datos (Oxford) . 2013 : bat023. doi : 10.1093 / base de datos / bat023 . PMC 3630804 . PMID 23603847 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Heger A, Holm L (2000). "Detección y alineación automática rápida de repeticiones en secuencias de proteínas" . Las proteínas . 41 (2): 224–37. doi : 10.1002 / 1097-0134 (20001101) 41: 2 <224 :: aid-prot70> 3.0.co; 2-z . PMID 10966575 .
- ^ Szklarczyk R, Heringa J (2004). "Seguimiento de repeticiones utilizando significancia y transitividad" . Bioinformática . 20 Supl. 1: i311-7. doi : 10.1093 / bioinformatics / bth911 . PMID 15262814 .
- ^ Newman AM, Cooper JB (2007). "XSTREAM: un algoritmo práctico para la identificación y modelado de arquitectura de repeticiones en tándem en secuencias de proteínas" . BMC Bioinformática . 8 : 382. doi : 10.1186 / 1471-2105-8-382 . PMC 2233649 . PMID 17931424 .
- ^ Jorda J, Kajava AV (2009). "T-REKS: identificación de repeticiones en tándem en secuencias con un algoritmo basado en K-meanS" . Bioinformática . 25 (20): 2632–8. doi : 10.1093 / bioinformatics / btp482 . PMID 19671691 .
- ^ Söding J, Remmert M, Biegert A (2006). "HHrep: detección de repetición de proteínas de novo y el origen de barriles TIM" . Ácidos nucleicos Res . 34 (Problema del servidor web): W137-42. doi : 10.1093 / nar / gkl130 . PMC 1538828 . PMID 16844977 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Biegert A, Söding J (2008). "Identificación de novo de repeticiones de proteínas altamente divergentes por consistencia probabilística" . Bioinformática . 24 (6): 807-14. doi : 10.1093 / bioinformatics / btn039 . PMID 18245125 .
- ^ Gruber M, Söding J, Lupas AN (2005). "REPPER - repeticiones y sus periodicidades en proteínas fibrosas" . Ácidos nucleicos Res . 33 (Problema del servidor web): W239-43. doi : 10.1093 / nar / gki405 . PMC 1160166 . PMID 15980460 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Schaper E, Anisimova M (2015). "La evolución y función de las repeticiones en tándem de proteínas en las plantas" . Nuevo Phytol . 206 (1): 397–410. doi : 10.1111 / nph.13184 . PMID 25420631 .
- ^ Abraham AL, Rocha EP, Pothier J (2008). "Swelfe: un detector de repeticiones internas en secuencias y estructuras" . Bioinformática . 24 (13): 1536–7. doi : 10.1093 / bioinformatics / btn234 . PMC 2718673 . PMID 18487242 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Sabarinathan R, Basu R, Sekar K (2010). "ProSTRIP: un método para encontrar repeticiones estructurales similares en estructuras de proteínas tridimensionales" . Comput Biol Chem . 34 (2): 126-30. doi : 10.1016 / j.compbiolchem.2010.03.006 . PMID 20430700 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Walsh I, Sirocco FG, Minervini G, Di Domenico T, Ferrari C, Tosatto SC (2012). "RAPHAEL: reconocimiento, periodicidad y asignación de inserción de estructuras de proteínas solenoides" . Bioinformática . 28 (24): 3257–64. doi : 10.1093 / bioinformatics / bts550 . PMID 22962341 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Hrabe T, Godzik A (2014). "ConSole: uso de la modularidad de los mapas de contacto para localizar dominios de solenoides en estructuras de proteínas" . BMC Bioinformática . 15 : 119. doi : 10.1186 / 1471-2105-15-119 . PMC 4021314 . PMID 24766872 .
- ^ Hacer Viet P, Roche DB, Kajava AV (2015). "TAPO: un método combinado para la identificación de repeticiones en tándem en estructuras de proteínas" . FEBS Lett . 589 (19 Pt A): 2611–9. doi : 10.1016 / j.febslet.2015.08.025 . PMID 26320412 . S2CID 28423787 .CS1 maint: varios nombres: lista de autores ( enlace )
enlaces externos
- RepeatsDB: una base de datos de estructuras de proteínas repetidas en tándem anotadas