La predicción de la interacción proteína-proteína es un campo que combina la bioinformática y la biología estructural en un intento de identificar y catalogar las interacciones físicas entre pares o grupos de proteínas. Comprender las interacciones proteína-proteína es importante para la investigación de las vías de señalización intracelular, el modelado de estructuras de complejos de proteínas y para obtener conocimientos sobre diversos procesos bioquímicos.
Experimentalmente , las interacciones físicas entre pares de proteínas se pueden inferir a partir de una variedad de técnicas, que incluyen sistemas de dos híbridos de levadura , ensayos de complementación de fragmentos de proteína (PCA), purificación por afinidad / espectrometría de masas , microarrays de proteínas , transferencia de energía por resonancia de fluorescencia (FRET), y termoforesis a microescala (MST). Se están realizando esfuerzos para determinar experimentalmente el interactoma de numerosas especies. Las interacciones determinadas experimentalmente suelen proporcionar la base de los métodos computacionales para predecir interacciones, por ejemplo, utilizando homólogossecuencias de proteínas entre especies. Sin embargo, también existen métodos que predicen interacciones de novo , sin conocimiento previo de las interacciones existentes.
Métodos
Las proteínas que interactúan tienen más probabilidades de coevolucionar, [1] [2] [3] [4] por lo tanto, es posible hacer inferencias sobre las interacciones entre pares de proteínas en función de sus distancias filogenéticas. También se ha observado en algunos casos que pares de proteínas interactuantes han fusionado ortólogos en otros organismos. Además, se han resuelto estructuralmente varios complejos de proteínas unidos y se pueden usar para identificar los residuos que median en la interacción, de modo que se puedan localizar motivos similares en otros organismos.
Perfiles filogenéticos
El método del perfil filogenético se basa en la hipótesis de que si dos o más proteínas están presentes o ausentes al mismo tiempo en varios genomas, es probable que estén relacionadas funcionalmente. [5] La Figura A ilustra una situación hipotética en la que las proteínas A y B se identifican como funcionalmente vinculadas debido a sus perfiles filogenéticos idénticos en 5 genomas diferentes. El Joint Genome Institute proporciona una base de datos de microbiomas y genomas microbianos integrados ( JGI IMG ) que tiene una herramienta de elaboración de perfiles filogenéticos para genes individuales y casetes de genes.
Predicción de pares de proteínas coevolucionados basados en árboles filogenéticos similares
Se observó que los árboles filogenéticos de ligandos y receptores eran a menudo más similares que debido al azar. [4] Esto se debe probablemente a que se enfrentaron a presiones de selección similares y evolucionaron conjuntamente. Este método [6] utiliza árboles filogenéticos de pares de proteínas para determinar si existen interacciones. Para ello, se encuentran homólogos de las proteínas de interés (utilizando una herramienta de búsqueda de secuencias como BLAST ) y se realizan alineaciones de múltiples secuencias (con herramientas de alineación como Clustal ) para construir matrices de distancia para cada una de las proteínas de interés. [4] Las matrices de distancia deberían usarse para construir árboles filogenéticos. Sin embargo, las comparaciones entre árboles filogenéticos son difíciles, y los métodos actuales evitan esto simplemente comparando matrices de distancia [4] . Las matrices de distancia de las proteínas se utilizan para calcular un coeficiente de correlación, en el que un valor mayor corresponde a la coevolución. El beneficio de comparar matrices de distancia en lugar de árboles filogenéticos es que los resultados no dependen del método de construcción de árboles que se utilizó. La desventaja es que las matrices de diferencias no son representaciones perfectas de árboles filogenéticos, y pueden resultar inexactitudes al usar un atajo de este tipo. [4] Otro factor digno de mención es que existen similitudes de fondo entre los árboles filogenéticos de cualquier proteína, incluso los que no interactúan. Si no se contabiliza, esto podría conducir a una alta tasa de falsos positivos. Por esta razón, ciertos métodos construyen un árbol de fondo utilizando secuencias de ARNr 16S que utilizan como árbol canónico de la vida. La matriz de distancia construida a partir de este árbol de la vida se resta luego de las matrices de distancia de las proteínas de interés. [7] Sin embargo, debido a que las matrices de distancia de ARN y las matrices de distancia de ADN tienen diferentes escalas, presumiblemente porque el ARN y el ADN tienen diferentes tasas de mutación, la matriz de ARN necesita ser reescalada antes de que se pueda restar de las matrices de ADN. [7] Mediante el uso de proteínas de reloj molecular, se puede calcular el coeficiente de escala para la distancia de la proteína / la distancia del ARN. [7] Este coeficiente se utiliza para cambiar la escala de la matriz de ARN.
Método de Rosetta Stone (fusión de genes)
El método Rosetta Stone o Domain Fusion se basa en la hipótesis de que las proteínas que interactúan a veces se fusionan en una sola proteína. [3] Por ejemplo, dos o más proteínas separadas en un genoma pueden identificarse como fusionadas en una sola proteína en otro genoma. Es probable que las proteínas separadas interactúen y, por lo tanto, es probable que estén relacionadas funcionalmente. Un ejemplo de esto es la enzima succinil coA transferasa humana , que se encuentra como una proteína en humanos pero como dos proteínas separadas, acetato coA transferasa alfa y acetato coA transferasa beta , en Escherichia coli . [3] Para identificar estas secuencias, es necesario un algoritmo de similitud de secuencias como el que utiliza BLAST . Por ejemplo, si tuviéramos las secuencias de aminoácidos de las proteínas A y B y las secuencias de aminoácidos de todas las proteínas en un determinado genoma, podríamos verificar cada proteína en ese genoma en busca de regiones no superpuestas de similitud de secuencia con las proteínas A y B La Figura B representa la alineación de la secuencia BLAST de la succinil coA transferasa con sus dos homólogos separados en E. coli. Las dos subunidades tienen regiones no superpuestas de similitud de secuencia con la proteína humana, indicadas por las regiones rosadas, con la subunidad alfa similar a la primera mitad de la proteína y la beta similar a la segunda mitad. Un límite de este método es que no todas las proteínas que interactúan pueden encontrarse fusionadas en otro genoma y, por lo tanto, no pueden identificarse mediante este método. Por otro lado, la fusión de dos proteínas no requiere que interactúen físicamente. Por ejemplo, se sabe que los dominios SH2 y SH3 de la proteína src interactúan. Sin embargo, muchas proteínas poseen homólogos de estos dominios y no todas interactúan. [3]
Barrio de genes conservados
El método de vecindad conservada se basa en la hipótesis de que si los genes que codifican dos proteínas son vecinos en un cromosoma en muchos genomas, es probable que estén relacionados funcionalmente. El método se basa en una observación de Bork et al. de conservación de pares de genes en nueve genomas de bacterias y arqueas. El método es más eficaz en procariotas con operones, ya que la organización de genes en un operón generalmente está relacionada con la función. [8] Por ejemplo, los genes trpA y trpB en Escherichia coli codifican las dos subunidades de la enzima triptófano sintasa conocida por interactuar para catalizar una sola reacción. Se demostró que la adyacencia de estos dos genes se conserva en nueve genomas bacterianos y arqueales diferentes. [8]
Métodos de clasificación
Los métodos de clasificación utilizan datos para entrenar un programa (clasificador) a fin de distinguir ejemplos positivos de pares proteína / dominio que interactúan con ejemplos negativos de pares que no interactúan. Los clasificadores populares que se utilizan son Random Forest Decision (RFD) y Support Vector Machines. RFD produce resultados basados en la composición del dominio de pares de proteínas que interactúan y no interactúan. Cuando se le da un par de proteínas para clasificar, RFD primero crea una representación del par de proteínas en un vector. [9] El vector contiene todos los tipos de dominio utilizados para entrenar RFD, y para cada tipo de dominio, el vector también contiene un valor de 0, 1 o 2. Si el par de proteínas no contiene un determinado dominio, entonces el valor para ese dominio es 0. Si una de las proteínas del par contiene el dominio, entonces el valor es 1. Si ambas proteínas contienen el dominio, entonces el valor es 2. [9] Usando datos de entrenamiento, RFD construye un bosque de decisiones, que consiste en muchos árboles de decisión. Cada árbol de decisión evalúa varios dominios y, basándose en la presencia o ausencia de interacciones en estos dominios, toma una decisión sobre si el par de proteínas interactúa. Cada árbol evalúa la representación del vector del par de proteínas para determinar si son un par que interactúa o un par que no interactúa. El bosque suma todas las aportaciones de los árboles para llegar a una decisión final. [9] El punto fuerte de este método es que no supone que los dominios interactúen de forma independiente entre sí. Esto hace que se puedan usar múltiples dominios en proteínas en la predicción. [9] Este es un gran paso adelante con respecto a los métodos anteriores que solo podían predecir basándose en un solo par de dominios. La limitación de este método es que se basa en el conjunto de datos de entrenamiento para producir resultados. Por lo tanto, el uso de diferentes conjuntos de datos de entrenamiento podría influir en los resultados.
Inferencia de interacciones a partir de estructuras homólogas
Este grupo de métodos [10] [9] [11] [12] [13] [14] hace uso de estructuras conocidas de complejos de proteínas para predecir y modelar estructuralmente interacciones entre secuencias de proteínas de consulta. El proceso de predicción generalmente comienza empleando un método basado en secuencias (por ejemplo, Interolog ) para buscar estructuras de complejos de proteínas que sean homólogas a las secuencias de consulta. Estas estructuras complejas conocidas se utilizan luego como plantillas para modelar estructuralmente la interacción entre las secuencias de consulta. Este método tiene la ventaja de no solo inferir interacciones de proteínas, sino que también sugiere modelos de cómo las proteínas interactúan estructuralmente, lo que puede proporcionar algunos conocimientos sobre el mecanismo de esa interacción a nivel atómico. Por otro lado, la capacidad de estos métodos para hacer una predicción está limitada por un número limitado de estructuras conocidas de complejos de proteínas.
Métodos de asociación
Los métodos de asociación buscan secuencias o motivos característicos que pueden ayudar a distinguir entre pares que interactúan y no interactúan. Un clasificador se entrena buscando pares secuencia-firma donde una proteína contiene una secuencia-firma, y su pareja que interactúa contiene otra secuencia-firma. [15] Buscan específicamente firmas de secuencia que se encuentran juntas con más frecuencia que por casualidad. Esto usa una puntuación de log-odds que se calcula como log2 (Pij / PiPj), donde Pij es la frecuencia observada de los dominios i y j que ocurren en un par de proteínas; Pi y Pj son las frecuencias de fondo de los dominios i y j en los datos. Las interacciones de dominio pronosticadas son aquellas con puntuaciones log-odds positivas y que también tienen varias ocurrencias dentro de la base de datos. [15] La desventaja de este método es que analiza cada par de dominios que interactúan por separado y supone que interactúan de forma independiente entre sí.
Identificación de patrones estructurales
Este método [16] [17] construye una biblioteca de interfaces proteína-proteína conocidas del PDB , donde las interfaces se definen como pares de fragmentos polipeptídicos que están por debajo de un umbral ligeramente mayor que el radio de Van der Waals de los átomos involucrados. A continuación, las secuencias de la biblioteca se agrupan en función de la alineación estructural y se eliminan las secuencias redundantes. Los residuos que tienen un nivel alto (generalmente> 50%) de frecuencia para una posición determinada se consideran puntos calientes. [18] Esta biblioteca se utiliza luego para identificar interacciones potenciales entre pares de objetivos, siempre que tengan una estructura conocida (es decir, presente en el AP ).
Modelado de redes bayesianas
Los métodos bayesianos [19] integran datos de una amplia variedad de fuentes, incluidos resultados experimentales y predicciones computacionales previas, y utilizan estas características para evaluar la probabilidad de que una interacción potencial de proteínas en particular sea un resultado positivo verdadero. Estos métodos son útiles porque los procedimientos experimentales, particularmente los experimentos de dos híbridos de levadura, son extremadamente ruidosos y producen muchos falsos positivos, mientras que los métodos computacionales mencionados anteriormente solo pueden proporcionar evidencia circunstancial de que un par particular de proteínas podría interactuar. [20]
Análisis de exclusión de pares de dominios
El análisis de exclusión de pares de dominios [21] detecta interacciones de dominios específicos que son difíciles de detectar utilizando métodos bayesianos. Los métodos bayesianos son buenos para detectar interacciones promiscuas inespecíficas y no muy buenos para detectar interacciones específicas raras. El método de análisis de exclusión de pares de dominios calcula una puntuación E que mide si dos dominios interactúan. Se calcula como log (probabilidad de que las dos proteínas interactúen dado que los dominios interactúan / probabilidad de que las dos proteínas interactúen dado que los dominios no interactúan). Las probabilidades requeridas en la fórmula se calculan mediante un procedimiento de maximización de expectativas, que es un método para estimar parámetros en modelos estadísticos. Las puntuaciones E altas indican que es probable que los dos dominios interactúen, mientras que las puntuaciones bajas indican que es más probable que otros dominios que forman el par de proteínas sean responsables de la interacción. El inconveniente de este método es que no tiene en cuenta los falsos positivos y los falsos negativos en los datos experimentales.
Problema de aprendizaje supervisado
El problema de la predicción de PPI puede enmarcarse como un problema de aprendizaje supervisado. En este paradigma, las interacciones proteicas conocidas supervisan la estimación de una función que puede predecir si existe o no una interacción entre dos proteínas dados los datos sobre las proteínas (p. Ej., Niveles de expresión de cada gen en diferentes condiciones experimentales, información de ubicación, perfil filogenético, etc. .).
Relación con los métodos de atraque
El campo de la predicción de la interacción proteína-proteína está estrechamente relacionado con el campo del acoplamiento proteína-proteína , que intenta utilizar consideraciones geométricas y estéricas para encajar dos proteínas de estructura conocida en un complejo unido. Este es un modo útil de investigación en los casos en que ambas proteínas del par tienen estructuras conocidas y se sabe (o al menos se sospecha fuertemente) que interactúan, pero dado que muchas proteínas no tienen estructuras determinadas experimentalmente, se utilizan métodos de predicción de interacciones basados en secuencias. especialmente útil junto con estudios experimentales del interactoma de un organismo .
Ver también
- Interactome
- Interacción proteína-proteína
- Acoplamiento macromolecular
- Predictor del sitio de interacción proteína-ADN
- Cribado de dos híbridos
- Software de predicción de la estructura de proteínas
- FastContact
Referencias
- ^ a b Dandekar T., Snel B., Huynen M. y Bork P. (1998) "Conservación del orden de los genes: una huella de proteínas que interactúan físicamente". Trends Biochem. Sci. (23), 324-328
- ^ Enright AJ, Iliopoulos I., Kyripides NC y Ouzounis CA (1999) "Mapas de interacción de proteínas para genomas completos basados en eventos de fusión de genes". Naturaleza (402), 86-90
- ^ a b c d Marcotte EM, Pellegrini M., Ng HL, Rice DW, Yeates TO, Eisenberg D. (1999) "Detectar la función de la proteína y las interacciones proteína-proteína de las secuencias del genoma". Ciencia (285), 751-753
- ^ a b c d e Pazos, F .; Valencia, A. (2001). "Similitud de árboles filogenéticos como indicador de interacción proteína-proteína" . Ingeniería de proteínas . 9 (14): 609–614. doi : 10.1093 / proteína / 14.9.609 . PMID 11707606 .
- ^ a b Raman, Karthik (15 de febrero de 2010). "Construcción y análisis de redes de interacción proteína-proteína" . Experimentación automatizada . 2 (1): 2. doi : 10.1186 / 1759-4499-2-2 . ISSN 1759-4499 . PMC 2834675 . PMID 20334628 .
- ^ Tan SH, Zhang Z., Ng SK (2004) "CONSEJO: Detección automatizada y validación de interacción por co-evolución". Nucl. C.A. Res. , 32 (problema del servidor web): W69-72.
- ^ a b c Pazos, F; Ranea, JA; Juan, D; Sternberg, MJ (2005). "La evaluación de la coevolución de proteínas en el contexto del árbol de la vida ayuda a predecir el interactoma". J Mol Biol . 352 (4): 1002–1015. doi : 10.1016 / j.jmb.2005.07.005 . PMID 16139301 .
- ^ a b Dandekar, T. (1 de septiembre de 1998). "Conservación del orden de los genes: una huella de proteínas que interactúan físicamente". Tendencias en Ciencias Bioquímicas . 23 (9): 324–328. doi : 10.1016 / S0968-0004 (98) 01274-2 . ISSN 0968-0004 . PMID 9787636 .
- ^ a b c d e Chen, XW; Liu, M (2005). "Predicción de interacciones proteína-proteína utilizando el marco de bosque de decisión aleatoria" . Bioinformática . 21 (24): 4394–4400. doi : 10.1093 / bioinformatics / bti721 . PMID 16234318 .
- ^ Aloy, P .; Russell, RB (2003). "InterPreTS: predicción de la interacción de proteínas a través de la estructura terciaria" . Bioinformática . 19 (1): 161-162. doi : 10.1093 / bioinformatics / 19.1.161 . PMID 12499311 .
- ^ Fukuhara, Naoshi y Takeshi Kawabata. (2008) "HOMCOS: un servidor para predecir pares de proteínas que interactúan y sitios que interactúan mediante el modelado de homología de estructuras complejas" Nucleic Acids Research , 36 (S2): 185-.
- ^ Kittichotirat W, M Guerquin, RE Bumgarner y R Samudrala (2009) "Protinfo PPC: un servidor web para la predicción de complejos de proteínas a nivel atómico" Nucleic Acids Research , 37 (problema del servidor Web): 519-25.
- ^ Zapatero, BA; Zhang, D; Thangudu, RR; Tyagi, M; Fong, JH; Marchler-Bauer, A; Bryant, SH; Madej, T; Panchenko, AR (enero de 2010). "Servidor de interacción biomolecular inferido - un servidor web para analizar y predecir los socios de interacción de proteínas y los sitios de unión" . Ácidos nucleicos Res . 38 (Problema de la base de datos): D518–24. doi : 10.1093 / nar / gkp842 . PMC 2808861 . PMID 19843613 .
- ^ Esmaielbeiki, R; Nebel, JC (2014). "Puntuación de conformaciones de acoplamiento utilizando interfaces de proteínas predichas" . BMC Bioinformática . 15 : 171. doi : 10.1186 / 1471-2105-15-171 . PMC 4057934 . PMID 24906633 .
- ^ a b Sprinzak, E; Margalit, H (2001). "Firmas de secuencia correlacionadas como marcadores de interacción proteína-proteína". J Mol Biol . 311 (4): 681–692. doi : 10.1006 / jmbi.2001.4920 . PMID 11518523 .
- ^ Aytuna, AS; Keskin, O .; Gursoy, A. (2005). "Predicción de interacciones proteína-proteína mediante la combinación de conservación de estructura y secuencia en interfaces de proteínas" . Bioinformática . 21 (12): 2850–2855. doi : 10.1093 / bioinformatics / bti443 . PMID 15855251 .
- ^ Ogmen, U .; Keskin, O .; Aytuna, AS; Nussinov, R .; Gursoy, A. (2005). "PRISM: interacciones de proteínas por emparejamiento estructural" . Nucl. C.A. Res . 33 (Problema del servidor web): W331–336. doi : 10.1093 / nar / gki585 . PMC 1160261 . PMID 15991339 .
- ^ Keskin, O .; Ma, B .; Nussinov, R. (2004). "Interacciones proteína-proteína int regiones calientes: la organización y contribución de residuos de puntos calientes conservados estructuralmente". J. Mol. Biol . 345 (5): 1281-1294. doi : 10.1016 / j.jmb.2004.10.077 . PMID 15644221 .
- ^ Jansen, R; Yu, H; Greenbaum, D; Kluger, Y; Krogan, Nueva Jersey; Chung, S; Emili, A; Snyder, M; Greenblatt, JF; Gerstein, M (2003). "Un enfoque de redes bayesianas para predecir interacciones proteína-proteína a partir de datos genómicos". Ciencia . 302 (5644): 449–53. Código Bibliográfico : 2003Sci ... 302..449J . CiteSeerX 10.1.1.217.8151 . doi : 10.1126 / science.1087361 . PMID 14564010 . S2CID 5293611 .
- ^ Zhang, QC; Petrey, D; Deng, L; Qiang, L; Shi, Y; Jue, CA; Bisikirska, B; Lefebvre, C; Accili, D; Hunter, T; Maniatis, T; Califano, A; Honig, B (2012). "Predicción basada en la estructura de interacciones proteína-proteína en una escala de genoma" . Naturaleza . 490 (7421): 556–60. Código Bibliográfico : 2012Natur.490..556Z . doi : 10.1038 / nature11503 . PMC 3482288 . PMID 23023127 .
- ^ Zapatero, BA; Panchenko, AR (2007). "Descifrando interacciones proteína-proteína. Parte II. Métodos computacionales para predecir socios de interacción proteína y dominio" . PLOS Comput Biol . 3 (4): e43. Código Bibliográfico : 2007PLSCB ... 3 ... 43S . doi : 10.1371 / journal.pcbi.0030043 . PMC 1857810 . PMID 17465672 .
enlaces externos
- Descripción general de las bases de datos de interacción de proteínas
- ChiPPI : Interacción servidor-proteína-proteína de proteínas quiméricas.