Predicción de la función de las proteínas

Los métodos de predicción de la función de las proteínas son técnicas que utilizan los investigadores en bioinformática para asignar roles biológicos o bioquímicos a las proteínas . Estas proteínas suelen ser las que están poco estudiadas o predichas en función de los datos de la secuencia genómica. Estas predicciones suelen estar impulsadas por procedimientos computacionales que requieren gran cantidad de datos. La información puede provenir de homología de secuencias de ácidos nucleicos , perfiles de expresión génica , estructuras de dominios de proteínas , extracción de textos de publicaciones, perfiles filogenéticos, perfiles fenotípicos e interacción proteína-proteína. La función de las proteínas es un término amplio: las funciones de las proteínas van desde la catálisis de reacciones bioquímicas hasta el transporte atransducción de señales , y una sola proteína puede desempeñar un papel en múltiples procesos o vías celulares. ^[1]

En general, la función se puede considerar como "cualquier cosa que le suceda a una proteína oa través de ella". ^[1] El Consorcio de Ontología Genética proporciona una clasificación útil de funciones, basada en un diccionario de términos bien definidos divididos en tres categorías principales de función molecular, proceso biológico y componente celular . ^{[2] Los} investigadores pueden consultar esta base de datos con un nombre de proteína o número de acceso para recuperar términos o anotaciones de Ontología Genética (GO) asociados basados en evidencia computacional o experimental.

Si bien se pueden utilizar técnicas como el análisis de microarrays , la interferencia de ARN y el sistema de dos híbridos de levadura para demostrar experimentalmente la función de una proteína, los avances en las tecnologías de secuenciación han hecho que la velocidad a la que las proteínas se pueden caracterizar experimentalmente sea mucho más lenta que la velocidad en qué nuevas secuencias están disponibles. ^[3] Por lo tanto, la anotación de nuevas secuencias se realiza principalmente mediante predicción a través de métodos computacionales, ya que estos tipos de anotaciones a menudo se pueden realizar rápidamente y para muchos genes o proteínas a la vez. El primero de estos métodos infería la función basándose en proteínas homólogas con funciones conocidas ( predicción de función basada en la homología ). El desarrollo de métodos basados en el contexto y en la estructura ha ampliado la información que se puede predecir, y ahora se puede utilizar una combinación de métodos para obtener una imagen de las rutas celulares completas basadas en datos de secuencia. ^[3] La importancia y la prevalencia de la predicción computacional de la función genética se subraya mediante un análisis de 'códigos de evidencia' utilizados por la base de datos de GO: a partir de 2010, el 98% de las anotaciones se enumeraron bajo el código IEA (inferido de una anotación electrónica) mientras que sólo el 0,6% se basó en pruebas experimentales. ^[4]

Métodos de predicción de funciones

Métodos basados en homología

Parte de un alineamiento de secuencia múltiple de cuatro secuencias de proteínas de hemoglobina diferentes. Secuencias de proteínas similares, generalmente indican funciones compartidas.

Las proteínas de secuencia similar suelen ser homólogas ^[5] y, por tanto, tienen una función similar. Por lo tanto, las proteínas en un genoma recién secuenciado se anotan de forma rutinaria utilizando las secuencias de proteínas similares en genomas relacionados.

Sin embargo, las proteínas estrechamente relacionadas no siempre comparten la misma función. ^[6] Por ejemplo, las proteínas de levadura Gal1 y Gal3 son parálogos (73% de identidad y 92% de similitud) que han desarrollado funciones muy diferentes, siendo Gal1 una galactoquinasa y Gal3 un inductor transcripcional. ^[7]

No existe un umbral estricto de similitud de secuencia para la predicción de funciones "seguras"; muchas proteínas de similitud de secuencia apenas detectable tienen la misma función, mientras que otras (como Gal1 y Gal3) son muy similares pero han desarrollado funciones diferentes. Como regla general, se considera que las secuencias que son más del 30-40% idénticas tienen la misma función o una función muy similar.

Para las enzimas , las predicciones de funciones específicas son especialmente difíciles, ya que solo necesitan unos pocos residuos clave en su sitio activo , por lo que secuencias muy diferentes pueden tener actividades muy similares. Por el contrario, incluso con una identidad de secuencia del 70% o más, el 10% de cualquier par de enzimas tiene sustratos diferentes; y las diferencias en las reacciones enzimáticas reales no son infrecuentes cerca del 50% de identidad de secuencia. ^[8]^[9]

Métodos basados en motivos de secuencia

El desarrollo de bases de datos de dominios de proteínas como Pfam (Base de datos de familias de proteínas) ^[10] nos permite encontrar dominios conocidos dentro de una secuencia de consulta, proporcionando evidencia de funciones probables. El sitio web dcGO ^[11] contiene anotaciones tanto para los dominios individuales como para los supra-dominios (es decir, combinaciones de dos o más dominios sucesivos), por lo que a través de dcGO Predictor permite las predicciones de funciones de una manera más realista. Dentro de los dominios de proteínas , las firmas más cortas conocidas como ' motivos ' se asocian con funciones particulares, ^[12] y las bases de datos de motivos como PROSITE ('base de datos de dominios de proteínas, familias y sitios funcionales') se pueden buscar utilizando una secuencia de consulta. ^{[13] Los} motivos se pueden utilizar, por ejemplo, para predecir la localización subcelular de una proteína (a qué lugar de la célula se envía la proteína después de la síntesis). Los péptidos de señal corta dirigen ciertas proteínas a una ubicación particular, como las mitocondrias, y existen varias herramientas para la predicción de estas señales en una secuencia de proteínas. ^[14] Por ejemplo, SignalP , que se ha actualizado varias veces a medida que se mejoran los métodos. ^[15] Por lo tanto, los aspectos de la función de una proteína pueden predecirse sin comparación con otras secuencias de proteínas homólogas de longitud completa.

Métodos basados en estructura

Una alineación de las proteínas tóxicas ricina y abrina . Pueden usarse alineamientos estructurales para determinar si dos proteínas tienen funciones similares incluso cuando sus secuencias difieren.

Debido a que la estructura de la proteína 3D está generalmente más bien conservada que la secuencia de la proteína, la similitud estructural es un buen indicador de una función similar en dos o más proteínas. ^[6]^[12] Se han desarrollado muchos programas para analizar una estructura de proteína desconocida contra el Protein Data Bank ^[16] y reportar estructuras similares (por ejemplo, FATCAT (Alineación de estructura flexible por encadenamiento de AFP (pares de fragmentos alineados) con torsiones), ^[17] CE (extensión combinatoria) ^[18] ) y DeepAlign (alineación de la estructura de la proteína más allá de la proximidad espacial). ^[19] Para hacer frente a la situación de que muchas secuencias de proteínas no tienen estructuras resueltas, también se desarrollan algunos servidores de predicción de funciones como RaptorX que primero pueden predecir el modelo 3D de una secuencia y luego usar un método basado en la estructura para predecir funciones basadas en el modelo 3D previsto. En muchos casos, en lugar de la estructura de la proteína completa, se puede apuntar a la estructura 3D de un motivo particular que representa un sitio activo o un sitio de unión. ^[12]^[20]^[21]^[22]^[23] El método de Sitios de Actividad Local Alineados Estructuralmente (SALSA) ^[21] , desarrollado por Mary Jo Ondrechen y los estudiantes, utiliza propiedades químicas calculadas de los aminoácidos individuales para identificar sitios bioquímicamente activos. Se han desarrollado bases de datos como Catalytic Site Atlas ^[24] que se pueden buscar utilizando nuevas secuencias de proteínas para predecir sitios funcionales específicos.

Métodos genómicos basados en el contexto

Muchos de los métodos más nuevos para la predicción de la función de las proteínas no se basan en la comparación de la secuencia o estructura como se indicó anteriormente, sino en algún tipo de correlación entre genes / proteínas nuevos y aquellos que ya tienen anotaciones. También conocidos como perfiles filogenómicos, estos métodos basados en el contexto genómico se basan en la observación de que dos o más proteínas con el mismo patrón de presencia o ausencia en muchos genomas diferentes probablemente tengan un vínculo funcional. ^[12]^[25] Mientras que los métodos basados en la homología a menudo se pueden usar para identificar las funciones moleculares de una proteína, los enfoques basados en el contexto se pueden usar para predecir la función celular o el proceso biológico en el que actúa una proteína. ^[3]^[25] Por ejemplo, es probable que las proteínas involucradas en la misma vía de transducción de señales compartan un contexto genómico en todas las especies.

Fusión de genes

La fusión de genes ocurre cuando dos o más genes codifican dos o más proteínas en un organismo y, a través de la evolución, se combinan para convertirse en un solo gen en otro organismo (o viceversa para la fisión de genes ). ^[3]^[26] Este concepto se ha utilizado, por ejemplo, para buscar todas las secuencias de proteínas de E. coli en busca de homología en otros genomas y encontrar más de 6000 pares de secuencias con homología compartida con proteínas individuales en otro genoma, lo que indica una posible interacción entre cada uno. de las parejas. ^[26] Debido a que las dos secuencias en cada par de proteínas no son homólogas, estas interacciones no se pudieron predecir usando métodos basados en homología.

Co-ubicación / coexpresión

En los procariotas , los grupos de genes que están físicamente juntos en el genoma a menudo se conservan juntos a lo largo de la evolución y tienden a codificar proteínas que interactúan o son parte del mismo operón . ^[3] Por tanto, la proximidad cromosómica , también denominada método del vecino genético ^[27], puede utilizarse para predecir la similitud funcional entre proteínas, al menos en procariotas. También se ha visto que la proximidad cromosómica se aplica a algunas vías en genomas eucariotas seleccionados , incluido el Homo sapiens , ^[28] y con un mayor desarrollo, los métodos de genes vecinos pueden ser valiosos para estudiar las interacciones de proteínas en eucariotas. ^[25]

Los genes implicados en funciones similares también se cotranscriben a menudo, de modo que a menudo se puede predecir que una proteína no anotada tiene una función relacionada con las proteínas con las que se coexpresa. ^[12] Los algoritmos de culpabilidad por asociación desarrollados con base en este enfoque pueden usarse para analizar grandes cantidades de datos de secuencias e identificar genes con patrones de expresión similares a los de genes conocidos. ^[29]^[30] A menudo, un estudio de culpabilidad por asociación compara un grupo de genes candidatos (función desconocida) con un grupo objetivo (por ejemplo, un grupo de genes que se sabe que están asociados con una enfermedad en particular) y clasifica los genes candidatos por su probabilidad de pertenecer al grupo objetivo según los datos. ^[31] Sin embargo, en base a estudios recientes, se ha sugerido que existen algunos problemas con este tipo de análisis. Por ejemplo, debido a que muchas proteínas son multifuncionales, los genes que las codifican pueden pertenecer a varios grupos diana. Se argumenta que es más probable que tales genes se identifiquen en la culpa mediante estudios de asociación y, por lo tanto, las predicciones no son específicas. ^[31]

Con la acumulación de datos de RNA-seq que son capaces de estimar perfiles de expresión para isoformas empalmadas alternativamente, también se han desarrollado algoritmos de aprendizaje automático para predecir y diferenciar funciones a nivel de isoformas. ^[32] Esto representa un área de investigación emergente en la predicción de funciones, que integra datos genómicos heterogéneos a gran escala para inferir funciones a nivel de isoformas. ^[33]

Mapeo computacional de solventes

Mapeo computacional de solventes de la proteína AMA1 usando mapeo computacional de solventes basado en fragmentos (FTMAP) escaneando computacionalmente la superficie de AMA1 con 16 sondas (moléculas orgánicas pequeñas) y definiendo las ubicaciones donde las sondas se agrupan (marcadas como regiones coloridas en la superficie de la proteína) ^{[ 34]}

Uno de los desafíos involucrados en la predicción de la función de las proteínas es el descubrimiento del sitio activo. Esto se complica porque ciertos sitios activos no se forman - esencialmente existen - hasta que la proteína sufre cambios conformacionales provocados por la unión de moléculas pequeñas. La mayoría de las estructuras de proteínas se han determinado mediante cristalografía de rayos X que requiere un cristal de proteína purificado . Como resultado, los modelos estructurales existentes son generalmente de una proteína purificada y, como tales, carecen de los cambios conformacionales que se crean cuando la proteína interactúa con moléculas pequeñas. ^[35]

El mapeo computacional de solventes utiliza sondas (pequeñas moléculas orgánicas) que se 'mueven' computacionalmente sobre la superficie de la proteína en busca de sitios donde tienden a agruparse. Generalmente se aplican múltiples sondas diferentes con el objetivo de obtener un gran número de conformaciones de sonda-proteína diferentes. Luego, los grupos generados se clasifican en función de la energía libre promedio del grupo. Después de mapear computacionalmente múltiples sondas, el sitio de la proteína donde se forman números relativamente grandes de agrupaciones corresponde típicamente a un sitio activo en la proteína. ^[35]

Esta técnica es una adaptación computacional del trabajo de 'laboratorio húmedo' de 1996. Se descubrió que determinar la estructura de una proteína mientras está suspendida en diferentes solventes y luego superponer esas estructuras entre sí produce datos donde las moléculas de solvente orgánico (que el las proteínas se suspendieron en) normalmente se agrupan en el sitio activo de la proteína. Este trabajo se llevó a cabo como respuesta a darse cuenta de que las moléculas de agua son visibles en la densidad de electrones mapas producidos por cristalografía de rayos X . Las moléculas de agua interactúan con la proteína y tienden a agruparse en las regiones polares de la proteína. Esto llevó a la idea de sumergir el cristal de la proteína purificada en otros disolventes (por ejemplo , etanol , isopropanol , etc.) para determinar dónde se agrupan estas moléculas en la proteína. Los disolventes se pueden elegir en función de su aproximación, es decir, con qué molécula puede interactuar esta proteína (por ejemplo, el etanol puede sondear interacciones con el aminoácido serina , isopropanol , una sonda para treonina , etc.). Es vital que el cristal de proteína mantenga su estructura terciaria en cada solvente. Este proceso se repite para múltiples disolventes y luego estos datos se pueden usar para intentar determinar los sitios activos potenciales en la proteína. ^[36] Diez años más tarde, esta técnica fue desarrollada en un algoritmo por Clodfelter et al.

Métodos basados en red

Un ejemplo de red de interacción de proteínas, producida a través del recurso web STRING . Los patrones de interacciones de proteínas dentro de las redes se utilizan para inferir la función. Aquí, se muestra que los productos de los genes trp bacterianos que codifican la triptófano sintasa interactúan entre sí y con otras proteínas relacionadas.

Se pueden usar algoritmos de culpa por asociación para producir una red de asociación funcional para un grupo diana dado de genes o proteínas. Estas redes sirven como una representación de la evidencia de una función compartida / similar dentro de un grupo de genes, donde los nodos representan genes / proteínas y están vinculados entre sí por bordes que representan la evidencia de una función compartida. ^[37]

Redes integradas

Varias redes basadas en diferentes fuentes de datos se pueden combinar en una red compuesta, que luego puede ser utilizada por un algoritmo de predicción para anotar genes o proteínas candidatos. ^[38] Por ejemplo, los desarrolladores del sistema bioPIXIE utilizaron una amplia variedad de datos genómicos de Saccharomyces cerevisiae (levadura) para producir una red funcional compuesta para esa especie. ^[39] Este recurso permite la visualización de redes conocidas que representan procesos biológicos, así como la predicción de componentes novedosos de esas redes. Se han desarrollado muchos algoritmos para predecir la función basándose en la integración de varias fuentes de datos (por ejemplo, genómica, proteómica, interacción de proteínas, etc.), y las pruebas en genes anotados previamente indican un alto nivel de precisión. ^[37]^[40] Las desventajas de algunos algoritmos de predicción de funciones incluyen la falta de accesibilidad y el tiempo requerido para el análisis. Sin embargo, en los últimos años se han desarrollado algoritmos más rápidos y precisos como GeneMANIA (algoritmo de integración de redes de asociación múltiple) ^[38] y están disponibles públicamente en la web, lo que indica la dirección futura de la predicción de funciones.

Herramientas y bases de datos para la predicción de funciones de proteínas

STRING : herramienta web que integra diversas fuentes de datos para la predicción de funciones. ^[41]

VisANT : Análisis visual de redes y minería de datos visual integradora. ^[42]

Ver también

Predicción de genes
Genómica estructural
Genómica funcional

Referencias

↑ a b Rost B, Liu J, Nair R, Wrzeszczynski KO, Ofran Y (diciembre de 2003). "Predicción automática de la función de las proteínas". Ciencias de la vida celular y molecular . 60 (12): 2637–50. doi : 10.1007 / s00018-003-3114-8 . PMID 14685688 . S2CID 8800506 .
^ Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G (mayo de 2000). "Ontología genética: herramienta para la unificación de la biología. El Consorcio de Ontología Genética" . Genética de la naturaleza . 25 (1): 25–9. doi : 10.1038 / 75556 . PMC 3037419 . PMID 10802651 .
^ a b c d e Gabaldón T, Huynen MA (abril de 2004). "Predicción de la función y las vías de las proteínas en la era del genoma". Ciencias de la vida celular y molecular . 61 (7-8): 930-44. doi : 10.1007 / s00018-003-3387-y . PMID 15095013 . S2CID 18032660 .
^ du Plessis L, Skunca N, Dessimoz C (noviembre de 2011). "El qué, dónde, cómo y por qué de la ontología genética - una introducción a los bioinformáticos" . Sesiones informativas en bioinformática . 12 (6): 723–35. doi : 10.1093 / bib / bbr002 . PMC 3220872 . PMID 21330331 .
^ Reeck GR, de Haën C, Teller DC, Doolittle RF, Fitch WM, Dickerson RE, et al. (Agosto de 1987). " " Homología "en proteínas y ácidos nucleicos: una confusión terminológica y una salida". Celular . 50 (5): 667. doi : 10.1016 / 0092-8674 (87) 90322-9 . PMID 3621342 . S2CID 42949514 .
^ a b Whisstock JC, Lesk AM (agosto de 2003). "Predicción de la función de la proteína a partir de la secuencia y estructura de la proteína". Reseñas trimestrales de biofísica . 36 (3): 307–40. doi : 10.1017 / S0033583503003901 . PMID 15029827 .
^ Platt A, Ross HC, Hankin S, Reece RJ (marzo de 2000). "La inserción de dos aminoácidos en un inductor transcripcional lo convierte en una galactoquinasa" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 97 (7): 3154–9. Código bibliográfico : 2000PNAS ... 97.3154P . doi : 10.1073 / pnas.97.7.3154 . PMC 16208 . PMID 10737789 .
^ Rost B (abril de 2002). "Función enzimática menos conservada de lo previsto". Revista de Biología Molecular . 318 (2): 595–608. doi : 10.1016 / S0022-2836 (02) 00016-5 . PMID 12051862 .
^ Tian W, Skolnick J (octubre de 2003). "¿Qué tan bien se conserva la función de la enzima en función de la identidad de secuencia por pares?". Revista de Biología Molecular . 333 (4): 863–82. CiteSeerX 10.1.1.332.4052 . doi : 10.1016 / j.jmb.2003.08.057 . PMID 14568541 .
^ Finn RD, Mistry J, Tate J, Coggill P, Heger A, Pollington JE, Gavin OL, Gunasekaran P, Ceric G, Forslund K, Holm L, Sonnhammer EL, Eddy SR, Bateman A (enero de 2010). "La base de datos de familias de proteínas Pfam" . Investigación de ácidos nucleicos . 38 (Problema de la base de datos): D211–22. doi : 10.1093 / nar / gkp985 . PMC 2808889 . PMID 19920124 .
^ Fang H, Gough J (enero de 2013). "DcGO: base de datos de ontologías centradas en dominios sobre funciones, fenotipos, enfermedades y más" . Investigación de ácidos nucleicos . 41 (Problema de la base de datos): D536–44. doi : 10.1093 / nar / gks1080 . PMC 3531119 . PMID 23161684 .
^ a b c d e Sleator RD, Walsh P (marzo de 2010). "Una descripción general de la predicción de la función de la proteína in silico". Archivos de Microbiología . 192 (3): 151–5. doi : 10.1007 / s00203-010-0549-9 . PMID 20127480 . S2CID 8932206 .
^ Sigrist CJ, Cerutti L, de Castro E, Langendijk-Genevaux PS, Bulliard V, Bairoch A, Hulo N (enero de 2010). "PROSITE, una base de datos de dominio de proteínas para la caracterización y anotación funcional" . Investigación de ácidos nucleicos . 38 (Problema de la base de datos): D161–6. doi : 10.1093 / nar / gkp885 . PMC 2808866 . PMID 19858104 .
^ Menne KM, Hermjakob H, Apweiler R (agosto de 2000). "Una comparación de métodos de predicción de secuencias de señales utilizando un conjunto de prueba de péptidos señal" . Bioinformática . 16 (8): 741–2. doi : 10.1093 / bioinformatics / 16.8.741 . PMID 11099261 .
^ Petersen TN, Brunak S, von Heijne G, Nielsen H (septiembre de 2011). "SignalP 4.0: discriminando péptidos señal de regiones transmembrana" . Métodos de la naturaleza . 8 (10): 785–6. doi : 10.1038 / nmeth.1701 . PMID 21959131 . S2CID 16509924 .
^ Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE (enero de 2000). "El banco de datos de proteínas" . Investigación de ácidos nucleicos . 28 (1): 235–42. doi : 10.1093 / nar / 28.1.235 . PMC 102472 . PMID 10592235 .
^ Ye Y, Godzik A (julio de 2004). "FATCAT: un servidor web para comparación de estructura flexible y búsqueda de similitud de estructura" . Investigación de ácidos nucleicos . 32 (Problema del servidor web): W582–5. doi : 10.1093 / nar / gkh430 . PMC 441568 . PMID 15215455 .
^ Shindyalov IN, Bourne PE (septiembre de 1998). "Alineación de la estructura de la proteína por extensión combinatoria incremental (CE) de la ruta óptima" . Ingeniería de proteínas . 11 (9): 739–47. doi : 10.1093 / proteína / 11.9.739 . PMID 9796821 .
^ Wang S, Ma J, Peng J, Xu J (marzo de 2013). "Alineación de la estructura de la proteína más allá de la proximidad espacial" . Informes científicos . 3 : 1448. Código Bibliográfico : 2013NatSR ... 3E1448W . doi : 10.1038 / srep01448 . PMC 3596798 . PMID 23486213 .
^ Parasuram R, Lee JS, Yin P, Somarowthu S, Ondrechen MJ (diciembre de 2010). "Clasificación funcional de las estructuras de proteínas 3D de los sitios de interacción local predichos". Revista de Bioinformática y Biología Computacional . 8 Supl. 1: 1–15. doi : 10.1142 / s0219720010005166 . PMID 21155016 .
^ a b Wang Z, Yin P, Lee JS, Parasuram R, Somarowthu S, Ondrechen MJ (2013). "Anotación de función de proteína con sitios de actividad locales alineados estructuralmente (SALSA)" . BMC Bioinformática . 14 Supl. 3: S13. doi : 10.1186 / 1471-2105-14-S3-S13 . PMC 3584854 . PMID 23514271 .
^ Garma LD, Juffer AH (abril de 2016). "Comparación de conjuntos no secuenciales de residuos de proteínas". Biología y Química Computacional . 61 : 23–38. doi : 10.1016 / j.compbiolchem.2015.12.004 . PMID 26773655 .
^ Garma LD, Medina M, Juffer AH (noviembre de 2016). "Clasificación basada en la estructura de los sitios de unión de FAD: un estudio comparativo de herramientas de alineación estructural". Las proteínas . 84 (11): 1728-1747. doi : 10.1002 / prot.25158 . PMID 27580869 . S2CID 26066208 .
^ Porter CT, Bartlett GJ, Thornton JM (enero de 2004). "The Catalytic Site Atlas: un recurso de sitios catalíticos y residuos identificados en enzimas utilizando datos estructurales" . Investigación de ácidos nucleicos . 32 (Problema de la base de datos): D129–33. doi : 10.1093 / nar / gkh028 . PMC 308762 . PMID 14681376 .
^ a b c Eisenberg D, Marcotte EM, Xenarios I, Yeates TO (junio de 2000). "Función de las proteínas en la era post-genómica". Naturaleza . 405 (6788): 823–6. doi : 10.1038 / 35015694 . PMID 10866208 . S2CID 4398864 .
^ a b Marcotte EM, Pellegrini M, Ng HL, Rice DW, Yeates TO, Eisenberg D (julio de 1999). "Detección de la función de la proteína y las interacciones proteína-proteína de las secuencias del genoma". Ciencia . 285 (5428): 751–3. CiteSeerX 10.1.1.535.9650 . doi : 10.1126 / science.285.5428.751 . PMID 10427000 .
^ Overbeek R, Fonstein M, D'Souza M, Pusch GD, Maltsev N (marzo de 1999). "El uso de grupos de genes para inferir acoplamiento funcional" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 96 (6): 2896–901. Código Bibliográfico : 1999PNAS ... 96.2896O . doi : 10.1073 / pnas.96.6.2896 . PMC 15866 . PMID 10077608 .
^ Lee JM, Sonnhammer EL (mayo de 2003). "Análisis de agrupación de genes genómicos de vías en eucariotas" . Investigación del genoma . 13 (5): 875–82. doi : 10.1101 / gr.737703 . PMC 430880 . PMID 12695325 .
^ Walker MG, Volkmuth W, Sprinzak E, Hodgson D, Klingler T (diciembre de 1999). "Predicción de la función génica por análisis de expresión a escala del genoma: genes asociados al cáncer de próstata" . Investigación del genoma . 9 (12): 1198-203. doi : 10.1101 / gr.9.12.1198 . PMC 310991 . PMID 10613842 .
^ Klomp JA, Furge KA (julio de 2012). "Coincidencia de genes de todo el genoma con roles celulares utilizando modelos de culpabilidad por asociación derivados del análisis de una sola muestra" . Notas de investigación de BMC . 5 (1): 370. doi : 10.1186 / 1756-0500-5-370 . PMC 3599284 . PMID 22824328 .
^ a b Pavlidis P, Gillis J (2012). "Avances y desafíos en la predicción computacional de la función génica mediante redes" . F1000Research . 1 (14): 14. doi : 10.3410 / f1000research.1-14.v1 . PMC 3782350 . PMID 23936626 .
^ Eksi R, Li HD, Menon R, Wen Y, Omenn GS, Kretzler M, Guan Y (noviembre de 2013). "Funciones de diferenciación sistemática para isoformas empalmadas alternativamente mediante la integración de datos de RNA-seq" . PLOS Biología Computacional . 9 (11): e1003314. Código Bibliográfico : 2013PLSCB ... 9E3314E . doi : 10.1371 / journal.pcbi.1003314 . PMC 3820534 . PMID 24244129 .
^ Li HD, Menon R, Omenn GS, Guan Y (agosto de 2014). "La era emergente de la integración de datos genómicos para analizar la función de isoformas de empalme" . Tendencias en Genética . 30 (8): 340–7. doi : 10.1016 / j.tig.2014.05.005 . PMC 4112133 . PMID 24951248 .
^ Wang G, MacRaild CA, Mohanty B, Mobli M, Cowieson NP, Anders RF, Simpson JS, McGowan S, Norton RS, Scanlon MJ (2014). "Conocimientos moleculares sobre la interacción entre el antígeno 1 de la membrana apical de Plasmodium falciparum y un péptido inhibidor de la invasión" . PLOS ONE . 9 (10): e109674. Código bibliográfico : 2014PLoSO ... 9j9674W . doi : 10.1371 / journal.pone.0109674 . PMC 4208761 . PMID 25343578 .
^ a b Clodfelter KH, Waxman DJ, Vajda S (agosto de 2006). "El mapeo computacional de solventes revela la importancia de los cambios conformacionales locales para una amplia especificidad de sustrato en los citocromos P450 de mamíferos". Bioquímica . 45 (31): 9393–407. doi : 10.1021 / bi060343v . PMID 16878974 .
^ Mattos C, Ringe D (mayo de 1996). "Localización y caracterización de sitios de unión en proteínas". Biotecnología de la naturaleza . 14 (5): 595–9. doi : 10.1038 / nbt0596-595 . PMID 9630949 . S2CID 20273975 .
^ a b Sharan R, Ulitsky I, Shamir R (2007). "Predicción basada en redes de la función de las proteínas" . Biología de sistemas moleculares . 3 (88): 88. doi : 10.1038 / msb4100129 . PMC 1847944 . PMID 17353930 .
^ a b Mostafavi S, Ray D, Warde-Farley D, Grouios C, Morris Q (2008). "GeneMANIA: un algoritmo de integración de redes de asociación múltiple en tiempo real para predecir la función de genes" . Biología del genoma . 9 Supl. 1: S4. doi : 10.1186 / gb-2008-9-s1-s4 . PMC 2447538 . PMID 18613948 .
^ Myers CL, Robson D, Wible A, Hibbs MA, Chiriac C, Theesfeld CL, Dolinski K, Troyanskaya OG (2005). "Descubrimiento de redes biológicas a partir de diversos datos genómicos funcionales" . Biología del genoma . 6 (13): R114. doi : 10.1186 / gb-2005-6-13-r114 . PMC 1414113 . PMID 16420673 .
^ Peña-Castillo L, Tasan M, Myers CL, Lee H, Joshi T, Zhang C, Guan Y, Leone M, Pagnani A, Kim WK, Krumpelman C, Tian W, Obozinski G, Qi Y, Mostafavi S, Lin GN, Berriz GF, Gibbons FD, Lanckriet G, Qiu J, Grant C, Barutcuoglu Z, Hill DP, Warde-Farley D, Grouios C, Ray D, Blake JA, Deng M, Jordan MI, Noble WS, Morris Q, Klein-Seetharaman J, Bar-Joseph Z, Chen T, Sun F, Troyanskaya OG, Marcotte EM, Xu D, Hughes TR, Roth FP (2008). "Una evaluación crítica de la predicción de la función del gen Mus musculus utilizando evidencia genómica integrada" . Biología del genoma . 9 Supl. 1 (S1): S2. doi : 10.1186 / gb-2008-9-s1-s2 . PMC 2447536 . PMID 18613946 .
^ Szklarczyk D, Morris JH, Cook H, Kuhn M, Wyder S, Simonovic M, Santos A, Doncheva NT, Roth A, Bork P, Jensen LJ, von Mering C (enero de 2017). "La base de datos STRING en 2017: redes de asociación proteína-proteína con control de calidad, ampliamente accesible" . Investigación de ácidos nucleicos . 45 (D1): D362 – D368. doi : 10.1093 / nar / gkw937 . PMC 5210637 . PMID 27924014 .
^ Granger BR, Chang YC, Wang Y, DeLisi C, Segrè D, Hu Z (abril de 2016). "Visualización de redes de interacción metabólica en comunidades microbianas utilizando VisANT 5.0" . PLOS Biología Computacional . 12 (4): e1004875. Código bibliográfico : 2016PLSCB..12E4875G . doi : 10.1371 / journal.pcbi.1004875 . PMC 4833320 . PMID 27081850 .

enlaces externos

La base de datos dcGO
Banco de datos de proteínas
Atlas del sitio catalítico
RaptorX Server para la predicción de funciones de proteínas asistida por modelos
Blast2GO , herramienta de alto rendimiento para la predicción de funciones de proteínas y la anotación funcional ( página web ).

[Rost-1] Rost B, Liu J, Nair R, Wrzeszczynski KO, Ofran Y (diciembre de 2003). "Predicción automática de la función de las proteínas". Ciencias de la vida celular y molecular . 60 (12): 2637–50. doi : 10.1007 / s00018-003-3114-8 . PMID 14685688 . S2CID 8800506 .

[2] Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G (mayo de 2000). "Ontología genética: herramienta para la unificación de la biología. El Consorcio de Ontología Genética" . Genética de la naturaleza . 25 (1): 25–9. doi : 10.1038 / 75556 . PMC 3037419 . PMID 10802651 .

[gabaldon-3] Gabaldón T, Huynen MA (abril de 2004). "Predicción de la función y las vías de las proteínas en la era del genoma". Ciencias de la vida celular y molecular . 61 (7-8): 930-44. doi : 10.1007 / s00018-003-3387-y . PMID 15095013 . S2CID 18032660 .

[4] u Plessis L, Skunca N, Dessimoz C (noviembre de 2011). "El qué, dónde, cómo y por qué de la ontología genética - una introducción a los bioinformáticos" . Sesiones informativas en bioinformática . 12 (6): 723–35. doi : 10.1093 / bib / bbr002 . PMC 3220872 . PMID 21330331 .

[5] Reeck GR, de Haën C, Teller DC, Doolittle RF, Fitch WM, Dickerson RE, et al. (Agosto de 1987). " " Homología "en proteínas y ácidos nucleicos: una confusión terminológica y una salida". Celular . 50 (5): 667. doi : 10.1016 / 0092-8674 (87) 90322-9 . PMID 3621342 . S2CID 42949514 .

[whisstock-6] Whisstock JC, Lesk AM (agosto de 2003). "Predicción de la función de la proteína a partir de la secuencia y estructura de la proteína". Reseñas trimestrales de biofísica . 36 (3): 307–40. doi : 10.1017 / S0033583503003901 . PMID 15029827 .

[Platt2000-7] Platt A, Ross HC, Hankin S, Reece RJ (marzo de 2000). "La inserción de dos aminoácidos en un inductor transcripcional lo convierte en una galactoquinasa" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 97 (7): 3154–9. Código bibliográfico : 2000PNAS ... 97.3154P . doi : 10.1073 / pnas.97.7.3154 . PMC 16208 . PMID 10737789 .

[8] Rost B (abril de 2002). "Función enzimática menos conservada de lo previsto". Revista de Biología Molecular . 318 (2): 595–608. doi : 10.1016 / S0022-2836 (02) 00016-5 . PMID 12051862 .

[9] Tian W, Skolnick J (octubre de 2003). "¿Qué tan bien se conserva la función de la enzima en función de la identidad de secuencia por pares?". Revista de Biología Molecular . 333 (4): 863–82. CiteSeerX 10.1.1.332.4052 . doi : 10.1016 / j.jmb.2003.08.057 . PMID 14568541 .

[10] Finn RD, Mistry J, Tate J, Coggill P, Heger A, Pollington JE, Gavin OL, Gunasekaran P, Ceric G, Forslund K, Holm L, Sonnhammer EL, Eddy SR, Bateman A (enero de 2010). "La base de datos de familias de proteínas Pfam" . Investigación de ácidos nucleicos . 38 (Problema de la base de datos): D211–22. doi : 10.1093 / nar / gkp985 . PMC 2808889 . PMID 19920124 .

[pmid23161684-11] Fang H, Gough J (enero de 2013). "DcGO: base de datos de ontologías centradas en dominios sobre funciones, fenotipos, enfermedades y más" . Investigación de ácidos nucleicos . 41 (Problema de la base de datos): D536–44. doi : 10.1093 / nar / gks1080 . PMC 3531119 . PMID 23161684 .

[sleator-12] Sleator RD, Walsh P (marzo de 2010). "Una descripción general de la predicción de la función de la proteína in silico". Archivos de Microbiología . 192 (3): 151–5. doi : 10.1007 / s00203-010-0549-9 . PMID 20127480 . S2CID 8932206 .

[13] Sigrist CJ, Cerutti L, de Castro E, Langendijk-Genevaux PS, Bulliard V, Bairoch A, Hulo N (enero de 2010). "PROSITE, una base de datos de dominio de proteínas para la caracterización y anotación funcional" . Investigación de ácidos nucleicos . 38 (Problema de la base de datos): D161–6. doi : 10.1093 / nar / gkp885 . PMC 2808866 . PMID 19858104 .

[14] Menne KM, Hermjakob H, Apweiler R (agosto de 2000). "Una comparación de métodos de predicción de secuencias de señales utilizando un conjunto de prueba de péptidos señal" . Bioinformática . 16 (8): 741–2. doi : 10.1093 / bioinformatics / 16.8.741 . PMID 11099261 .

[15] Petersen TN, Brunak S, von Heijne G, Nielsen H (septiembre de 2011). "SignalP 4.0: discriminando péptidos señal de regiones transmembrana" . Métodos de la naturaleza . 8 (10): 785–6. doi : 10.1038 / nmeth.1701 . PMID 21959131 . S2CID 16509924 .

[16] Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE (enero de 2000). "El banco de datos de proteínas" . Investigación de ácidos nucleicos . 28 (1): 235–42. doi : 10.1093 / nar / 28.1.235 . PMC 102472 . PMID 10592235 .

[17] Ye Y, Godzik A (julio de 2004). "FATCAT: un servidor web para comparación de estructura flexible y búsqueda de similitud de estructura" . Investigación de ácidos nucleicos . 32 (Problema del servidor web): W582–5. doi : 10.1093 / nar / gkh430 . PMC 441568 . PMID 15215455 .

[18] Shindyalov IN, Bourne PE (septiembre de 1998). "Alineación de la estructura de la proteína por extensión combinatoria incremental (CE) de la ruta óptima" . Ingeniería de proteínas . 11 (9): 739–47. doi : 10.1093 / proteína / 11.9.739 . PMID 9796821 .

[DeepAlign-19] Wang S, Ma J, Peng J, Xu J (marzo de 2013). "Alineación de la estructura de la proteína más allá de la proximidad espacial" . Informes científicos . 3 : 1448. Código Bibliográfico : 2013NatSR ... 3E1448W . doi : 10.1038 / srep01448 . PMC 3596798 . PMID 23486213 .

[20] Parasuram R, Lee JS, Yin P, Somarowthu S, Ondrechen MJ (diciembre de 2010). "Clasificación funcional de las estructuras de proteínas 3D de los sitios de interacción local predichos". Revista de Bioinformática y Biología Computacional . 8 Supl. 1: 1–15. doi : 10.1142 / s0219720010005166 . PMID 21155016 .

[biomedcentral2013-21] Wang Z, Yin P, Lee JS, Parasuram R, Somarowthu S, Ondrechen MJ (2013). "Anotación de función de proteína con sitios de actividad locales alineados estructuralmente (SALSA)" . BMC Bioinformática . 14 Supl. 3: S13. doi : 10.1186 / 1471-2105-14-S3-S13 . PMC 3584854 . PMID 23514271 .

[22] Garma LD, Juffer AH (abril de 2016). "Comparación de conjuntos no secuenciales de residuos de proteínas". Biología y Química Computacional . 61 : 23–38. doi : 10.1016 / j.compbiolchem.2015.12.004 . PMID 26773655 .

[23] Garma LD, Medina M, Juffer AH (noviembre de 2016). "Clasificación basada en la estructura de los sitios de unión de FAD: un estudio comparativo de herramientas de alineación estructural". Las proteínas . 84 (11): 1728-1747. doi : 10.1002 / prot.25158 . PMID 27580869 . S2CID 26066208 .

[24] Porter CT, Bartlett GJ, Thornton JM (enero de 2004). "The Catalytic Site Atlas: un recurso de sitios catalíticos y residuos identificados en enzimas utilizando datos estructurales" . Investigación de ácidos nucleicos . 32 (Problema de la base de datos): D129–33. doi : 10.1093 / nar / gkh028 . PMC 308762 . PMID 14681376 .

[eisenberg-25] Eisenberg D, Marcotte EM, Xenarios I, Yeates TO (junio de 2000). "Función de las proteínas en la era post-genómica". Naturaleza . 405 (6788): 823–6. doi : 10.1038 / 35015694 . PMID 10866208 . S2CID 4398864 .

[marcotte-26] Marcotte EM, Pellegrini M, Ng HL, Rice DW, Yeates TO, Eisenberg D (julio de 1999). "Detección de la función de la proteína y las interacciones proteína-proteína de las secuencias del genoma". Ciencia . 285 (5428): 751–3. CiteSeerX 10.1.1.535.9650 . doi : 10.1126 / science.285.5428.751 . PMID 10427000 .

[overbeek-27] Overbeek R, Fonstein M, D'Souza M, Pusch GD, Maltsev N (marzo de 1999). "El uso de grupos de genes para inferir acoplamiento funcional" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 96 (6): 2896–901. Código Bibliográfico : 1999PNAS ... 96.2896O . doi : 10.1073 / pnas.96.6.2896 . PMC 15866 . PMID 10077608 .

[28] Lee JM, Sonnhammer EL (mayo de 2003). "Análisis de agrupación de genes genómicos de vías en eucariotas" . Investigación del genoma . 13 (5): 875–82. doi : 10.1101 / gr.737703 . PMC 430880 . PMID 12695325 .

[29] Walker MG, Volkmuth W, Sprinzak E, Hodgson D, Klingler T (diciembre de 1999). "Predicción de la función génica por análisis de expresión a escala del genoma: genes asociados al cáncer de próstata" . Investigación del genoma . 9 (12): 1198-203. doi : 10.1101 / gr.9.12.1198 . PMC 310991 . PMID 10613842 .

[30] Klomp JA, Furge KA (julio de 2012). "Coincidencia de genes de todo el genoma con roles celulares utilizando modelos de culpabilidad por asociación derivados del análisis de una sola muestra" . Notas de investigación de BMC . 5 (1): 370. doi : 10.1186 / 1756-0500-5-370 . PMC 3599284 . PMID 22824328 .

[pavlidis-31] Pavlidis P, Gillis J (2012). "Avances y desafíos en la predicción computacional de la función génica mediante redes" . F1000Research . 1 (14): 14. doi : 10.3410 / f1000research.1-14.v1 . PMC 3782350 . PMID 23936626 .

[Eksi-32] Eksi R, Li HD, Menon R, Wen Y, Omenn GS, Kretzler M, Guan Y (noviembre de 2013). "Funciones de diferenciación sistemática para isoformas empalmadas alternativamente mediante la integración de datos de RNA-seq" . PLOS Biología Computacional . 9 (11): e1003314. Código Bibliográfico : 2013PLSCB ... 9E3314E . doi : 10.1371 / journal.pcbi.1003314 . PMC 3820534 . PMID 24244129 .

[33] Li HD, Menon R, Omenn GS, Guan Y (agosto de 2014). "La era emergente de la integración de datos genómicos para analizar la función de isoformas de empalme" . Tendencias en Genética . 30 (8): 340–7. doi : 10.1016 / j.tig.2014.05.005 . PMC 4112133 . PMID 24951248 .

[34] Wang G, MacRaild CA, Mohanty B, Mobli M, Cowieson NP, Anders RF, Simpson JS, McGowan S, Norton RS, Scanlon MJ (2014). "Conocimientos moleculares sobre la interacción entre el antígeno 1 de la membrana apical de Plasmodium falciparum y un péptido inhibidor de la invasión" . PLOS ONE . 9 (10): e109674. Código bibliográfico : 2014PLoSO ... 9j9674W . doi : 10.1371 / journal.pone.0109674 . PMC 4208761 . PMID 25343578 .

[:4-35] Clodfelter KH, Waxman DJ, Vajda S (agosto de 2006). "El mapeo computacional de solventes revela la importancia de los cambios conformacionales locales para una amplia especificidad de sustrato en los citocromos P450 de mamíferos". Bioquímica . 45 (31): 9393–407. doi : 10.1021 / bi060343v . PMID 16878974 .

[36] Mattos C, Ringe D (mayo de 1996). "Localización y caracterización de sitios de unión en proteínas". Biotecnología de la naturaleza . 14 (5): 595–9. doi : 10.1038 / nbt0596-595 . PMID 9630949 . S2CID 20273975 .

[sharan-37] Sharan R, Ulitsky I, Shamir R (2007). "Predicción basada en redes de la función de las proteínas" . Biología de sistemas moleculares . 3 (88): 88. doi : 10.1038 / msb4100129 . PMC 1847944 . PMID 17353930 .

[mostafavi-38] Mostafavi S, Ray D, Warde-Farley D, Grouios C, Morris Q (2008). "GeneMANIA: un algoritmo de integración de redes de asociación múltiple en tiempo real para predecir la función de genes" . Biología del genoma . 9 Supl. 1: S4. doi : 10.1186 / gb-2008-9-s1-s4 . PMC 2447538 . PMID 18613948 .

[39] Myers CL, Robson D, Wible A, Hibbs MA, Chiriac C, Theesfeld CL, Dolinski K, Troyanskaya OG (2005). "Descubrimiento de redes biológicas a partir de diversos datos genómicos funcionales" . Biología del genoma . 6 (13): R114. doi : 10.1186 / gb-2005-6-13-r114 . PMC 1414113 . PMID 16420673 .

[40] Peña-Castillo L, Tasan M, Myers CL, Lee H, Joshi T, Zhang C, Guan Y, Leone M, Pagnani A, Kim WK, Krumpelman C, Tian W, Obozinski G, Qi Y, Mostafavi S, Lin GN, Berriz GF, Gibbons FD, Lanckriet G, Qiu J, Grant C, Barutcuoglu Z, Hill DP, Warde-Farley D, Grouios C, Ray D, Blake JA, Deng M, Jordan MI, Noble WS, Morris Q, Klein-Seetharaman J, Bar-Joseph Z, Chen T, Sun F, Troyanskaya OG, Marcotte EM, Xu D, Hughes TR, Roth FP (2008). "Una evaluación crítica de la predicción de la función del gen Mus musculus utilizando evidencia genómica integrada" . Biología del genoma . 9 Supl. 1 (S1): S2. doi : 10.1186 / gb-2008-9-s1-s2 . PMC 2447536 . PMID 18613946 .

[41] Szklarczyk D, Morris JH, Cook H, Kuhn M, Wyder S, Simonovic M, Santos A, Doncheva NT, Roth A, Bork P, Jensen LJ, von Mering C (enero de 2017). "La base de datos STRING en 2017: redes de asociación proteína-proteína con control de calidad, ampliamente accesible" . Investigación de ácidos nucleicos . 45 (D1): D362 – D368. doi : 10.1093 / nar / gkw937 . PMC 5210637 . PMID 27924014 .

[42] Granger BR, Chang YC, Wang Y, DeLisi C, Segrè D, Hu Z (abril de 2016). "Visualización de redes de interacción metabólica en comunidades microbianas utilizando VisANT 5.0" . PLOS Biología Computacional . 12 (4): e1004875. Código bibliográfico : 2016PLSCB..12E4875G . doi : 10.1371 / journal.pcbi.1004875 . PMC 4833320 . PMID 27081850 .

[1]