De Wikipedia, la enciclopedia libre
  (Redirigido desde Swiss-Prot )
Saltar a navegación Saltar a búsqueda

UniProt es una base de datos de libre acceso de secuencia de proteínas e información funcional, muchas entradas derivadas de proyectos de secuenciación del genoma . Contiene una gran cantidad de información sobre la función biológica de las proteínas derivada de la literatura de investigación. Lo mantiene el consorcio UniProt, que está formado por varias organizaciones bioinformáticas europeas y una fundación de Washington, DC , Estados Unidos.

El consorcio UniProt [ editar ]

El consorcio UniProt está formado por el Instituto Europeo de Bioinformática (EBI), el Instituto Suizo de Bioinformática (SIB) y el Protein Information Resource (PIR). EBI, ubicado en el Wellcome Trust Genome Campus en Hinxton, Reino Unido, alberga un gran recurso de bases de datos y servicios de bioinformática. SIB, con sede en Ginebra, Suiza, mantiene los servidores ExPASy (Expert Protein Analysis System) que son un recurso central para las herramientas y bases de datos de proteómica. PIR, alojado por la Fundación Nacional de Investigación Biomédica (NBRF) en el Centro Médico de la Universidad de Georgetown en Washington, DC, EE. UU., Es heredero de la base de datos de secuencias de proteínas más antigua, Margaret DayhoffAtlas of Protein Sequence and Structure, publicado por primera vez en 1965. [2] En 2002, EBI, SIB y PIR unieron fuerzas como el consorcio UniProt. [3]

Las raíces de las bases de datos UniProt [ editar ]

Cada miembro del consorcio está muy involucrado en el mantenimiento y la anotación de la base de datos de proteínas. Hasta hace poco, EBI y SIB producían juntas las bases de datos Swiss-Prot y TrEMBL, mientras que PIR producía la base de datos de secuencias de proteínas (PIR-PSD). [4] [5] [6] Estas bases de datos coexistieron con diferentes prioridades de anotación y cobertura de secuencias de proteínas .

Swiss-Prot fue creado en 1986 por Amos Bairoch durante su doctorado y desarrollado por el Instituto Suizo de Bioinformática y posteriormente desarrollado por Rolf Apweiler en el Instituto Europeo de Bioinformática . [7] [8] [9] Swiss-Prot tenía como objetivo proporcionar secuencias de proteínas confiables asociadas con un alto nivel de anotación (como la descripción de la función de una proteína, su estructura de dominio , modificaciones postraduccionales , variantes, etc. ), un nivel mínimo de redundanciay alto nivel de integración con otras bases de datos. Reconociendo que los datos de secuencia se estaban generando a un ritmo que excedía la capacidad de Swiss-Prot para mantenerse al día, se creó TrEMBL (Biblioteca de datos de secuencias de nucleótidos EMBL traducidos) para proporcionar anotaciones automatizadas para aquellas proteínas que no están en Swiss-Prot. Mientras tanto, PIR mantuvo el PIR-PSD y las bases de datos relacionadas, incluida iProClass , una base de datos de secuencias de proteínas y familias seleccionadas.

Los miembros del consorcio combinaron sus recursos y experiencia superpuestos y lanzaron UniProt en diciembre de 2003. [10]

Organización de las bases de datos de UniProt [ editar ]

UniProt proporciona cuatro bases de datos centrales: UniProtKB (con subpartes Swiss-Prot y TrEMBL), UniParc, UniRef.

UniProtKB [ editar ]

UniProt Knowledgebase (UniProtKB) es una base de datos de proteínas parcialmente seleccionada por expertos, que consta de dos secciones: UniProtKB / Swiss-Prot (que contiene entradas revisadas y anotadas manualmente) y UniProtKB / TrEMBL (que contiene entradas sin revisar y anotadas automáticamente). [11] A partir del 19 de marzo de 2014 , la versión "2014_03" de UniProtKB / Swiss-Prot contiene 542.782 entradas de secuencia (que comprenden 193.019.802 aminoácidos extraídos de 226.896 referencias) y la versión "2014_03" de UniProtKB / TrEMBL contiene 54.247.468 entradas de secuencia (que comprenden 17.207.833.179 aminoácidos ácidos). [12] [13]

UniProtKB / Swiss-Prot [ editar ]

UniProtKB / Swiss-Prot es una base de datos de secuencias de proteínas no redundante anotada manualmente. Combina información extraída de la literatura científica y análisis computacional evaluado por biocuradores. El objetivo de UniProtKB / Swiss-Prot es proporcionar toda la información relevante conocida sobre una proteína en particular. Las anotaciones se revisan periódicamente para mantenerse al día con los hallazgos científicos actuales. La anotación manual de una entrada implica un análisis detallado de la secuencia de proteínas y de la literatura científica. [14]

Las secuencias del mismo gen y la misma especie se fusionan en la misma entrada de la base de datos. Se identifican las diferencias entre secuencias y se documenta su causa (por ejemplo , empalme alternativo , variación natural , sitios de iniciación incorrectos , límites de exón incorrectos , cambios de marco , conflictos no identificados). Se utiliza una gama de herramientas de análisis de secuencia en la anotación de entradas UniProtKB / Swiss-Prot. Las predicciones por computadora se evalúan manualmente y los resultados relevantes se seleccionan para su inclusión en la entrada. Estas predicciones incluyen modificaciones postraduccionales, dominios transmembrana y topología ,péptidos señal , identificación de dominios y clasificación de familias de proteínas . [14] [15]

Las publicaciones relevantes se identifican mediante búsquedas en bases de datos como PubMed . Se lee el texto completo de cada artículo y se extrae información y se agrega a la entrada. Las anotaciones que surgen de la literatura científica incluyen, pero no se limitan a: [10] [14] [15]

  • Nombres de proteínas y genes
  • Función
  • Información específica de la enzima , como actividad catalítica , cofactores y residuos catalíticos.
  • Ubicación subcelular
  • Interacciones proteína-proteína
  • Patrón de expresión
  • Ubicaciones y roles de dominios y sitios importantes
  • Sitios de unión de iones , sustratos y cofactores
  • Formas variantes de proteínas producidas por variación genética natural, edición de ARN , empalme alternativo, procesamiento proteolítico y modificación postraduccional

Las entradas anotadas se someten a control de calidad antes de su inclusión en UniProtKB / Swiss-Prot. Cuando hay nuevos datos disponibles, las entradas se actualizan.

UniProtKB / TrEMBL [ editar ]

UniProtKB / TrEMBL contiene registros analizados computacionalmente de alta calidad, que están enriquecidos con anotaciones automáticas. Se introdujo en respuesta al aumento del flujo de datos resultante de los proyectos de genoma, ya que el proceso de anotación manual de UniProtKB / Swiss-Prot, que requiere mucho tiempo y trabajo, no podía ampliarse para incluir todas las secuencias de proteínas disponibles. [10] Las traducciones de secuencias codificantes anotadas en la base de datos de secuencias de nucleótidos EMBL-Bank / GenBank / DDBJ se procesan automáticamente y se ingresan en UniProtKB / TrEMBL. UniProtKB / TrEMBL también contiene secuencias de PDB y de predicción de genes, incluidos Ensembl , RefSeq y CCDS . [dieciséis]

UniParc [ editar ]

UniProt Archive (UniParc) es una base de datos completa y no redundante, que contiene todas las secuencias de proteínas de las principales bases de datos de secuencias de proteínas disponibles públicamente. [17]Las proteínas pueden existir en varias bases de datos de origen diferentes y en múltiples copias en la misma base de datos. Para evitar la redundancia, UniParc almacena cada secuencia única solo una vez. Se fusionan secuencias idénticas, independientemente de si son de la misma especie o de especies diferentes. A cada secuencia se le asigna un identificador único y estable (UPI), lo que permite identificar la misma proteína a partir de diferentes bases de datos. UniParc contiene solo secuencias de proteínas, sin anotaciones. Las referencias cruzadas de la base de datos en las entradas de UniParc permiten recuperar más información sobre la proteína de las bases de datos de origen. Cuando las secuencias en las bases de datos de origen cambian, UniParc realiza un seguimiento de estos cambios y se archiva el historial de todos los cambios.

Bases de datos de origen [ editar ]

Actualmente, UniParc contiene secuencias de proteínas de las siguientes bases de datos disponibles públicamente:

  • INSDC EMBL -Bank / DDBJ / GenBank bases de datos de secuencias de nucleótidos
  • Ensembl
  • Oficina Europea de Patentes (EPO)
  • FlyBase: el depósito principal de datos genéticos y moleculares de la familia de insectos Drosophilidae (FlyBase)
  • Base de datos H-Invitational (H-Inv)
  • Índice internacional de proteínas (IPI)
  • Oficina de Patentes de Japón (JPO)
  • Recurso de información sobre proteínas (PIR-PSD)
  • Banco de datos de proteínas (PDB)
  • Fundación de Investigación de Proteínas (PRF) [18]
  • RefSeq
  • Base de datos del genoma de Saccharomyces (SGD)
  • El recurso de información de Arabidopsis (TAIR)
  • TROMO [19]
  • Oficina de Patentes de EE. UU. (USPTO)
  • Isoformas de proteínas UniProtKB / Swiss-Prot, UniProtKB / Swiss-Prot, UniProtKB / TrEMBL
  • Base de datos de anotaciones de vertebrados y genomas (VEGA)
  • WormBase

UniRef [ editar ]

Los grupos de referencia UniProt (UniRef) constan de tres bases de datos de conjuntos agrupados de secuencias de proteínas de UniProtKB y registros UniParc seleccionados. [20] La base de datos UniRef100 combina secuencias idénticas y fragmentos de secuencia (de cualquier organismo ) en una sola entrada UniRef. Se muestran la secuencia de una proteína representativa, los números de acceso de todas las entradas fusionadas y los enlaces a los registros UniProtKB y UniParc correspondientes. Las secuencias de UniRef100 se agrupan utilizando el algoritmo CD-HIT para construir UniRef90 y UniRef50. [20] [21]Cada grupo está compuesto por secuencias que tienen al menos 90% o 50% de identidad de secuencia, respectivamente, con la secuencia más larga. La agrupación de secuencias reduce significativamente el tamaño de la base de datos, lo que permite búsquedas de secuencias más rápidas.

UniRef está disponible en el sitio FTP de UniProt .

Financiamiento [ editar ]

UniProt está financiado por subvenciones del Instituto Nacional de Investigación del Genoma Humano , los Institutos Nacionales de Salud (NIH), la Comisión Europea , el Gobierno Federal Suizo a través de la Oficina Federal de Educación y Ciencia, NCI-caBIG y el Departamento de Defensa de EE. UU. [11]

Referencias [ editar ]

  1. ^ UniProt, Consorcio. (Enero de 2015). "UniProt: un centro de información sobre proteínas" . Investigación de ácidos nucleicos . 43 (Problema de la base de datos): D204–12. doi : 10.1093 / nar / gku989 . PMC  4384041 . PMID  25348405 .
  2. ^ Dayhoff, Margaret O. (1965). Atlas de secuencia y estructura de proteínas . Silver Spring, Md: Fundación Nacional de Investigación Biomédica.
  3. ^ "Lanzamiento de 2002: NHGRI Funds Global Protein Database" . Instituto Nacional de Investigación del Genoma Humano (NHGRI) . Consultado el 14 de abril de 2018 .
  4. O'Donovan, C .; Martin, MJ; Gattiker, A .; Gasteiger, E .; Bairoch, A .; Apweiler, R. (2002). "Recurso de conocimiento sobre proteínas de alta calidad: SWISS-PROT y TrEMBL" . Briefings en Bioinformática . 3 (3): 275–284. doi : 10.1093 / bib / 3.3.275 . PMID 12230036 . 
  5. ^ Wu, CH; Yeh, LS; Huang, H .; Arminski, L .; Castro-Alvear, J .; Chen, Y .; Hu, Z .; Kourtesis, P .; Ledley, RS; Suzek, BE; Vinayaka, CR; Zhang, J .; Barker, WC (2003). "El recurso de información de proteínas" . Investigación de ácidos nucleicos . 31 (1): 345–347. doi : 10.1093 / nar / gkg040 . PMC 165487 . PMID 12520019 .  
  6. ^ Boeckmann, B .; Bairoch, A .; Apweiler, R .; Blatter, MC; Estreicher, A .; Gasteiger, E .; Martin, MJ; Michoud, K .; O'Donovan, C .; Phan, I .; Pilbout, S .; Schneider, M. (2003). "La base de conocimientos de proteínas SWISS-PROT y su suplemento TrEMBL en 2003" . Investigación de ácidos nucleicos . 31 (1): 365–370. doi : 10.1093 / nar / gkg095 . PMC 165542 . PMID 12520024 .  
  7. ^ Bairoch, A .; Apweiler, R. (1996). "El banco de datos de secuencias de proteínas SWISS-PROT y su nuevo complemento TREMBL" . Investigación de ácidos nucleicos . 24 (1): 21-25. doi : 10.1093 / nar / 24.1.21 . PMC 145613 . PMID 8594581 .  
  8. ^ Bairoch, A. (2000). "¡Serendipia en bioinformática, las tribulaciones de un bioinformático suizo a través de tiempos emocionantes!" . Bioinformática . 16 (1): 48–64. doi : 10.1093 / bioinformatics / 16.1.48 . PMID 10812477 . 
  9. ^ Séverine Altairac, " Naissance d'une banque de données: Interview du prof. Amos Bairoch ". Protéines à la Une , agosto de 2006. ISSN 1660-9824 . 
  10. ^ a b c Apweiler, R .; Bairoch, A .; Wu, CH (2004). "Bases de datos de secuencias de proteínas". Opinión actual en biología química . 8 (1): 76–80. doi : 10.1016 / j.cbpa.2003.12.004 . PMID 15036160 . 
  11. ↑ a b Uniprot, C. (2009). "El recurso proteico universal (UniProt) en 2010" . Investigación de ácidos nucleicos . 38 (Problema de la base de datos): D142 – D148. doi : 10.1093 / nar / gkp846 . PMC 2808944 . PMID 19843607 .  
  12. ^ "Estadísticas de UniProtKB / Swiss-Prot Release 2018_03" . web.expasy.org . Consultado el 14 de abril de 2018 .
  13. ^ EMBL-EBI. "Estadísticas de versiones actuales <Uniprot <EMBL-EBI" . www.ebi.ac.uk . Consultado el 14 de abril de 2018 .
  14. ^ a b c "¿Cómo anotamos manualmente una entrada de UniProtKB?" . www.uniprot.org . Consultado el 14 de abril de 2018 .
  15. ↑ a b Apweiler, R .; Bairoch, A .; Wu, CH; Barker, WC; Boeckmann, B .; Ferro, S .; Gasteiger, E .; Huang, H .; Lopez, R .; Magrane, M .; Martin, MJ; Natale, DA; O'Donovan, C .; Redaschi, N .; Sí, LS (2004). "UniProt: la base de conocimientos de Universal Protein" . Investigación de ácidos nucleicos . 32 (90001): 115D – 1119. doi : 10.1093 / nar / gkh131 . PMC 308865 . PMID 14681372 .  
  16. ^ "¿De dónde provienen las secuencias de la proteína UniProtKB?" . www.uniprot.org . Consultado el 14 de abril de 2018 .
  17. ^ Leinonen, R .; Diez, FG; Binns, D .; Fleischmann, W .; Lopez, R .; Apweiler, R. (2004). "Archivo UniProt" . Bioinformática . 20 (17): 3236–3237. doi : 10.1093 / bioinformatics / bth191 . PMID 15044231 . 
  18. ^ http://www.prf.or.jp/index-e.html
  19. ^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome
  20. ^ a b Suzek, BE; Huang, H .; McGarvey, P .; Mazumder, R .; Wu, CH (2007). "UniRef: Clústeres de referencia UniProt completos y no redundantes" . Bioinformática . 23 (10): 1282-1288. doi : 10.1093 / bioinformatics / btm098 . PMID 17379688 . 
  21. ^ Li, W .; Jaroszewski, L .; Godzik, A. (2001). "Agrupación de secuencias altamente homólogas para reducir el tamaño de grandes bases de datos de proteínas" . Bioinformática . 17 (3): 282-283. doi : 10.1093 / bioinformatics / 17.3.282 . PMID 11294794 . 

Enlaces externos [ editar ]

  • UniProt