UniProt


UniProt es una base de datos de libre acceso de secuencia de proteínas e información funcional, muchas de las entradas se derivan de proyectos de secuenciación del genoma . Contiene una gran cantidad de información sobre la función biológica de las proteínas derivada de la literatura de investigación. Lo mantiene el consorcio UniProt, que consta de varias organizaciones bioinformáticas europeas y una fundación de Washington, DC , Estados Unidos.

El consorcio UniProt está formado por el Instituto Europeo de Bioinformática (EBI), el Instituto Suizo de Bioinformática (SIB) y el Protein Information Resource (PIR). EBI, ubicado en el Wellcome Trust Genome Campus en Hinxton, Reino Unido, alberga un gran recurso de bases de datos y servicios de bioinformática. SIB, con sede en Ginebra, Suiza, mantiene los servidores ExPASy (Expert Protein Analysis System) que son un recurso central para las herramientas y bases de datos de proteómica. PIR, alojado por la Fundación Nacional de Investigación Biomédica (NBRF) en el Centro Médico de la Universidad de Georgetown en Washington, DC, EE. UU., Es heredero de la base de datos de secuencias de proteínas más antigua, Margaret DayhoffAtlas of Protein Sequence and Structure, publicado por primera vez en 1965. [2] En 2002, EBI, SIB y PIR unieron fuerzas como el consorcio UniProt. [3]

Cada miembro del consorcio está muy involucrado en el mantenimiento y la anotación de la base de datos de proteínas. Hasta hace poco, EBI y SIB producían juntas las bases de datos Swiss-Prot y TrEMBL, mientras que PIR producía la base de datos de secuencias de proteínas (PIR-PSD). [4] [5] [6] Estas bases de datos coexistieron con diferentes prioridades de anotación y cobertura de secuencias de proteínas .

Swiss-Prot fue creado en 1986 por Amos Bairoch durante su doctorado y desarrollado por el Instituto Suizo de Bioinformática y posteriormente desarrollado por Rolf Apweiler en el Instituto Europeo de Bioinformática . [7] [8] [9] Swiss-Prot tenía como objetivo proporcionar secuencias de proteínas confiables asociadas con un alto nivel de anotación (como la descripción de la función de una proteína, su estructura de dominio , modificaciones postraduccionales , variantes, etc. ), un nivel mínimo de redundanciay alto nivel de integración con otras bases de datos. Reconociendo que los datos de secuencia se estaban generando a un ritmo que excedía la capacidad de Swiss-Prot para mantenerse al día, se creó TrEMBL (Translated EMBL Nucleotide Sequence Data Library) para proporcionar anotaciones automatizadas para aquellas proteínas que no están en Swiss-Prot. Mientras tanto, PIR mantuvo el PIR-PSD y las bases de datos relacionadas, incluida iProClass , una base de datos de secuencias de proteínas y familias seleccionadas.

Los miembros del consorcio combinaron sus recursos y experiencia superpuestos y lanzaron UniProt en diciembre de 2003. [10]

UniProt proporciona cuatro bases de datos principales: UniProtKB (con subpartes Swiss-Prot y TrEMBL), UniParc, UniRef.