Rfam es una base de datos que contiene información sobre familias de ARN no codificante (ncRNA) y otros elementos de ARN estructurado. Es una anotada , el acceso abierto base de datos desarrollada originalmente en el Wellcome Trust Sanger Institute en colaboración con Janelia Granja , [1] [2] [3] [4] y actualmente alojado en el Instituto Europeo de Bioinformática . [5] Rfam está diseñado para ser similar a la base de datos Pfam para anotar familias de proteínas.
Contenido | |
---|---|
Descripción | La base de datos Rfam proporciona alineaciones, estructuras secundarias de consenso y modelos de covarianza para familias de ARN. |
Tipos de datos capturados | Familias de ARN |
Organismos | todas |
Contacto | |
Centro de Investigación | EBI |
Cita primaria | PMID 33211869 |
Acceso | |
Formato de datos | Formato de Estocolmo |
Sitio web | rfam |
URL de descarga | FTP |
Diverso | |
Licencia | Dominio publico |
Entidades que se pueden marcar | sí |
A diferencia de las proteínas , los ncRNA a menudo tienen una estructura secundaria similar sin compartir mucha similitud en la secuencia primaria . Rfam divide los ARNc en familias según la evolución de un ancestro común. La producción de alineamientos de secuencia múltiple (MSA) de estas familias puede proporcionar información sobre su estructura y función, similar al caso de las familias de proteínas. Estos MSA se vuelven más útiles con la adición de información de estructura secundaria. Rfam investigadores también contribuyen a Wikipedia 's ARN WikiProject . [4] [6]
Usos
La base de datos Rfam se puede utilizar para una variedad de funciones. Para cada familia de ARNc, la interfaz permite a los usuarios: ver y descargar múltiples alineaciones de secuencias; leer anotación; y examinar la distribución de especies de los miembros de la familia. También se proporcionan enlaces a referencias bibliográficas y otras bases de datos de ARN. Rfam también proporciona enlaces a Wikipedia para que los usuarios puedan crear o editar entradas.
La interfaz en el sitio web de Rfam permite a los usuarios buscar ncRNA por palabra clave, apellido o genoma, así como buscar por secuencia de ncRNA o número de acceso EMBL . [1] La información de la base de datos también está disponible para su descarga, instalación y uso mediante el paquete de software INFERNAL. [7] [8] [9] El paquete INFERNAL también se puede utilizar con Rfam para anotar secuencias (incluidos genomas completos) para homólogos de ncRNA conocidos.
Métodos
En la base de datos, la información de la estructura secundaria y la secuencia primaria , representada por el MSA , se combina en modelos estadísticos denominados gramáticas libres de contexto estocásticas de perfil (SCFG), también conocidas como modelos de covarianza. Estos son análogos a los modelos ocultos de Markov utilizados para la anotación de familias de proteínas en la base de datos Pfam . [1] Cada familia en la base de datos está representada por dos alineaciones de secuencia múltiple en formato de Estocolmo y un SCFG.
El primer MSA es la alineación "semilla". Es una alineación curada a mano que contiene miembros representativos de la familia ncRNA y está anotada con información estructural. Esta alineación de semillas se usa para crear el SCFG, que se usa con el software INFERNAL de Rfam para identificar miembros adicionales de la familia y agregarlos a la alineación. Se elige un valor umbral específico de la familia para evitar falsos positivos.
Hasta la versión 12, Rfam utilizó un paso de filtrado BLAST inicial porque los SCFG de perfil eran demasiado costosos desde el punto de vista computacional. Sin embargo, las últimas versiones de INFERNAL son lo suficientemente rápidas [10] para que el paso BLAST ya no sea necesario. [11]
El segundo MSA es la alineación "completa" y se crea como resultado de una búsqueda utilizando el modelo de covarianza contra la base de datos de secuencias. Todos los homólogos detectados se alinean con el modelo, lo que proporciona la alineación completa producida automáticamente.
Historia
La versión 1.0 de Rfam se lanzó en 2003 y contenía 25 familias de ncRNA y anotó alrededor de 50 000 genes de ncRNA. En 2005, se lanzó la versión 6.1 y contenía 379 familias con más de 280 000 genes. En agosto de 2012, la versión 11.0 contenía 2208 familias de ARN, mientras que la versión actual (14.1) anota 3016 familias.
Problemas
- Los genomas de eucariotas superiores contienen muchos pseudogenes y repeticiones derivados de ncRNA . Distinguir estas copias no funcionales del ncRNA funcional es un desafío formidable. [2]
- Los intrones no se modelan mediante modelos de covarianza.
Referencias
- ^ a b Griffiths-Jones S, Bateman A, Marshall M, Khanna A, Eddy SR (2003). "Rfam: una base de datos de la familia de ARN" . Ácidos nucleicos Res . 31 (1): 439–41. doi : 10.1093 / nar / gkg006 . PMC 165453 . PMID 12520045 .
- ^ a b Griffiths-Jones S, Moxon S, Marshall M, Khanna A, Eddy SR, Bateman A (2005). "Rfam: anotación de ARN no codificantes en genomas completos" . Ácidos nucleicos Res . 33 (Problema de la base de datos): D121–4. doi : 10.1093 / nar / gki081 . PMC 540035 . PMID 15608160 .
- ^ Gardner PP, Daub J, Tate JG y col. (Octubre de 2008). "Rfam: actualizaciones de la base de datos de familias de ARN" . Investigación de ácidos nucleicos . 37 (Problema de la base de datos): D136 – D140. doi : 10.1093 / nar / gkn766 . PMC 2686503 . PMID 18953034 .
- ^ a b Gardner PP, Daub J, Tate J, Moore BL, Osuch IH, Griffiths-Jones S, Finn RD, Nawrocki EP, Kolbe DL, Eddy SR, Bateman A (2011). "Rfam: Wikipedia, clanes y la liberación" decimal " . Ácidos nucleicos Res . 39 (Problema de la base de datos): D141–5. doi : 10.1093 / nar / gkq1129 . PMC 3013711 . PMID 21062808 .
- ^ "Mudarse a xfam.org" . Blog de Xfam . Consultado el 3 de mayo de 2014 .
- ^ Daub J, Gardner PP, Tate J y col. (Octubre de 2008). "El WikiProject de ARN: anotación comunitaria de familias de ARN" . ARN . 14 (12): 2462–4. doi : 10.1261 / rna.1200508 . PMC 2590952 . PMID 18945806 .
- ^ Eddy SR, Durbin R (junio de 1994). "Análisis de secuencia de ARN mediante modelos de covarianza" . Investigación de ácidos nucleicos . 22 (11): 2079–88. doi : 10.1093 / nar / 22.11.2079 . PMC 308124 . PMID 8029015 .
- ^ Eddy SR (2002). "Un algoritmo de programación dinámica de memoria eficiente para la alineación óptima de una secuencia a una estructura secundaria de ARN" . BMC Bioinformática . 3 : 18. doi : 10.1186 / 1471-2105-3-18 . PMC 119854 . PMID 12095421 .
- ^ Nawrocki EP, Eddy SR (2013). "Infernal 1.1: búsquedas de homología de ARN 100 veces más rápidas" . Bioinformática . 29 (22): 2933–5. doi : 10.1093 / bioinformatics / btt509 . PMC 3810854 . PMID 24008419 .
- ^ Nawrocki, Eric P .; Eddy, Sean R. (15 de noviembre de 2013). "Infernal 1.1: búsquedas de homología de ARN 100 veces más rápidas" . Bioinformática . 29 (22): 2933-2935. doi : 10.1093 / bioinformatics / btt509 . ISSN 1367-4811 . PMC 3810854 . PMID 24008419 .
- ^ Nawrocki, Eric P .; Burge, Sarah W .; Bateman, Alex; Daub, Jennifer; Eberhardt, Ruth Y .; Eddy, Sean R .; Floden, Evan W .; Gardner, Paul P .; Jones, Thomas A. (enero de 2015). "Rfam 12.0: actualizaciones de la base de datos de familias de ARN" . Investigación de ácidos nucleicos . 43 (Problema de la base de datos): D130-137. doi : 10.1093 / nar / gku1063 . ISSN 1362-4962 . PMC 4383904 . PMID 25392425 .
enlaces externos
- Sitio web de Rfam en el Instituto Europeo de Bioinformática
- Paquete de software INFERNAL
- miRBase