La base de datos de polimorfismo de nucleótido único [1] (dbSNP) es un archivo público gratuito para la variación genética dentro y entre diferentes especies desarrollado y alojado por el Centro Nacional de Información Biotecnológica (NCBI) en colaboración con el Instituto Nacional de Investigación del Genoma Humano (NHGRI). Aunque el nombre de la base de datos implica una colección de una clase de polimorfismos solamente (es decir, polimorfismos de un solo nucleótido (SNP)), de hecho contiene un rango de variación molecular: (1) SNP , (2) polimorfismos cortos de deleción e inserción ( indels / DIPs), (3) microsatélitemarcadores o repeticiones cortas en tándem (STR), (4) polimorfismos multinucleotídicos (MNP), (5) secuencias heterocigotas y (6) variantes con nombre. [2] El dbSNP acepta polimorfismos aparentemente neutros, polimorfismos correspondientes a fenotipos conocidos y regiones sin variación. Fue creado en septiembre de 1998 para complementar GenBank , la colección de NCBI de secuencias de proteínas y ácidos nucleicos disponibles públicamente. [2]
Contenido | |
---|---|
Descripción | Base de datos de polimorfismo de un solo nucleótido |
Organismos | Homo sapiens |
Contacto | |
Centro de Investigación | Centro Nacional de Información Biotecnológica |
Cita primaria | PMID 21097890 |
Fecha de lanzamiento | 1998 |
Acceso | |
Formato de datos | ASN.1 , Fasta , XML |
Sitio web | www |
URL de descarga | ftp://ftp.ncbi.nih.gov/snp/ |
URL del servicio web | JABÓN EUtils |
En 2017, NCBI detuvo el apoyo a todos los organismos no humanos en dbSNP. [3] A partir de la compilación 153 (lanzada en agosto de 2019), dbSNP había acumulado casi 2 mil millones de presentaciones que representan más de 675 millones de variantes distintas para Homo sapiens .
Propósito
dbSNP es un recurso en línea implementado para ayudar a los investigadores en biología . Su objetivo es actuar como una única base de datos que contiene todas las variaciones genéticas identificadas, que se puede utilizar para investigar una amplia variedad de fenómenos naturales de base genética. Específicamente, el acceso a la variación molecular catalogada dentro de dbSNP ayuda a la investigación básica como mapeo físico, genética de poblaciones , investigaciones sobre relaciones evolutivas, además de poder cuantificar rápida y fácilmente la cantidad de variación en un sitio de interés dado. Además, dbSNP guía la investigación aplicada en farmacogenómica y la asociación de la variación genética con los rasgos fenotípicos. [4] Según el sitio web del NCBI, "La inversión a largo plazo en una investigación tan novedosa y emocionante [dbSNP] promete no solo avanzar en la biología humana, sino también revolucionar la práctica de la medicina moderna".
Sumisión
1. Fuente
Originalmente, dbSNP acepta presentaciones para cualquier organismo de una amplia variedad de fuentes, incluidos laboratorios de investigación individuales, esfuerzos colaborativos de descubrimiento de polimorfismos, centros de secuenciación del genoma a gran escala, otras bases de datos SNP (por ejemplo, el consorcio SNP, HapMap , etc.) y empresas privadas. [5] El 1 de septiembre de 2017, dbSNP dejó de aceptar envíos de datos de variantes no humanas y dos meses después, sus sitios web interactivos y los servicios NCBI relacionados dejaron de presentar datos de variantes no humanas. Ahora dbSNP solo acepta y presenta datos de variantes humanas.
2. Tipos de registros
Cada variación enviada recibe un número de identificación SNP enviada ("ss #"). [5] Este número de acceso es un identificador único y estable para esa presentación. Los registros SNP únicos enviados también reciben un número de identificación SNP de referencia (“rs #”; "grupo refSNP"). Sin embargo, es probable que se envíe más de un registro de una variación a dbSNP, especialmente para variaciones clínicamente relevantes. Para adaptarse a esto, dbSNP ensambla rutinariamente registros SNP enviados idénticos en un solo registro SNP de referencia, que también es un identificador único y estable (ver más abajo). [4]
3. Cómo enviar
Para enviar variaciones a dbSNP, primero se debe adquirir un identificador de remitente, que identifica al laboratorio responsable del envío. [4] A continuación, se requiere que el autor complete un archivo de envío que contenga la información y los datos relevantes. Los registros enviados deben contener los diez datos esenciales que se enumeran en la siguiente tabla. [4] Otra información requerida para las presentaciones incluye información de contacto, información de publicación (título, revista, autores, año), tipo de molécula ( ADN genómico , ADNc , ADN mitocondrial , ADN de cloroplasto ) y organismo. [4] Puede encontrar información más detallada sobre cómo enviar a dbSNP en: Cómo enviar a dbSNP
Elemento | Explicación |
---|---|
Contexto de secuencia (obligatorio) | Un componente esencial de un envío a dbSNP es una ubicación inequívoca para la variación que se envía. dbSNP ahora requiere como mínimo que envíe la ubicación de la variante como una posición afirmada en las secuencias de RefSeq o INSDC. |
Alelos (requerido) | Los alelos definen cada clase de variación. dbSNP define variantes de un solo nucleótido en su esquema de presentación como G, A, T o C, y no permite códigos IUPAC ambiguos, como N, en la definición de alelo de una variación. |
Método (requerido) | Cada remitente define los métodos en su presentación como las técnicas utilizadas para analizar la variación o las técnicas utilizadas para estimar las frecuencias alélicas. dbSNP agrupa los métodos por clase de método para facilitar las consultas utilizando una técnica experimental general como campo de consulta. El remitente proporciona todos los demás detalles de las técnicas en una descripción de texto libre del método. |
Origen del alelo afirmado (obligatorio) | Un remitente puede proporcionar una declaración (afirmación) con evidencia experimental de respaldo de que una variante tiene un origen alélico particular. Las afirmaciones para un solo refSNP se resumen y se les asigna un valor de atributo de línea germinal o desconocido. |
Población (obligatorio) | Cada remitente define las muestras de población como el grupo utilizado para identificar inicialmente las variaciones o como el grupo utilizado para identificar las medidas de frecuencias alélicas específicas de la población. Estas poblaciones pueden ser una y la misma en algunos diseños experimentales. |
Tamaño de muestra (opcional) | Hay dos campos de tamaño de muestra en dbSNP. Un campo, SNPASSAY SAMPLE SIZE, informa el número de cromosomas en la muestra utilizada para determinar o descubrir inicialmente la variación. El otro campo de tamaño de muestra, SNPPOPUSE SAMPLE SIZE, informa el número de cromosomas utilizados como denominador para calcular estimaciones de frecuencias alélicas. |
Frecuencias alélicas específicas de la población (opcional) | Los datos de frecuencia se envían a dbSNP como recuentos de alelos o intervalos de frecuencia agrupados, según la precisión del método experimental utilizado para realizar la medición. dbSNP contiene registros de frecuencias alélicas para muestras de poblaciones específicas que son definidas por cada remitente y utilizadas para validar las variaciones enviadas. |
Frecuencias de genotipo específicas de la población (opcional) | Al igual que los alelos, los genotipos tienen frecuencias en las poblaciones que pueden enviarse a dbSNP y se utilizan para validar las variaciones enviadas. |
Genotipos individuales | dbSNP acepta genotipos individuales de muestras proporcionadas por donantes que han dado su consentimiento para que su secuencia de ADN se guarde en una base de datos pública (por ejemplo, HapMap o el proyecto 1000 Genomes). |
Información de validación (opcional) | Los ensayos validados directamente por el remitente a través de la sección VALIDACIÓN muestran el tipo de evidencia utilizada para confirmar la variación. |
Lanzamiento
La nueva información obtenida por dbSNP se pone a disposición del público periódicamente en una serie de "compilaciones" (es decir, revisiones y publicaciones de datos). [4] No hay un calendario para el lanzamiento de nuevas construcciones; en cambio, las compilaciones generalmente se publican cuando una nueva compilación del genoma está disponible, asumiendo que el genoma tiene alguna variación catalogada asociada. [6] Esto ocurre aproximadamente cada 3 a 4 meses. Las secuencias del genoma pueden mejorarse con el tiempo, por lo que los SNP de referencia ("refSNP") de construcciones anteriores, así como los nuevos SNP enviados, se vuelven a mapear en la secuencia del genoma recién disponible. Varios SNP enviados, si se asignan a la misma ubicación, se agrupan en un grupo refSNP y se les asigna un número de identificación de SNP de referencia. Sin embargo, si se encuentran dos registros de clúster refSNP que se asignan a la misma ubicación (es decir, son idénticos), dbSNP también fusionará esos registros. En este caso, el ID de número refSNP más pequeño (es decir, el registro más antiguo) ahora representaría ambos registros, y los ID de número refSNP más grandes quedarían obsoletos. Estos ID de números refSNP obsoletos y no se vuelven a utilizar para nuevos registros. Cuando se produce una fusión de dos registros refSNP, se realiza un seguimiento del cambio y los ID de números de refSNP anteriores aún se pueden usar como una consulta de búsqueda. Este proceso de fusionar registros idénticos reduce la redundancia dentro de dbSNP. [6]
Hay dos excepciones a los criterios de fusión anteriores. Primero, la variación de diferentes clases (por ejemplo, un SNP y un DIP) no se fusionan. En segundo lugar, los refSNP clínicamente importantes que se han citado en la literatura se denominan “preciosos”; nunca se realiza una fusión que eliminaría tal refSNP, ya que luego podría causar confusión. [6]
Recuperación
1. Cómo
El dbSNP se puede buscar utilizando la herramienta de búsqueda Entrez SNP. Se puede utilizar una variedad de consultas para buscar: un ID de número ss, un ID de número refSNP, un nombre de gen, un método experimental, una clase de población, un detalle de población, una publicación, un marcador, un alelo, un cromosoma, una base posición, un rango de heterocigosidad o un número de construcción. [6] [7] Además, muchos resultados se pueden recuperar simultáneamente mediante consultas por lotes. [6] Las búsquedas devuelven ID de números de refSNP que coinciden con el término de la consulta y un resumen de la información disponible para ese clúster de refSNP.
2. Herramientas / Datos
La información disponible para un grupo refSNP incluye la información básica de cada una de las presentaciones individuales (ver "Presentación"), así como la información disponible de la combinación de los datos de múltiples presentaciones (por ejemplo, heterocigosidad, frecuencias de genotipos). Hay muchas herramientas disponibles para examinar un clúster refSNP con mayor profundidad. La vista de mapa muestra la posición de la variación en el genoma y otras variaciones cercanas. Otra herramienta, la vista de genes, informa la ubicación de la variación dentro de un gen (si está en un gen), el codón antiguo y el nuevo, los aminoácidos codificados por ambos y si el cambio es sinónimo o no. El visor de secuencias muestra la posición de la variante en relación con los intrones , exones y otras variantes cercanas y distantes. También está disponible el mapeo de estructuras en 3D, que muestra imágenes en 3D de la proteína codificada.
El dbSNP también está vinculado a muchos otros recursos del NCBI, incluidas las bases de datos de nucleótidos , proteínas , genes , taxonomía y estructura, así como PubMed , UniSTS, PMC , OMIM y UniGene.
3. Estado de validación
El estado de validación enumera las categorías de evidencia que respaldan una variante. Estos incluyen: (1) múltiples presentaciones independientes; (2) datos de frecuencia o genotipo; (3) confirmación del remitente; (4) observación de todos los alelos en al menos dos cromosomas; (5) genotipado por HapMap ; y (6) secuenciados en el Proyecto 1000 Genomas . [6]
Problemas
La calidad de los datos encontrados en dbSNP ha sido cuestionada por muchos grupos de investigación, [8] [9] [10] [11] [12] [13] que sospechan altas tasas de falsos positivos debido a errores de genotipado y de llamada de base. Estos errores se pueden ingresar fácilmente en dbSNP si el remitente usa (1) alineamientos bioinformáticos no críticos de secuencias de ADN muy similares pero distintas, y / o (2) PCR con cebadores que no pueden discriminar entre secuencias de ADN similares pero distintas. [8] Mitchell y col. (2004) [9] revisó cuatro estudios [10] [11] [12] [13] y concluyó que el dbSNP tiene una tasa de falsos positivos entre el 15% y el 17% para los SNP, y también que la frecuencia de los alelos menores es superior al 10% para aproximadamente el 80% de los SNP que no son falsos positivos. Del mismo modo, Musemeci et al. (2010) [8] afirma que hasta el 8,32% de los SNP codificadores bialélicos en dbSNP son artefactos de secuencias de ADN muy similares (es decir, genes parálogos) y se refieren a estas entradas como diferencias de un solo nucleótido (SND). Las altas tasas de error en dbSNP pueden no sorprender: de los 23,7 millones de entradas de refSNP para humanos, solo se han validado 14,5 millones, dejando los 9,2 millones restantes como SNP candidatos. Sin embargo, según Musemeci et al. (2010), [8] incluso el código de validación proporcionado en el registro refSNP es solo parcialmente útil: solo la validación de HapMap redujo el número de SND (3% vs 8%), pero solo aceptar este método elimina más de la mitad de los SNP reales en el dbSNP. Estos autores también señalan que una fuente de presentaciones del grupo Lee está plagada de errores: el 20% de estas presentaciones son SND (frente al 8% de las presentaciones). Sin embargo, como señalan los autores, ignorar todas estas presentaciones eliminaría muchos SNP reales.
Los errores en el dbSNP pueden obstaculizar los estudios de asociación de genes candidatos [14] y las investigaciones basadas en haplotipos . [15] Los errores también pueden aumentar las conclusiones falsas en los estudios de asociación: [8] aumentar el número de SNP que se prueban probando SNP falsos requiere más pruebas de hipótesis. Sin embargo, estos SNP falsos en realidad no pueden asociarse con rasgos, por lo que el nivel alfa disminuye más de lo necesario para una prueba rigurosa si solo se probaron los SNP verdaderos y aumentará la tasa de falsos negativos. Musemeci y col. (2010) [8] sugirió que los autores de estudios de asociación negativa inspeccionen sus estudios anteriores en busca de SNP falsos (SND), que podrían eliminarse del análisis.
Cómo citar datos de dbSNP
Se puede hacer referencia a secuencias individuales por sus números de ID de grupo refSNP (por ejemplo, rs206437). Se debe hacer referencia a dbSNP usando el 2001 Sherry et al. artículo: Sherry, ST, Ward, MH, Kholodov, M., Baker, J., Phan, L., Smigielski, EM, Sirotkin, K. (2001). dbSNP: la base de datos NCBI de variación genética. Investigación de ácidos nucleicos, 29: 308-311. [5]
Ver también
- SNPedia
- HapMap
- NCBI
- NHGRI
Referencias
- ^ Wheeler DL, Barrett T, Benson DA y col. (Enero de 2007). "Base de datos de recursos del Centro Nacional de Información Biotecnológica" . Ácidos nucleicos Res . 35 (Problema de la base de datos): D5–12. doi : 10.1093 / nar / gkl1031 . PMC 1781113 . PMID 17170002 .
- ^ a b Sherry ST, Ward M; Sirotkin, K. (1999). "dbSNP - base de datos para polimorfismos de un solo nucleótido y otras clases de variación genética menor". Investigación del genoma . 9 (8): 677–679. doi : 10.1101 / gr.9.8.677 (inactivo 2021-01-17). PMID 10447503 .Mantenimiento de CS1: DOI inactivo a partir de enero de 2021 ( enlace )
- ^ "Eliminación progresiva del soporte para datos de organismos del genoma no humano en dbSNP y dbVar" . 2017-05-09 . Consultado el 9 de julio de 2017 .
- ^ a b c d e f Kitts A; Jerez S (2009). "La base de datos de polimorfismo de un solo nucleótido (dbSNP) de variación de secuencia de nucleótidos" . Centro Nacional de Información Biotecnológica (EE. UU.). Cite journal requiere
|journal=
( ayuda ) - ^ a b c Sherry ST, Ward MH, Kholodov M, Baker J, Phan L, Smigielski EM, Sirotkin K, et al. (2001). "dbSNP: la base de datos NCBI de variación genética" . Ácidos nucleicos Res . 29 (1): 308–311. doi : 10.1093 / nar / 29.1.308 . PMC 29783 . PMID 11125122 .
- ^ a b c d e f NCBI (2010). "Preguntas frecuentes de la base de datos de polimorfismo de un solo nucleótido (dbSNP)" . Centro Nacional de Información Biotecnológica (EE. UU.). Cite journal requiere
|journal=
( ayuda ) - ^ Phillips, C (2007). "Recursos en línea para el análisis SNP: una revisión y un mapa de ruta". Biotecnología molecular . 35 (1): 65–97. doi : 10.1385 / MB: 35: 1: 65 . PMID 17401150 . S2CID 8569553 .
- ^ a b c d e f Musemeci L, Arthur JW, Cheung FS, Hoque S, Lippman S, Reichardt JK, et al. (Enero de 2010). "Las diferencias de un solo nucleótido (SND) en la base de datos dbSNP pueden provocar errores en los estudios de genotipado y haplotipado" . Mutación humana . 31 (1): 67–73. doi : 10.1002 / humu.21137 . PMC 2797835 . PMID 19877174 .
- ^ a b Mitchell AA, Zwick ME, Chakravarti A, Cutler DJ, et al. (2004). "Discrepancias en las tasas de confirmación de dbSNP y distribuciones de frecuencia de alelos de diferentes patrones y tasas de error de genotipado". Bioinformática . 20 (7): 1022–1032. doi : 10.1093 / bioinformatics / bth034 . PMID 14764571 .
- ^ a b Carlson CS, Eberle MA, Rieder MJ, Smith JD, Kruglyak L, Nickerson DA, et al. (2003). "SNPs adicionales y análisis de desequilibrio de ligamiento son necesarios para estudios de asociación de genoma completo en humanos". Genética de la naturaleza . 33 (4): 518–521. doi : 10.1038 / ng1128 . PMID 12652300 . S2CID 11640599 .
- ^ a b Cutler DJ, Zwick ME, Carrasquillo MM, Yohn CT, Tobin KP, Kashuk C, Matthews DJ, Shah NA, Elchler EE, Warrington JA, Chakravarti A, et al. (2001). "Detección de variaciones de alto rendimiento y genotipado mediante microarrays" . Investigación del genoma . 11 (11): 1913-1925. doi : 10.1101 / gr.197201 . PMC 311146 . PMID 11691856 .
- ^ a b Gabriel SB; Schaffner SF; Nguyen H; Moore JM; Roy J; Blumenstiel B; Higgins J; DeFelice M; Lochner A; Faggart M; Liu-Cordero SN; Rotimi C; Adeyemo A; Cooper R; Ward R; Lander ES; Daly MJ; Altshuler D; et al. (2003). "La estructura de los bloques de haplotipos en el genoma humano". Ciencia . 296 (5576): 2225–2229. doi : 10.1126 / science.1069424 . PMID 12029063 . S2CID 10069634 .
- ^ a b Reich DE, Gabriel SB, Altshuler D, et al. (2003). "Calidad e integridad de las bases de datos SNP". Genética de la naturaleza . 33 (4): 457–458. doi : 10.1038 / ng1133 . PMID 12652301 . S2CID 6303430 .
- ^ Dvornyk V, Long JR, Xiong DH, Liu PY, Zhao LJ, Shen H, Zhang YY, Liu YJ, Rocha-Sancher S, Xiao P, Recker RR, Deng HW, et al. (2004). "Limitaciones actuales de los datos de SNP del dominio público para estudios de trastornos complejos: una prueba para diez genes candidatos para la obesidad y la osteoporosis" . BMC Genetics . 5 : 4. Doi : 10.1186 / 1471-2156-5-4 . PMC 395827 . PMID 15113403 .
- ^ de Bakker PI; Yelensky R; Pe'er I; Gabriel SB; Daly MJ; Altshuler D; et al. (2005). "Eficiencia y potencia en estudios de asociación genética". Genética de la naturaleza . 37 (11): 1217-1223. doi : 10.1038 / ng1669 . PMID 16244653 . S2CID 15464860 .
enlaces externos
- dbSNP inicio
- NCBI