ANNOVAR ( ANNOtate VARiation ) es una herramienta de software bioinformática para la interpretación y priorización de variantes de un solo nucleótido (SNV), inserciones , deleciones y variantes de número de copias (CNV) de un genoma determinado. [1] Tiene la capacidad de anotar genomas humanos hg18, hg19, hg38 y genomas de organismos modelo como: ratón ( Mus musculus ), pez cebra ( Danio rerio ), mosca de la fruta ( Drosophila melanogaster ) , lombriz intestinal ( Caenorhabditis elegans ), levadura ( Saccharomyces cerevisiae ) y muchos otros. [2]Las anotaciones podrían usarse para determinar las consecuencias funcionales de las mutaciones en los genes y organismos, inferir bandas citogenéticas, informar puntuaciones de importancia funcional y / o encontrar variantes en regiones conservadas. [2] ANNOVAR junto con SNP effect ( SnpEFF ) y Variant Effect Predictor (VEP) son tres de las herramientas de anotación de variantes más utilizadas.
![Aplicación de diagnóstico de amplia descripción general de Annovar.svg](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/9/99/Annovar_broad_overview_diagnosis_application.svg/450px-Annovar_broad_overview_diagnosis_application.svg.png)
Fondo
El costo de la secuenciación de ADN de alto rendimiento se ha reducido drásticamente de alrededor de $ 100 millones / genoma humano en 2001 a alrededor de $ 1000 / genoma humano en 2017. [3] Debido a este aumento en la accesibilidad, la secuenciación de ADN de alto rendimiento se ha vuelto más ampliamente utilizada en investigación y entornos clínicos. [4] [5] Algunas áreas comunes que utilizan ampliamente la secuenciación de ADN de alto rendimiento son: secuenciación del exoma completo , secuenciación del genoma completo (WGS) y estudios de asociación de todo el genoma (GWAS) . [6] [7]
Hay un número creciente de herramientas disponibles que buscan administrar, analizar e interpretar de manera integral la enorme cantidad de datos generados a partir de la secuenciación de ADN de alto rendimiento. Se requiere que las herramientas sean lo suficientemente eficientes y robustas para analizar una gran cantidad de variantes (más de 3 millones en el genoma humano), aunque lo suficientemente sensibles para identificar variantes raras y clínicamente relevantes que probablemente sean dañinas / perjudiciales. [8] ANNOVAR fue desarrollado por el Dr. Kai Wang en 2010 en el Centro de Genómica Aplicada de la Universidad de Pensilvania. [1] Es un tipo de herramienta de anotación de variantes que recopila puntuaciones de predicción de variantes genéticas deletéreas de programas como PolyPhen, ClinVar y CADD y anota las SNV, inserciones, deleciones y CNV del genoma proporcionado. ANNOVAR es una de las primeras herramientas de anotación de variantes eficientes, configurables, extensibles y compatibles entre plataformas creadas.
En términos del flujo de trabajo bioinformático más grande, ANNOVAR encaja casi al final, después de que se hayan predicho las lecturas de secuenciación de ADN entre mapeado, alineado y variantes a partir de un archivo de alineación (BAM), también conocido como llamada de variantes. Este proceso producirá un archivo VCF resultante , un archivo de texto separado por tabulaciones en una estructura tabular, que contiene variantes genéticas como filas. Luego, este archivo se puede utilizar como entrada en el programa de software ANNOVAR para el proceso de anotación de variantes, generando interpretaciones de las variantes identificadas en la tubería de bioinformática anterior.
Tipos de anotación funcional de variantes genéticas.
Anotación basada en genes
Este enfoque identifica si las variantes de entrada causan cambios en la codificación de proteínas y los aminoácidos que se ven afectados por las mutaciones. [9] El archivo de entrada puede estar compuesto por exones, intrones, regiones intergénicas, sitios aceptores / donantes de empalme y regiones no traducidas 5 ′ / 3 ′. El objetivo es explorar la relación entre mutaciones no sinónimos (SNP, indels o CNV) y su impacto funcional en genes conocidos. [10] Especialmente, la anotación basada en genes resaltará el cambio exacto de aminoácidos si la mutación está en la región exónica y el efecto predicho sobre la función del gen conocido. Este enfoque es útil para identificar variantes en genes conocidos a partir de datos de secuenciación del exoma completo.
Anotación basada en región
Este enfoque identifica variantes deletéreas en regiones genómicas específicas basadas en los elementos genómicos alrededor del gen. [11] Algunas de las categorías que se tendrán en cuenta en las anotaciones regionales son:
1) ¿Está la variante en una región genómica conservada conocida?
Las mutaciones ocurren durante la mitosis y la meiosis . Si no hay presión selectiva para secuencias de nucleótidos específicas, entonces todas las áreas de un genoma mutarían a velocidades iguales. Las regiones genómicas que están altamente conservadas indican secuencias genómicas que son esenciales para la supervivencia y / o el éxito reproductivo del organismo. Por tanto, si la variante altera una región muy conservada, es probable que la variante sea muy perjudicial. [12]
2) ¿Está la variante en un sitio de unión del factor de transcripción previsto ?
El ADN se transcribe en ARN mensajero (ARNm) por la ARN polimerasa II . Este proceso puede ser factores de transcripción modulados que pueden potenciar o inhibir la unión de RNApol II. Si la variante altera un sitio de unión del factor de transcripción, entonces la transcripción del gen podría alterarse provocando cambios en el nivel de expresión génica y / o en la cantidad de producción de proteínas. Estos cambios pueden provocar variaciones fenotípicas.
3) ¿Está la variante en un sitio objetivo de miARN predicho ?
El microARN (miARN) es un tipo de ARN que se une de manera complementaria a la secuencia de ARNm dirigida para suprimir o silenciar la traducción del ARNm. Si la variante interrumpe la ubicación objetivo del miARN, el miARN podría haber alterado la afinidad de unión al transcrito del gen correspondiente, cambiando así el nivel de expresión del ARNm del transcrito. Esto podría afectar aún más los niveles de producción de proteínas, lo que podría causar variaciones fenotípicas.
4) ¿Se prevé que la variante interrumpa una estructura secundaria de ARN estable?
El ARN puede funcionar a nivel de ARN como ARN no codificante o traducirse en proteínas para procesos posteriores. Las estructuras secundarias de ARN son extremadamente importantes para determinar la vida media correcta y la función de esos ARN. Dos especies de ARN con estructuras secundarias estrictamente reguladas son el ARN ribosómico (ARNr) y el ARN de transferencia (ARNt), que son esenciales en la traducción del ARNm a proteína. Si la variante altera la estabilidad de la estructura secundaria del ARN, la vida media del ARN podría acortarse, reduciendo así la concentración de ARN en la célula.
Las regiones no codificantes abarcan el 99% del genoma humano [13] y la anotación basada en regiones es extremadamente útil para identificar variantes en esas regiones. Este enfoque se puede utilizar con datos de WGS.
Anotación basada en filtros
Este enfoque identifica variantes que están documentadas en bases de datos específicas. [14] Las variantes pueden obtenerse de dbSNP, 1000 Genomes Project o una lista proporcionada por el usuario. Se podría obtener información adicional a partir de la frecuencia de las variantes de las bases de datos anteriores o las puntuaciones deletéreas previstas creadas por PolyPhen, CADD, ClinVar o muchos otros. [1] Cuanto menos frecuente aparezca una variante en la base de datos pública, es probable que sea más perjudicial. El investigador puede combinar los resultados de diferentes herramientas de predicción de puntuaciones perjudiciales para hacer una llamada más precisa a la variante.
En conjunto, estos enfoques se complementan entre sí para filtrar más de 4 millones de variantes en un genoma humano. Las variantes comunes de puntuación deletérea baja se eliminan para revelar las variantes raras de puntuación deletérea alta que podrían ser causales de enfermedades congénitas.
Información técnica
ANNOVAR es una herramienta de línea de comandos escrita en el lenguaje de programación Perl y se puede ejecutar en cualquier sistema operativo que tenga un intérprete Perl instalado. [1] Si se utiliza con fines no comerciales, está disponible gratuitamente como un paquete de código abierto que se puede descargar a través del sitio web de ANNOVAR. ANNOVAR puede procesar la mayoría de los datos de secuenciación de próxima generación que se han ejecutado a través de un software de llamada variante .
Texto | Propósito | Descripción | Aporte | Producción | Requisitos |
---|---|---|---|---|---|
annotate_variation.pl | anotador de variantes | El script central, que anota funcionalmente las variantes genéticas a través de (1) anotaciones basadas en genes, (2) basadas en regiones y / o (3) basadas en filtros. | .avinput | .avinput | Las fuentes de datos se descargan para su anotación, por ejemplo, hg38, UCSC, 1000 Genomes Project. |
convert2annovar.pl | convertidor de archivos | Convierte varios formatos de archivo al formato de archivo de entrada personalizado ANNOVAR. | Consulte la sección "Conversión al formato de archivo de entrada ANNOVAR". | .avinput | |
table_annovar.pl | anotador de variantes automatizado | Un contenedor annotate_variation.pl que puede tomar el formato VCF junto con el formato ANNOVAR, realiza anotaciones y genera un archivo compatible con Excel. Ideal para principiantes. | .avinput, CSV, TSV, VCF | CSV, TSV, VCF, TXT | Las fuentes de datos se descargan para su anotación, por ejemplo, hg38, UCSC, 1000 Genomes Project. |
variants_reduction.pl | reductor variante | Realiza una reducción de variantes paso a paso en un gran conjunto de variantes de entrada para reducir a un subconjunto de variantes funcionalmente importantes. Los procedimientos de filtrado incluyen: Aplica un procedimiento de filtrado paso a paso para identificar subconjuntos de variantes que probablemente estén relacionadas con una enfermedad. [2] Estos procedimientos de filtrado incluyen: [2]
| .avinput | .avinput | Se descargan fuentes de datos de anotaciones basadas en genes y varias fuentes de datos de anotaciones basadas en filtros. |
Formatos de archivo
El software ANNOVAR acepta archivos de entrada basados en texto, incluido VCF (Variant Call Format) , el estándar de oro para describir loci genéticos.
El script de anotación principal del programa annotate_variation.pl
requiere un formato de archivo de entrada personalizado, el formato de entrada ANNOVAR (.avinput). Los tipos de archivos comunes se pueden convertir al formato de entrada ANNOVAR para la anotación utilizando un script proporcionado (ver más abajo). Es un archivo de texto simple donde cada línea del archivo corresponde a una variante y dentro de cada línea hay columnas delimitadas por tabulaciones que representan los campos de coordenadas genómicas básicas (cromosoma, posición inicial, posición final, nucleótidos de referencia y nucleótidos observados), seguidos de columnas opcionales [2]
La entrada del archivo ANNOVAR contiene los siguientes campos básicos:
- Chr
- Comienzo
- Final
- Árbitro
- Alt
Para un uso básico "listo para usar":
Una función popular de la herramienta ANNOVAR es el uso del table_annovar.pl
script que simplifica el flujo de trabajo en una sola llamada de línea de comandos, dado que las fuentes de datos para la anotación ya se han descargado. La conversión de archivos desde un archivo VCF se maneja dentro de la llamada a la función, seguida de una anotación y salida a un archivo compatible con Excel. El script toma una serie de parámetros para la anotación y genera un archivo VCF con las anotaciones como pares clave-valor dentro de la INFO
columna del archivo VCF para cada variante genética, por ejemplo, "genomic_function = exonic".
Conversión al formato de archivo de entrada ANNOVAR
La conversión de archivos al formato de entrada ANNOVAR es posible utilizando el script de conversión de formato de archivo proporcionado convert2annovar.pl
. El programa acepta formatos de archivo comunes generados por herramientas de llamada de variantes ascendentes . Los scripts de anotaciones funcionales posteriores annotate_variation.pl
utilizan el archivo de entrada ANNOVAR. Los formatos de archivo que son aceptados por el convert2annovar.pl
incluyen los siguientes: [2]
- Formato de llamada variante
- Formato pileup de llamada de genotipo de Samtools
- Formato de exportación de Illumina desde GenomeStudio
- Formato de llamada de genotipo SOLiD GFF
- Formato de variante completo de Genomics
Generación de archivos de entrada basados en variantes, transcripciones o regiones genómicas específicas:
Cuando se investigan los loci candidatos que están vinculados a enfermedades, el uso de los formatos de archivo de llamada de variantes anteriores como entrada a ANNOVAR es un flujo de trabajo estándar para la anotación funcional de variantes genéticas generadas desde una línea de bioinformática ascendente. ANNOVAR también se puede utilizar en otros escenarios, como interrogar un conjunto de variantes genéticas de interés basadas en una lista de identificadores dbSNP , así como variantes dentro de regiones genómicas o exómicas específicas. [2]
En el caso de los identificadores dbSNP, al proporcionar al convert2annovar.pl
script una lista de identificadores (por ejemplo, rs41534544, rs4308095, rs12345678) en un archivo de texto junto con el genoma de referencia de interés como parámetro, ANNOVAR generará un archivo de entrada ANNOVAR con los campos de coordenadas genómicas. para aquellas variantes que luego se pueden utilizar para la anotación funcional. [2]
En el caso de las regiones genómicas, se puede proporcionar un rango genómico de interés (por ejemplo, chr1: 2000001-2000003) junto con el genoma de referencia de interés y ANNOVAR generará un archivo de entrada ANNOVAR de todos los loci genéticos que abarcan ese rango. Además, el tamaño de inserción y deleción también podría especificarse en el que el script seleccionará todos los loci genéticos donde se encuentre un tamaño específico de inserción o deleción de interés. [2]
Por último, si se buscan variantes dentro de regiones exónicas específicas, los usuarios pueden generar archivos de entrada ANNOVAR para todas las variantes posibles en exones (incluidas las variantes de empalme) cuando convert2annovar.pl
se proporciona al script un identificador de transcripción de ARN (por ejemplo, NM_022162) basado en el estándar HGVS (variación del genoma humano Sociedad) nomenclatura. [2]
Archivo de salida
Los posibles archivos de salida son un archivo .avinput anotado, CSV , TSV o VCF . Dependiendo de la estrategia de anotación adoptada (consulte la Figura siguiente), los archivos de entrada y salida serán diferentes. Es posible configurar los tipos de archivo de salida dado un archivo de entrada específico, proporcionando al programa el parámetro apropiado.
Por ejemplo, para el table_annovar.pl
programa, si el archivo de entrada es VCF, la salida también será un archivo VCF. Si el archivo de entrada es del tipo de formato de entrada ANNOVAR, entonces la salida será un TSV por defecto, con la opción de salida a CSV si -csvout
se especifica el parámetro. Al elegir CSV o TSV como tipo de archivo de salida, un usuario podría abrir los archivos para ver las anotaciones en Excel o en una aplicación de software de hoja de cálculo diferente. Esta es una característica popular entre los usuarios.
El archivo de salida contendrá todos los datos del archivo de entrada original con columnas adicionales para las anotaciones deseadas. Por ejemplo, al anotar variantes con características como (1) función genómica y (2) la función funcional de la variante de codificación, el archivo de salida contendrá todas las columnas del archivo de entrada, seguidas de columnas adicionales "función_genómica" (por ejemplo, con valores "exónico" o "intrónico") y "coding_variant_function" (por ejemplo, con los valores "SNV sinónimo" o "SNV no sinónimo").
![](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/b/bc/ANNOVAR_main_package_workflows.svg/850px-ANNOVAR_main_package_workflows.svg.png)
Eficiencia del sistema
Analizado en una computadora de escritorio moderna (CPU Intel Xeon de 3 GHz, memoria de 8GB), para 4.7 millones de variantes, ANNOVAR requiere ~ 4 minutos para realizar una anotación funcional basada en genes, o ~ 15 minutos para realizar una "reducción de variantes" paso a paso. Se dice que es práctico para realizar anotaciones de variantes y priorización de variantes en cientos de genomas humanos en un día. [2]
ANNOVAR podría acelerarse mediante el uso del -thread
argumento que permite el subproceso múltiple para que los archivos de entrada puedan procesarse en paralelo.
Recursos de datos
Para usar ANNOVAR para la anotación funcional de variantes, los conjuntos de datos de anotaciones se pueden descargar usando el annotate_variation.pl
script, que los guarda en el disco local. [1] Se utilizan diferentes fuentes de datos de anotaciones para los tres tipos principales de anotaciones (basadas en genes, basadas en regiones y basadas en filtros).
Estas son algunas de las fuentes de datos para cada tipo de anotación:
Anotación basada en genes
- Genes UCSC / Ensembl
- hg38
- GENCODE / CCDS
[9]
Anotación basada en región
- CODIFICAR
- Bases de datos personalizadas de conformidad con GFF3 (Formato de funciones genéricas versión 3)
[11]
Anotación basada en filtros
Proyecto 1000 Genomas | LRT | ClinVar |
dbSNP | MutationTaster | CADD |
avSNP | GERP ++ | DANN |
dbNSFP | ExAC | CÓSMICO |
TAMIZAR | ESP (Proyecto de secuenciación del exoma) | ICGC |
PolyPhen 2 | frecuencia alélica gnomAD | NCI60 |
PhyloP | Frecuencia alélica completa de Genómica |
Dada la gran cantidad de fuentes de datos para la anotación basada en filtros, aquí hay ejemplos de qué subconjuntos de los conjuntos de datos se deben usar para algunos de los casos de uso más comunes. [14]
- Para la frecuencia de variantes en los datos del exoma completo : [14]
- ExAC: con frecuencias alélicas para todos los grupos étnicos
- NHLBI-ESP: de 6500 exomas, use tres agrupaciones de población
- Frecuencia alélica gnomAD: con frecuencias alélicas para múltiples poblaciones
- Para variantes específicas de la enfermedad: [14]
- ClinVar: con columnas individuales para cada campo ClinVar para cada variante
- COSMIC: mutaciones somáticas del cáncer y la frecuencia de aparición en cada subtipo de cáncer.
- ICGC: mutaciones del Consorcio Internacional del Genoma del Cáncer
- NCI-60: datos de frecuencia de alelos de secuenciación del exoma del panel de células tumorales humanas
[14]
Aplicación de ejemplo
![](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/e/e8/ANNOVAR_broad_overview_diagnosis_for_prioritization.svg/500px-ANNOVAR_broad_overview_diagnosis_for_prioritization.svg.png)
Uso de ANNOVAR para priorizar variantes genéticas para identificar mutaciones en una enfermedad genética rara
ANNOVAR es una de las herramientas de anotación comunes para identificar mutaciones y genes candidatos y causales de enfermedades genéticas raras.
Utilizando una combinación de anotación basada en genes y basada en filtros seguida de una reducción de variantes basada en los valores de anotación de las variantes, se puede identificar el gen causal en una enfermedad mendeliana recesiva rara llamada síndrome de Miller. [1]
Esto implicará sintetizar un conjunto de datos de todo el genoma de ~ 4,2 millones de variantes de un solo nucleótido (SNV ) y ~ 0,5 millones de inserciones y deleciones ( indels ). [1] También se incluyen dos mutaciones causales conocidas del síndrome de Miller (G152R y G202A en el gen DHODH ) [1]
Pasos para identificar las variantes causales de la enfermedad mediante ANNOVAR: [1]
- Anotación basada en genes para identificar variantes exónicas / de empalme de la combinación de SNV e indeles (~ 4,7 millones de variantes) donde se identifican un total de 24,617 variantes exónicas. [1]
- Dado que el síndrome de Miller es una enfermedad mendeliana poco común, las variantes de cambio de proteínas exónicas son solo de interés, que constituyen 11.166. [1] A partir de eso, se identifican 4860 variantes que se encuentran en regiones genómicas altamente conservadas [1]
- Como las bases de datos públicas como dbSNP y 1000 Genomes Project archivan variantes informadas anteriormente que a menudo son comunes, es menos probable que contengan las variantes causales del síndrome de Miller, que son raras. [1] Por lo tanto, las variantes encontradas en esas fuentes de datos se filtran y quedan 413 variantes.
- Luego, los genes se evalúan para determinar si existen múltiples variantes en el mismo gen que los heterocigotos compuestos y quedan 23 genes. [1]
- Finalmente, se eliminan los genes 'prescindibles', aquellos que tienen mutaciones sin sentido de alta frecuencia (en más del 1% de los sujetos en el Proyecto 1000 Genomas ) que son susceptibles a errores de secuenciación y alineación en la plataforma de secuenciación de lectura corta. [1] Es menos probable que estos genes sean la causa de una enfermedad mendeliana poco común . Como resultado, se filtran tres genes y quedan 20 genes candidatos, incluido el gen causal DHODH [1]
Limitaciones de ANNOVAR
Dos limitaciones de ANNOVAR se relacionan con la detección de enfermedades comunes y anotaciones de variantes estructurales más grandes. Estos problemas están presentes en todas las herramientas de anotación de variantes actuales.
Las enfermedades más comunes como la diabetes y el Alzheimer tienen múltiples variantes en todo el genoma que son comunes en la población. [15] [16] Se espera que estas variantes tengan puntuaciones deletéreas individuales bajas y causen enfermedades a través de la acumulación de múltiples variantes. Sin embargo, ANNOVAR tiene esquemas predeterminados de "reducción de variantes" que proporcionan una pequeña lista de variantes deletéreas raras y altamente predichas. [10] Esta configuración predeterminada podría optimizarse para que los datos de salida muestren variantes adicionales con puntajes deletéreos previstos decrecientes. [2] ANNOVAR se usa principalmente para identificar variantes involucradas en enfermedades raras donde se espera que la mutación causal sea rara y altamente perjudicial.
Se ha demostrado que las variantes estructurales más grandes (SV) , como las inversiones cromosómicas, las translocaciones y las SV complejas, causan enfermedades como la hemofilia A y el Alzheimer. [17] [18] Sin embargo, los SV son a menudo difíciles de anotar porque es difícil asignar puntuaciones deletéreas específicas a grandes regiones genómicas mutadas. Actualmente, ANNOVAR solo puede anotar genes contenidos en deleciones o duplicaciones, o pequeños indeles de <50 pb. ANNOVAR no puede inferir SV y translocaciones complejas [10]
Herramientas de anotación de variantes alternativas
También hay otros dos tipos de herramientas de anotación SNP que son similares a ANNOVAR: efecto SNP ( SnpEFF ) y predictor de efecto variante (VEP) . Muchas de las características entre ANNOVAR, SnpEFF y VEP son las mismas, incluido el formato de archivo de entrada y salida, las anotaciones de la región reguladora y las anotaciones de variantes conocidas. Sin embargo, las principales diferencias son que ANNOVAR no puede anotar las predicciones de pérdida de función, mientras que tanto SnpEFF como VEP pueden hacerlo. Además, ANNOVAR no puede anotar ubicaciones de unión estructural de microARN , mientras que VEP puede hacerlo. [19] Las predicciones de la ubicación de la unión estructural del microARN pueden ser informativas para revelar el papel de las mutaciones postranscripcionales en la patogénesis de la enfermedad. [20] Las mutaciones con pérdida de función son cambios en el genoma que resultan en la disfunción total del producto génico. Por lo tanto, estas predicciones podrían ser extremadamente informativas en lo que respecta al diagnóstico de enfermedades, especialmente en enfermedades monogénicas raras. [ cita requerida ]
Clase | Característica | VEP | Annovar | SnpEff |
General | Disponibilidad | Libre | Gratis (solo para uso académico) | Libre |
Aporte | VCF | sí | sí | sí |
Variantes de secuencia | sí | sí | sí | |
Variantes estructurales | sí | sí | sí | |
Producción | VCF | sí | sí | sí |
Conjuntos de transcripciones | Ensembl | sí | sí | sí |
RefSeq | sí | sí | sí | |
Bases de datos creadas por el usuario | sí | sí | sí | |
Interfaces | Paquete local | sí | sí | sí |
Interfaz web de predicción instantánea | sí | sí | No | |
Tipos de consecuencias | Predicciones de empalme | Sí (a través de complementos) | Sí (a través de datos externos) | Si (experimental) |
Pérdida de predicción de función | Sí (a través de complementos) | No | sí | |
Sin codificación | Características regulatorias | sí | sí | sí |
Soporta múltiples líneas celulares | sí | No | sí | |
Ubicación de la estructura de miARN | Sí (a través de complementos) | No | No | |
Variantes conocidas | Informar variantes conocidas | sí | sí | sí |
Filtrar por frecuencia | sí | sí | sí | |
Significación clínica | sí | sí | sí | |
Otros filtros | Filtros preestablecidos | sí | sí | sí |
* Tabla adaptada de McLaren et al. (2016).
Referencias
- ^ a b c d e f g h i j k l m n o p Hakonarson, Hakon; Li, Mingyao; Wang, Kai (1 de septiembre de 2010). "ANNOVAR: anotación funcional de variantes genéticas de datos de secuenciación de alto rendimiento" . Investigación de ácidos nucleicos . 38 (16): e164. doi : 10.1093 / nar / gkq603 . ISSN 0305-1048 . PMC 2938201 . PMID 20601685 .
- ^ a b c d e f g h yo j k l "Sitio web de ANNOVAR" . www.openbioinformatics.org . Consultado el 28 de febrero de 2019 .
- ^ "Costos de secuenciación de ADN: datos" . Instituto Nacional de Investigación del Genoma Humano (NHGRI) . Consultado el 4 de abril de 2019 .
- ^ Emerson, Ryan O .; Sherwood, Anna M .; Rieder, Mark J .; Guenthoer, Jamie; Williamson, David W .; Carlson, Christopher S .; Drescher, Charles W .; Tewari, Muneesh; Bielas, Jason H. (diciembre de 2013). "La secuenciación de alto rendimiento de los receptores de células T revela un repertorio homogéneo de linfocitos infiltrantes de tumores en el cáncer de ovario" . La Revista de Patología . 231 (4): 433–440. doi : 10.1002 / ruta.4260 . ISSN 0022-3417 . PMC 5012191 . PMID 24027095 .
- ^ Blayney, Jaine K .; Parkes, Eileen; Zheng, Huiru; Taggart, Laura; Browne, Fiona; Haberland, Valeriia; Lightbody, Gaye (2018). "Revisión de aplicaciones de secuenciación de alto rendimiento en medicina personalizada: barreras y facilitadores del progreso futuro en la investigación y la aplicación clínica" . Sesiones informativas en bioinformática . doi : 10.1093 / bib / bby051 . PMID 30084865 .
- ^ Referencia, Genética Inicio. "¿Qué son la secuenciación completa del exoma y la secuenciación completa del genoma?" . Referencia casera de la genética . Consultado el 4 de abril de 2019 .
- ^ Referencia, Genética Inicio. "¿Qué son los estudios de asociación de todo el genoma?" . Referencia casera de la genética . Consultado el 4 de abril de 2019 .
- ^ Consorcio del Proyecto 1000 Genomas (octubre de 2015). "Una referencia mundial para la variación genética humana" . Naturaleza . 526 (7571): 68–74. Código Bib : 2015Natur.526 ... 68T . doi : 10.1038 / nature15393 . ISSN 1476-4687 . PMC 4750478 . PMID 26432245 .
- ^ a b "Anotación basada en genes - Documentación ANNOVAR" . annovar.openbioinformatics.org . Consultado el 28 de febrero de 2019 .
- ^ a b c Yang, Hui; Wang, Kai (octubre de 2015). "Anotación de variantes genómicas y priorización con ANNOVAR y wANNOVAR" . Protocolos de la naturaleza . 10 (10): 1556-1566. doi : 10.1038 / nprot.2015.105 . ISSN 1754-2189 . PMC 4718734 . PMID 26379229 .
- ^ a b "Anotación basada en regiones - Documentación de ANNOVAR" . annovar.openbioinformatics.org . Consultado el 28 de febrero de 2019 .
- ^ Jordan, I. King; Rogozin, Igor B .; Wolf, Yuri I .; Koonin, Eugene V. (junio de 2002). "Los genes esenciales se conservan más evolutivamente que los genes no esenciales en las bacterias" . Investigación del genoma . 12 (6): 962–968. doi : 10.1101 / gr.87702 . ISSN 1088-9051 . PMC 1383730 . PMID 12045149 .
- ^ Referencia, Genética Inicio. "¿Qué es el ADN no codificante?" . Referencia casera de la genética . Consultado el 1 de marzo de 2019 .
- ^ a b c d e "Anotación basada en filtros - Documentación de ANNOVAR" . annovar.openbioinformatics.org . Consultado el 28 de febrero de 2019 .
- ^ Wu, Yiming; Jing, Runyu; Dong, Yongcheng; Kuang, Qifan; Li, Yan; Huang, Ziyan; Gan, Wei; Xue, Yue; Li, Yizhou (6 de marzo de 2017). "Anotación funcional de sesenta y cinco SNP de riesgo de diabetes tipo 2 y su aplicación en la predicción del riesgo" . Informes científicos . 7 : 43709. Bibcode : 2017NatSR ... 743709W . doi : 10.1038 / srep43709 . ISSN 2045-2322 . PMC 5337961 . PMID 28262806 .
- ^ Emahazion, T .; Feuk, L .; Jobs, M .; Sawyer, SL; Fredman, D .; St Clair, D .; Prince, JA; Brookes, AJ (julio de 2001). "Los estudios de asociación de SNP en la enfermedad de Alzheimer destacan problemas para el análisis de enfermedades complejas". Tendencias en Genética . 17 (7): 407–413. doi : 10.1016 / S0168-9525 (01) 02342-3 . ISSN 0168-9525 . PMID 11418222 .
- ^ Lakich, Delia; Kazazian, Haig H .; Antonarakis, Stylianos E .; Gitschier, Jane (noviembre de 1993). "Las inversiones que alteran el gen del factor VIII son una causa común de hemofilia A grave". Genética de la naturaleza . 5 (3): 236–241. doi : 10.1038 / ng1193-236 . ISSN 1061-4036 . PMID 8275087 .
- ^ Lupski, James R. (junio de 2015). "Mutagénesis de variación estructural del genoma humano: impacto en la enfermedad y la evolución" . Mutagénesis ambiental y molecular . 56 (5): 419–436. doi : 10.1002 / em.21943 . ISSN 0893-6692 . PMC 4609214 . PMID 25892534 .
- ^ McLaren, William; Gil, Laurent; Hunt, Sarah E .; Riat, Harpreet Singh; Ritchie, Graham RS; Thormann, Anja; Flicek, Paul; Cunningham, Fiona (6 de junio de 2016). "El predictor de efectos de variante de Ensembl" . Biología del genoma . 17 (1): 122. doi : 10.1186 / s13059-016-0974-4 . ISSN 1474-760X . PMC 4893825 . PMID 27268795 .
- ^ Jiang Q, Wang Y, Hao Y, Juan L, Teng M, Zhang X, Li M, Wang G, Liu Y (enero de 2009). "miR2Disease: una base de datos curada manualmente para la desregulación de microARN en enfermedades humanas" . Investigación de ácidos nucleicos . 37. 37 (Problema de la base de datos): D98–104. doi : 10.1093 / nar / gkn714 . PMC 2686559 . PMID 18927107 .