En bioinformática , k -mers son subcadenas de longitudcontenida dentro de una secuencia biológica. Se utiliza principalmente en el contexto de la genómica computacional y el análisis de secuencias , en el que los k- meros se componen de nucleótidos ( es decir , A, T, G y C), los k- meros se capitalizan para ensamblar secuencias de ADN , [1] mejoran la heterología expresión génica , [2] [3] identificar especies en muestras metagenómicas , [4] y crear vacunas atenuadas . [5] Por lo general, el término k -mer se refiere a todas las subsecuencias de una secuencia de longitud, de manera que la secuencia AGAT tendría cuatro monómeros (A, G, A y T), tres 2-meros (AG, GA, AT), dos 3-meros (AGA y GAT) y uno 4-mer (AGAT) . De manera más general, una secuencia de longitud tendrá k -mers ytotal de k -mers posibles , dondees el número de posibles monómeros (por ejemplo, cuatro en el caso del ADN ).
![](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/8/8a/K-mer_diagram.svg/220px-K-mer_diagram.svg.png)
Introducción
k -mers son simplemente longitudsubsecuencias. Por ejemplo, todos los k -meros posibles de una secuencia de ADN se muestran a continuación:
![](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/d/db/E._coli_8-mer_spectrum.svg/440px-E._coli_8-mer_spectrum.svg.png)
k | k -mers |
---|---|
1 | G, T, A, G, A, G, C, T, G, T |
2 | GT, TA, AG, GA, AG, GC, CT, TG, GT |
3 | GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT |
4 | GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT |
5 | GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT |
6 | GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT |
7 | GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT |
8 | GTAGAGCT, TAGAGCTG, AGAGCTGT |
9 | GTAGAGCTG, TAGAGCTGT |
10 | GTAGAGCTGT |
Un método para visualizar k -mer, el espectro de k -mer , muestra la multiplicidad de cada k -mer en una secuencia versus el número de k -mer con esa multiplicidad. [6] El número de modos en un espectro k -mer para el genoma de una especie varía, y la mayoría de las especies tienen una distribución unimodal. [7] Sin embargo, todos los mamíferos tienen una distribución multimodal. El número de modos dentro de un espectro k -mer también puede variar entre las regiones de los genomas: los seres humanos tienen espectros k -mer unimodales en 5 'UTR y exones, pero espectros multimodales en 3' UTR e intrones .
Fuerzas que afectan la frecuencia k -mer del ADN
La frecuencia del uso de k -mer se ve afectada por numerosas fuerzas, que trabajan en múltiples niveles, que a menudo están en conflicto. Es importante señalar que los k -meros para valores más altos de k se ven afectados por las fuerzas que afectan también a los valores más bajos de k . Por ejemplo, si el 1-mero A no ocurre en una secuencia, tampoco se producirá ninguno de los 2-meros que contienen A (AA, AT, AG y AC), vinculando así los efectos de las diferentes fuerzas.
k = 1
Cuando k = 1, hay cuatro k -meros de ADN , es decir , A, T, G y C. A nivel molecular, hay tres enlaces de hidrógeno entre G y C, mientras que solo hay dos entre A y T. GC Los enlaces, como resultado del enlace de hidrógeno adicional (y las interacciones de apilamiento más fuertes), son más estables térmicamente que los enlaces AT. [8] Los mamíferos y las aves tienen una relación más alta de G y C con respecto a As y Ts ( contenido de GC ), lo que llevó a la hipótesis de que la estabilidad térmica era un factor determinante de la variación del contenido de GC. [9] Sin embargo, aunque prometedora, esta hipótesis no se mantuvo bajo escrutinio: el análisis entre una variedad de procariotas no mostró evidencia de que el contenido de GC se correlacionara con la temperatura como predeciría la hipótesis de adaptación térmica. [10] De hecho, si la selección natural fuera la fuerza impulsora detrás de la variación del contenido de GC, eso requeriría que los cambios de un solo nucleótido , que a menudo son silenciosos , alteren la aptitud de un organismo. [11]
Más bien, la evidencia actual sugiere que la conversión génica sesgada por GC (gBGC) es un factor impulsor de la variación en el contenido de GC. [11] gBGC es un proceso que ocurre durante la recombinación que reemplaza Gs y Cs con As y Ts. [12] Este proceso, aunque distinto de la selección natural, puede ejercer una presión selectiva sobre el ADN sesgado hacia los reemplazos de GC que se fijan en el genoma. Por lo tanto, gBGC puede verse como un "impostor" de la selección natural. Como era de esperar, el contenido de GC es mayor en los sitios que experimentan una mayor recombinación. [13] Además, los organismos con tasas más altas de recombinación exhiben un mayor contenido de GC, de acuerdo con los efectos predichos de la hipótesis gBGC. [14] Curiosamente, gBGC no parece estar limitado a eucariotas . [15] Los organismos asexuales como las bacterias y las arqueas también experimentan recombinación por medio de la conversión de genes, un proceso de reemplazo de secuencias homólogas que da como resultado múltiples secuencias idénticas en todo el genoma. [16] El hecho de que la recombinación pueda aumentar el contenido de GC en todos los dominios de la vida sugiere que la gBGC se conserva universalmente. Queda por determinar si la gBGC es un subproducto (en su mayoría) neutro de la maquinaria molecular de la vida o si está bajo selección. El mecanismo exacto y la ventaja o desventaja evolutiva de gBGC se desconocen actualmente. [17]
k = 2
A pesar de la literatura comparativamente grande que discute los sesgos de contenido de GC, se ha escrito relativamente poco sobre los sesgos de dinucleótidos. Lo que se sabe es que estos sesgos de dinucleótidos son relativamente constantes en todo el genoma, a diferencia del contenido de GC, que, como se vio anteriormente, puede variar considerablemente. [18] Esta es una idea importante que no debe pasarse por alto. Si el sesgo de dinucleótidos estuviera sujeto a presiones resultantes de la traducción , entonces habría diferentes patrones de sesgo de dinucleótidos en las regiones codificantes y no codificantes impulsadas por la reducción de la eficiencia de traducción de algunos dinucleótidos. [19] Debido a que no lo hay, se puede inferir que las fuerzas que modulan el sesgo de los dinucleótidos son independientes de la traducción. Otra evidencia en contra de las presiones de traducción que afectan el sesgo de dinucleótidos es el hecho de que los sesgos de dinucleótidos de los virus, que dependen en gran medida de la eficiencia de traducción, son moldeados por su familia viral más que por sus anfitriones, cuya maquinaria de traducción secuestran los virus. [20]
Contrario al creciente contenido de GC de gBGC está la supresión de CG , que reduce la frecuencia de CG 2-meros debido a la desaminación de dinucleótidos de CG metilados , lo que resulta en sustituciones de CG por TG, reduciendo así el contenido de CG. [21] Esta interacción destaca la interrelación entre las fuerzas que afectan a k -meros para valores variables de k.
Un hecho interesante sobre el sesgo de los dinucleótidos es que puede servir como medida de "distancia" entre genomas filogenéticamente similares. Los genomas de pares de organismos que están estrechamente relacionados comparten sesgos de dinucleótidos más similares que entre pares de organismos más distantes. [18]
k = 3
Hay veinte aminoácidos naturales que se utilizan para construir las proteínas que codifica el ADN. Sin embargo, solo hay cuatro nucleótidos. Por lo tanto, no puede haber una correspondencia biunívoca entre nucleótidos y aminoácidos. De manera similar, hay 16 2-meros, lo que tampoco es suficiente para representar de manera inequívoca cada aminoácido. Sin embargo, hay 64 3-meros distintos en el ADN, lo que es suficiente para representar de forma única cada aminoácido. Estos 3-meros que no se superponen se denominan codones . Si bien cada codón solo se asigna a un aminoácido, cada aminoácido puede estar representado por múltiples codones . Por tanto, la misma secuencia de aminoácidos puede tener múltiples representaciones de ADN. Curiosamente, cada codón de un aminoácido no se usa en proporciones iguales. [22] Esto se denomina sesgo de uso de codones (CUB). Cuando k = 3, se debe hacer una distinción entre la verdadera frecuencia de 3 meros y CUB. Por ejemplo, la secuencia ATGGCA tiene cuatro palabras de 3 unidades dentro de ella (ATG, TGG, GGC y GCA) mientras que solo contiene dos codones (ATG y GCA). Sin embargo, CUB es un factor importante que impulsa el sesgo de uso de 3 meros (que representa hasta ⅓ de él, ya que ⅓ de los k- meros en una región de codificación son codones) y será el enfoque principal de esta sección.
La causa exacta de la variación entre las frecuencias de varios codones no se comprende completamente. Se sabe que la preferencia de codones está correlacionada con la abundancia de tRNA, siendo los codones que coinciden con tRNAs más abundantes siendo correspondientemente más frecuentes [22] y que las proteínas más altamente expresadas exhiben mayor CUB. [23] Esto sugiere que la selección por eficiencia o precisión traslacional es la fuerza impulsora detrás de la variación CUB.
k = 4
Similar al efecto observado en el sesgo de dinucleótidos, los sesgos de tetranucleótidos de organismos filogenéticamente similares son más similares que entre organismos menos estrechamente relacionados. [4] La causa exacta de la variación en el sesgo de tetranucleótidos no se comprende bien, pero se ha planteado la hipótesis de que es el resultado del mantenimiento de la estabilidad genética a nivel molecular. [24]
Aplicaciones
La frecuencia de un conjunto de k- meros en el genoma de una especie, en una región genómica o en una clase de secuencias puede usarse como una "firma" de la secuencia subyacente. Comparar estas frecuencias es computacionalmente más fácil que la alineación de secuencias y es un método importante en el análisis de secuencias sin alineación . También se puede utilizar como análisis de primera etapa antes de una alineación.
Ensamblaje de secuencia
![](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/5/53/K-mer-example.png/700px-K-mer-example.png)
En el ensamblaje de secuencia, los k -mers se utilizan durante la construcción de los gráficos de De Bruijn . [25] [26] Para crear un gráfico de De Bruijn, los k -mers almacenados en cada borde con la longitud debe superponerse a otra cuerda en otro borde por para crear un vértice . Las lecturas generadas a partir de la secuenciación de próxima generación normalmente tendrán diferentes longitudes de lectura generadas. Por ejemplo, las lecturas de la tecnología de secuenciación de Illumina capturan lecturas de 100 mers. Sin embargo, el problema con la secuenciación es que solo se generan pequeñas fracciones de todos los 100 mers posibles que están presentes en el genoma. Esto se debe a errores de lectura, pero lo que es más importante, a simples agujeros de cobertura que se producen durante la secuenciación. El problema es que estas pequeñas fracciones de los k -mer posibles violan el supuesto clave de los gráficos de De Bruijn de que todas las lecturas de k -mer deben superponerse a su k -mer contiguo en el genoma por(lo que no puede ocurrir cuando no están presentes todos los k -mers posibles ).
La solución a este problema es dividir estas lecturas de tamaño de k -mer en k -mer más pequeños, de modo que los k -mer más pequeños resultantes representen todos los k -mer posibles de ese tamaño más pequeño que están presentes en el genoma. [27] Además, dividir los k- meros en tamaños más pequeños también ayuda a aliviar el problema de las diferentes longitudes de lectura inicial. En este ejemplo, las cinco lecturas no representan todos los posibles 7-mers del genoma y, como tal, no se puede crear un gráfico de De Bruijn. Pero, cuando se dividen en 4-meros, las subsecuencias resultantes son suficientes para reconstruir el genoma usando un gráfico de De Bruijn.
Además de usarse directamente para el ensamblaje de secuencias, los k- meros también se pueden usar para detectar el mal ensamblaje del genoma identificando k -meros que están sobrerrepresentados, lo que sugiere la presencia de secuencias de ADN repetidas que se han combinado. [28] Además, los k- meros también se utilizan para detectar la contaminación bacteriana durante el ensamblaje del genoma eucariota, un enfoque tomado del campo de la metagenómica. [29] [30]
Elección del tamaño k -mer
La elección del tamaño de k -mer tiene muchos efectos diferentes en el ensamblaje de secuencia. Estos efectos varían mucho entre k -mers de menor y mayor tamaño . Por lo tanto, debe lograrse una comprensión de los diferentes tamaños de k- mer para elegir un tamaño adecuado que equilibre los efectos. Los efectos de los tamaños se describen a continuación.
Bajar k -mer tamaños
- Un tamaño de k -mer menor disminuirá la cantidad de bordes almacenados en el gráfico y, como tal, ayudará a disminuir la cantidad de espacio requerido para almacenar la secuencia de ADN.
- Tener tamaños más pequeños aumentará la posibilidad de que todos los k -meros se superpongan y, como tal, tengan las subsecuencias necesarias para construir el gráfico de De Bruijn. [31]
- Sin embargo, al tener menor tamaño k -dores, también se corre el riesgo de tener muchos vértices en el grafo que conduce a un solo k-mer. Por lo tanto, esto hará que la reconstrucción del genoma sea más difícil, ya que hay un mayor nivel de ambigüedades en la ruta debido a la mayor cantidad de vértices que deberán atravesarse.
- La información se pierde a medida que los k -mers se hacen más pequeños.
- Por ejemplo, la posibilidad de AGTCGTAGATGCTG es menor que ACGT y, como tal, contiene una mayor cantidad de información (consulte entropía (teoría de la información) para obtener más información).
- Los k -mers más pequeños también tienen el problema de no poder resolver áreas en el ADN donde ocurren pequeños microsatélites o repeticiones. Esto se debe a que los k -mers más pequeños tenderán a sentarse completamente dentro de la región de repetición y, por lo tanto, es difícil determinar la cantidad de repetición que realmente ha tenido lugar.
- Por ejemplo, para la subsecuencia ATGTGTGTGTGTGTACG, la cantidad de repeticiones de TG se perderá si seelige un tamaño de k- mer menor que 16. Esto se debe a que la mayoría de los k -mer se ubicarán en la región repetida y pueden descartarse como repeticiones del mismo k -mer en lugar de referirse a la cantidad de repeticiones.
Tamaños de k -mer más altos
- Tener k -mers de mayor tamaño aumentará el número de bordes en el gráfico, lo que a su vez, aumentará la cantidad de memoria necesaria para almacenar la secuencia de ADN.
- Al aumentar el tamaño de los k -mers, el número de vértices también disminuirá. Esto ayudará con la construcción del genoma, ya que habrá menos caminos que recorrer en el gráfico. [31]
- Los k -mer más grandes también corren un mayor riesgo de no tener vértices externos de cada k-mer. Esto se debe a que los k -mer más grandes aumentan el riesgo de que no se superponga con otro k -mer por. Por lo tanto, esto puede provocar desuniones en las lecturas y, como tal, puede dar lugar a una mayor cantidad de contigs más pequeños .
- Los tamaños de k -mer más grandes ayudan a aliviar el problema de las regiones de repetición pequeñas. Esto se debe al hecho de que el k -mer contendrá un equilibrio de la región de repetición y las secuencias de ADN adyacentes (dado que son de un tamaño lo suficientemente grande) que pueden ayudar a resolver la cantidad de repetición en esa área en particular.
Genética y Genómica
Con respecto a la enfermedad, el sesgo de dinucleótidos se ha aplicado a la detección de islas genéticas asociadas con la patogenicidad. [11] Trabajos anteriores también han demostrado que los sesgos de tetranucleótidos son capaces de detectar eficazmente la transferencia horizontal de genes tanto en procariotas [32] como en eucariotas. [33]
Otra aplicación de k -mers está en la taxonomía basada en genómica. Por ejemplo, el contenido de GC se ha utilizado para distinguir entre especies de Erwinia con un éxito moderado. [34] Similar al uso directo del contenido de GC con fines taxonómicos es el uso de T m , la temperatura de fusión del ADN. Debido bonos GC son más estables térmicamente, las secuencias con un mayor contenido de GC muestran una mayor T m . En 1987, el Comité Ad Hoc sobre Reconciliación de Enfoques de Sistemática Bacteriana propuso el uso de ΔT m como factor para determinar los límites de las especies como parte del concepto de especie filogenética , aunque esta propuesta no parece haber ganado terreno dentro de la comunidad científica. [35]
Otras aplicaciones dentro de la genética y la genómica incluyen:
- Cuantificación de isoformas de ARN a partir de datos de secuencia de ARN [36]
- Clasificación del haplogrupo mitocondrial humano [37]
- Detección de sitios de recombinación en genomas [38]
- Estimación del genoma tamaño usando k -mer frecuencia vs k profundidad mer [39] [40]
- Caracterización de islas CpG por regiones flanqueantes [41] [42]
- Detección de novo de secuencias repetidas , como elementos transponibles [43]
- Código de barras de ADN de especies. [7] [44]
- Caracterización de motivos de secuencias de unión a proteínas [45]
- Identificación de mutación o polimorfismo utilizando datos de secuenciación de próxima generación [46]
Metagenómica
La variación de frecuencia y espectro k -mer se utiliza mucho en metagenómica tanto para el análisis [47] [48] como para el binning. En el binning, el desafío es separar las lecturas de secuenciación en "bins" de lecturas para cada organismo (o unidad taxonómica operativa ), que luego se ensamblarán. TETRA es una herramienta notable que toma muestras metagenómicas y las agrupa en organismos en función de sus frecuencias de tetranucleótidos ( k = 4). [49] Otras herramientas que se basan de manera similar en la frecuencia k -mer para el binning metagenómico son CompostBin ( k = 6), [50] PCAHIER, [51] PhyloPythia (5 ≤ k ≤ 6), [52] CLARK ( k ≥ 20) , [53] y TACOA (2 ≤ k ≤ 6). [54] Desarrollos recientes también han aplicado el aprendizaje profundo al binning metagenómico usando k -mers. [55]
Otras aplicaciones dentro de la metagenómica incluyen:
- Recuperación de marcos de lectura a partir de lecturas sin procesar [56]
- Estimación de la abundancia de especies en muestras metagenómicas [57]
- Determinación de qué especies están presentes en las muestras [58] [59]
- Identificación de biomarcadores de enfermedades a partir de muestras [60]
Biotecnología
La modificación de las frecuencias de k- mer en las secuencias de ADN se ha utilizado ampliamente en aplicaciones biotecnológicas para controlar la eficiencia de la traducción. Específicamente, se ha utilizado para regular tanto al alza como a la baja las tasas de producción de proteínas.
Con respecto al aumento de la producción de proteínas, se ha utilizado la reducción de la frecuencia de dinucleótidos desfavorable para obtener tasas más altas de síntesis de proteínas. [61] Además, el sesgo de uso de codones se ha modificado para crear secuencias sinónimas con mayores tasas de expresión de proteínas. [2] [3] De manera similar, la optimización de pares de codones, una combinación de optimización de dinucelótidos y codones, también se ha utilizado con éxito para aumentar la expresión. [62]
La aplicación más estudiada de k -mers para disminuir la eficiencia de traducción es la manipulación de pares de codones para atenuar virus con el fin de crear vacunas. Los investigadores pudieron recodificar el virus del dengue , el virus que causa la fiebre del dengue , de modo que su sesgo de pares de codones era más diferente a la preferencia de uso de codones de los mamíferos que al tipo salvaje. [63] Aunque contenía una secuencia de aminoácidos idéntica, el virus recodificado demostró una patogenicidad significativamente debilitada y provocó una fuerte respuesta inmunitaria. Este enfoque también se ha utilizado eficazmente para crear una vacuna contra la influenza [64] , así como una vacuna para el virus del herpes de la enfermedad de Marek (MDV). [65] En particular, la manipulación del sesgo de pares de codones empleada para atenuar el MDV no redujo eficazmente la oncogenicidad del virus, lo que destaca una debilidad potencial en las aplicaciones biotecnológicas de este enfoque. Hasta la fecha, no se ha aprobado el uso de ninguna vacuna desoptimizada con pares de codones.
Dos artículos posteriores ayudan a explicar el mecanismo real subyacente a la desoptimización de pares de codones: el sesgo de pares de codones es el resultado del sesgo de dinucleótidos. [66] [67] Al estudiar los virus y sus huéspedes, ambos grupos de autores pudieron concluir que el mecanismo molecular que da como resultado la atenuación de los virus es un aumento de dinucleótidos poco adecuados para la traducción.
El contenido de GC, debido a su efecto sobre el punto de fusión del ADN , se utiliza para predecir la temperatura de hibridación en la PCR , otra importante herramienta biotecnológica.
Implementación
Pseudocódigo
La determinación de los posibles k- meros de una lectura se puede hacer simplemente recorriendo la longitud de la cadena de uno en uno y sacando cada subcadena de longitud.. El pseudocódigo para lograr esto es el siguiente:
procedimiento k-mers (secuencia secuencia, entero k) es L ← longitud (seq) arr ← nueva matriz de L - k + 1 cadenas vacías // iterar sobre el número de k-meros en la secuencia, // almacenar el n-ésimo k-mer en la matriz de salida para n ← 0 a L - k + 1 exclusivo do arr [n] ← subsecuencia de la secuencia de la letra n inclusive a la letra n + k exclusiva volver arr
En tuberías de bioinformática
Debido a que el número de k- meros crece exponencialmente para valores de k , contar k -mer para valores grandes de k (usualmente> 10) es una tarea computacionalmente difícil. Si bien las implementaciones simples como el pseudocódigo anterior funcionan para valores pequeños de k , deben adaptarse para aplicaciones de alto rendimiento o cuando k es grande. Para solucionar este problema, se han desarrollado varias herramientas:
- Jellyfish utiliza una tabla hash sin bloqueo y multiproceso para el recuento de k -mer y tiene enlaces Python , Ruby y Perl [68]
- KMC es una herramienta para el recuento de k- mer que utiliza una arquitectura multidisco para optimizar la velocidad [69]
- Gerbil usa un enfoque de tabla hash pero con soporte adicional para la aceleración de GPU [70]
- K-mer Analysis Toolkit (KAT) utiliza una versión modificada de Jellyfish para analizar los recuentos de k- mer [6]
Ver también
- Oligonucleótido
- Firma genómica
Referencias
Parte del contenido de este artículo se copió de K-mer en el wiki de PLOS, que está disponible bajo una licencia Creative Commons Attribution 2.5 Generic (CC BY 2.5) .
- ^ Compeau, Phillip EC; Pevzner, Pavel A; Tesler, Glenn (noviembre de 2011). "Cómo aplicar gráficos de Bruijn al ensamblaje del genoma" . Biotecnología de la naturaleza . 29 (11): 987–991. doi : 10.1038 / nbt.2023 . ISSN 1087-0156 . PMC 5531759 . PMID 22068540 .
- ^ a b Welch, Mark; Govindarajan, Sridhar; Ness, Jon E .; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (14 de septiembre de 2009). Kudla, Grzegorz (ed.). "Parámetros de diseño para controlar la expresión de genes sintéticos en Escherichia coli" . PLOS ONE . 4 (9): e7002. Código Bibliográfico : 2009PLoSO ... 4.7002W . doi : 10.1371 / journal.pone.0007002 . ISSN 1932-6203 . PMC 2736378 . PMID 19759823 .
- ^ a b Gustafsson, Claes; Govindarajan, Sridhar; Minshull, Jeremy (julio de 2004). "Codón sesgo y expresión de proteínas heterólogas". Tendencias en biotecnología . 22 (7): 346–353. doi : 10.1016 / j.tibtech.2004.04.006 . PMID 15245907 .
- ^ a b Perry, Scott C .; Beiko, Robert G. (1 de enero de 2010). "Distinguir fragmentos del genoma microbiano según su composición: perspectivas genómicas evolutivas y comparativas" . Biología y evolución del genoma . 2 : 117-131. doi : 10.1093 / gbe / evq004 . ISSN 1759-6653 . PMC 2839357 . PMID 20333228 .
- ^ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dusan (29 de enero de 2018). Mocarski, Edward (ed.). "Atenuación de un herpesvirus de la enfermedad de Marek muy virulento (MDV) por desoptimización de sesgo de par de codones" . PLOS Patógenos . 14 (1): e1006857. doi : 10.1371 / journal.ppat.1006857 . ISSN 1553-7374 . PMC 5805365 . PMID 29377958 .
- ^ a b Mapleson, Daniel; García Accinelli, Gonzalo; Kettleborough, George; Wright, Jonathan; Clavijo, Bernardo J. (22 de octubre de 2016). "KAT: un kit de herramientas de análisis de K-mer para el control de calidad de conjuntos de datos y conjuntos de genoma NGS" . Bioinformática . 33 (4): 574–576. doi : 10.1093 / bioinformatics / btw663 . ISSN 1367-4803 . PMC 5408915 . PMID 27797770 .
- ^ a b Chor, Benny; Horn, David; Goldman, Nick; Levy, Yaron; Massingham, Tim (2009). "Espectros de ADN genómico k-mer: modelos y modalidades" . Biología del genoma . 10 (10): R108. doi : 10.1186 / gb-2009-10-10-r108 . ISSN 1465-6906 . PMC 2784323 . PMID 19814784 .
- ^ Yakovchuk, P. (30 de enero de 2006). "Contribuciones de apilamiento y emparejamiento de bases en la estabilidad térmica de la doble hélice del ADN" . Investigación de ácidos nucleicos . 34 (2): 564–574. doi : 10.1093 / nar / gkj454 . ISSN 0305-1048 . PMC 1360284 . PMID 16449200 .
- ^ Bernardi, Giorgio (enero de 2000). "Isocoros y genómica evolutiva de vertebrados". Gene . 241 (1): 3–17. doi : 10.1016 / S0378-1119 (99) 00485-0 . PMID 10607893 .
- ^ Hurst, Laurence D .; Comerciante, Alexa R. (7 de marzo de 2001). "Alto contenido de guanina-citosina no es una adaptación a altas temperaturas: un análisis comparativo entre procariotas" . Actas de la Royal Society B: Ciencias Biológicas . 268 (1466): 493–497. doi : 10.1098 / rspb.2000.1397 . ISSN 1471-2954 . PMC 1088632 . PMID 11296861 .
- ^ a b c Mugal, Carina F .; Weber, Claudia C .; Ellegren, Hans (diciembre de 2015). "La conversión de genes sesgada por GC vincula el panorama de la recombinación y la demografía con la composición de la base genómica: la conversión de genes sesgada por GC impulsa la composición de la base genómica en una amplia gama de especies". BioEssays . 37 (12): 1317-1326. doi : 10.1002 / bies.201500058 . PMID 26445215 . S2CID 21843897 .
- ^ Romiguier, Jonathan; Roux, Camille (15 de febrero de 2017). "Sesgos analíticos asociados con el contenido de GC en la evolución molecular" . Fronteras en genética . 8 : 16. doi : 10.3389 / fgene.2017.00016 . ISSN 1664-8021 . PMC 5309256 . PMID 28261263 .
- ^ Spencer, CCA (1 de agosto de 2006). "Polimorfismo humano alrededor de puntos calientes de recombinación: Figura 1". Transacciones de la sociedad bioquímica . 34 (4): 535–536. doi : 10.1042 / BST0340535 . ISSN 0300-5127 . PMID 16856853 .
- ^ Weber, Claudia C; Boussau, Bastien; Romiguier, Jonathan; Jarvis, Erich D; Ellegren, Hans (diciembre de 2014). "Evidencia de conversión de genes sesgada por GC como un impulsor de las diferencias entre linajes en la composición de la base aviar" . Biología del genoma . 15 (12): 549. doi : 10.1186 / s13059-014-0549-1 . ISSN 1474-760X . PMC 4290106 . PMID 25496599 .
- ^ Lassalle, Florent; Périan, Séverine; Bataillon, Thomas; Nesme, Xavier; Duret, Laurent; Daubin, Vincent (6 de febrero de 2015). Petrov, Dmitri A. (ed.). "Evolución del contenido de GC en genomas bacterianos: se expande la hipótesis de conversión de genes sesgada" . PLOS Genetics . 11 (2): e1004941. doi : 10.1371 / journal.pgen.1004941 . ISSN 1553-7404 . PMC 4450053 . PMID 25659072 .
- ^ Santoyo, G; Romero, D (abril de 2005). "Conversión de genes y evolución concertada en genomas bacterianos". Reseñas de Microbiología FEMS . 29 (2): 169-183. doi : 10.1016 / j.femsre.2004.10.004 . PMID 15808740 .
- ^ Bhérer, Claude; Auton, Adam (16 de junio de 2014), John Wiley & Sons Ltd (ed.), "Conversión de genes sesgada y su impacto en la evolución del genoma", eLS , John Wiley & Sons, Ltd, doi : 10.1002 / 9780470015902.a0020834. pub2 , ISBN 9780470015902
- ^ a b Karlin, Samuel (octubre de 1998). "Firmas de dinucleótidos globales y análisis de heterogeneidad genómica". Opinión actual en microbiología . 1 (5): 598–610. doi : 10.1016 / S1369-5274 (98) 80095-7 . PMID 10066522 .
- ^ Beutler, E .; Gelbart, T .; Han, JH; Koziol, JA; Beutler, B. (1 de enero de 1989). "Evolución del genoma y del código genético: selección a nivel de dinucleótidos por metilación y escisión de polirribonucleótidos" . Actas de la Academia Nacional de Ciencias . 86 (1): 192-196. Código Bibliográfico : 1989PNAS ... 86..192B . doi : 10.1073 / pnas.86.1.192 . ISSN 0027-8424 . PMC 286430 . PMID 2463621 .
- ^ Di Giallonardo, Francesca; Schlub, Timothy E .; Shi, Mang; Holmes, Edward C. (15 de abril de 2017). Dermody, Terence S. (ed.). "La composición de los dinucleótidos en los virus de ARN animal está conformada más por la familia de virus que por la especie huésped" . Revista de Virología . 91 (8). doi : 10.1128 / JVI.02381-16 . ISSN 0022-538X . PMC 5375695 . PMID 28148785 .
- ^ Żemojtel, Tomasz; kiełbasa, Szymon M .; Arndt, Peter F .; Behrens, Sarah; Bourque, Guillaume; Vingron, Martin (1 de enero de 2011). "La desaminación CpG crea sitios de enlace de factor de transcripción con alta eficiencia" . Biología y evolución del genoma . 3 : 1304-1311. doi : 10.1093 / gbe / evr107 . ISSN 1759-6653 . PMC 3228489 . PMID 22016335 .
- ^ a b Hershberg, R; Petrov, DA (2008). "Selección en el sesgo del codón". Revisión anual de genética . 42 : 287–299. doi : 10.1146 / annurev.genet.42.110807.091442 . PMID 18983258 .
- ^ Sharp, Paul M .; Li, Wen-Hsiung (1987). "El índice de adaptación de codones - una medida de sesgo de uso de codones sinónimo direccional, y sus aplicaciones potenciales" . Investigación de ácidos nucleicos . 15 (3): 1281-1295. doi : 10.1093 / nar / 15.3.1281 . ISSN 0305-1048 . PMC 340524 . PMID 3547335 .
- ^ Noble, Peter A .; Citek, Robert W .; Ogunseitan, Oladele A. (abril de 1998). "Frecuencias de tetranucleótidos en genomas microbianos". Electroforesis . 19 (4): 528–535. doi : 10.1002 / elps.1150190412 . ISSN 0173-0835 . PMID 9588798 . S2CID 9539686 .
- ^ Nagarajan, Niranjan; Pop, Mihai (2013). "Ensamblaje de secuencia desmitificado". Nature Reviews Genética . 14 (3): 157-167. doi : 10.1038 / nrg3367 . ISSN 1471-0056 . PMID 23358380 . S2CID 3519991 .
- ^ Li; et al. (2010). "Ensamblaje de novo de genomas humanos con secuenciación de lectura corta masivamente paralela" . Investigación del genoma . 20 (2): 265-272. doi : 10.1101 / gr.097261.109 . PMC 2813482 . PMID 20019144 .
- ^ Compeau, P .; Pevzner, P .; Teslar, G. (2011). "Cómo aplicar gráficos de Bruijn al ensamblaje del genoma" . Biotecnología de la naturaleza . 29 (11): 987–991. doi : 10.1038 / nbt.2023 . PMC 5531759 . PMID 22068540 .
- ^ Phillippy, Schatz, Pop (2008). "Análisis forense del ensamblaje del genoma: encontrar el escurridizo ensamblaje incorrecto" . Bioinformática . 9 (3): R55. doi : 10.1186 / gb-2008-9-3-r55 . PMC 2397507 . PMID 18341692 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Delmont, Eren (2016). "Identificación de la contaminación con prácticas avanzadas de visualización y análisis: enfoques metagenómicos para ensamblajes del genoma eucariota" . PeerJ . 4 : e1839. doi : 10.7717 / peerj.1839 . PMC 4824900 . PMID 27069789 .
- ^ Bemm; et al. (2016). "Genoma de un tardígrado: ¿Transferencia horizontal de genes o contaminación bacteriana?" . Actas de la Academia Nacional de Ciencias . 113 (22): E3054 – E3056. doi : 10.1073 / pnas.1525116113 . PMC 4896698 . PMID 27173902 .
- ^ a b Zerbino, Daniel R .; Birney, Ewan (2008). "Velvet: algoritmos para ensamblaje de lectura corta de novo usando gráficos de Bruijn" . Investigación del genoma . 18 (5): 821–829. doi : 10.1101 / gr.074492.107 . PMC 2336801 . PMID 18349386 .
- ^ Goodur, Haswanee D .; Ramtohul, Vyasanand; Baichoo, Shakuntala (11 de noviembre de 2012). "GIDT - una herramienta para la identificación y visualización de islas genómicas en organismos procariotas". 2012 IEEE 12ª Conferencia Internacional sobre Bioinformática y Bioingeniería (BIBE) : 58–63. doi : 10.1109 / bibe.2012.6399707 . ISBN 978-1-4673-4358-9. S2CID 6368495 .
- ^ Jaron, KS; Moravec, JC; Martinkova, N. (15 de abril de 2014). "SigHunt: buscador de transferencia de genes horizontal optimizado para genomas eucariotas" . Bioinformática . 30 (8): 1081–1086. doi : 10.1093 / bioinformatics / btt727 . ISSN 1367-4803 . PMID 24371153 .
- ^ Starr, MP; Mandel, M. (1 de abril de 1969). "Composición de base de ADN y taxonomía de enterobacterias fitopatógenas y otras" . Revista de Microbiología General . 56 (1): 113-123. doi : 10.1099 / 00221287-56-1-113 . ISSN 0022-1287 . PMID 5787000 .
- ^ Moore, WEC; Stackebrandt, E .; Kandler, O .; Colwell, RR; Krichevsky, MI; Truper, HG; Murray, RGE; Wayne, LG; Grimont, PAD (1 de octubre de 1987). "Informe del Comité Ad Hoc sobre la reconciliación de enfoques a la sistemática bacteriana" . Revista Internacional de Microbiología Sistemática y Evolutiva . 37 (4): 463–464. doi : 10.1099 / 00207713-37-4-463 . ISSN 1466-5026 .
- ^ Patro, Mount, Kingsford (2014). "Sailfish permite la cuantificación de isoformas sin alineación a partir de lecturas de RNA-seq utilizando algoritmos ligeros" . Biotecnología de la naturaleza . 32 (5): 462–464. arXiv : 1308,3700 . doi : 10.1038 / nbt.2862 . PMC 4077321 . PMID 24752080 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Navarro-Gómez; et al. (2015). "Phy-Mer: un clasificador de haplogrupo mitocondrial novela libre de alineación e independiente de referencia" . Bioinformática . 31 (8): 1310-1312. doi : 10.1093 / bioinformatics / btu825 . PMC 4393525 . PMID 25505086 .
- ^ Wang, Rong; Xu, Yong; Liu, Bin (2016). "Identificación del punto de recombinación basada en k-mers con espacios" . Informes científicos . 6 (1): 23934. Bibcode : 2016NatSR ... 623934W . doi : 10.1038 / srep23934 . ISSN 2045-2322 . PMC 4814916 . PMID 27030570 .
- ^ Hozza, Michal; Vinař, Tomáš; Brejová, Broňa (2015), Iliopoulos, Costas; Puglisi, Simon; Yilmaz, Emine (eds.), "How Big is that Genome? Estimating Genome Size and Coverage from k-mer Abundance Spectra", String Processing and Information Retrieval , Springer International Publishing, 9309 , págs. 199-209, doi : 10.1007 / 978-3-319-23826-5_20 , ISBN 9783319238258
- ^ Lamichhaney, Sangeet; Fan, Guangyi; Widemo, Fredrik; Gunnarsson, Ulrika; Thalmann, Doreen Schwochow; Hoeppner, Marc P; Kerje, Susanne; Gustafson, Ulla; Shi, Chengcheng (2016). "Los cambios genómicos estructurales subyacen a las estrategias reproductivas alternativas en la gorguera (Philomachus pugnax)" . Genética de la naturaleza . 48 (1): 84–88. doi : 10.1038 / ng.3430 . ISSN 1061-4036 . PMID 26569123 .
- ^ Chae; et al. (2013). "El análisis comparativo utilizando patrones de K-mer y K-flank proporciona evidencia de la evolución de la secuencia de la isla CpG en genomas de mamíferos" . Investigación de ácidos nucleicos . 41 (9): 4783–4791. doi : 10.1093 / nar / gkt144 . PMC 3643570 . PMID 23519616 .
- ^ Mohamed Hashim, Abdullah (2015). "ADN de k-mer raro: identificación de motivos de secuencia y predicción de isla CpG y promotor" . Revista de Biología Teórica . 387 : 88-100. doi : 10.1016 / j.jtbi.2015.09.014 . PMID 26427337 .
- ^ Price, Jones, Pevzner (2005). "Identificación de novo de familias repetidas en genomas grandes" . Bioinformática . 21 (sup. 1): i351–8. doi : 10.1093 / bioinformatics / bti1018 . PMID 15961478 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Meher, Prabina Kumar; Sahu, Tanmaya Kumar; Rao, AR (2016). "Identificación de especies basada en código de barras de ADN utilizando vector de características k-mer y clasificador de bosque aleatorio". Gene . 592 (2): 316–324. doi : 10.1016 / j.gene.2016.07.010 . PMID 27393648 .
- ^ Newburger, Bulyk (2009). "UniPROBE: una base de datos en línea de datos de microarrays de unión a proteínas sobre interacciones proteína-ADN" . Investigación de ácidos nucleicos . 37 (supl 1) (Problema de la base de datos): D77–82. doi : 10.1093 / nar / gkn660 . PMC 2686578 . PMID 18842628 .
- ^ Nordstrom; et al. (2013). "Identificación de mutaciones por comparación directa de datos de secuenciación del genoma completo de individuos mutantes y de tipo salvaje utilizando k-mers" . Biotecnología de la naturaleza . 31 (4): 325–330. doi : 10.1038 / nbt.2515 . PMID 23475072 .
- ^ Zhu, Jianfeng; Zheng, Wei-Mou (2014). "Enfoque de autoorganización para metagenomas". Biología y Química Computacional . 53 : 118-124. doi : 10.1016 / j.compbiolchem.2014.08.016 . PMID 25213854 .
- ^ Dubinkina; Ischenko; Ulyantsev; Tyakht; Alexeev (2016). "Evaluación de la aplicabilidad del espectro k-mer para el análisis de disimilitud metagenómica" . BMC Bioinformática . 17 : 38. doi : 10.1186 / s12859-015-0875-7 . PMC 4715287 . PMID 26774270 .
- ^ Teeling, H; Waldmann, J; Lombardot, T; Bauer, M; Glöckner, F (2004). "TETRA: un servicio web y un programa independiente para el análisis y comparación de patrones de uso de tetranucleótidos en secuencias de ADN" . BMC Bioinformática . 5 : 163. doi : 10.1186 / 1471-2105-5-163 . PMC 529438 . PMID 15507136 .
- ^ Chatterji, Sourav; Yamazaki, Ichitaro; Bai, Zhaojun; Eisen, Jonathan A. (2008), Vingron, Martin; Wong, Limsoon (eds.), "CompostBin: A DNA Composition-Based Algorithm for Binning Environmental Shotgun Reads", Investigación en Biología Molecular Computacional , Springer Berlin Heidelberg, 4955 , págs. 17-28, arXiv : 0708.3098 , doi : 10.1007 / 978-3-540-78839-3_3 , ISBN 9783540788386, S2CID 7832512
- ^ Zheng, Hao; Wu, Hongwei (2010). "Agrupación de fragmentos de ADN procariótico corto utilizando un clasificador jerárquico basado en análisis discriminante lineal y análisis de componentes principales". Revista de Bioinformática y Biología Computacional . 08 (6): 995–1011. doi : 10.1142 / S0219720010005051 . ISSN 0219-7200 . PMID 21121023 .
- ^ McHardy, Alice Carolyn; Martín, Héctor García; Tsirigos, Aristotelis; Hugenholtz, Philip; Rigoutsos, Isidore (2007). "Clasificación filogenética precisa de fragmentos de ADN de longitud variable". Métodos de la naturaleza . 4 (1): 63–72. doi : 10.1038 / nmeth976 . ISSN 1548-7091 . PMID 17179938 . S2CID 28797816 .
- ^ Ounit, Rachid; Wanamaker, Steve; Cerca, Timothy J; Lonardi, Stefano (2015). "CLARK: clasificación rápida y precisa de secuencias metagenómicas y genómicas utilizando k-mers discriminativos" . BMC Genomics . 16 (1): 236. doi : 10.1186 / s12864-015-1419-2 . ISSN 1471-2164 . PMC 4428112 . PMID 25879410 .
- ^ Díaz, Naryttza N; Krause, Lutz; Goesmann, Alexander; Niehaus, Karsten; Nattkemper, Tim W. (2009). "TACOA - clasificación taxonómica de fragmentos genómicos ambientales utilizando un enfoque de vecino más cercano kernelizado" . BMC Bioinformática . 10 (1): 56. doi : 10.1186 / 1471-2105-10-56 . ISSN 1471-2105 . PMC 2653487 . PMID 19210774 .
- ^ Fiannaca, Antonino; La Paglia, Laura; La Rosa, Massimo; Lo Bosco, Giosue '; Renda, Giovanni; Rizzo, Riccardo; Gaglio, Salvatore; Urso, Alfonso (2018). "Modelos de aprendizaje profundo para la clasificación taxonómica de bacterias de datos metagenómicos" . BMC Bioinformática . 19 (S7): 198. doi : 10.1186 / s12859-018-2182-6 . ISSN 1471-2105 . PMC 6069770 . PMID 30066629 .
- ^ Zhu, Zheng (2014). "Enfoque de autoorganización para metagenomas". Biología y Química Computacional . 53 : 118-124. doi : 10.1016 / j.compbiolchem.2014.08.016 . PMID 25213854 .
- ^ Lu, Jennifer; Breitwieser, Florian P .; Thielen, Peter; Salzberg, Steven L. (2 de enero de 2017). "Bracken: estimación de la abundancia de especies en datos metagenómicos" . PeerJ Ciencias de la Computación . 3 : e104. doi : 10.7717 / peerj-cs.104 . ISSN 2376-5992 .
- ^ Wood, Derrick E; Salzberg, Steven L (2014). "Kraken: clasificación de secuencia metagenómica ultrarrápida usando alineaciones exactas" . Biología del genoma . 15 (3): R46. doi : 10.1186 / gb-2014-15-3-r46 . ISSN 1465-6906 . PMC 4053813 . PMID 24580807 .
- ^ Rosen, Gail; Garbarine, Elaine; Caseiro, Diamantino; Polikar, Robi; Sokhansanj, Bahrad (2008). "Clasificación de fragmentos de metagenoma utilizando perfiles de frecuencia -Mer" . Avances en bioinformática . 2008 : 205969. doi : 10.1155 / 2008/205969 . ISSN 1687-8027 . PMC 2777009 . PMID 19956701 .
- ^ Wang, Ying; Fu, Lei; Ren, Jie; Yu, Zhaoxia; Chen, Ting; Sol, Fengzhu (3 de mayo de 2018). "Identificación de secuencias específicas de grupo para comunidades microbianas utilizando firmas de secuencia Long k-mer" . Fronteras en microbiología . 9 : 872. doi : 10.3389 / fmicb.2018.00872 . ISSN 1664-302X . PMC 5943621 . PMID 29774017 .
- ^ Al-Saif, Maher; Khabar, Khalid SA (2012). "La reducción de frecuencia de dinucleótidos UU / UA en regiones de codificación da como resultado una mayor estabilidad de ARNm y expresión de proteínas" . Terapia molecular . 20 (5): 954–959. doi : 10.1038 / mt.2012.29 . PMC 3345983 . PMID 22434136 .
- ^ Trinh, R; Gurbaxani, B; Morrison, SL; Seyfzadeh, M (2004). "La optimización del uso de pares de codones dentro de la secuencia del enlazador (GGGGS) 3 da como resultado una expresión de proteína mejorada". Inmunología molecular . 40 (10): 717–722. doi : 10.1016 / j.molimm.2003.08.006 . PMID 14644097 .
- ^ Shen, Sam H .; Stauft, Charles B .; Gorbatsevych, Oleksandr; Song, Yutong; Ward, Charles B .; Yurovsky, Alisa; Mueller, Steffen; Futcher, Bruce; Wimmer, Eckard (14 de abril de 2015). "Recodificación a gran escala de un genoma de arbovirus para reequilibrar su preferencia de insectos frente a mamíferos" . Actas de la Academia Nacional de Ciencias . 112 (15): 4749–4754. Código bibliográfico : 2015PNAS..112.4749S . doi : 10.1073 / pnas.1502864112 . ISSN 0027-8424 . PMC 4403163 . PMID 25825721 .
- ^ Kaplan, Bryan S .; Souza, Carine K .; Gauger, Phillip C .; Stauft, Charles B .; Robert Coleman, J .; Mueller, Steffen; Vincent, Amy L. (2018). "La vacunación de cerdos con una vacuna contra la influenza atenuada viva desoptimizada con sesgo de pares de codones protege del desafío homólogo" . Vacuna . 36 (8): 1101–1107. doi : 10.1016 / j.vaccine.2018.01.027 . PMID 29366707 .
- ^ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dusan (29 de enero de 2018). Mocarski, Edward (ed.). "Atenuación de un herpesvirus de la enfermedad de Marek muy virulento (MDV) por desoptimización de sesgo de par de codones" . PLOS Patógenos . 14 (1): e1006857. doi : 10.1371 / journal.ppat.1006857 . ISSN 1553-7374 . PMC 5805365 . PMID 29377958 .
- ^ Kunec, Dusan; Osterrieder, Nikolaus (2016). "El sesgo del par de codones es una consecuencia directa del sesgo de los dinucleótidos" . Informes de celda . 14 (1): 55–67. doi : 10.1016 / j.celrep.2015.12.011 . PMID 26725119 .
- ^ Tulloch, Fiona; Atkinson, Nicky J; Evans, David J; Ryan, Martin D; Simmonds, Peter (9 de diciembre de 2014). "La atenuación del virus de ARN por desoptimización de pares de codones es un artefacto de aumentos en las frecuencias de dinucleótidos CpG / UpA" . eLife . 3 : e04531. doi : 10.7554 / eLife.04531 . ISSN 2050-084X . PMC 4383024 . PMID 25490153 .
- ^ Marçais, Guillaume; Kingsford, Carl (15 de marzo de 2011). "Un enfoque rápido y sin bloqueos para el conteo paralelo eficiente de ocurrencias de k-mers" . Bioinformática . 27 (6): 764–770. doi : 10.1093 / bioinformatics / btr011 . ISSN 1460-2059 . PMC 3051319 . PMID 21217122 .
- ^ Deorowicz, Sebastián; Kokot, Marek; Grabowski, Szymon; Debudaj-Grabysz, Agnieszka (15 de mayo de 2015). "KMC 2: conteo de k-mer rápido y económico de recursos" . Bioinformática . 31 (10): 1569-1576. doi : 10.1093 / bioinformatics / btv022 . ISSN 1460-2059 . PMID 25609798 .
- ^ Erbert, Marius; Rechner, Steffen; Müller-Hannemann, Matthias (2017). "Jerbo: un contador k-mer rápido y con memoria eficiente con soporte GPU" . Algoritmos de Biología Molecular . 12 (1): 9. doi : 10.1186 / s13015-017-0097-9 . ISSN 1748-7188 . PMC 5374613 . PMID 28373894 .
enlaces externos
- bioXriv: k-mer
- arXiv: k-mer