En bioinformática, un diagrama de puntos es un método gráfico para comparar dos secuencias biológicas e identificar regiones de gran similitud después de la alineación de secuencias . Es un tipo de trama de recurrencia .
Historia
Una forma de visualizar la similitud entre dos secuencias de proteínas o ácidos nucleicos es utilizar una matriz de similitud, conocida como diagrama de puntos. Estos fueron introducidos por Gibbs y McIntyre en 1970 [1] y son matrices bidimensionales que tienen las secuencias de las proteínas que se comparan a lo largo de los ejes vertical y horizontal. Para una representación visual simple de la similitud entre dos secuencias, las celdas individuales en la matriz se pueden sombrear en negro si los residuos son idénticos, de modo que los segmentos de secuencia coincidentes aparezcan como líneas diagonales en la matriz.
Interpretación
Se puede obtener alguna idea de la similitud de las dos secuencias a partir del número y la longitud de los segmentos coincidentes que se muestran en la matriz. Obviamente, las proteínas idénticas tendrán una línea diagonal en el centro de la matriz. Las inserciones y deleciones entre secuencias dan lugar a interrupciones en esta diagonal. Las regiones de similitud local o secuencias repetitivas dan lugar a más coincidencias diagonales además de la diagonal central. Una forma de reducir este ruido es sombrear solo las corridas o ' tuplas ' de residuos, por ejemplo, una tupla de 3 corresponde a tres residuos seguidos. Esto es eficaz porque la probabilidad de emparejar tres residuos seguidos por casualidad es mucho menor que las coincidencias de un solo residuo.
Las gráficas de puntos comparan dos secuencias organizando una secuencia en el eje xy otra en el eje y de una gráfica. Cuando los residuos de ambas secuencias coinciden en la misma ubicación en el gráfico, se dibuja un punto en la posición correspondiente. Tenga en cuenta que las secuencias se pueden escribir hacia atrás o hacia adelante, sin embargo, las secuencias en ambos ejes deben escribirse en la misma dirección. También tenga en cuenta que la dirección de las secuencias en los ejes determinará la dirección de la línea en el diagrama de puntos. Una vez que se hayan trazado los puntos, se combinarán para formar líneas. La cercanía de las secuencias en similitud determinará qué tan cerca está la línea diagonal de lo que está un gráfico que muestra una curva que demuestra una relación directa . Esta relación se ve afectada por ciertas características de secuencia, como cambios de fotograma, repeticiones directas y repeticiones invertidas. Los cambios de fotograma incluyen inserciones, eliminaciones y mutaciones. La presencia de una de estas características, o la presencia de múltiples características, hará que se tracen múltiples líneas en varias posibilidades de configuraciones, dependiendo de las características presentes en las secuencias. Una característica que provocará un resultado muy diferente en el diagrama de puntos es la presencia de regiones de baja complejidad. Las regiones de baja complejidad son regiones en la secuencia con solo unos pocos aminoácidos, lo que a su vez provoca redundancia dentro de esa región pequeña o limitada. Estas regiones se encuentran típicamente alrededor de la diagonal y pueden tener o no un cuadrado en el medio del diagrama de puntos.
Software para crear diagramas de puntos
- ANACON - Análisis de contacto de diagramas de puntos.
- D-Genies [2] : se especializa en diagramas de puntos interactivos de genoma completo de genomas grandes
- Dotlet : proporciona un programa que le permite construir un diagrama de puntos con sus propias secuencias.
- dotmatcher [3] - Herramienta web para generar gráficos de puntos (y parte de la suite EMBOSS).
- Dotplot : herramienta HTML5 fácil (educativa) para generar gráficos de puntos a partir de secuencias de ARN.
- dotplot - paquete R para generar rápidamente gráficos de puntos como gráficos tradicionales o ggplot.
- Dotter [4] - Programa independiente para generar gráficos de puntos.
- JDotter [5] - Versión Java de Dotter.
- Flexidot [6] : conjunto de gráficos de puntos personalizable y consciente de la ambigüedad para la estética, el análisis por lotes y la impresión (implementado en Python).
- Gepard [7] : herramienta de trazado de puntos adecuada para una escala uniforme del genoma.
- Genomdiff : un programa de diagrama de puntos de Java de código abierto para virus.
- ÚLTIMO para la "alineación dividida" de todo el genoma. [8]
- lastz [9] y laj - Programas para preparar y visualizar alineaciones genómicas.
- yass [10] - Herramienta basada en web para generar (tanto en complemento directo como inverso) diagramas de puntos a partir de alineaciones genómicas.
- seqinr - paquete R para generar gráficos de puntos.
- SynMap : una herramienta web fácil de usar para generar gráficos de puntos para muchas especies con acceso a una extensa base de datos de genomas. Ofrecido por la plataforma de genómica comparativa CoGe.
- Visor de gráficos de puntos UGENE: visualizador de gráficos de puntos de código abierto.
- Introducción general a los diagramas de puntos con algoritmos de ejemplo y una herramienta de software para crear diagramas de puntos de tamaño pequeño y mediano.
Además de las herramientas enumeradas anteriormente, NCBI Blast Server en https://blast.ncbi.nlm.nih.gov/Blast.cgi incluye Dot Plots en su salida.
Ver también
Referencias
- ^ Gibbs, Adrian J .; McIntyre, George A. (1970). "El diagrama, un método para comparar secuencias. Su uso con secuencias de aminoácidos y nucleótidos" . EUR. J. Biochem . 16 (1): 1–11. doi : 10.1111 / j.1432-1033.1970.tb01046.x . PMID 5456129 .
- ^ Klopp, Christophe; Cabanettes, Floréal (23/02/2018). "D-GENIES: trazar genomas de gran tamaño de forma interactiva, eficiente y sencilla" . PeerJ . 6 : e4958. doi : 10.7287 / peerj.preprints.26567v1 . PMC 5991294 . PMID 29888139 .
- ^ Rice, P .; Longden, I .; Bleasby, A. (junio de 2000). "EMBOSS: la suite europea de software abierto de biología molecular". Tendencias en Genética . 16 (6): 276–277. doi : 10.1016 / s0168-9525 (00) 02024-2 . ISSN 0168-9525 . PMID 10827456 .
- ^ Sonnhammer, EL; Durbin, R. (29 de diciembre de 1995). "Un programa de matriz de puntos con control de umbral dinámico adecuado para el análisis de secuencias de proteínas y ADN genómico". Gene . 167 (1–2): CG1–10. doi : 10.1016 / 0378-1119 (95) 00714-8 . ISSN 0378-1119 . PMID 8566757 .
- ^ Brodie, Ryan; Roper, Rachel L .; Upton, Chris (22 de enero de 2004). "JDotter: una interfaz Java para múltiples gráficos de puntos generados por dotter" . Bioinformática . 20 (2): 279–281. doi : 10.1093 / bioinformatics / btg406 . ISSN 1367-4803 . PMID 14734323 .
- ^ Seibt, Kathrin M .; Schmidt, Thomas; Heitkam, Tony (15 de octubre de 2018). "FlexiDot: gráficos de puntos altamente personalizables y conscientes de la ambigüedad para análisis de secuencias visuales" . Bioinformática . 34 (20): 3575–3577. doi : 10.1093 / bioinformatics / bty395 . PMID 29762645 .
- ^ Krumsiek, Jan; Arnold, Roland; Rattei, Thomas (15 de abril de 2007). "Gepard: una herramienta rápida y sensible para la creación de gráficos de puntos a escala del genoma" . Bioinformática . 23 (8): 1026–1028. doi : 10.1093 / bioinformatics / btm039 . ISSN 1367-4803 . PMID 17309896 .
- ^ Frith MC. y Kawaguchi R. (2015). "La alineación dividida de los genomas encuentra ortologías con mayor precisión" . Genome Biol . 16 : 106. doi : 10.1186 / s13059-015-0670-9 . PMC 4464727 . PMID 25994148 .
- ^ Harris, RS (2007). Mejora de la alineación por pares del ADN genómico. Doctor. tesis . Pensilvania: la Universidad Estatal de Pensilvania.
- ^ Noe L., Kucherov. G. (2005). "YASS: mejora de la sensibilidad de la búsqueda de similitud de ADN" . Investigación de ácidos nucleicos . 33 (2): W540 – W543. doi : 10.1093 / nar / gki478 . PMC 1160238 . PMID 15980530 .