En bioinformática , un logotipo de secuencia es una representación gráfica de la conservación de la secuencia de nucleótidos (en una hebra de ADN / ARN ) o aminoácidos (en secuencias de proteínas ). [1] Se crea un logotipo de secuencia a partir de una colección de secuencias alineadas y representa la secuencia de consenso y la diversidad de las secuencias. Los logotipos de secuencia se utilizan con frecuencia para representar las características de la secuencia, como los sitios de unión a proteínas en el ADN o las unidades funcionales en las proteínas.
Descripción general
Un logotipo de secuencia consta de una pila de letras en cada posición. Los tamaños relativos de las letras indican su frecuencia en las secuencias. La altura total de las letras representa el contenido de información de la posición, en bits.
Creación de logotipos
Para crear logotipos de secuencias, se alinean secuencias de ADN, ARN o proteínas relacionadas, o secuencias de ADN que tienen sitios de unión conservados en común, de modo que las partes más conservadas creen buenas alineaciones. A continuación, se puede crear un logotipo de secuencia a partir de la alineación de secuencia múltiple conservada . El logotipo de la secuencia mostrará qué tan bien se conservan los residuos en cada posición: cuanto mayor sea el número de residuos, más altas serán las letras, porque mejor será la conservación en esa posición. Los diferentes residuos en la misma posición se escalan de acuerdo con su frecuencia. La altura de toda la pila de residuos es la información medida en bits . Los logotipos de secuencia se pueden usar para representar sitios de unión de ADN conservados , donde se unen factores de transcripción .
El contenido de información (eje y) de la posición viene dado por: [2]
- para aminoácidos,
- para ácidos nucleicos,
dónde es la incertidumbre (a veces llamada entropía de Shannon ) de la posición
Aquí, es la frecuencia relativa de base o aminoácido en la posición , y es la corrección de muestra pequeña para una alineación de letras. La altura de la letra en columna es dado por
La aproximación para la corrección de muestra pequeña, , es dado por:
dónde es 4 para nucleótidos, 20 para aminoácidos y es el número de secuencias en la alineación.
Logotipo de consenso
Un logotipo de consenso es una variación simplificada de un logotipo de secuencia que se puede incrustar en formato de texto. Al igual que un logotipo de secuencia, un logotipo de consenso se crea a partir de una colección de proteínas alineadas o secuencias de ADN / ARN y transmite información sobre la conservación de cada posición de un motivo de secuencia o alineación de secuencia [1] [3] . Sin embargo, un logotipo de consenso muestra solo información de conservación y no explícitamente la información de frecuencia de cada nucleótido o aminoácido en cada posición. En lugar de una pila formada por varios caracteres, que denota la frecuencia relativa de cada carácter, el logotipo de consenso representa el grado de conservación de cada posición utilizando la altura del carácter de consenso en esa posición.
Ventajas e inconvenientes
La principal y obvia ventaja de los logotipos de consenso sobre los logotipos de secuencia es su capacidad para integrarse como texto en cualquier editor / visor de soporte de formato de texto enriquecido y, por lo tanto, en manuscritos científicos. Como se describió anteriormente, el logotipo de consenso es un cruce entre los logotipos de secuencia y las secuencias de consenso . Como resultado, en comparación con un logotipo de secuencia, el logotipo de consenso omite información (la contribución relativa de cada carácter a la conservación de esa posición en el motivo / alineación). Por lo tanto, se debe utilizar preferentemente un logotipo de secuencia siempre que sea posible. Dicho esto, la necesidad de incluir figuras gráficas para mostrar logotipos de secuencias ha perpetuado el uso de secuencias de consenso en los manuscritos científicos, aunque no transmiten información tanto sobre conservación como sobre frecuencia. [4] Los logotipos de consenso representan, por lo tanto, una mejora con respecto a las secuencias de consenso siempre que la información de motivo / alineación deba limitarse al texto.
Extensiones
Los modelos ocultos de Markov (HMM) no solo consideran el contenido de información de las posiciones alineadas en una alineación, sino también las inserciones y eliminaciones. En un logotipo de secuencia HMM utilizado por Pfam , se agregan tres filas para indicar las frecuencias de ocupación (presencia) e inserción, así como la longitud de inserción esperada. [5]
Ver también
Referencias
- ^ a b Schneider TD; Stephens RM (1990). "Logos de secuencia: una nueva forma de mostrar secuencias de consenso" . Ácidos nucleicos Res . 18 (20): 6097–6100. doi : 10.1093 / nar / 18.20.6097 . PMC 332411 . PMID 2172928 .
- ^ Schneider TD; Stormo GD (1986). "Contenido de información de sitios de unión en secuencias de nucleótidos" (PDF) . Revista de Biología Molecular . 188 (3): 415–431. doi : 10.1016 / 0022-2836 (86) 90165-8 . PMID 3525846 .
- ^ Anzaldi LJ; Muñoz-Fernández D; Erill I. (2012). "BioWord: una suite de manipulación de secuencias para Microsoft Word" . BMC Bioinformática . 13 (124): 124. doi : 10.1186 / 1471-2105-13-124 . PMC 3546851 . PMID 22676326 .
- ^ Schneider TD (2002). "Secuencia de consenso Zen" . Appl Bioinform . 1 (3): 111-119. PMC 1852464 . PMID 15130839 .
- ^ Wheeler, Travis J; Clements, Jody; Finn, Robert D (13 de enero de 2014). "Skylign: una herramienta para la creación de logotipos interactivos e informativos que representan alineaciones de secuencia y modelos de perfil ocultos de Markov" . BMC Bioinformática . 15 (1): 7. doi : 10.1186 / 1471-2105-15-7 . PMC 3893531 . PMID 24410852 .
enlaces externos
- Cómo leer los logotipos de secuencias .
- Recomendaciones para hacer logotipos de secuencia .
- Erill, I., "Una suave introducción al contenido de la información en los sitios de unión de factores de transcripción", Eprint
- ¿Qué es (en) un logotipo de secuencia?
Herramientas para crear logotipos de secuencias
- Paquete Logomaker Python para hacer logotipos de secuencias personalizados (licencia MIT)
- Código RWebLogo R, envoltorio para código Python (licencia BSD)
- WebLogo Código Python Código Python (licencia BSD, algo difícil de usar)
- WebLogo 3.0 (en línea)
- Seq2Logo (aplicación en línea para alineaciones de péptidos con pseudo recuento, ponderación de secuencia y representación de dos caras)
- GENIO (en línea)
- Logotipo basado en PWM (aplicación en línea para modelos basados en PWM con motivos)
- LogoBar (aplicación Java)
- CorreLogo Un servidor en línea para logotipos de secuencias 3D de alineaciones de ARN y ADN
- Función seqlogo C para generar logotipos de secuencias de ADN
- [1] Cinta adicional de MS-Word que permite la generación de logotipos de consenso
- Programa RILogo y servidor web para crear logotipos para dos ARN interactuantes
- Herramienta Skylign Online para crear logotipos que representen tanto alineaciones de secuencia como modelos de Markov ocultos de perfil
- sequence_motifs.js Un complemento de jQuery para crear motivos de secuencia ( demostración de jsfiddle ).