Micromatriz de ADN


Un microarray de ADN (también conocido comúnmente como chip de ADN o biochip ) es una colección de manchas de ADN microscópicas adheridas a una superficie sólida. Los científicos usan microarrays de ADN para medir los niveles de expresión de un gran número de genes simultáneamente o para genotipar múltiples regiones de un genoma. Cada mancha de ADN contiene picomoles ( 10-12 moles ) de una secuencia de ADN específica, conocida como sondas (o reporteros u oligos ). Pueden ser una sección corta de un gen u otro elemento de ADN que se utiliza para hibridar unMuestra de ADNc o ARNc (también denominada ARN antisentido) (denominada diana ) en condiciones muy estrictas. La hibridación sonda-diana generalmente se detecta y cuantifica mediante la detección de dianas marcadas con fluoróforo , plata o quimioluminiscencia para determinar la abundancia relativa de secuencias de ácido nucleico en la diana. Las matrices de ácidos nucleicos originales eran matrices macro de aproximadamente 9 cm x 12 cm y el primer análisis basado en imágenes computarizado se publicó en 1981. [1] Fue inventado por Patrick O. Brown . Un ejemplo de su aplicación es en arreglos de SNPs para polimorfismos en enfermedades cardiovasculares, cáncer, patógenos y análisis GWAS. También para la identificación de variaciones estructurales y la medición de la expresión génica.

Cómo utilizar una micromatriz para la genotipificación. El video muestra el proceso de extracción de genotipos de una muestra de saliva humana utilizando microarrays. La genotipificación es un uso importante de los microarrays de ADN, pero con algunas modificaciones también se pueden utilizar para otros fines, como la medición de la expresión génica y los marcadores epigenéticos.

Hibridación del objetivo a la sonda.

El principio central detrás de los microarrays es la hibridación entre dos cadenas de ADN, la propiedad de las secuencias de ácidos nucleicos complementarias para emparejarse específicamente entre sí formando enlaces de hidrógeno entre pares de bases de nucleótidos complementarios . Un alto número de pares de bases complementarios en una secuencia de nucleótidos significa un enlace no covalente más estrecho entre las dos cadenas. Después de lavar las secuencias de unión no específicas, solo las hebras fuertemente emparejadas permanecerán hibridadas. Las secuencias diana marcadas con fluorescencia que se unen a una secuencia de sonda generan una señal que depende de las condiciones de hibridación (como la temperatura) y del lavado después de la hibridación. La fuerza total de la señal, desde un punto (característica), depende de la cantidad de unión de la muestra objetivo a las sondas presentes en ese punto. Los micromatrices utilizan cuantificación relativa en la que la intensidad de una característica se compara con la intensidad de la misma característica en una condición diferente, y la identidad de la característica se conoce por su posición.

Los pasos necesarios en un experimento de microarrays

Dos chips Affymetrix. Se muestra una coincidencia en la parte inferior izquierda para comparar el tamaño.

Existen muchos tipos de matrices y la distinción más amplia es si están dispuestas espacialmente en una superficie o en cuentas codificadas:

  • La matriz de fase sólida tradicional es una colección de "puntos" microscópicos ordenados, llamados rasgos, cada uno con miles de sondas idénticas y específicas unidas a una superficie sólida, como un biochip de vidrio , plástico o silicio (comúnmente conocido como chip del genoma , ADN chip o matriz de genes ). Miles de estas características se pueden colocar en ubicaciones conocidas en una única micromatriz de ADN.
  • La matriz de perlas alternativa es una colección de perlas de poliestireno microscópicas, cada una con una sonda específica y una proporción de dos o más tintes, que no interfieren con los tintes fluorescentes utilizados en la secuencia objetivo.

Las micromatrices de ADN se pueden usar para detectar ADN (como en la hibridación genómica comparativa ) o detectar ARN (más comúnmente como ADNc después de la transcripción inversa ) que puede o no traducirse en proteínas. El proceso de medir la expresión génica a través del ADNc se denomina análisis de expresión o perfil de expresión .

Las aplicaciones incluyen:

Fabricación

Los microarrays se pueden fabricar de diferentes formas, según el número de sondas que se examinen, los costes, los requisitos de personalización y el tipo de pregunta científica que se plantee. Las matrices de proveedores comerciales pueden tener tan solo 10 sondas o hasta 5 millones o más de sondas a escala micrométrica.

Arreglos sintetizados in situ o manchados

"> Reproducir medios
Un microarray de ADN está siendo impreso por un robot en la Universidad de Delaware.

Los micromatrices se pueden fabricar utilizando una variedad de tecnologías, incluida la impresión con alfileres de punta fina en portaobjetos de vidrio, fotolitografía utilizando máscaras prefabricadas, fotolitografía utilizando dispositivos de microespejos dinámicos, impresión por chorro de tinta [10] [11] o electroquímica en matrices de microelectrodos .

En los microarrays manchados , las sondas son oligonucleótidos , ADNc o pequeños fragmentos de productos de PCR que corresponden a ARNm . Las sondas se sintetizan antes de la deposición en la superficie de la matriz y luego se "manchan" sobre el vidrio. Un enfoque común utiliza una matriz de alfileres o agujas finos controlados por un brazo robótico que se sumerge en pozos que contienen sondas de ADN y luego deposita cada sonda en ubicaciones designadas en la superficie de la matriz. La "rejilla" de sondas resultante representa los perfiles de ácido nucleico de las sondas preparadas y está lista para recibir "dianas" de ADNc o ARNc complementarios derivados de muestras experimentales o clínicas. Esta técnica es utilizada por científicos de investigación de todo el mundo para producir microarreglos impresos "internos" a partir de sus propios laboratorios. Estas matrices se pueden personalizar fácilmente para cada experimento, porque los investigadores pueden elegir las sondas y las ubicaciones de impresión en las matrices, sintetizar las sondas en su propio laboratorio (o instalación colaboradora) y detectar las matrices. Luego pueden generar sus propias muestras etiquetadas para la hibridación, hibridar las muestras con la matriz y, finalmente, escanear las matrices con su propio equipo. Esto proporciona una micromatriz de costo relativamente bajo que puede personalizarse para cada estudio y evita los costos de comprar matrices comerciales a menudo más caras que pueden representar un gran número de genes que no son de interés para el investigador. Existen publicaciones que indican que los microarrays manchados internos pueden no proporcionar el mismo nivel de sensibilidad en comparación con los arreglos de oligonucleótidos comerciales, [12] posiblemente debido a los pequeños tamaños de lote y la eficiencia de impresión reducida en comparación con los fabricantes industriales de oligonucleótidos.

En las micromatrices de oligonucleótidos , las sondas son secuencias cortas diseñadas para coincidir con partes de la secuencia de marcos de lectura abiertos conocidos o predichos . Aunque las sondas de oligonucleótidos se utilizan a menudo en micromatrices "manchadas", el término "matriz de oligonucleótidos" se refiere más a menudo a una técnica específica de fabricación. Las matrices de oligonucleótidos se producen imprimiendo secuencias de oligonucleótidos cortas diseñadas para representar un solo gen o una familia de variantes de corte y empalme de genes sintetizando esta secuencia directamente en la superficie de la matriz en lugar de depositar secuencias intactas. Las secuencias pueden ser más largas (sondas de 60 unidades como el diseño de Agilent ) o más cortas (sondas de 25 unidades producidas por Affymetrix ) según el propósito deseado; las sondas más largas son más específicas para los genes diana individuales, las sondas más cortas pueden detectarse en una densidad más alta a través de la matriz y son más baratas de fabricar. Una técnica utilizada para producir matrices de oligonucleótidos incluye síntesis fotolitográfica (Affymetrix) sobre un sustrato de sílice donde se utilizan la luz y agentes enmascaradores sensibles a la luz para "construir" una secuencia de un nucleótido a la vez en toda la matriz. [13] Cada sonda aplicable se "desenmascara" selectivamente antes de bañar la matriz en una solución de un solo nucleótido, luego tiene lugar una reacción de enmascaramiento y el siguiente conjunto de sondas se desenmascara en preparación para una exposición de nucleótidos diferente. Después de muchas repeticiones, las secuencias de cada sonda se construyen completamente. Más recientemente, Maskless Array Synthesis de NimbleGen Systems ha combinado la flexibilidad con una gran cantidad de sondas. [14]

Detección de dos canales frente a un canal

Diagrama de un experimento típico de microarrays de dos colores

Las micromatrices de dos colores o las micromatrices de dos canales se hibridan típicamente con ADNc preparado a partir de dos muestras para comparar (por ejemplo, tejido enfermo frente a tejido sano) y que se marcan con dos fluoróforos diferentes . [15] Los tintes fluorescentes comúnmente utilizados para el etiquetado de ADNc incluyen Cy 3, que tiene una longitud de onda de emisión de fluorescencia de 570 nm (correspondiente a la parte verde del espectro de luz), y Cy 5 con una longitud de onda de emisión de fluorescencia de 670 nm (correspondiente a la parte roja del espectro de luz). Las dos muestras de ADNc marcadas con Cy se mezclan y se hibridan en una única micromatriz que luego se escanea en un escáner de micromatrices para visualizar la fluorescencia de los dos fluoróforos después de la excitación con un rayo láser de una longitud de onda definida. Las intensidades relativas de cada fluoróforo pueden usarse luego en un análisis basado en proporciones para identificar genes regulados por incremento y regulados por disminución. [dieciséis]

Las micromatrices de oligonucleótidos a menudo llevan sondas de control diseñadas para hibridar con picos de ARN . El grado de hibridación entre las puntas y las sondas de control se usa para normalizar las medidas de hibridación de las sondas diana. Aunque los niveles absolutos de expresión génica pueden determinarse en la matriz de dos colores en raras ocasiones, las diferencias relativas en la expresión entre diferentes puntos dentro de una muestra y entre muestras es el método preferido de análisis de datos para el sistema de dos colores. Entre los ejemplos de proveedores para dichos microarrays se incluyen Agilent con su plataforma Dual-Mode, Eppendorf con su plataforma DualChip para etiquetado colorimétrico Silverquant y TeleChem International con Arrayit .

En micromatrices de un solo canal o micromatrices de un color , las matrices proporcionan datos de intensidad para cada sonda o conjunto de sondas que indican un nivel relativo de hibridación con el objetivo marcado. Sin embargo, no indican realmente los niveles de abundancia de un gen, sino una abundancia relativa en comparación con otras muestras o condiciones cuando se procesan en el mismo experimento. Cada molécula de ARN encuentra un protocolo y un sesgo específico del lote durante las fases de amplificación, etiquetado e hibridación del experimento, lo que hace que las comparaciones entre genes para el mismo microarray no sean informativas. La comparación de dos condiciones para el mismo gen requiere dos hibridaciones separadas de un solo colorante. Varios sistemas populares de un solo canal son Affymetrix "Gene Chip", Illumina "Bead Chip", arreglos monocanal Agilent, arreglos Applied Microarrays "CodeLink" y Eppendorf "DualChip & Silverquant". Una fortaleza del sistema de un solo tinte radica en el hecho de que una muestra aberrante no puede afectar los datos brutos derivados de otras muestras, porque cada chip de matriz está expuesto a una sola muestra (a diferencia de un sistema de dos colores en el que una sola baja -la muestra de calidad puede afectar drásticamente la precisión general de los datos, incluso si la otra muestra fue de alta calidad). Otro beneficio es que los datos se comparan más fácilmente con las matrices de diferentes experimentos siempre que se hayan tenido en cuenta los efectos por lotes.

La micromatriz de un canal puede ser la única opción en algunas situaciones. Suponer las muestras deben compararse: entonces, el número de experimentos necesarios utilizando las matrices de dos canales se vuelve rápidamente inviable, a menos que se utilice una muestra como referencia.

Un protocolo típico

Ejemplos de niveles de aplicación de microarrays. Dentro de los organismos, los genes se transcriben y empalman para producir transcripciones maduras de ARNm (rojo). El mRNA se extrae del organismo y la transcriptasa inversa se utiliza para copiar el mRNA en ds-cDNA estable (azul). En los microarrays, el ds-cDNA está fragmentado y marcado con fluorescencia (naranja). Los fragmentos marcados se unen a una matriz ordenada de oligonucleótidos complementarios y la medición de la intensidad fluorescente a través de la matriz indica la abundancia de un conjunto predeterminado de secuencias. Estas secuencias se eligen típicamente específicamente para informar sobre genes de interés dentro del genoma del organismo. [17]

Este es un ejemplo de un experimento de microarrays de ADN que incluye detalles de un caso particular para explicar mejor los experimentos de microarrays de ADN, al tiempo que enumera modificaciones para ARN u otros experimentos alternativos.

  1. Las dos muestras que se van a comparar (comparación por pares) se cultivan / adquieren. En este ejemplo, muestra tratada ( caso ) y muestra no tratada ( control ).
  2. El ácido nucleico de interés está purificado: puede ser ARN para el perfil de expresión , ADN para hibridación comparativa o ADN / ARN unido a una proteína particular que se inmunoprecipita ( ChIP-on-chip ) para estudios epigenéticos o de regulación. En este ejemplo, el ARN total se aísla (tanto nuclear como citoplásmico ) mediante extracción con tiocianato de guanidinio-fenol-cloroformo (por ejemplo, Trizol ) que aísla la mayor parte del ARN (mientras que los métodos de columna tienen un límite de 200 nucleótidos) y, si se hace correctamente, tiene una mayor pureza.
  3. El ARN purificado se analiza en cuanto a calidad (por electroforesis capilar ) y cantidad (por ejemplo, usando un espectrómetro NanoDrop o NanoPhotometer ). Si el material es de calidad aceptable y hay una cantidad suficiente (por ejemplo,> 1 μg , aunque la cantidad requerida varía según la plataforma de microarrays), el experimento puede continuar.
  4. El producto marcado se genera mediante transcripción inversa y le sigue una amplificación por PCR opcional . El ARN se transcribe de forma inversa con cebadores polyT (que amplifican solo el ARNm ) o cebadores aleatorios (que amplifican todo el ARN, la mayoría del cual es ARNr ). Los microarrays de miARN ligan un oligonucleótido al ARN pequeño purificado (aislado con un fraccionador), que luego se transcribe inversamente y se amplifica.
    • La etiqueta se agrega durante el paso de transcripción inversa o después de la amplificación si se realiza. El etiquetado de sentido depende de la micromatriz; por ejemplo, si el marcador se agrega con la mezcla de RT, el ADNc es antisentido y la sonda de micromatriz tiene sentido, excepto en el caso de controles negativos.
    • La etiqueta es típicamente fluorescente ; sólo una máquina utiliza radiomarcadores .
    • El etiquetado puede ser directo (no utilizado) o indirecto (requiere una etapa de acoplamiento). Para matrices de dos canales, la etapa de acoplamiento ocurre antes de la hibridación, usando trifosfato de aminoalil uridina (aminoalil-UTP o aaUTP) y tintes NHS amino reactivos (tales como tintes de cianina ); para las matrices de un solo canal, la etapa de acoplamiento ocurre después de la hibridación, usando biotina y estreptavidina marcada . Los nucleótidos modificados (generalmente en una proporción de 1 aaUTP: 4 TTP ( trifosfato de timidina )) se agregan enzimáticamente en una proporción baja a los nucleótidos normales, lo que típicamente da como resultado 1 cada 60 bases. A continuación, el ADNa se purifica con una columna (utilizando una solución tampón de fosfato, ya que Tris contiene grupos amina). El grupo aminoalilo es un grupo amina en un enlazador largo unido a la nucleobase, que reacciona con un colorante reactivo.
      • Se puede realizar una forma de réplica conocida como cambio de tinte para controlar los artefactos del tinte en experimentos de dos canales; para un cambio de tinte, se usa una segunda diapositiva, con las etiquetas intercambiadas (la muestra que se etiquetó con Cy3 en la primera diapositiva está etiquetada con Cy5, y viceversa). En este ejemplo, aminoalil -UTP está presente en la mezcla de transcripción inversa.
  5. Las muestras marcadas se mezclan después con una propiedad de hibridación solución que puede consistir en SDS , SSC , sulfato de dextrano , un agente de bloqueo (tal como Cot-1 DNA , DNA de esperma de salmón, ADN de timo de ternera, poliA , o poliT), solución de Denhardt , o formamina .
  6. La mezcla se desnaturaliza y se agrega a los poros del microarray. Los orificios se sellan y la micromatriz se hibrida, ya sea en un horno hyb, donde la micromatriz se mezcla por rotación, o en un mezclador, donde la micromatriz se mezcla alternando la presión en los poros.
  7. Después de una hibridación durante la noche, se elimina por lavado toda unión inespecífica (SDS y SSC).
  8. El microarray es secado y escaneado por una máquina que usa un láser para excitar el tinte y mide los niveles de emisión con un detector.
  9. La imagen se cuadricula con una plantilla y se cuantifican las intensidades de cada característica (compuesta por varios píxeles).
  10. Los datos brutos están normalizados; el método de normalización más simple es restar la intensidad de fondo y la escala para que las intensidades totales de las características de los dos canales sean iguales, o usar la intensidad de un gen de referencia para calcular el valor t para todas las intensidades. Los métodos más sofisticados incluyen la relación z , regresión de loess y lowess y RMA (análisis multichip robusto) para chips Affymetrix (chip de silicio de un solo canal, oligonucleótidos cortos sintetizados in situ ).

Los valores de expresión génica de los experimentos de microarrays se pueden representar como mapas de calor para visualizar el resultado del análisis de datos.

El advenimiento de los experimentos de microarrays de bajo costo creó varios desafíos bioinformáticos específicos: [ cita requerida ] los múltiples niveles de replicación en el diseño experimental ( diseño experimental ); el número de plataformas y grupos independientes y formato de datos ( estandarización ); el tratamiento estadístico de los datos ( análisis de datos ); mapear cada sonda con la transcripción de ARNm que mide ( anotación ); el gran volumen de datos y la capacidad de compartirlos ( almacenamiento de datos ).

Diseño experimental

Debido a la complejidad biológica de la expresión génica, las consideraciones de diseño experimental que se discuten en el artículo de perfil de expresión son de importancia crítica si se van a extraer conclusiones estadísticas y biológicamente válidas de los datos.

Hay tres elementos principales a considerar al diseñar un experimento de microarrays. Primero, la replicación de las muestras biológicas es esencial para sacar conclusiones del experimento. En segundo lugar, las réplicas técnicas (dos muestras de ARN obtenidas de cada unidad experimental) ayudan a garantizar la precisión y permiten probar las diferencias dentro de los grupos de tratamiento. Las réplicas biológicas incluyen extracciones independientes de ARN y las réplicas técnicas pueden ser dos alícuotas de la misma extracción. En tercer lugar, las manchas de cada clon de cDNA u oligonucleótido están presentes como réplicas (al menos duplicadas) en el portaobjetos de microarrays, para proporcionar una medida de precisión técnica en cada hibridación. Es fundamental que se discuta la información sobre la preparación y el manejo de la muestra, a fin de ayudar a identificar las unidades independientes en el experimento y evitar estimaciones infladas de importancia estadística . [18]

Estandarización

Los datos de microarrays son difíciles de intercambiar debido a la falta de estandarización en la fabricación de plataformas, protocolos de ensayo y métodos de análisis. Esto presenta un problema de interoperabilidad en bioinformática . Varios de base de código abierto proyectos están tratando de facilitar el intercambio y el análisis de los datos producidos con chips no propietarias:

Por ejemplo, la lista de verificación "Información mínima sobre un experimento de microarrays" ( MIAME ) ayuda a definir el nivel de detalle que debería existir y está siendo adoptada por muchas revistas como requisito para la presentación de artículos que incorporan resultados de microarrays. Pero MIAME no describe el formato de la información, por lo que, si bien muchos formatos pueden admitir los requisitos de MIAME, a partir de 2007ningún formato permite la verificación del cumplimiento semántico completo. El "Proyecto de control de calidad de MicroArray (MAQC)" está siendo llevado a cabo por la Administración de Drogas y Alimentos de los Estados Unidos (FDA) para desarrollar estándares y métricas de control de calidad que eventualmente permitirán el uso de datos de MicroArray en el descubrimiento de medicamentos, la práctica clínica y la toma de decisiones regulatorias. . [19] La Sociedad MGED ha desarrollado estándares para la representación de resultados de experimentos de expresión génica y anotaciones relevantes.

Análisis de los datos

Científico del Centro Nacional de Investigación Toxicológica revisa datos de microarrays

Los conjuntos de datos de microarrays suelen ser muy grandes y la precisión analítica está influenciada por una serie de variables. Los desafíos estadísticos incluyen tener en cuenta los efectos del ruido de fondo y la normalización adecuada de los datos. Los métodos de normalización pueden ser adecuados para plataformas específicas y, en el caso de plataformas comerciales, el análisis puede ser propietario. [20] Los algoritmos que afectan el análisis estadístico incluyen:

  • Análisis de imágenes: cuadrícula, reconocimiento de puntos de la imagen escaneada (algoritmo de segmentación), eliminación o marcado de características de baja calidad y baja intensidad (llamado marcado ).
  • Procesamiento de datos: sustracción de fondo (basado en el fondo global o local), determinación de intensidades puntuales y relaciones de intensidad, visualización de datos (por ejemplo, ver gráfico MA ) y transformación logarítmica de relaciones, normalización global o local de relaciones de intensidad y segmentación en diferentes regiones de número de copia utilizando algoritmos de detección de pasos . [21]
  • Análisis de descubrimiento de clases: este enfoque analítico, a veces llamado clasificación no supervisada o descubrimiento de conocimiento, intenta identificar si los microarrays (objetos, pacientes, ratones, etc.) o genes se agrupan en grupos. La identificación de grupos de objetos que existen de forma natural (microarrays o genes) que se agrupan puede permitir el descubrimiento de nuevos grupos que de otra manera no se sabía que existieran. Durante el análisis de descubrimiento de conocimientos, se pueden emplear varias técnicas de clasificación no supervisadas con datos de microarrays de ADN para identificar nuevos grupos (clases) de arreglos. [22] Este tipo de enfoque no se basa en hipótesis, sino que se basa en el reconocimiento de patrones iterativos o en métodos de aprendizaje estadístico para encontrar un número "óptimo" de agrupaciones en los datos. Ejemplos de métodos de análisis no supervisados ​​incluyen mapas autoorganizados, gas neuronal, análisis de conglomerados de k-medias, [23] análisis de conglomerados jerárquicos, conglomerado basado en procesamiento de señales genómicas [24] y análisis de conglomerados basado en modelos. Para algunos de estos métodos, el usuario también tiene que definir una medida de distancia entre pares de objetos. Aunque generalmente se emplea el coeficiente de correlación de Pearson, en la literatura se han propuesto y evaluado varias otras medidas. [25] Los datos de entrada utilizados en los análisis de descubrimiento de clases se basan comúnmente en listas de genes que tienen un alto nivel de información (bajo nivel de ruido) basadas en valores bajos del coeficiente de variación o valores altos de entropía de Shannon, etc. El número óptimo de conglomerados obtenidos de un análisis no supervisado se denomina validez de conglomerado. Algunas métricas de uso común para la validez de los conglomerados son el índice de silueta, el índice de Davies-Bouldin, [26] el índice de Dunn o el índice de Hubert. estadística.
  • Análisis de predicción de clases: este enfoque, denominado clasificación supervisada, establece la base para desarrollar un modelo predictivo en el que se pueden introducir futuros objetos de prueba desconocidos para predecir la pertenencia de clase más probable de los objetos de prueba. El análisis supervisado [22] para la predicción de clases implica el uso de técnicas como regresión lineal, vecino más cercano k, cuantificación de vectores de aprendizaje, análisis de árboles de decisión, bosques aleatorios, Bayes ingenuo, regresión logística, regresión del núcleo, redes neuronales artificiales, máquinas de vectores de soporte, mezcla de expertos y gas neuronal supervisado. Además, se emplean varios métodos metaheurísticos, como algoritmos genéticos , autoadaptación de matrices de covarianza, optimización de enjambres de partículas y optimización de colonias de hormigas . Los datos de entrada para la predicción de clases se basan generalmente en listas filtradas de genes que predicen la clase, determinadas mediante pruebas de hipótesis clásicas (siguiente sección), índice de diversidad de Gini o ganancia de información (entropía).
  • Análisis estadístico basado en hipótesis: la identificación de cambios estadísticamente significativos en la expresión génica se suele identificar mediante la prueba t , ANOVA , método bayesiano [27] Métodos de prueba de Mann-Whitney adaptados a conjuntos de datos de microarrays, que tienen en cuenta múltiples comparaciones [28] o análisis de conglomerados . [29] Estos métodos evalúan el poder estadístico en función de la variación presente en los datos y el número de réplicas experimentales, y pueden ayudar a minimizar los errores de tipo I y tipo II en los análisis. [30]
  • Reducción dimensional: los analistas a menudo reducen el número de dimensiones (genes) antes del análisis de datos. [22] Esto puede implicar enfoques lineales como el análisis de componentes principales (PCA) o el aprendizaje múltiple no lineal (aprendizaje métrico a distancia) utilizando PCA del núcleo, mapas de difusión, mapas propios laplacianos, incrustación lineal local, proyecciones de preservación local y mapeo de Sammon.
  • Métodos basados ​​en redes: métodos estadísticos que tienen en cuenta la estructura subyacente de las redes de genes, que representan interacciones asociativas o causales o dependencias entre productos génicos. [31] El análisis de redes de coexpresión de genes ponderados se utiliza ampliamente para identificar módulos de coexpresión y genes concentradores intramodulares. Los módulos pueden corresponder a tipos de células o vías. Los concentradores intramodulares altamente conectados representan mejor sus respectivos módulos.

Los datos de microarrays pueden requerir un procesamiento adicional destinado a reducir la dimensionalidad de los datos para ayudar a la comprensión y un análisis más enfocado. [32] Otros métodos permiten el análisis de datos que consisten en un número reducido de réplicas biológicas o técnicas ; por ejemplo, la prueba de error agrupado local (LPE) agrupa las desviaciones estándar de genes con niveles de expresión similares en un esfuerzo por compensar la replicación insuficiente. [33]

Anotación

La relación entre una sonda y el ARNm que se espera que detecte no es trivial. [34] Algunos ARNm pueden realizar una hibridación cruzada de sondas en la matriz que se supone que detectan otro ARNm. Además, los ARNm pueden experimentar un sesgo de amplificación específico de secuencia o molécula. En tercer lugar, las sondas que están diseñadas para detectar el ARNm de un gen particular pueden depender de la información EST genómica que está asociada incorrectamente con ese gen.

Almacenamiento de datos

Se encontró que los datos de microarrays son más útiles en comparación con otros conjuntos de datos similares. El gran volumen de datos, los formatos especializados (como MIAME ) y los esfuerzos de conservación asociados con los conjuntos de datos requieren bases de datos especializadas para almacenar los datos. Se han creado una serie de soluciones de almacenamiento de datos de código abierto, como InterMine y BioMart , con el propósito específico de integrar diversos conjuntos de datos biológicos y también respaldar el análisis.

Los avances en la secuenciación masivamente paralela han llevado al desarrollo de la tecnología RNA-Seq , que permite un enfoque de escopeta de transcriptoma completo para caracterizar y cuantificar la expresión génica. [35] [36] A diferencia de los microarrays, que necesitan un genoma de referencia y un transcriptoma para estar disponibles antes de que se pueda diseñar el microarray, RNA-Seq también se puede usar para nuevos organismos modelo cuyo genoma aún no se ha secuenciado. [36]

  • Una matriz o diapositiva es una colección de características dispuestas espacialmente en una cuadrícula bidimensional, dispuestas en columnas y filas.
  • Bloque o submatriz : un grupo de puntos, típicamente hechos en una ronda de impresión; varios subarreglos / bloques forman un arreglo.
  • Caso / control : un paradigma de diseño experimental especialmente adecuado para el sistema de matriz de dos colores, en el que una condición elegida como control (como tejido o estado sano) se compara con una condición alterada (como un tejido o estado enfermo).
  • Canal : lasalida de fluorescencia registrada en el escáner para un fluoróforo individuale incluso puede ser ultravioleta.
  • Cambio de tinte o cambio de tinte o inversión de flúor : etiquetado recíproco de los objetivos de ADN con los dos tintes para tener en cuenta el sesgo del tinte en los experimentos.
  • Escáner : instrumento utilizado para detectar y cuantificar la intensidad de la fluorescencia de las manchas en un portaobjetos de microarrays, mediante la excitación selectiva de los fluoróforos con un láser y la medición de la fluorescencia con un sistema fotomultiplicador de filtro (óptica) .
  • Mancha o característica : un área pequeña en un portaobjetos de matriz que contiene picomoles de muestras de ADN específicas.
  • Para conocer otros términos relevantes, consulte:
    • Glosario de términos de expresión genética
    • Protocolo (ciencias naturales)

  • Tecnologías de transcriptómica
    • Análisis en serie de la expresión génica
    • RNA-Seq
  • Magia
  • Técnicas de análisis de microarrays
  • Bases de datos de microarrays
  • Los tintes de cianina , como Cy3 y Cy5, son fluoróforos de uso común con micromatrices
  • Análisis de chips genéticos
  • Análisis de significancia de microarrays
  • Microarreglo de oligonucleótidos específico de metilación
  • Microfluídica o lab-on-chip
  • Patogenómica
  • Micromatriz de fenotipo
  • Biologia de sistemas
  • Secuenciación del genoma completo

  1. ^ Taub, Floyd (1983). "Métodos de laboratorio: las hibridaciones comparativas secuenciales analizadas por procesamiento de imágenes computarizado pueden identificar y cuantificar ARN regulados". ADN . 2 (4): 309–327. doi : 10.1089 / dna.1983.2.309 . PMID  6198132 .
  2. ^ Adomas A; Heller G; Olson A; Osborne J; Karlsson M; Nahalkova J; Van Zyl L; Sederoff R; Stenlid J; Finlay R; Asiegbu FO (2008). "Análisis comparativo de la abundancia de transcripciones en Pinus sylvestris después del desafío con un hongo saprotrófico, patógeno o mutualista" . Tree Physiol . 28 (6): 885–897. doi : 10.1093 / treephys / 28.6.885 . PMID  18381269 .
  3. ^ Pollack JR; Perou CM; Alizadeh AA; Eisen MB; Pergamenschikov A; Williams CF; Jeffrey SS; Botstein D; Brown PO (1999). "Análisis de todo el genoma de cambios en el número de copias de ADN mediante microarrays de ADNc". Nat Genet . 23 (1): 41–46. doi : 10.1038 / 12640 . PMID  10471496 . S2CID  997032 .
  4. ^ Moran G; Stokes C; Thewes S; Hube B; Coleman DC; Sullivan D (2004). "La genómica comparativa utilizando microarrays de ADN de Candida albicans revela ausencia y divergencia de genes asociados a la virulencia en Candida dubliniensis" . Microbiología . 150 (Pt 10): 3363–3382. doi : 10.1099 / mic.0.27221-0 . PMID  15470115 .
  5. ^ Hacia JG; Fan JB; Ryder O; Jin L; Edgemon K; Ghandour G; Mayer RA; Sun B; Hsie L; Robbins CM; Brody LC; Wang D; Lander ES; Lipshutz R; Fodor SP; Collins FS (1999). "Determinación de alelos ancestrales para polimorfismos de un solo nucleótido humano utilizando matrices de oligonucleótidos de alta densidad". Nat Genet . 22 (2): 164-167. doi : 10.1038 / 9674 . PMID  10369258 . S2CID  41718227 .
  6. ^ a b c Gagna, Claude E .; Lambert, W. Clark (1 de mayo de 2009). "Nuevos microarrays de ADN y ARN de transición helicoidal, alternativa, plásmido y multicatenario: implicaciones para la terapéutica". Farmacogenómica . 10 (5): 895–914. doi : 10.2217 / pgs.09.27 . ISSN  1744-8042 . PMID  19450135 .
  7. ^ a b c Gagna, Claude E .; Clark Lambert, W. (1 de marzo de 2007). "Biología celular, quimiogenómica y quimioproteómica: aplicación al descubrimiento de fármacos". Opinión de expertos sobre el descubrimiento de fármacos . 2 (3): 381–401. doi : 10.1517 / 17460441.2.3.381 . ISSN  1746-0441 . PMID  23484648 . S2CID  41959328 .
  8. ^ Mukherjee, Anirban; Vasquez, Karen M. (1 de agosto de 2011). "Tecnología triplex en estudios de daño del ADN, reparación del ADN y mutagénesis" . Biochimie . 93 (8): 1197–1208. doi : 10.1016 / j.biochi.2011.04.001 . ISSN  1638-6183 . PMC  3545518 . PMID  21501652 .
  9. ^ Rhodes, Daniela; Lipps, Hans J. (15 de octubre de 2015). "G-quadruplex y sus funciones reguladoras en biología" . Investigación de ácidos nucleicos . 43 (18): 8627–8637. doi : 10.1093 / nar / gkv862 . ISSN  1362-4962 . PMC  4605312 . PMID  26350216 .
  10. ^ Métodos de J Biochem Biophys. 2000 16 de marzo; 42 (3): 105-10. Impresión de ADN: utilización de una impresora de inyección de tinta estándar para la transferencia de ácidos nucleicos a soportes sólidos. Goldmann T, González JS.
  11. ^ Lausted C; et al. (2004). "POSaM: un sintetizador y microarreglo de oligonucleótidos de inyección de tinta rápido, flexible y de código abierto" . Biología del genoma . 5 (8): R58. doi : 10.1186 / gb-2004-5-8-r58 . PMC  507883 . PMID  15287980 .
  12. ^ Bammler T, Beyer RP; Consorcio, Integrantes de la Investigación Toxicogenómica; Kerr, X; Jing, LX; Lapidus, S; Lasarev, DA; Paules, RS; Li, JL; Phillips, SO (2005). "Estandarización del análisis de expresión génica global entre laboratorios y entre plataformas". Métodos Nat . 2 (5): 351–356. doi : 10.1038 / nmeth754 . PMID  15846362 . S2CID  195368323 .
  13. ^ Pease AC; Solas D; Sullivan EJ; Cronin MT; Holmes CP; Fodor SP (1994). "Matrices de oligonucleótidos generadas por luz para el análisis rápido de secuencias de ADN" . PNAS . 91 (11): 5022–5026. Código Bibliográfico : 1994PNAS ... 91.5022P . doi : 10.1073 / pnas.91.11.5022 . PMC  43922 . PMID  8197176 .
  14. ^ Nuwaysir EF; Huang W; Albert TJ; Singh J; Nuwaysir K; Pitas A; Richmond T; Gorski T; Berg JP; Ballin J; McCormick M; Norton J; Pollock T; Sumwalt T; Carnicero L; Porter D; Molla M; Hall C; Blattner F; Sussman MR; Wallace RL; Cerrina F; Green RD (2002). "Análisis de expresión génica mediante matrices de oligonucleótidos producidas por fotolitografía sin máscara" . Genome Res . 12 (11): 1749-1755. doi : 10.1101 / gr.362402 . PMC  187555 . PMID  12421762 .
  15. ^ Shalon D; Smith SJ; Brown PO (1996). "Un sistema de microarrays de ADN para analizar muestras complejas de ADN mediante hibridación de sonda fluorescente de dos colores" . Genome Res . 6 (7): 639–645. doi : 10.1101 / gr.6.7.639 . PMID  8796352 .
  16. ^ Tang T; François N; Glatigny A; Agier N; Mucchielli MH; Aggerbeck L; Delacroix H (2007). "La evaluación de la relación de expresión en experimentos de microarrays de dos colores se mejora significativamente al corregir la desalineación de la imagen" . Bioinformática . 23 (20): 2686–2691. doi : 10.1093 / bioinformatics / btm399 . PMID  17698492 .
  17. ^ Shafee, Thomas; Lowe, Rohan (2017). "Estructura de genes eucariotas y procariotas" . WikiJournal de Medicina . 4 (1). doi : 10.15347 / wjm / 2017.002 . ISSN  2002-4436 .
  18. ^ Churchill, GA (2002). "Fundamentos del diseño experimental de microarrays de ADNc" (PDF) . Genética de la naturaleza . suplemento. 32 : 490–5. doi : 10.1038 / ng1031 . PMID  12454643 . S2CID  15412245 . Archivado desde el original (- Búsqueda académica ) el 8 de mayo de 2005 . Consultado el 12 de diciembre de 2013 .
  19. ^ Centro NCTR de Toxicoinformática - Proyecto MAQC
  20. ^ "Prosigna | Algoritmo de Prosigna" . prosigna.com . Consultado el 22 de junio de 2017 .
  21. ^ Little, MA; Jones, NS (2011). "Métodos generalizados y solucionadores de señales constantes por partes: parte I" (PDF) . Proceedings of the Royal Society A . 467 (2135): 3088–3114. doi : 10.1098 / rspa.2010.0671 . PMC  3191861 . PMID  22003312 .
  22. ^ a b c Peterson, Leif E. (2013). Análisis de clasificación de microarrays de ADN . John Wiley e hijos. ISBN 978-0-470-17081-6.
  23. ^ De Souto M et al. (2008) Agrupación de datos de expresión génica del cáncer: un estudio comparativo, BMC Bioinformatics, 9 (497).
  24. ^ Istepanian R, Sungoor A, Nebel JC (2011) Análisis comparativo de procesamiento de señales genómicas para agrupación de datos de microarrays, transacciones IEEE en NanoBioscience, 10 (4): 225-238.
  25. ^ Jaskowiak, Pablo A; Campello, Ricardo JGB; Costa, Iván G (2014). "Sobre la selección de distancias apropiadas para la agrupación de datos de expresión génica" . BMC Bioinformática . 15 (Supl. 2): S2. doi : 10.1186 / 1471-2105-15-S2-S2 . PMC  4072854 . PMID  24564555 .
  26. ^ Bolshakova N, Azuaje F (2003) Técnicas de validación de grupos para datos de expresión del genoma, procesamiento de señales, vol. 83, págs. 825–833.
  27. ^ Ben Gal, I .; Shani, A .; Gohr, A .; Grau, J .; Arviv, S .; Shmilovici, A .; Posch, S .; Grosse, I. (2005). "Identificación de sitios de unión del factor de transcripción con redes bayesianas de orden variable" . Bioinformática . 21 (11): 2657–2666. doi : 10.1093 / bioinformática / bti410 . ISSN  1367-4803 . PMID  15797905 .
  28. ^ Yuk Fai Leung y Duccio Cavalieri, Fundamentos del análisis de datos de microarrays de ADNc. Trends in Genetics Vol.19 No.11 noviembre de 2003.
  29. ^ Priness I .; Maimon O .; Ben-Gal I. (2007). "Evaluación de agrupación de expresión génica a través de la medida de distancia de información mutua" . BMC Bioinformática . 8 (1): 111. doi : 10.1186 / 1471-2105-8-111 . PMC  1858704 . PMID  17397530 .
  30. ^ Wei C; Li J; Bumgarner RE (2004). "Tamaño de la muestra para detectar genes expresados ​​diferencialmente en experimentos de microarrays" . BMC Genomics . 5 : 87. doi : 10.1186 / 1471-2164-5-87 . PMC  533874 . PMID  15533245 .
  31. ^ Emmert-Streib, F. y Dehmer, M. (2008). Análisis de datos de microarrays: un enfoque basado en redes . Wiley-VCH. ISBN 978-3-527-31822-3.
  32. ^ Wouters L; Gõhlmann HW; Bijnens L; Kass SU; Molenberghs G; Lewi PJ (2003). "Exploración gráfica de datos de expresión génica: un estudio comparativo de tres métodos multivariados". Biometría . 59 (4): 1131-1139. CiteSeerX  10.1.1.730.3670 . doi : 10.1111 / j.0006-341X.2003.00130.x . PMID  14969494 .
  33. ^ Jain N; Thatte J; Braciale T; Ley K; O'Connell M; Lee JK (2003). "Prueba de error de agrupación local para identificar genes expresados ​​diferencialmente con un pequeño número de microarrays replicados" . Bioinformática . 19 (15): 1945-1951. doi : 10.1093 / bioinformatics / btg264 . PMID  14555628 .
  34. ^ Barbosa-Morais, NL; Dunning, MJ; Samarajiwa, SA; Darot, JFJ; Ritchie, YO; Lynch, AG; Tavare, S. (18 de noviembre de 2009). "Una tubería de re-anotación para Illumina BeadArrays: mejorar la interpretación de los datos de expresión génica" . Investigación de ácidos nucleicos . 38 (3): e17. doi : 10.1093 / nar / gkp942 . PMC  2817484 . PMID  19923232 .
  35. ^ Mortazavi, Ali; Brian A Williams; Kenneth McCue; Lorian Schaeffer; Barbara Wold (julio de 2008). "Mapeo y cuantificación de transcriptomas de mamíferos por RNA-Seq". Métodos Nat . 5 (7): 621–628. doi : 10.1038 / nmeth.1226 . ISSN  1548-7091 . PMID  18516045 . S2CID  205418589 .
  36. ^ a b Wang, Zhong; Mark Gerstein; Michael Snyder (enero de 2009). "RNA-Seq: una herramienta revolucionaria para la transcriptómica" . Nat Rev Genet . 10 (1): 57–63. doi : 10.1038 / nrg2484 . ISSN  1471-0056 . PMC  2949280 . PMID  19015660 .

  • Expresión genética en Curlie
  • Productos y servicios a microescala para bioquímica y biología molecular en Curlie
  • Productos y servicios para la expresión genética en Curlie
  • Servicios en línea para el análisis de expresión genética en Curlie
  • Animación de microarrays 1Lec.com
  • Introducción a PLoS Biology: análisis de microarrays
  • Resumen de la tecnología de microarrays
  • ArrayMining.net  : un servidor web gratuito para el análisis de microarrays en línea
  • Microarray: ¿cómo funciona?
  • Comentario de PNAS: Descubrimiento de los principios de la naturaleza a partir del modelado matemático de datos de microarrays de ADN
  • Experimento virtual de microarrays de ADN