De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

La Enciclopedia de Elementos del ADN ( ENCODE ) es un proyecto de investigación público que tiene como objetivo identificar elementos funcionales en el genoma humano .

Historia [ editar ]

Encode fue lanzado por el Instituto Nacional de Investigación del Genoma Humano (NHGRI) de EE. UU . En septiembre de 2003. [2] [3] [4] [5] [6] Concebido como un seguimiento del Proyecto Genoma Humano , el proyecto ENCODE tiene como objetivo identificar todos los elementos funcionales del genoma humano .

El proyecto involucra a un consorcio mundial de grupos de investigación, y se puede acceder a los datos generados a partir de este proyecto a través de bases de datos públicas. El proyecto inició su cuarta fase en febrero de 2017 [7].

Motivación y significado [ editar ]

Se estima que los seres humanos tienen aproximadamente 20.000 genes codificadores de proteínas , que representan aproximadamente el 1,5% del ADN del genoma humano. El objetivo principal del proyecto ENCODE es determinar el papel del componente restante del genoma, gran parte del cual se consideraba tradicionalmente como "basura". La actividad y expresión de genes que codifican proteínas pueden ser moduladas por el reguloma , una variedad de elementos de ADN , como promotores , secuencias reguladoras de la transcripción y regiones de estructura de cromatina y modificación de histonas . Se cree que los cambios en la regulación de la actividad genética pueden alterar las proteínas.la producción y los procesos celulares y provocan enfermedades. Determinar la ubicación de estos elementos reguladores y cómo influyen en la transcripción de genes podría revelar vínculos entre las variaciones en la expresión de ciertos genes y el desarrollo de enfermedades. [8]

ENCODE también pretende ser un recurso integral que permita a la comunidad científica comprender mejor cómo el genoma puede afectar la salud humana y "estimular el desarrollo de nuevas terapias para prevenir y tratar estas enfermedades". [3]

El Consorcio ENCODE [ editar ]

El Consorcio ENCODE está compuesto principalmente por científicos que fueron financiados por el Instituto Nacional de Investigación del Genoma Humano (NHGRI) de EE. UU . Otros participantes que contribuyen al proyecto se incorporan al Consorcio o al Grupo de Trabajo de Análisis.

La fase piloto estuvo compuesta por ocho grupos de investigación y doce grupos que participaron en la Fase de Desarrollo Tecnológico ENCODE. Después de 2007, el número de participantes se amplió a 440 científicos con base en 32 laboratorios en todo el mundo cuando la fase piloto terminó oficialmente. Actualmente el consorcio está formado por diferentes centros que realizan diferentes tareas.

ENCODE es miembro del Consorcio Internacional de Epigenoma Humano (IHEC). [9]

El proyecto ENCODE [ editar ]

Actualmente ENCODE se implementa en cuatro fases: la fase piloto y la fase de desarrollo tecnológico, que se iniciaron simultáneamente; [10] y la fase de producción. La cuarta fase es una continuación de la tercera e incluye la caracterización funcional y un análisis integrador adicional para la enciclopedia.

El objetivo de la fase piloto fue identificar un conjunto de procedimientos que, en combinación, pudieran aplicarse de manera rentable y con un alto rendimiento para caracterizar de manera precisa y completa grandes regiones del genoma humano.. La fase piloto tenía que revelar lagunas en el conjunto actual de herramientas para detectar secuencias funcionales, y también se pensó que revelaría si algunos métodos utilizados en ese momento eran ineficientes o inadecuados para su utilización a gran escala. Algunos de estos problemas tuvieron que ser abordados en la fase de desarrollo de la tecnología ENCODE, que tenía como objetivo idear nuevos métodos de laboratorio y computacionales que mejorarían nuestra capacidad para identificar secuencias funcionales conocidas o para descubrir nuevos elementos genómicos funcionales. Los resultados de las dos primeras fases determinaron el mejor camino a seguir para analizar el 99% restante del genoma humano en una fase de producción rentable y completa. [3]

Proyecto ENCODE Fase I: Proyecto piloto [ editar ]

La fase piloto probó y comparó los métodos existentes para analizar rigurosamente una parte definida de la secuencia del genoma humano. Se organizó como un consorcio abierto y reunió a investigadores con diversos antecedentes y experiencia para evaluar los méritos relativos de cada una de un conjunto diverso de técnicas, tecnologías y estrategias. La fase de desarrollo de tecnología concurrente del proyecto tenía como objetivo desarrollar nuevos métodos de alto rendimiento para identificar elementos funcionales. El objetivo de estos esfuerzos era identificar un conjunto de enfoques que permitieran la identificación completa de todos los elementos funcionales del genoma humano. A través del proyecto piloto ENCODE, el Instituto Nacional de Investigación del Genoma Humano (NHGRI, por sus siglas en inglés) evaluó las capacidades de diferentes enfoques para ampliarse en un esfuerzo por analizar todo el genoma humano y encontrar brechas en la capacidad de identificar elementos funcionales en la secuencia genómica.

El proceso del proyecto piloto ENCODE implicó interacciones cercanas entre científicos computacionales y experimentales para evaluar una serie de métodos para anotar el genoma humano. Un conjunto de regiones que representan aproximadamente el 1% (30 Mb) del genoma humano se seleccionó como el objetivo para el proyecto piloto y fue analizado por todos los investigadores del proyecto piloto ENCODE. Todos los datos generados por los participantes de ENCODE en estas regiones se publicaron rápidamente en bases de datos públicas. [5] [11]

Selección de destino [ editar ]

Para su uso en el proyecto piloto ENCODE, se seleccionaron regiones definidas del genoma humano, correspondientes a 30 Mb, aproximadamente el 1% del genoma humano total. Estas regiones sirvieron como base para probar y evaluar la efectividad y eficiencia de un conjunto diverso de métodos y tecnologías para encontrar varios elementos funcionales en el ADN humano.

Antes de embarcarse en la selección del objetivo, se decidió que el 50% de los 30 Mb de secuencia se seleccionaría manualmente mientras que la secuencia restante se seleccionaría al azar. Los dos criterios principales para las regiones seleccionadas manualmente fueron: 1) la presencia de genes bien estudiados u otros elementos de secuencia conocidos, y 2) la existencia de una cantidad sustancial de datos de secuencia comparativa. Se seleccionó manualmente un total de 14,82 Mb de secuencia utilizando este enfoque, que consta de 14 objetivos que varían en tamaño de 500 kb a 2 Mb.

El 50% restante de los 30 Mb de secuencia se componía de treinta regiones de 500 kb seleccionadas de acuerdo con una estrategia de muestreo aleatorio estratificado basada en la densidad de genes y el nivel de conservación no exónica. La decisión de utilizar estos criterios particulares se tomó con el fin de asegurar un buen muestreo de regiones genómicas que varían ampliamente en su contenido de genes y otros elementos funcionales. El genoma humano se dividió en tres partes: 20% superior, 30% medio y 50% inferior, a lo largo de cada uno de los dos ejes: 1) densidad genética y 2) nivel de conservación no exónica con respecto al ortólogo.secuencia genómica de ratón (ver más abajo), para un total de nueve estratos. De cada estrato, se eligieron tres regiones aleatorias para el proyecto piloto. Para aquellos estratos subrepresentados por las selecciones manuales, se eligió una cuarta región, lo que resultó en un total de 30 regiones. Para todos los estratos, se designó una región de "respaldo" para su uso en caso de problemas técnicos imprevistos.

Con mayor detalle, los criterios de estratificación fueron los siguientes:

  • Densidad de genes : la puntuación de densidad de genes de una región fue el porcentaje de bases cubiertas por genes en la base de datos Ensembl o por alineaciones de ARNm humano mejor BLAT ( herramienta de alineación similar a BLAST ) en la base de datos UCSC Genome Browser .
  • Conservación no exónica : La región se dividió en subventanas no superpuestas de 125 bases. Se descartaron las subventanas que mostraban menos del 75% de alineación de bases con la secuencia del ratón. Para las subventanas restantes, el porcentaje con al menos 80% de identidad de base con el ratón, y que no correspondía a genes Ensembl , alineaciones de BLASTZ de ARNm de GenBank , predicciones del gen Fgenesh ++, predicciones del gen TwinScan, alineaciones EST empalmadas o secuencias repetidas ( ADN ) se utilizó como puntuación de conservación no exónica.

Las puntuaciones anteriores se calcularon dentro de ventanas de 500 kb no superpuestas de secuencia terminada en todo el genoma y se utilizaron para asignar cada ventana a un estrato. [12]

Resultados de la fase piloto [ editar ]

La fase piloto finalizó con éxito y los resultados se publicaron en junio de 2007 en Nature [5] y en un número especial de Genome Research ; [13] los resultados publicados en el primer artículo mencionado avanzaron en el conocimiento colectivo sobre la función del genoma humano en varias áreas importantes, incluidas en los siguientes aspectos destacados: [5]

  • El genoma humano se transcribe de forma generalizada, de modo que la mayoría de sus bases están asociadas con al menos una transcripción primaria y muchas transcripciones enlazan regiones distales con loci codificadores de proteínas establecidos .
  • Se han identificado muchas transcripciones novedosas que no codifican proteínas, con muchos de estos loci que codifican proteínas superpuestos y otros ubicados en regiones del genoma que antes se pensaba que eran transcripcionalmente silenciosas.
  • Se han identificado numerosos sitios de inicio de la transcripción no reconocidos previamente , muchos de los cuales muestran la estructura de la cromatina y propiedades de unión a proteínas específicas de secuencia similares a los promotores bien conocidos .
  • Las secuencias reguladoras que rodean los sitios de inicio de la transcripción están distribuidas simétricamente, sin sesgo hacia las regiones aguas arriba.
  • La accesibilidad a la cromatina y los patrones de modificación de histonas son altamente predictivos tanto de la presencia como de la actividad de los sitios de inicio de la transcripción.
  • Los sitios hipersensibles a la DNasaI distal tienen patrones característicos de modificación de histonas que los distinguen de manera confiable de los promotores ; algunos de estos sitios distales muestran marcas consistentes con la función del aislante.
  • El tiempo de replicación del ADN se correlaciona con la estructura de la cromatina.
  • Un total del 5% de las bases en el genoma puede identificarse con seguridad como bajo restricción evolutiva en mamíferos; para aproximadamente el 60% de estas bases restringidas, existe evidencia de funcionamiento sobre la base de los resultados de los ensayos experimentales realizados hasta la fecha.
  • Aunque existe una superposición general entre las regiones genómicas identificadas como funcionales por ensayos experimentales y aquellas bajo restricción evolutiva, no todas las bases dentro de estas regiones definidas experimentalmente muestran evidencia de restricción.
  • Los diferentes elementos funcionales varían mucho en su variabilidad de secuencia a través de la población humana y en su probabilidad de residir dentro de una región estructuralmente variable del genoma .
  • Sorprendentemente, muchos elementos funcionales aparentemente no están restringidos a lo largo de la evolución de los mamíferos. Esto sugiere la posibilidad de una gran cantidad de elementos neutros que son bioquímicamente activos pero que no brindan ningún beneficio específico al organismo. Este grupo puede servir como un 'almacén' para la selección natural, actuando potencialmente como la fuente de elementos específicos de linaje y elementos funcionalmente conservados pero no ortólogos entre especies.

El Proyecto ENCODE Fase II: El Proyecto de la Fase de Producción [ editar ]

Imagen de datos ENCODE en UCSC Genome Browser . Esto muestra varias pistas que contienen información sobre la regulación genética . El gen de la izquierda ( ATP2B4 ) se transcribe en una amplia variedad de células (consulte también los datos de H3K4me1 ). El gen de la derecha solo se transcribe en unos pocos tipos de células, incluidas las células madre embrionarias.

En septiembre de 2007, el Instituto Nacional de Investigación del Genoma Humano (NHGRI) comenzó a financiar la fase de producción del proyecto ENCODE. En esta fase, el objetivo era analizar todo el genoma y realizar "estudios adicionales a escala piloto". [14]

Como en el proyecto piloto, el esfuerzo de producción se organiza como un consorcio abierto. En octubre de 2007, NHGRI otorgó subvenciones por un total de más de $ 80 millones durante cuatro años. [15] La fase de producción también incluye un Centro de Coordinación de Datos, un Centro de Análisis de Datos y un Esfuerzo de Desarrollo Tecnológico. [16] En ese momento, el proyecto se convirtió en una empresa verdaderamente global, en la que participaron 440 científicos de 32 laboratorios de todo el mundo. Una vez que se completó la fase piloto, el proyecto se "amplió" en 2007, beneficiándose enormemente de las máquinas secuenciadoras de nueva generación. Y los datos eran, de hecho, grandes; los investigadores generaron alrededor de 15 terabytes de datos brutos.

En 2010, el proyecto ENCODE había producido más de 1.000 conjuntos de datos de todo el genoma. En conjunto, estos conjuntos de datos muestran qué regiones se transcriben en ARN, qué regiones es probable que controlen los genes que se utilizan en un tipo particular de célula y qué regiones están asociadas con una amplia variedad de proteínas. Los ensayos principales utilizados en ENCODE son ChIP-seq , Hipersensibilidad a la DNasa I , RNA-seq y ensayos de metilación del ADN .

Resultados de la fase de producción [ editar ]

En septiembre de 2012, el proyecto publicó un conjunto de resultados mucho más extenso, en 30 artículos publicados simultáneamente en varias revistas, incluidos seis en Nature , seis en Genome Biology y un número especial con 18 publicaciones de Genome Research . [17]

Los autores describieron la producción y el análisis inicial de 1,640 conjuntos de datos diseñados para anotar elementos funcionales en todo el genoma humano, integrando resultados de diversos experimentos dentro de tipos de células, experimentos relacionados que involucran 147 tipos de células diferentes y todos los datos ENCODE con otros recursos, como como regiones candidatas de estudios de asociación de genoma completo ( GWAS ) y regiones con limitaciones evolutivas . Juntos, estos esfuerzos revelaron características importantes sobre la organización y función del genoma humano, que se resumieron en un documento general de la siguiente manera: [18]

  1. La gran mayoría (80,4%) del genoma humano participa en al menos un evento bioquímico asociado a ARN y / o cromatina en al menos un tipo de célula. Gran parte del genoma se encuentra cerca de un evento regulador: el 95% del genoma se encuentra dentro de los 8 kb de una interacción ADN - proteína (según lo evaluado por motivos de ChIP-seq unidos o huellas de DNasaI ), y el 99% está dentro de 1,7 kb de al menos una de los eventos bioquímicos medidos por ENCODE.
  2. Los elementos específicos de primates, así como los elementos sin restricciones de mamíferos detectables, muestran, en conjunto, pruebas de selección negativa; por tanto, se espera que algunos de ellos sean funcionales.
  3. La clasificación del genoma en siete estados de cromatina sugiere un conjunto inicial de 399,124 regiones con características similares a potenciadores y 70,292 regiones con características similares a promotores , así como cientos de miles de regiones inactivas. Los análisis de alta resolución subdividen aún más el genoma en miles de estados estrechos con distintas propiedades funcionales.
  4. Es posible correlacionar cuantitativamente la producción y el procesamiento de secuencias de ARN con las marcas de cromatina y la unión del factor de transcripción (TF) en los promotores , lo que indica que la funcionalidad del promotor puede explicar la mayor parte de la variación de la expresión de ARN.
  5. Muchas variantes no codificantes en secuencias de genomas individuales se encuentran en regiones funcionales anotadas ENCODE; este número es al menos tan grande como el de los genes que codifican proteínas.
  6. Los SNP asociados con enfermedades por GWAS están enriquecidos con elementos funcionales no codificantes, y la mayoría reside en o cerca de las regiones definidas por ENCODE que están fuera de los genes codificadores de proteínas . En muchos casos, los fenotipos de la enfermedad se pueden asociar con un tipo celular específico o TF .

El hallazgo más sorprendente fue que la fracción de ADN humano que es biológicamente activo es considerablemente más alta que incluso las estimaciones previas más optimistas. En un artículo general, el Consorcio ENCODE informó que sus miembros pudieron asignar funciones bioquímicas a más del 80% del genoma. [18] Se descubrió que gran parte de esto está involucrado en el control de los niveles de expresión del ADN codificante , que constituye menos del 1% del genoma.

Los elementos nuevos más importantes de la "enciclopedia" incluyen:

  • Un mapa completo de los sitios hipersensibles a la ADNasa 1, que son marcadores del ADN regulador que normalmente se encuentra adyacente a los genes y permite que los factores químicos influyan en su expresión. El mapa identificó casi 3 millones de sitios de este tipo, incluidos casi todos los que se conocían anteriormente y muchos que son nuevos. [19]
  • Léxico de secuencias cortas de ADN que forman motivos de reconocimiento para proteínas de unión a ADN. Se encontraron aproximadamente 8,4 millones de tales secuencias, que comprenden una fracción del ADN total aproximadamente el doble del tamaño del exoma . Se encontró que miles de promotores de la transcripción hacen uso de una única huella estereotipada de 50 pares de bases. [20]
  • Un bosquejo preliminar de la arquitectura de la red de factores de transcripción humanos, es decir, factores que se unen al ADN para promover o inhibir la expresión de genes. Se encontró que la red era bastante compleja, con factores que operan a diferentes niveles, así como numerosos circuitos de retroalimentación de varios tipos. [21]
  • Una medida de la fracción del genoma humano que se puede transcribir en ARN. Se estimó que esta fracción sumaba más del 75% del ADN total, un valor mucho más alto que las estimaciones anteriores. El proyecto también comenzó a caracterizar los tipos de transcripciones de ARN que se generan en varios lugares. [22]

Gestión y análisis de datos [ editar ]

Capturar, almacenar, integrar y mostrar los diversos datos generados es un desafío. El Centro de Coordinación de Datos ENCODE (DCC) organiza y muestra los datos generados por los laboratorios en el consorcio y asegura que los datos cumplan con estándares de calidad específicos cuando se divulgan al público. Antes de que un laboratorio envíe datos, el DCC y el laboratorio redactan un acuerdo de datos que define los parámetros experimentales y los metadatos asociados. El DCC valida los datos entrantes para garantizar la coherencia con el acuerdo. También garantiza que todos los datos se anoten utilizando las ontologías adecuadas . [23]Luego, carga los datos en un servidor de prueba para una inspección preliminar y se coordina con los laboratorios para organizar los datos en un conjunto consistente de pistas. Cuando las pistas están listas, el equipo de garantía de calidad de DCC realiza una serie de verificaciones de integridad, verifica que los datos se presenten de manera consistente con otros datos del navegador y, quizás lo más importante, verifica que los metadatos y el texto descriptivo adjunto se presenten en un formato. forma que sea útil para nuestros usuarios. Los datos se publican en el navegador público UCSC Genomesitio web solo después de que se hayan satisfecho todos estos controles. Paralelamente, los datos son analizados por el Centro de Análisis de Datos ENCODE, un consorcio de equipos de análisis de los distintos laboratorios de producción más otros investigadores. Estos equipos desarrollan protocolos estandarizados para analizar datos de ensayos novedosos, determinar las mejores prácticas y producir un conjunto coherente de métodos analíticos, como llamadores de picos estandarizados y generación de señales a partir de acumulaciones de alineación . [24]

El Instituto Nacional de Investigación del Genoma Humano (NHGRI) ha identificado a ENCODE como un "proyecto de recursos comunitarios". Este importante concepto fue definido en una reunión internacional celebrada en Ft. Lauderdale en enero de 2003 como un proyecto de investigación diseñado e implementado específicamente para crear un conjunto de datos, reactivos u otro material cuya utilidad principal será como recurso para la amplia comunidad científica. En consecuencia, la política de divulgación de datos de ENCODE estipula que los datos, una vez verificados, se depositarán en bases de datos públicas y estarán disponibles para que todos los utilicen sin restricciones. [24]

Otros proyectos [ editar ]

Con la continuación de la tercera fase, el Consorcio ENCODE se ha involucrado en proyectos adicionales cuyos objetivos corren paralelos al proyecto ENCODE. Algunos de estos proyectos fueron parte de la segunda fase de ENCODE.

proyecto modENCODE [ editar ]

El proyecto ENCyclopedia Of DNA Elements (modENCODE) del organismo MODel es una continuación del proyecto ENCODE original que tiene como objetivo la identificación de elementos funcionales en genomas de organismos modelo seleccionados , específicamente Drosophila melanogaster y Caenorhabditis elegans . [25] La extensión a organismos modelo permite la validación biológica de los hallazgos computacionales y experimentales del proyecto ENCODE, algo que es difícil o imposible de hacer en humanos. [25] La financiación para el proyecto modENCODE fue anunciada por los Institutos Nacionales de Salud (NIH) en 2007 e incluyó a varias instituciones de investigación diferentes en los Estados Unidos. [26] [27] El proyecto completó su trabajo en 2012.

A finales de 2010, el consorcio modENCODE dio a conocer su primer conjunto de resultados con publicaciones sobre anotación y análisis integrador de los genomas de gusanos y moscas en Science . [28] [29] Los datos de estas publicaciones están disponibles en el sitio web modENCODE. [30]

modENCODE se ejecutó como una red de investigación y el consorcio estaba formado por 11 proyectos primarios, divididos entre gusano y mosca. Los proyectos abarcaron lo siguiente:

  • Estructura genética
  • Perfiles de expresión de mRNA y ncRNA
  • Sitios de unión del factor de transcripción
  • Modificaciones y reemplazo de histonas
  • Estructura de cromatina
  • Inicio y sincronización de la replicación del ADN
  • Variación del número de copias. [31]

moderno [ editar ]

MODERN, abreviatura de la enciclopedia de organismos modelo de redes reguladoras, derivada del proyecto modENCODE. El proyecto ha fusionado los grupos de C. elegans y Drosophila y se centra en la identificación de sitios de unión de factores de transcripción adicionales de los respectivos organismos. El proyecto comenzó al mismo tiempo que la Fase III de ENCODE, y tiene previsto finalizar en 2017. [32] Hasta la fecha, el proyecto ha publicado 198 experimentos, [33] con alrededor de 500 experimentos presentados y actualmente en proceso por el DCC.

Genómica de la regulación genética [ editar ]

A principios de 2015, el NIH lanzó el programa Genomics of Gene Regulation (GGR). [34] El objetivo del programa, que tendrá una duración de tres años, es estudiar las redes y vías de genes en diferentes sistemas del cuerpo, con la esperanza de comprender mejor los mecanismos que controlan las expresiones de los genes. Aunque el proyecto ENCODE es independiente de GGR, ENCODE DCC ha alojado datos de GGR en el portal ENCODE. [35]

Hoja de ruta [ editar ]

En 2008, los NIH comenzaron el Roadmap Epigenomics Mapping Consortium, cuyo objetivo era producir “un recurso público de datos epigenómicos humanos para catalizar la biología básica y la investigación orientada a enfermedades”. [36] En febrero de 2015, el consorcio publicó un artículo titulado “Análisis integrador de 111 epigenomas humanos de referencia” que cumplió con el objetivo del consorcio. El consorcio integró información y anotó elementos regulatorios en 127 epigenomas de referencia, 16 de los cuales formaban parte del proyecto ENCODE. [37] Los datos del proyecto Roadmap pueden encontrarse en el portal Roadmap o en el portal ENCODE.

proyecto fruitENCODE [ editar ]

FruitENCODE: una enciclopedia de elementos de ADN para la maduración de frutas es un proyecto ENCODE de plantas que tiene como objetivo generar metilación de ADN, modificaciones de histonas, DHS, expresión génica, conjuntos de datos de unión de factores de transcripción para todas las especies de frutas carnosas en diferentes etapas de desarrollo. Los datos de la versión preliminar se pueden encontrar en el portal fruitENCODE.

Críticas al proyecto [ editar ]

Aunque el consorcio afirma que está lejos de haber terminado con el proyecto ENCODE, muchas reacciones a los artículos publicados y la cobertura de noticias que acompañó al lanzamiento fueron favorables. Los editores de Nature y los autores de ENCODE "... colaboraron durante muchos meses para causar el mayor impacto posible y captar la atención no solo de la comunidad investigadora sino también del público en general". [38] La afirmación del proyecto ENCODE de que el 80% del genoma humano tiene función bioquímica [18] fue rápidamente recogida por la prensa popular que describió los resultados del proyecto como conducentes a la muerte del ADN basura . [39] [40]

Sin embargo, la conclusión de que la mayor parte del genoma es "funcional" ha sido criticada con el argumento de que el proyecto ENCODE utilizó una definición liberal de "funcional", es decir, todo lo que se transcribe debe ser funcional. Se llegó a esta conclusión a pesar de la opinión ampliamente aceptada, basada en estimaciones de conservación genómica de genómica comparativa, de que muchos elementos del ADN, como los pseudogenes que se transcriben, no son funcionales. Además, el proyecto ENCODE ha enfatizado la sensibilidad sobre la especificidad, lo que posiblemente conduzca a la detección de muchos falsos positivos . [41] [42] [43]La elección algo arbitraria de líneas celulares y factores de transcripción, así como la falta de experimentos de control apropiados, fueron críticas importantes adicionales de ENCODE, ya que el ADN aleatorio imita el comportamiento "funcional" similar a ENCODE. [44]

En respuesta a algunas de las críticas, otros científicos argumentaron que la transcripción y empalme generalizados que se observan en el genoma humano directamente mediante pruebas bioquímicas es un indicador más preciso de la función genética que las estimaciones de conservación genómica porque las estimaciones de conservación son todas relativas y difíciles de calcular. alinearse debido a variaciones increíbles en los tamaños del genoma incluso de especies estrechamente relacionadas, es parcialmente tautológico, y estas estimaciones no se basan en pruebas directas de funcionalidad en el genoma. [45] [46] Las estimaciones de conservación pueden usarse para proporcionar pistas para identificar posibles elementos funcionales en el genoma, pero no limita ni limita la cantidad total de elementos funcionales que posiblemente podrían existir en el genoma. [46]Además, gran parte del genoma que los críticos disputan parece estar involucrado en la regulación epigenética , como la expresión génica, y parece ser necesario para el desarrollo de organismos complejos. [45] [47] Los resultados de ENCODE no fueron necesariamente inesperados ya que los aumentos en las atribuciones de funcionalidad fueron presagiados por décadas anteriores de investigación. [45] [47]Adicionalmente, otros han señalado que el proyecto ENCODE desde sus inicios tenía un alcance que se basaba en buscar elementos funcionales biomédicamente relevantes en el genoma no elementos funcionales evolutivos, que no son necesariamente lo mismo ya que la selección evolutiva no es suficiente ni necesaria para establecer Una función. Es un proxy muy útil para funciones relevantes, pero imperfecto y no el único. [48]

En respuesta a las quejas sobre la definición de la palabra "función", algunos han señalado que ENCODE sí definió lo que significaba y dado que el alcance de ENCODE buscaba elementos funcionales biomédicamente relevantes en el genoma, entonces la conclusión del proyecto debería interpretarse " como diciendo que el 80% del genoma está involucrado en actividades bioquímicas relevantes que es muy probable que tengan roles causales en fenómenos considerados relevantes para la investigación biomédica ". [48] La cuestión de la función tiene más que ver con las diferencias de definición que con la solidez del proyecto, que consistía en proporcionar datos para futuras investigaciones sobre la actividad bioquímica de partes del ADN que no codifican proteínas. Aunque las definiciones son importantes y la ciencia está limitada por los límites del lenguaje, parece que ENCODE ha sido bien recibido para su propósito, ya que ahora hay más artículos de investigación que utilizan datos de ENCODE que artículos que discuten sobre la definición de función, a marzo de 2013 . [49]Ewan Birney, uno de los investigadores de ENCODE, comentó que "función" se usó pragmáticamente para significar "actividad bioquímica específica" que incluía diferentes clases de ensayos: ARN, modificaciones de histonas "amplias", modificaciones de histonas "estrechas", sitios hipersensibles a la DNasaI, transcripción Picos de factor ChIP-seq, huellas de DNasaI, motivos unidos al factor de transcripción y exones. [50]

En 2014, los investigadores de ENCODE observaron que en la literatura, las partes funcionales del genoma se han identificado de manera diferente en estudios anteriores según los enfoques utilizados. Se han utilizado tres enfoques generales para identificar partes funcionales del genoma humano: enfoques genéticos (que se basan en cambios en el fenotipo), enfoques evolutivos (que se basan en la conservación) y enfoques bioquímicos (que se basan en pruebas bioquímicas y fue utilizado por ENCODE). . Los tres tienen limitaciones: los enfoques genéticos pueden pasar por alto elementos funcionales que no se manifiestan físicamente en el organismo, los enfoques evolutivos tienen dificultades para utilizar alineamientos de secuencias multiespecies precisos, ya que los genomas de especies incluso estrechamente relacionadas varían considerablemente, y con enfoques bioquímicos, aunque tienen una alta reproducibilidad, las firmas bioquímicas no siempre significan automáticamente una función. Llegaron a la conclusión de que, en contraste con la evidencia evolutiva y genética, los datos bioquímicos ofrecen pistas sobre la función molecular que cumplen los elementos subyacentes del ADN y los tipos de células en las que actúan y, en última instancia, los tres enfoques pueden usarse de manera complementaria para identificar regiones que ser funcional en la biología humana y la enfermedad. Además, señalaron que los mapas bioquímicos proporcionados por ENCODE eran los elementos más valiosos del proyecto, ya que proporcionan un punto de partida para probar cómo estas firmas se relacionan con la función molecular, celular y orgánica. Los datos bioquímicos ofrecen pistas sobre la función molecular que cumplen los elementos subyacentes del ADN y los tipos de células en las que actúan y, en última instancia, los tres enfoques se pueden utilizar de forma complementaria para identificar regiones que pueden ser funcionales en la biología y la enfermedad humanas. Además, señalaron que los mapas bioquímicos proporcionados por ENCODE eran los elementos más valiosos del proyecto, ya que proporcionan un punto de partida para probar cómo estas firmas se relacionan con la función molecular, celular y orgánica. Los datos bioquímicos ofrecen pistas sobre la función molecular que cumplen los elementos subyacentes del ADN y los tipos de células en las que actúan y, en última instancia, los tres enfoques se pueden utilizar de forma complementaria para identificar regiones que pueden ser funcionales en la biología y la enfermedad humanas. Además, señalaron que los mapas bioquímicos proporcionados por ENCODE eran los elementos más valiosos del proyecto, ya que proporcionan un punto de partida para probar cómo estas firmas se relacionan con la función molecular, celular y orgánica.[46]

El proyecto también ha sido criticado por su alto costo (~ $ 400 millones en total) y por favorecer a la gran ciencia que le quita dinero a la investigación altamente productiva iniciada por investigadores. [51] El proyecto piloto ENCODE costó aproximadamente 55 millones de dólares; la ampliación fue de aproximadamente $ 130 millones y el Instituto Nacional de Investigación del Genoma Humano de EE. UU.NHGRI podría otorgar hasta $ 123 millones para la siguiente fase. Algunos investigadores argumentan que aún no se ha visto un rendimiento sólido de esa inversión. Ha habido intentos de buscar en la literatura los artículos en los que ENCODE juega un papel importante y desde 2012 se han publicado 300 artículos, 110 de los cuales provienen de laboratorios sin financiamiento de ENCODE. Un problema adicional es que ENCODE no es un nombre único dedicado exclusivamente al proyecto ENCODE, por lo que la palabra 'codificar' aparece en muchas publicaciones sobre genética y genómica. [52]

Otra crítica importante es que los resultados no justifican la cantidad de tiempo invertido en el proyecto y que el proyecto en sí es esencialmente inacabable. Aunque a menudo se compara con el Proyecto del Genoma Humano (HGP) e incluso se lo denomina como el siguiente paso de HGP, el HGP tenía un punto final claro del que ENCODE carece actualmente.

Los autores parecen simpatizar con las preocupaciones científicas y, al mismo tiempo, intentan justificar sus esfuerzos concediendo entrevistas y explicando los detalles de ENCODE no solo al público científico, sino también a los medios de comunicación. También afirman que tomó más de medio siglo desde que se dieron cuenta de que el ADN es el material hereditario de la vida para la secuencia del genoma humano, por lo que su plan para el próximo siglo sería comprender realmente la secuencia en sí. [52]

FactorBook [ editar ]

El análisis de los datos de enlace de factores de transcripción generados por el proyecto ENCODE está actualmente disponible en el repositorio FactorBook accesible en la web. [53] Esencialmente, Factorbook.org es una base de datos basada en Wiki para datos de enlace de factores de transcripción generados por el consorcio ENCODE. En la primera versión, Factorbook contiene:

  • 457 conjuntos de datos ChIP-seq en 119 TF en varias líneas celulares humanas
  • Los perfiles promedio de modificaciones de histonas y posicionamiento de nucleosomas alrededor de las regiones de unión a TF
  • Secuencia de motivos enriquecidos en las regiones y las preferencias de distancia y orientación entre los sitios de motivos. [54]

Ver también [ editar ]

  • GENCODE
  • SIMAP
  • Genómica funcional
  • Proyecto Genoma Humano
  • Proyecto 1000 Genomas
  • Proyecto Internacional HapMap
  • Lista de bases de datos biológicas

Referencias [ editar ]

  1. ^ Hong EL, Sloan CA, Chan ET, Davidson JM, Malladi VS, Strattan JS, Hitz BC, Gabdank I, Narayanan AK, Ho M, Lee BT, Rowe LD, Dreszer TR, Roe GR, Podduturi NR, Tanaka F, Hilton JA, Cherry JM (enero de 2016). "Principios de organización de metadatos en el centro de coordinación de datos ENCODE. (Actualización 2016)" . Base de datos . 2016 : baw001. doi : 10.1093 / base de datos / baw001 . PMC 4792520 . PMID 26980513 .  
  2. ^ Raney BJ, Cline MS, Rosenbloom KR, Dreszer TR, Learned K, Barber GP, Meyer LR, Sloan CA, Malladi VS, Roskin KM, Suh BB, Hinrichs AS, Clawson H, Zweig AS, Kirkup V, Fujita PA, Rhead B, Smith KE, Pohl A, Kuhn RM, Karolchik D, Haussler D, Kent WJ (enero de 2011). "CODIFICAR los datos del genoma completo en el navegador del genoma UCSC (actualización de 2011)" . Ácidos nucleicos Res. 39 (Problema de la base de datos): D871–5. doi : 10.1093 / nar / gkq1017 . PMC 3013645 . PMID 21037257 .   
  3. ^ a b c El consorcio del proyecto ENCODE (2004). "Proyecto ENCODE (ENCyclopedia Of DNA Elements)" . Ciencias.
  4. ^ Consorcio del proyecto ENCODE (2011). Becker PB (ed.). "Una guía del usuario de la enciclopedia de elementos del ADN (ENCODE)" . PLOS Biología . 9 (4): e1001046. doi : 10.1371 / journal.pbio.1001046 . PMC 3079585 . PMID 21526222 .  
  5. ^ a b c d Consorcio del proyecto ENCODE, Birney E , Stamatoyannopoulos JA , Dutta A , Guigó R, Gingeras TR, Margulies EH, Weng Z, Snyder M, Dermitzakis ET, et al. (2007). "Identificación y análisis de elementos funcionales en el 1% del genoma humano por el proyecto piloto ENCODE" . Naturaleza . 447 (7146): 799–816. Código Bibliográfico : 2007Natur.447..799B . doi : 10.1038 / nature05874 . PMC 2212820 . PMID 17571346 .  
  6. ^ Guigó R, Flicek P, Abril JF, Reymond A, Lagarde J, Denoeud F, Antonarakis S, Ashburner M, Bajic VB, Birney E, Castelo R, Eyras E, Ucla C, Gingeras TR, Harrow J, Hubbard T, Lewis SE, Reese MG (2006). "EGASP: el proyecto de evaluación de anotación del genoma ENCODE humano" . Biología del genoma . 7 : S2.1–31. doi : 10.1186 / gb-2006-7-s1-s2 . PMC 1810551 . PMID 16925836 .  
  7. ^ "El proyecto ENCODE: ENCyclopedia Of DNA Elements" . www.genome.gov . Consultado el 13 de mayo de 2016 .
  8. ^ Saey, Tina Hesman (6 de octubre de 2012). "Equipo lanza secuela del genoma humano" . Sociedad para la ciencia y el público . Consultado el 18 de octubre de 2012 .
  9. ^ GmbH, Eurice. "Estados Unidos de América · IHEC" . ihec-epigenomes.org . Consultado el 18 de julio de 2017 .
  10. ^ "Proyecto ENCODE" . www.genome.gov . Archivado desde el original el 17 de mayo de 2016 . Consultado el 16 de mayo de 2016 .
  11. ^ Personal del programa ENCODE (18 de octubre de 2012). "CODIFICAR: Proyecto piloto: descripción general" . Instituto Nacional de Investigación del Genoma Humano.
  12. ^ Personal del programa ENCODE (19 de febrero de 2012). "CODIFICAR: Proyecto Piloto: Selección de Destino" . Instituto Nacional de Investigación del Genoma Humano.
  13. ^ Weinstock GM (2007). "CODIFICAR: Más empoderamiento genómico" . Investigación del genoma . 17 (6): 667–668. doi : 10.1101 / gr.6534207 . PMID 17567987 . 
  14. ^ "Genome.gov | Proyectos ENCODE y modENCODE" . El proyecto ENCODE: ENCyclopedia Of DNA Elements . Instituto Nacional de Investigación del Genoma Humano de los Estados Unidos. 2011-08-01 . Consultado el 5 de agosto de 2011 .
  15. ^ "Instituto Nacional de Investigación del Genoma Humano - Organización" . El almanaque de los NIH . Institutos Nacionales de Salud de Estados Unidos . Consultado el 5 de agosto de 2011 .
  16. ^ "Genome.gov | CODIFICAR participantes y proyectos" . El proyecto ENCODE: ENCyclopedia Of DNA Elements . Instituto Nacional de Investigación del Genoma Humano de los Estados Unidos. 2011-08-01 . Consultado el 5 de agosto de 2011 .
  17. ^ Ecker JR, Bickmore WA, Barroso I, Pritchard JK, Gilad Y, Segal E (septiembre de 2012). "Genómica: ENCODE explicado". Naturaleza . 489 (7414): 52–5. Código Bibliográfico : 2012Natur.489 ... 52E . doi : 10.1038 / 489052a . PMID 22955614 . S2CID 5366257 .  
  18. ^ a b c Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M (septiembre de 2012). "Una enciclopedia integrada de elementos del ADN en el genoma humano" . Naturaleza . 489 (7414): 57–74. Código Bibliográfico : 2012Natur.489 ... 57T . doi : 10.1038 / nature11247 . PMC 3439153 . PMID 22955616 .  
  19. ^ Thurman RE, Rynes E, Humbert R, Vierstra J, Maurano MT, Haugen E, Sheffield NC, Stergachis AB, Wang H, et al. (Septiembre 2012). "El paisaje de cromatina accesible del genoma humano" . Naturaleza . 489 (7414): 75–82. Código Bib : 2012Natur.489 ... 75T . doi : 10.1038 / nature11232 . PMC 3721348 . PMID 22955617 .  
  20. ^ Neph S, Vierstra J, Stergachis AB, Reynolds AP, Haugen E, Vernot B, Thurman RE, John S, Sandstrom R, et al. (Septiembre 2012). "Un léxico regulador humano expansivo codificado en huellas de factores de transcripción" . Naturaleza . 489 (7414): 83–90. Código Bibliográfico : 2012Natur.489 ... 83N . doi : 10.1038 / nature11212 . PMC 3736582 . PMID 22955618 .  
  21. ^ Gerstein MB, Kundaje A, Hariharan M, Landt SG, Yan KK, Cheng C, Mu XJ, Khurana E, Rozowsky J, et al. (Septiembre 2012). "Arquitectura de la red reguladora humana derivada de datos ENCODE" . Naturaleza . 489 (7414): 91–100. Código bibliográfico : 2012Natur.489 ... 91G . doi : 10.1038 / nature11245 . PMC 4154057 . PMID 22955619 .  
  22. ^ Djebali S, Davis CA, Merkel A, Dobin A, Lassmann T, Mortazavi A, Tanzer A, Lagarde J, Lin W, et al. (Septiembre 2012). "Paisaje de la transcripción en células humanas" . Naturaleza . 489 (7414): 101–8. Código Bibliográfico : 2012Natur.489..101D . doi : 10.1038 / nature11233 . PMC 3684276 . PMID 22955620 .  
  23. ^ Malladi VS, Erickson DT, Podduturi NR, Rowe LD, Chan ET, Davidson JM, Hitz BC, Ho M, Lee BT, Miyasato S, Roe GR, Simison M, Sloan CA, Strattan JS, Tanaka F, Kent WJ, Cherry JM, Hong EL (2015). "Aplicación y uso de ontología en el ENCODE DCC" . Base de datos (Oxford) . 2015 . doi : 10.1093 / database / bav010 . PMC 4360730 . PMID 25776021 .  
  24. ^ a b Brian J. Raney; et al. (30 de octubre de 2010). "CODIFICAR los datos del genoma completo en el navegador del genoma UCSC (actualización de 2011)" . Ácidos nucleicos Res . Investigación de ácidos nucleicos. 39 : D871-5. doi : 10.1093 / nar / gkq1017 . PMC 3013645 . PMID 21037257 .  
  25. ^ a b "El proyecto modENCODE: organismo modelo ENCyclopedia de elementos de ADN (modENCODE)" . Sitio web NHGRI . Consultado el 13 de noviembre de 2008 .
  26. ^ "Participantes y proyectos modENCODE" . Sitio web NHGRI . Consultado el 13 de noviembre de 2008 .
  27. ^ "Ciencias de la vida del laboratorio de Berkeley otorgó subvenciones de los NIH para la mosca de la fruta, estudios de nematodos" . Sitio web del Laboratorio Nacional Lawrence Berkeley . 2007-05-14 . Consultado el 13 de noviembre de 2008 .
  28. ^ Gerstein MB, Lu ZJ, Van Nostrand EL, Cheng C, Arshinoff BI, Liu T, Yip KY, Robilotto R, Rechtsteiner A, et al. (2010). "Análisis integrativo del genoma de Caenorhabditis elegans por el proyecto modENCODE" . Ciencia . 330 (6012): 1775-1787. Código Bibliográfico : 2010Sci ... 330.1775G . doi : 10.1126 / science.1196914 . PMC 3142569 . PMID 21177976 .  
  29. ^ Consorcio modENCODE, Roy S, Ernst J, Kharchenko PV, Kheradpour P, Negre N, Eaton ML, Landolin JM, Bristow CA, Ma L, et al. (2010). "Identificación de elementos funcionales y circuitos reguladores por Drosophila modENCODE" . Ciencia . 330 (6012): 1787-1797. Código Bibliográfico : 2010Sci ... 330.1787R . doi : 10.1126 / science.1198374 . PMC 3192495 . PMID 21177974 .  
  30. ^ "MODENCODE" . El Instituto Nacional de Investigación del Genoma Humano.
  31. Celniker S (11 de junio de 2009). "Desvelando los secretos del genoma" . Naturaleza . 459 (7249): 927–930. Código bibliográfico : 2009Natur.459..927C . doi : 10.1038 / 459927a . PMC 2843545 . PMID 19536255 .  
  32. ^ https://projectreporter.nih.gov/project_info_details.cfm?aid=8566279&icde=19088980
  33. ^ https://www.encodeproject.org/search/?type=Experiment&award.project=modERN&status=released
  34. ^ https://www.genome.gov/27559930/2015-release-nih-grants-aim-to-decipher-the-language-of-gene-regulation/
  35. ^ https://www.encodeproject.org/search/?type=Experiment&award.project=GGR
  36. ^ "Proyecto de epigenómica de hoja de ruta - Inicio" .
  37. ^ Kundaje, Anshul; Meuleman, Wouter; Ernst, Jason; Bilenky, Misha; Yen, Angela; Heravi-Moussavi, Alireza; Kheradpour, Pouya; Zhang, Zhizhuo; Wang, Jianrong; Ziller, Michael J .; Amin, Viren; Whitaker, John W .; Schultz, Matthew D .; Ward, Lucas D .; Sarkar, Abhishek; Quon, Gerald; Sandstrom, Richard S .; Eaton, Matthew L .; Wu, Yi-Chieh; Pfenning, Andreas R .; Wang, Xinchen; Claussnitzer, Melina; Liu, Yaping; Coarfa, Cristian; Harris, R. Alan; Shoresh, Noam; Epstein, Charles B .; Gjoneska, Elizabeta; Leung, Danny; et al. (2015). "Análisis integrativo de 111 epigenomas humanos de referencia" . Naturaleza . 518 (7539): 317–330. Código Bibliográfico : 2015Natur.518..317. . doi :10.1038 / nature14248 . PMC  4530010 . PMID  25693563 .
  38. Maher B (6 de septiembre de 2012). "Luchando por ENCODE y basura" . Blog de noticias . Nature Publishing Group.
  39. Kolata G (5 de septiembre de 2012). "Lejos de 'basura', la materia oscura del ADN resulta crucial para la salud" . The New York Times .
  40. Gregory TR (6 de septiembre de 2012). "La máquina de bombo mediático ENCODE" . Genomicron.
  41. ^ Graur D, Zheng Y, Price N, Azevedo RB, Zufall RA, Elhaik E (2013). "Sobre la inmortalidad de los televisores:" función "en el genoma humano según el evangelio libre de evolución de ENCODE" . Genome Biol Evol . 5 (3): 578–90. doi : 10.1093 / gbe / evt028 . PMC 3622293 . PMID 23431001 .  
  42. Moran LA (15 de marzo de 2013). "Sandwalk: sobre el significado de la palabra" función " " . Sandwalk.
  43. Gregory TR (11 de abril de 2013). "Críticas de ENCODE en revistas arbitradas.« Genomicron " . Genomicron.
  44. ^ White MA, Myers CA, Corbo JC, Cohen BA (julio de 2013). "El ensayo intensificador in vivo masivamente paralelo revela que las características altamente locales determinan la función reguladora en cis de los picos de ChIP-seq" . Proc. Natl. Acad. Sci. USA . 110 (29): 11952–7. Código de Bibliografía : 2013PNAS..11011952W . doi : 10.1073 / pnas.1307449110 . PMC 3718143 . PMID 23818646 . Resumen de Lay - thefinchandpea.com .  
  45. ↑ a b c Mattick JS, Dinger ME (2013). "El alcance de la funcionalidad en el genoma humano" . El diario HUGO . 7 (1): 2. doi : 10.1186 / 1877-6566-7-2 . PMC 4685169 . 
  46. ^ a b c Kellis M, et al. (2014). "Definición de elementos funcionales del ADN en el genoma humano" . Proc. Natl. Acad. Sci. USA . 111 (17): 6131–8. Código Bibliográfico : 2014PNAS..111.6131K . doi : 10.1073 / pnas.1318948111 . PMC 4035993 . PMID 24753594 .  
  47. ↑ a b Carey, Nessa (2015). ADN basura: un viaje a través de la materia oscura del genoma . Prensa de la Universidad de Columbia. ISBN 9780231170840.
  48. ↑ a b Germain, Pierre-Luc; Ratti, Emanuele; Boem, Federico (noviembre de 2014). "¿ADN basura o funcional? CODIFICAR y la controversia de la función". Biología y Filosofía . 29 (6): 807–831. doi : 10.1007 / s10539-014-9441-3 . S2CID 84480632 . 
  49. ^ Nature Editorial (14 de marzo de 2013). "Forma y función" . Naturaleza . 495 (7440): 141-142. doi : 10.1038 / 495141b . PMID 23495393 . 
  50. ^ Birney, Ewan (5 de septiembre de 2012). "CODIFICAR: Mis propios pensamientos" . Blog de Ewan: Bioinformático en general .
  51. Timpson T (5 de marzo de 2013). "Debatiendo ENCODE: Dan Graur, Michael Eisen" . Mendelspod.
  52. ^ a b Maher B (septiembre de 2012). "CODIFICAR: La enciclopedia humana" . Naturaleza . 489 (7414): 46–8. doi : 10.1038 / 489046a . PMID 22962707 . 
  53. ^ FactorBook
  54. Wang J (29 de noviembre de 2012). "Factorbook.org: una base de datos basada en Wiki para datos de enlace de factores de transcripción generados por el consorcio ENCODE" . Investigación de ácidos nucleicos . 41 (Problema de la base de datos): D171-6. doi : 10.1093 / nar / gks1221 . PMC 3531197 . PMID 23203885 .  

Enlaces externos [ editar ]

  • Página web oficial
  • Proyecto ENCODE en el Instituto Nacional de Investigación del Genoma Humano
  • Enciclopedia de elementos de ADN en UCSC Genome Browser
  • Proyecto ENCODE / GENCODE en el Wellcome Trust Sanger Institute
  • Tutorial introductorio patrocinado por ENCODE
  • FactorBook
  • MODENCODE
  • ENCODE Threads Explorer en Nature (revista)