De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

La UCSC Genome Browser es una en línea, y descargable, genoma navegador organizadas por la Universidad de California, Santa Cruz (UCSC). [2] [3] [4]Es un sitio web interactivo que ofrece acceso a los datos de la secuencia del genoma de una variedad de especies de vertebrados e invertebrados y de los principales organismos modelo, integrado con una gran colección de anotaciones alineadas. El navegador es un visor gráfico optimizado para admitir un rendimiento interactivo rápido y es un conjunto de herramientas de código abierto basadas en la web construido sobre una base de datos MySQL para una rápida visualización, examen y consulta de los datos en muchos niveles. La base de datos del navegador Genome, las herramientas de navegación, los archivos de datos descargables y la documentación se pueden encontrar en el sitio web de UCSC Genome Bioinformatics.

Historia [ editar ]

Inicialmente construido y aún administrado por Jim Kent , entonces un estudiante de posgrado, y David Haussler , profesor de Ciencias de la Computación (ahora Ingeniería Biomolecular) en la Universidad de California, Santa Cruz en 2000, UCSC Genome Browser comenzó como un recurso para la distribución de los frutos iniciales del Proyecto Genoma Humano . Financiado por el Instituto Médico Howard Hughes y el Instituto Nacional de Investigación del Genoma Humano , NHGRI (uno de los Institutos Nacionales de Salud de EE. UU .), el navegador ofrecía una visualización gráfica del primer ensamblaje de borrador de cromosoma completo de la secuencia del genoma humano. Hoy en día, genetistas, biólogos moleculares y médicos utilizan el navegador, así como estudiantes y profesores de evolución para acceder a la información genómica.

Genomas [ editar ]

Genomas de UCSC

En los años transcurridos desde su inicio, UCSC Browser se ha expandido para adaptarse a las secuencias del genoma de todas las especies de vertebrados e invertebrados seleccionados para los que se encuentran disponibles secuencias genómicas de alta cobertura, [5] que ahora incluyen 46 especies. Es necesaria una alta cobertura para permitir la superposición para guiar la construcción de regiones contiguas más grandes. Las secuencias genómicas con menos cobertura se incluyen en pistas de alineación múltiple en algunos navegadores, pero la naturaleza fragmentada de estos ensamblajes no los hace adecuados para construir navegadores con todas las funciones. (más abajo sobre pistas de alineación múltiple). Las especies alojadas con navegadores de genoma con todas las funciones se muestran en la tabla.

Con los centros de ensamblaje, los usuarios pueden cargar ensamblajes únicos. Se puede ver un ejemplo en el centro de ensamblaje del Proyecto Vertebrate Genomes .

Funcionalidad del navegador [ editar ]

La gran cantidad de datos sobre sistemas biológicos que se está acumulando en la literatura hace necesario recolectar y digerir información utilizando las herramientas de la bioinformática.. UCSC Genome Browser presenta una colección diversa de conjuntos de datos de anotación (conocidos como "pistas" y presentados gráficamente), que incluyen alineaciones de ARNm, mapeos de elementos de repetición de ADN, predicciones de genes, datos de expresión de genes, datos de asociación de enfermedades (que representan las relaciones de genes a enfermedades) y mapeos de chips de genes disponibles comercialmente (por ejemplo, Illumina y Agilent). El paradigma básico de visualización es mostrar la secuencia del genoma en la dimensión horizontal y mostrar representaciones gráficas de las ubicaciones de los ARNm, predicciones de genes, etc. Los bloques de color a lo largo del eje de coordenadas muestran las ubicaciones de las alineaciones de los diversos tipos de datos. . La capacidad de mostrar esta gran variedad de tipos de datos en un solo eje de coordenadas hace que el navegador sea una herramienta útil para la integración vertical de los datos.

Para encontrar un gen o una región genómica específicos, el usuario puede escribir el nombre del gen, una secuencia de ADN, un número de acceso para un ARN, el nombre de una banda citológica genómica (por ejemplo, 20p13 para la banda 13 en el brazo corto de chr20) o una posición cromosómica (chr17: 38,450,000-38,531,000 para la región alrededor del gen BRCA1 ).

La presentación de los datos en formato gráfico permite que el navegador presente un enlace de acceso a información detallada sobre cualquiera de las anotaciones. La página de detalles del gen de la pista UCSC Genes proporciona una gran cantidad de enlaces a información más específica sobre el gen en muchos otros recursos de datos, como la herencia mendeliana en línea en el hombre ( OMIM ) y SwissProt .

Diseñado para la presentación de datos complejos y voluminosos, el navegador UCSC está optimizado para la velocidad. Al prealinear los 55 millones de ARN de GenBank con cada uno de los 81 conjuntos de genomas (muchas de las 46 especies tienen más de un conjunto), el navegador permite el acceso instantáneo a las alineaciones de cualquier ARN de cualquiera de las especies alojadas.

Múltiples productos génicos del gen FOXP2 (arriba) y conservación evolutiva mostrados en alineación múltiple (abajo)

La yuxtaposición de los muchos tipos de datos permite a los investigadores mostrar exactamente la combinación de datos que responderá a preguntas específicas. Una funcionalidad de salida pdf / postscript permite exportar una imagen lista para la cámara para su publicación en revistas académicas.

Una característica única y útil que distingue al UCSC Browser de otros navegadores del genoma es la naturaleza continuamente variable de la pantalla. Se pueden mostrar secuencias de cualquier tamaño, desde una única base de ADN hasta el cromosoma completo (cr1 humano = 245 millones de bases, Mb) con pistas de anotación completas. Los investigadores pueden mostrar un solo gen, un solo exón o una banda cromosómica completa, mostrando docenas o cientos de genes y cualquier combinación de las muchas anotaciones. Una conveniente función de arrastrar y acercar permite al usuario elegir cualquier región en la imagen del genoma y expandirla para ocupar la pantalla completa.

Los investigadores también pueden usar el navegador para mostrar sus propios datos a través de la herramienta Pistas personalizadas. Esta característica permite a los usuarios cargar un archivo de sus propios datos y ver los datos en el contexto del ensamblaje del genoma de referencia. Los usuarios también pueden utilizar los datos alojados por UCSC, creando subconjuntos de los datos de su elección con la herramienta del navegador de tablas (como solo los SNP que cambian la secuencia de aminoácidos de una proteína) y mostrar este subconjunto específico de los datos en el navegador. como una pista personalizada.

Cualquier vista del navegador creada por un usuario, incluidas las que contienen pistas personalizadas, se puede compartir con otros usuarios a través de la herramienta Sesiones guardadas.

Pistas [ editar ]

Pistas del navegador UCSC Genome

Debajo de la imagen mostrada del navegador UCSC Genome hay nueve categorías de pistas adicionales que se pueden seleccionar y mostrar junto con los datos originales. Estas categorías son mapeo y secuenciación, genes y predicciones genéticas, fenotipo y literatura, ARNm y EST, expresión, regulación, genómica comparativa, variación y repeticiones.

Mapeo y secuenciación [ editar ]

Estas pistas permiten el control del usuario sobre la visualización de coordenadas genómicas, secuencias y espacios. Los investigadores tienen la capacidad de seleccionar las pistas que mejor representen su consulta para permitir que se muestren datos más aplicables según el tipo y la profundidad de la investigación que se esté realizando. Las pistas de mapeo y secuenciación también pueden mostrar una pista basada en porcentajes para mostrar al investigador si un elemento genético en particular es más frecuente en el área especificada.

Genes y predicciones genéticas [ editar ]

Las pistas de genes y predicciones de genes controlan la visualización de genes y sus partes posteriores. Las diferentes pistas permiten al usuario mostrar modelos genéticos, regiones codificantes de proteínas y ARN no codificante, así como otros datos relacionados con los genes. Hay numerosas pistas disponibles que permiten a los investigadores comparar rápidamente su consulta con conjuntos de genes preseleccionados para buscar correlaciones entre conjuntos de genes conocidos.

Fenotipo y literatura [ editar ]

Las pistas de fenotipo y literatura se ocupan del fenotipo directamente relacionado con los genes, así como con el fenotipo genético. Los usos de estas pistas están destinados principalmente a médicos y otros profesionales interesados ​​en los trastornos genéticos, a los investigadores de la genética y a los estudiantes avanzados de ciencia y medicina. Un investigador también puede mostrar una pista que muestre las posiciones genómicas de variantes de aminoácidos naturales y artificiales.

ARNm y EST [ editar ]

Estas pistas están relacionadas con etiquetas de secuencia expresadas y ARN mensajero. Las tecnologías ecológicamente racionales son secuencias de lectura única, normalmente de aproximadamente 500 bases de longitud, que normalmente representan fragmentos de genes transcritos. Las pistas de ARNm permiten la visualización de datos de alineación de ARNm en humanos, así como en otras especies. También hay pistas que permiten la comparación con regiones de tecnologías ecológicamente racionales que muestran signos de empalme cuando se alinean con el genoma.

Expresión [ editar ]

Las pistas de expresión se utilizan para relacionar los datos genéticos con las áreas de tejido en las que se expresan. Esto permite al investigador descubrir si un gen o secuencia en particular está vinculado con varios tejidos en todo el cuerpo. Las pistas de expresión también permiten la visualización de datos de consenso sobre los tejidos que expresan la región de consulta.

Reglamento [ editar ]

Las pistas de regulación del navegador UCSC Genome son una categoría de pistas que controlan la representación de las regiones promotoras y de control dentro del genoma. Un investigador puede ajustar las pistas de regulación para agregar un gráfico de visualización al navegador del genoma. Estas pantallas permiten obtener más detalles sobre las regiones reguladoras, los sitios de unión del factor de transcripción, los sitios de unión del ARN, las variantes reguladoras, los haplotipos y otros elementos reguladores.

Genómica comparada [ editar ]

UCSC Genome Browser permite al usuario mostrar diferentes tipos de datos de conservación. El usuario puede seleccionar entre diferentes pistas, incluidos primates, vertebrados, mamíferos, entre otros, y ver cómo se conserva la secuencia de genes que buscaron entre otras especies. Las alineaciones comparativas dan una vista gráfica de las relaciones evolutivas entre especies. Esto la convierte en una herramienta útil tanto para el investigador, que puede visualizar regiones de conservación entre un grupo de especies y hacer predicciones sobre elementos funcionales en regiones de ADN desconocidas, como en el aula como herramienta para ilustrar uno de los argumentos más convincentes para la evolución de las especies. La pista comparativa de 44 vías en el ensamblaje humano muestra claramente que cuanto más se retrocede en el tiempo evolutivo, menos homología de secuencia permanece.pero las regiones funcionalmente importantes del genoma (p. ej., exones y elementos de control, pero no intrones típicamente) se conservan mucho más atrás en el tiempo evolutivo.

Datos de variación [ editar ]

También se muestran muchos tipos de datos de variación. Por ejemplo, todo el contenido de cada lanzamiento de la base de datos dbSNP de NCBI se asigna a genomas humanos, de ratón y de otros tipos. Esto incluye los frutos del Proyecto 1000 Genomas, tan pronto como se publiquen en dbSNP. Otros tipos de datos de variación incluyen datos de variación de número de copias ( CNV ) y frecuencias de alelos de la población humana del proyecto HapMap .

Repite [ editar ]

Las pistas repetidas del navegador del genoma permiten al usuario ver una representación visual de las áreas de ADN con repeticiones de baja complejidad. Ser capaz de visualizar repeticiones en una secuencia permite inferencias rápidas sobre una consulta de búsqueda en el navegador del genoma. Un investigador tiene el potencial de ver rápidamente que su búsqueda especificada contiene grandes cantidades de secuencias repetidas de un vistazo y ajustar su búsqueda o visualización de pistas en consecuencia.

Herramientas de análisis [ editar ]

El sitio de UCSC alberga un conjunto de herramientas de análisis del genoma, incluida una interfaz GUI con todas las funciones para extraer la información en la base de datos del navegador, una herramienta de alineación de secuencia FAST BLAT [6] que también es útil para simplemente encontrar secuencias en la secuencia masiva (humanos genoma = 3,23 mil millones de bases [Gb]) de cualquiera de los genomas presentados.

Una herramienta liftOver utiliza alineaciones de genoma completo para permitir la conversión de secuencias de un ensamblaje a otro o entre especies. La herramienta Genome Graphs permite a los usuarios ver todos los cromosomas a la vez y mostrar los resultados de los estudios de asociación de todo el genoma (GWAS). El clasificador de genes muestra genes agrupados por parámetros no relacionados con la ubicación del genoma, como el patrón de expresión en los tejidos.

Código abierto / espejos [ editar ]

El código base del navegador UCSC es de código abierto para uso no comercial y muchos grupos de investigación lo reproducen localmente, lo que permite la visualización privada de datos en el contexto de los datos públicos. El navegador UCSC se refleja en varias ubicaciones en todo el mundo, como se muestra en la tabla.

El código del navegador también se utiliza en instalaciones separadas por UCSC Malaria Genome Browser y Archaea Browser .

Ver también [ editar ]

  • Ensembl
  • CODIFICAR
  • Lista de bases de datos biológicas

Referencias [ editar ]

  1. ^ Lee, CM; Barbero, médico de cabecera; Casper, J; Clawson, H; Diekhans, M; González, JN; Hinrichs, A; Lee, BT; Nassar, LR; Powell, CC; Raney, BJ; Rosenbloom, KR; Schmelter, D; Speir, ML; Zweig, AS; Haussler, D; Haeussler, M; Kuhn, RM; Kent, WJ (8 de enero de 2020). "UCSC Genome Browser entra en el vigésimo año" . Investigación de ácidos nucleicos . 48 (D1): D756 – D761. doi : 10.1093 / nar / gkz1012 . PMC  7145642 . PMID  31691824 .
  2. ^ Fujita PA, Rhead B, Zweig AS, Hinrichs AS, Karolchik D, Cline MS, Goldman M, Barber GP, Clawson H, Coelho A, Diekhans M, Dreszer TR, Giardine BM, Harte RA, Hillman-Jackson J, Hsu F , Kirkup V, Kuhn RM, Learned K, Li CH, Meyer LR, Pohl A, Raney BJ, Rosenbloom KR, Smith KE, Haussler D, Kent WJ (enero de 2011). "La base de datos UCSC Genome Browser: actualización 2011" . Ácidos nucleicos Res . 39 (Problema de la base de datos): D876-82. doi : 10.1093 / nar / gkq963 . PMC 3242726 . PMID 20959295 .  
  3. ^ Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D (junio de 2002). "El navegador del genoma humano en UCSC" . Genome Res . 12 (6): 996–1006. doi : 10.1101 / gr.229102 . PMC 186604 . PMID 12045153 .  
  4. ^ Kuhn, RM; Karolchik, D .; Zweig, AS; Wang, T .; Smith, KE; Rosenbloom, KR; Rhead, B .; Raney, BJ; Pohl, A .; Faisán, M .; Meyer, L. (1 de enero de 2009). "La base de datos del navegador UCSC Genome: actualización 2009" . Investigación de ácidos nucleicos . 37 (Base de datos): D755 – D761. doi : 10.1093 / nar / gkn875 . ISSN 0305-1048 . PMC 2686463 . PMID 18996895 .   
  5. ^ "Alta cobertura" aquí significa cobertura 6x, o seis veces más secuencia total que el tamaño del genoma.
  6. ^ Kent, WJ. (Abril de 2002). "BLAT - la herramienta de alineación similar a BLAST" . Genome Res . 12 (4): 656–64. doi : 10.1101 / gr.229202 . PMC 187518 . PMID 11932250 .  

Enlaces externos [ editar ]

  • Página web oficial
  • Capacitación en línea / Tutoriales y guías de usuario
  • Tutoriales de YouTube