UniGene


De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

UniGene es una base de datos NCBI del transcriptoma y, por lo tanto, a pesar del nombre, no es principalmente una base de datos de genes . Cada entrada es un conjunto de transcripciones que parecen provenir del mismo locus de transcripción (es decir, gen o pseudogen expresado ). Con cada entrada se incluye información sobre similitudes de proteínas , expresión génica, clones de ADNc y ubicación genómica.

Se encuentran disponibles descripciones de los procedimientos de construcción basados ​​en transcripciones y genomas de UniGene.

Una descripción detallada de la base de datos UniGene

El recurso UniGene, desarrollado en NCBI , agrupa tecnologías ecológicamente racionales y otras secuencias de ARNm , junto con secuencias codificantes (CDS) anotadas en el ADN genómico, en subconjuntos de secuencias relacionadas. En la mayoría de los casos, cada grupo está formado por secuencias producidas por un solo gen, incluidas las transcripciones empalmadas alternativamente. Sin embargo, algunos genes pueden estar representados por más de un grupo. Los grupos son específicos del organismo y actualmente están disponibles para humanos , ratones , ratas , peces cebra y ganado.. Se construyen en varias etapas, utilizando un proceso automático basado en algoritmos especiales de comparación de secuencias . Primero, las secuencias de nucleótidos se buscan en busca de contaminantes, como secuencia mitocondrial , ribosómica y de vector, elementos repetitivos.y secuencias de baja complejidad. Después de seleccionar una secuencia, debe contener al menos 100 bases para ser candidata a ingresar en UniGene. El ARNm y el ADN genómico se agrupan primero en enlaces genéticos. Una segunda comparación de secuencias vincula las tecnologías ecológicamente racionales entre sí y con los enlaces genéticos. En esta etapa, todos los grupos están "anclados" y contienen una secuencia con un sitio de poliadenilación o dos tecnologías ecológicamente racionales etiquetadas como provenientes del extremo 3 de un clon. Los bordes basados ​​en clones se agregan uniendo las tecnologías ecológicamente racionales 5 y 3 que se derivan del mismo clon. En algunos casos, esta vinculación puede fusionar grupos identificados en una etapa anterior. Por último, las tecnologías ecológicamente racionales no ancladas y los grupos de genes de tamaño 1 (que pueden representar transcripciones raras) se comparan con otros grupos UniGene de menor rigor. La compilación de UniGene se actualiza semanalmente,y las secuencias que componen un grupo pueden cambiar. Por lo tanto, no es seguro hacer referencia a un clúster de UniGene por su identificador de clúster; en su lugar, uno debe usar el Números de acceso de GenBank de las secuencias en el grupo.

En julio de 2000, el subconjunto humano de UniGene contenía 1,7 millones de secuencias en 82.000 agrupaciones; El 98% de estas secuencias agrupadas eran tecnologías ecológicamente racionales y el 2% restante eran de ARNm o CDS anotados en ADN genómico. Estos grupos humanos podrían representar fragmentos de hasta 82.000 genes humanos únicos, lo que implica que muchos genes humanos están ahora representados en un grupo UniGene. (Este número es sin duda una sobreestimación del número de genes en el genoma humano, ya que algunos genes pueden estar representados por más de un grupo.) Solo el 1,4% de los grupos carecen totalmente de tecnologías ecológicamente racionales, lo que implica que la mayoría de los genes humanos están representados por al menos un grupo. EST. Por el contrario, parece que la mayoría de los genes humanos han sido identificados únicamente por tecnologías ecológicamente racionales; solo el 16% de los grupos contienen un ARNm o un CDS anotado en un ADN genómico. Debido a que hay menos tecnologías ecológicamente racionales disponibles para el mouse,rata y pez cebra, los grupos UniGene no son tan representativos de los genes únicos en el genoma. UniGene de ratón contiene 895.000 secuencias en 88.000 grupos, y UniGene de rata contiene 170.000 secuencias en 37.000 grupos.

Un nuevo recurso de UniGene, HomoloGene, incluye ortólogos y homólogos seleccionados y calculados para genes de humanos, ratones, ratas y peces cebra. Los ortólogos y homólogos calculados son el resultado de comparaciones de secuencias de nucleótidos entre todos los grupos UniGene para cada par de organismos. Los homólogos se identifican como la mejor coincidencia entre un grupo UniGene en un organismo y un grupo en un segundo organismo. Cuando dos secuencias en diferentes organismos coinciden mejor entre sí (una mejor coincidencia recíproca), los grupos UniGene correspondientes al par de secuencias se consideran ortólogos putativos. Un símbolo especial indica que los grupos de UniGene en tres o más organismos comparten una relación ortólogo mutuamente consistente. Los ortólogos y homólogos calculados se consideran putativos,ya que se basan únicamente en comparaciones de secuencias. Los ortólogos seleccionados son proporcionados por Mouse Genome Database (MGD) en el Laboratorio Jackson y Zebrafish Information Database (ZFIN) en la Universidad de Oregon y también pueden obtenerse de la literatura científica. Las consultas a UniGene se ingresan en un cuadro de texto en cualquiera de las páginas de UniGene. Los términos de consulta pueden ser, por ejemplo, el identificador de UniGene, un nombre de gen, un término de texto que se encuentra en algún lugar del registro de UniGene o el número de acceso de una EST o secuencia de genes en el grupo. Por ejemplo, el grupo titulado "Un dominio 10 de desintegrina y metaloproteasa" que contiene la secuencia de ADAM10 humano se puede recuperar ingresando ADAM10, desintegrina, AF009615 (el número de acceso de GenBank de ADAM10),o H69859 (el número de acceso de GenBank de una EST en el grupo). Para consultar una parte específica del registro UniGene, use el símbolo @. Por ejemplo, @gene (símbolo) busca genes con el nombre del símbolo entre paréntesis, @chr (num) busca entradas que se asignan al número del cromosoma, @lib (id) devuelve entradas en una biblioteca de ADNc identificadas por id , y @pid (id) selecciona entradas asociadas con un identificador de proteína de GenBank.y @pid (id) selecciona entradas asociadas con un identificador de proteína de GenBank.y @pid (id) selecciona entradas asociadas con un identificador de proteína de GenBank.

La página de resultados de la consulta contiene una lista de todos los clústeres de UniGene que coinciden con la consulta. Cada grupo se identifica mediante un identificador, una descripción y un símbolo genético, si está disponible. Los identificadores de grupo tienen el prefijo Hs para Homo sapiens, Rn para Rattus norvegicus, Mm para Mus musculus o Dn para Danio rerio. Las descripciones de los grupos UniGene se toman de LocusLink, si está disponible, o del título de una secuencia en el grupo. La página del informe UniGene para cada grupo se vincula a datos de otros recursos del NCBI (Fig. 12.5). En la parte superior de la página hay enlaces a LocusLink, que proporciona información descriptiva sobre loci genéticos (Pruitt et al., 2000), OMIM, un catálogo de genes humanos y trastornos genéticos, y HomoloGene.A continuación, se enumeran las similitudes entre las traducciones de las secuencias de ADN en el grupo y las secuencias de proteínas de organismos modelo, incluidos humanos, ratones, ratas, moscas de la fruta y gusanos. La siguiente sección describe información cartográfica relevante. Le sigue "información de expresión", que enumera los tejidos a partir de los cuales se han creado las tecnologías ecológicamente racionales en el grupo, junto con enlaces a la base de datos SAGE. Las secuencias que componen el clúster se enumeran a continuación, junto con un enlace para descargar estas secuencias.junto con enlaces a la base de datos SAGE. Las secuencias que componen el clúster se enumeran a continuación, junto con un enlace para descargar estas secuencias.junto con enlaces a la base de datos SAGE. Las secuencias que componen el clúster se enumeran a continuación, junto con un enlace para descargar estas secuencias.

Es importante señalar que los grupos que contienen tecnologías ecológicamente racionales solamente (es decir, sin ARNm o CDS anotados) perderán algunos de estos campos, como LocusLink, OMIM y enlaces ARNm / Gene. Los títulos UniGene para dichos grupos, como "EST, débilmente similar a ORF2, contienen un dominio de transcriptasa inversa [H. sapiens] ”, se derivan del título de una proteína caracterizada con la que se alinea la secuencia EST traducida. El título del grupo podría ser tan simple como "EST" si las tecnologías ecológicamente racionales no comparten ninguna similitud significativa con las proteínas caracterizadas. [1]

Retiro de UniGene

El 1 de febrero de 2019, el NCBI anunció que retiraba la base de datos de UniGene porque "los genomas de referencia están disponibles para la mayoría de los organismos con una comunidad de investigación considerable. En consecuencia, el uso y la necesidad de UniGene se ha reducido significativamente". [2] El acceso a las compilaciones de UniGene seguirá estando disponible a través de FTP.

Bases de datos relacionadas

  • Base de datos de genes NCBI Base de datos NCBI que cataloga genes individuales
  • Base de datos HomoloGene NCBI que almacena grupos de genes homólogos de diferentes organismos

Ver también

  • Entrez , esp. Entrez # Bases de datos
  • PubMed
  • Centro Nacional de Información Biotecnológica

Referencias

  1. ^ Andreas D. Baxevanis y BF Francis Ouellette | BIOINFORMÁTICA Una guía práctica para el análisis de genes y proteínas (2ª edición de 2001) || JOHN WILEY & SONS, INC. | ISBN  0-471-38391-0 | ISBN 978-0-471-38391-8 | 
  2. ^ "NCBI para retirar el UniGene" . Consultado el 12 de febrero de 2019 .

enlaces externos

  • Página de inicio de UniGene en NCBI
  • Preguntas frecuentes sobre UniGene
Obtenido de " https://en.wikipedia.org/w/index.php?title=UniGene&oldid=1000495973 "