BED (formato de archivo)


El formato BED ( Browser Extensible Data ) es un formato de archivo de texto que se utiliza para almacenar regiones genómicas como coordenadas y anotaciones asociadas . Los datos se presentan en forma de columnas separadas por espacios o tabulaciones. Este formato fue desarrollado durante el Proyecto Genoma Humano [1] y luego adoptado por otros proyectos de secuenciación. Como resultado de este uso cada vez más amplio, este formato se ha convertido en un estándar de facto en bioinformática sin recibir ninguna especificación oficial.

Una de las ventajas de este formato es la manipulación de coordenadas en lugar de secuencias de nucleótidos , lo que optimiza la potencia y el tiempo de cálculo al comparar todos o parte de los genomas. Además, su simplicidad hace que sea fácil de manipular y leer (o analizar ) coordenadas o anotaciones utilizando procesadores de texto y lenguajes de scripting como Python , Ruby o Perl o herramientas más especializadas como BEDTools .

El final del siglo XX vio el surgimiento de los primeros proyectos para secuenciar genomas completos . Entre estos proyectos, el Proyecto Genoma Humano fue el más ambicioso en ese momento, con el objetivo de secuenciar por primera vez un genoma de varias gigabases . Esto requirió que los centros de secuenciación llevaran a cabo un importante desarrollo metodológico para automatizar el procesamiento de secuencias y sus análisis. Así, se crearon muchos formatos, como FASTQ , [2] GFF o BED. [1] Sin embargo, no se publicaron especificaciones oficiales, lo que afectó a algunos formatos como FASTQ al secuenciar proyectos. multiplicado a principios del siglo XXI.

Su amplio uso dentro de los navegadores del genoma ha hecho posible definir este formato de una manera relativamente estable ya que esta descripción es utilizada por muchas herramientas.

El formato BED no tiene especificaciones oficiales. Sin embargo, la descripción proporcionada por UCSC Genome Browser [3] es ampliamente utilizada.

Un archivo BED consta de un mínimo de tres columnas a las que se pueden agregar nueve columnas opcionales para un total de doce columnas. Las primeras tres columnas contienen los nombres de los cromosomas o andamios , las coordenadas de inicio y final de las secuencias consideradas. Las siguientes nueve columnas contienen anotaciones relacionadas con estas secuencias. Estas columnas deben estar separadas por espacios o tabulaciones , siendo esta última recomendada por razones de compatibilidad entre programas. [4] Cada fila de un archivo debe tener el mismo número de columnas. Se debe respetar el orden de las columnas: si se utilizan columnas de números altos, se deben completar las columnas de números intermedios.