Un archivo de valores separados por tabulaciones ( TSV ) es un formato de texto simple para almacenar datos en una estructura tabular , por ejemplo, una tabla de base de datos o datos de hoja de cálculo , [1] y una forma de intercambiar información entre bases de datos . [2] Cada registro de la tabla es una línea del archivo de texto . Cada valor de campo de un registro está separado del siguiente por un carácter de tabulación . El formato TSV es, por tanto, un tipo del formato de valores separados por delimitadores más general .
Extensión de nombre de archivo | .tsv , .tab |
---|---|
Tipo de medio de Internet | texto / valores-separados por tabuladores |
Tipo de formato | multiplataforma, flujos de datos en serie |
Contenedor para | información de la base de datos organizada como listas separadas por campos |
Estándar | Tipo IANA MIME |
TSV es un formato de archivo simple que es ampliamente compatible, por lo que a menudo se usa en el intercambio de datos para mover datos tabulares entre diferentes programas de computadora que admiten el formato. Por ejemplo, un archivo TSV podría usarse para transferir información desde un programa de base de datos a una hoja de cálculo.
TSV es una alternativa al formato común de valores separados por comas (CSV), que a menudo causa dificultades debido a la necesidad de escapar de las comas; las comas literales son muy comunes en los datos de texto, pero las tabulaciones literales son poco frecuentes en el texto en ejecución. El estándar de IANA para TSV [2] logra la simplicidad simplemente rechazando las pestañas dentro de los campos.
Ejemplo
Por ejemplo, el encabezado del conjunto de datos de flores de Iris se puede almacenar como un TSV utilizando el siguiente texto sin formato (tenga en cuenta que la representación HTML puede convertir pestañas en espacios):
Longitud del sépalo Ancho del sépalo Longitud del pétalo Ancho del pétalo Especie5,1 3,5 1,4 0,2 I. setosa4,9 3,0 1,4 0,2 I. setosa4,7 3,2 1,3 0,2 I. setosa4,6 3,1 1,5 0,2 I. setosa5,0 3,6 1,4 0,2 I. setosa
El texto sin formato de TSV anterior corresponde a los siguientes datos tabulares:
Longitud del sépalo | Ancho del sépalo | Longitud del pétalo | Ancho del pétalo | Especies |
---|---|---|---|---|
5.1 | 3,5 | 1.4 | 0,2 | I. setosa |
4.9 | 3,0 | 1.4 | 0,2 | I. setosa |
4,7 | 3.2 | 1.3 | 0,2 | I. setosa |
4.6 | 3.1 | 1,5 | 0,2 | I. setosa |
5,0 | 3.6 | 1.4 | 0,2 | I. setosa |
Convenciones para la conversión sin pérdidas a TSV
Dado que los valores en el formato TSV no pueden contener tabulaciones literales o caracteres de nueva línea, es necesaria una convención para la conversión sin pérdidas de valores de texto con estos caracteres. Una convención común es realizar los siguientes escapes: [3] [4]
\ n para nueva línea, \ t para pestaña, \ r para retorno de carro, \\ para barra invertida.
Otra convención común es utilizar la convención CSV de RFC 4180 y encerrar estos caracteres especiales entre comillas dobles. Esto puede generar ambigüedades.
Otra ambigüedad es si los registros están separados por una nueva línea como sería típico para las líneas en UNIX, o un retorno de carro, una nueva línea como sería típico para las plataformas de Microsoft. Muchos programas como LibreOffice esperan retorno de carro, nueva línea.
Ver también
Referencias
- ^ Cómo utilizar archivos de valores separados por tabulaciones (TSV) publicados por el Fondo Monetario Internacional
- ^ a b "Definición de valores separados por tabulaciones (tsv)" . Autoridad de Números Asignados de Internet (IANA) .
- ^ "TSV lineal" . Protocolos de datos - Open Knowledge Foundation .
- ^ "Manual jq" . stedolan.github.io .
Bibliografía
- IANA , Tipos de medios de texto, Definición de valores separados por tabulaciones (tsv) , Paul Lindner, U of MN Internet Gopher Team, junio de 1993
- Valores separados por tabulaciones (TSV): un formato para el intercambio de datos tabulares , Jukka Korpela, creado 2000-09-01, última actualización 2005-02-12.