Archivo de texto


Un archivo de texto (a veces escrito como archivo de texto ; un antiguo nombre alternativo es archivo plano ) es un tipo de archivo de computadora que está estructurado como una secuencia de líneas de texto electrónico . Un archivo de texto existe almacenado como datos dentro de un sistema de archivos de computadora . En sistemas operativos como CP/M y MS-DOS , donde el sistema operativo no realiza un seguimiento del tamaño del archivo en bytes, el final de un archivo de texto se indica colocando uno o más caracteres especiales, conocidos como fin de -marcador de archivo , como relleno después de la última línea en un archivo de texto. En los sistemas operativos modernos comoMicrosoft Windows y sistemas similares a Unix, los archivos de texto no contienen ningún carácter EOF especial, porque los sistemas de archivos en esos sistemas operativos realizan un seguimiento del tamaño del archivo en bytes. La mayoría de los archivos de texto deben tener delimitadores de fin de línea , que se realizan de diferentes maneras según el sistema operativo. Es posible que algunos sistemas operativos con sistemas de archivos orientados a registros no usen nuevos delimitadores de línea y almacenarán principalmente archivos de texto con líneas separadas como registros de longitud fija o variable.

A un nivel genérico de descripción, existen dos tipos de archivos informáticos: archivos de texto y archivos binarios . [1]

Debido a su simplicidad, los archivos de texto se usan comúnmente para el almacenamiento de información. Evitan algunos de los problemas que se encuentran con otros formatos de archivo, como endianness , bytes de relleno o diferencias en la cantidad de bytes en una palabra de máquina . Además, cuando se dañan los datos en un archivo de texto, a menudo es más fácil recuperar y continuar procesando el contenido restante. Una desventaja de los archivos de texto es que suelen tener una entropía baja , lo que significa que la información ocupa más espacio de almacenamiento del estrictamente necesario.

Es posible que un archivo de texto simple no necesite metadatos adicionales (aparte del conocimiento de su conjunto de caracteres ) para ayudar al lector en la interpretación. Un archivo de texto puede no contener ningún dato, que es un caso de archivo de cero bytes .

El conjunto de caracteres ASCII es el subconjunto compatible más común de conjuntos de caracteres para archivos de texto en inglés y, en general, se supone que es el formato de archivo predeterminado en muchas situaciones. Cubre el inglés americano, pero para el signo de la libra esterlina , el signo del euro o los caracteres usados ​​fuera del inglés, se debe usar un juego de caracteres más completo. En muchos sistemas, esto se elige en función de la configuración regional predeterminada en la computadora en la que se lee. Antes de UTF-8, esto era tradicionalmente codificaciones de un solo byte (como ISO-8859-1 a ISO-8859-16 ) para idiomas europeos y codificaciones de caracteres amplios para idiomas asiáticos.

Debido a que las codificaciones necesariamente tienen solo un repertorio limitado de caracteres, a menudo muy pequeños, muchos solo se pueden usar para representar texto en un subconjunto limitado de idiomas humanos. Unicode es un intento de crear un estándar común para representar todos los idiomas conocidos, y la mayoría de los conjuntos de caracteres conocidos son subconjuntos del gran conjunto de caracteres Unicode. Aunque hay varias codificaciones de caracteres disponibles para Unicode, la más común es UTF-8 , que tiene la ventaja de ser compatible con ASCII; es decir, cada archivo de texto ASCII también es un archivo de texto UTF-8 con un significado idéntico. UTF-8 también tiene la ventaja de que es fácilmente autodetectable. Por lo tanto, un modo operativo común del software compatible con UTF-8, al abrir archivos de codificación desconocida, es probar UTF-8 primero y recurrir a una codificación heredada dependiente de la configuración regional cuando definitivamente no es UTF-8.


Una representación icónica estilizada de un archivo de texto con formato CSV .