Codificación de caracteres


La codificación de caracteres es el proceso de asignación de números a caracteres gráficos , especialmente a los caracteres escritos del lenguaje humano , lo que permite almacenarlos , transmitirlos y transformarlos mediante computadoras digitales . [1] Los valores numéricos que componen una codificación de caracteres se conocen como " puntos de código " y colectivamente comprenden un "espacio de código", una " página de códigos " o un " mapa de caracteres ".

Los primeros códigos de caracteres asociados con el telégrafo óptico o eléctrico solo podían representar un subconjunto de los caracteres utilizados en los lenguajes escritos , a veces restringidos a letras mayúsculas , números y algunos signos de puntuación únicamente. El bajo costo de la representación digital de datos en los sistemas informáticos modernos permite códigos de caracteres más elaborados (como Unicode ) que representan la mayoría de los caracteres utilizados en muchos idiomas escritos. La codificación de caracteres utilizando estándares internacionalmente aceptados permite el intercambio mundial de texto en formato electrónico.

La historia de los códigos de caracteres ilustra la creciente necesidad de información simbólica basada en caracteres mediada por máquinas a distancia, utilizando medios eléctricos que alguna vez fueron novedosos. Los primeros códigos se basaban en sistemas de cifrado y codificación manuales y escritos a mano, como el cifrado de Bacon , Braille , banderas de señales marítimas internacionales y la codificación de 4 dígitos de caracteres chinos para un código de telégrafo chino ( Hans Schjellerup , 1869). Con la adopción de técnicas eléctricas y electromecánicas, estos primeros códigos se adaptaron a las nuevas capacidades y limitaciones de las primeras máquinas. El primer código de caracteres transmitido eléctricamente conocido, el código Morse, introducido en la década de 1840, utilizó un sistema de cuatro "símbolos" (señal corta, señal larga, espacio corto, espacio largo) para generar códigos de longitud variable. Aunque parte del uso comercial del código Morse fue a través de maquinaria, a menudo se usaba como un código manual, generado a mano en una tecla de telégrafo y descifrable de oído, y persiste en el uso aeronáutico y de radioaficionados . La mayoría de los códigos tienen una longitud fija por carácter o secuencias de longitud variable de códigos de longitud fija (por ejemplo, Unicode ). [2]

Ejemplos comunes de sistemas de codificación de caracteres incluyen el código Morse , el código Baudot , el Código Estándar Estadounidense para el Intercambio de Información ( ASCII ) y Unicode . Unicode , un sistema de codificación bien definido y extensible, ha suplantado a la mayoría de las codificaciones de caracteres anteriores, pero el camino del desarrollo del código hasta el presente es bastante conocido.

El código Baudot , una codificación de cinco bits, fue creado por Émile Baudot en 1870, patentado en 1874, modificado por Donald Murray en 1901 y estandarizado por CCITT como International Telegraph Alphabet No. 2 (ITA2) en 1930. El nombre "baudot " se ha aplicado erróneamente a ITA2 y sus muchas variantes. ITA2 sufría muchas deficiencias y, a menudo, muchos fabricantes de equipos lo "mejoraban", lo que a veces creaba problemas de compatibilidad. En 1959, el ejército estadounidense definió su Fieldatacódigo, un código de seis o siete bits, introducido por el Cuerpo de Señales del Ejército de EE. UU. Si bien Fieldata abordó muchos de los problemas modernos en ese momento (por ejemplo, códigos de letras y dígitos organizados para la intercalación de máquinas), Fieldata no alcanzó sus objetivos y duró poco. En 1963, el primer código ASCII (American Standard Code for Information Interchange) fue publicado (X3.4-1963) por el comité ASCII (que contenía al menos un miembro del comité Fieldata, WF Leubbert) que abordó la mayoría de las deficiencias de Fieldata. , usando un código más simple. Muchos de los cambios fueron sutiles, como conjuntos de caracteres intercalables dentro de ciertos rangos numéricos. ASCII63 fue un éxito, ampliamente adoptado por la industria, y con la edición de seguimiento del código ASCII de 1967 (que agregó letras minúsculas y solucionó algunos problemas de "código de control") ASCII67 fue adoptado bastante ampliamente. ASCII67'estándar ECMA-6 . [3]


Cinta perforada con la palabra "Wikipedia" codificada en ASCII . La presencia y ausencia de un agujero representa 1 y 0, respectivamente; por ejemplo, "W" se codifica como "1010111".
Tarjeta perforada Hollerith de 80 columnas con juego de caracteres EBCDIC