ISO/CEI 2022


ISO/IEC 2022 Tecnología de la información: estructura del código de caracteres y técnicas de extensión , es un estándar ISO (equivalente al estándar ECMA ECMA-35 , [1] [2] el estándar ANSI ANSI X3.41 [3] y el estándar industrial japonés JIS X 0202 ) especificando:

Muchos de los juegos de caracteres incluidos como codificaciones ISO/IEC 2022 son codificaciones de 'doble byte' donde dos bytes corresponden a un solo carácter. Esto hace que ISO-2022 sea una codificación de ancho variable. Pero una implementación específica no tiene que implementar todo el estándar; el nivel de conformidad y los juegos de caracteres admitidos están definidos por la implementación.

Aunque muchos de los mecanismos definidos por el estándar ISO/IEC 2022 se usan con poca frecuencia, varias codificaciones establecidas se basan en un subconjunto del sistema ISO/IEC 2022. [11] En particular, los sistemas de codificación de 7 bits que utilizan mecanismos ISO/IEC 2022 incluyen ISO-2022-JP (o codificación JIS ), que se ha utilizado principalmente en el correo electrónico en japonés . Los sistemas de codificación de 8 bits que cumplen con ISO/IEC 2022 incluyen ISO/IEC 4873 (ECMA-43), que a su vez cumple con ISO/IEC 8859 , [12] [13] y Extended Unix Code , que se utiliza para East Idiomas asiáticos . [14]Las aplicaciones más especializadas de ISO 2022 incluyen el sistema de codificación MARC-8 utilizado en los registros de biblioteca MARC 21 . [3]

Muchos idiomas o familias de idiomas que no se basan en el alfabeto latino , como el griego , el cirílico , el árabe o el hebreo , se han representado históricamente en computadoras con diferentes codificaciones ASCII extendidas de 8 bits . Los idiomas escritos de Asia oriental, específicamente el chino , el japonés y el coreano , usan muchos más caracteres de los que se pueden representar en un byte de computadora de 8 bits y se representaron por primera vez en computadoras con codificaciones de doble byte específicas del idioma .

ISO/IEC 2022 se desarrolló como una técnica para atacar estos dos problemas: representar caracteres en varios conjuntos de caracteres dentro de una codificación de un solo carácter y representar grandes conjuntos de caracteres.

Un segundo requisito de ISO-2022 era que debería ser compatible con los canales de comunicación de 7 bits. Por lo tanto, aunque ISO-2022 es un conjunto de caracteres de 8 bits, cualquier secuencia de 8 bits se puede volver a codificar para usar solo 7 bits sin pérdida y normalmente solo un pequeño aumento de tamaño.


(Una captura de pantalla de una versión anterior de Firefox que muestra Big5, GB2312, GBK, GB18030, HZ, ISO-2022-CN, Big5-HKSCS, EUC-TW, EUC-JP, ISO-2022-JP, Shift_JIS, EUC-KR, UHC, Johab e ISO-2022-KR como codificaciones disponibles en el submenú CJK).
Varias codificaciones ISO 2022 y otras codificaciones CJK admitidas por Mozilla Firefox a partir de 2004. (Esta compatibilidad se ha reducido en versiones posteriores para evitar ciertos ataques de secuencias de comandos entre sitios ).
Relación entre las ediciones y niveles de ECMA-43 (ISO/IEC 4873) y EUC .