En informática, la codificación JIS se refiere a varios estándares industriales japoneses para codificar el idioma japonés . [1] Estrictamente hablando, el término significa:
- Un conjunto de juegos de caracteres codificados estándar para japonés, en particular:
- JIS X 0201 , la versión japonesa de ISO 646 ( ASCII ) que contiene los caracteres ASCII base de 7 bits (con algunas modificaciones) y 64 caracteres katakana de ancho medio.
- JIS X 0208 , el conjunto de caracteres kanji más común que contiene 6879 caracteres, incluidos 6355 kanji y 524 caracteres más (un plano de 94 por 94)
- JIS X 0212 , un suplemento para JIS X 0208 que agrega 5801 kanji, totalizando 12156 kanji (un segundo plano de 94 por 94)
- JIS X 0213 , que amplía JIS X 0208 (dos planos)
- JIS X 0202 (también conocido como ISO-2022-JP), un conjunto de mecanismos de codificación para enviar datos de caracteres JIS a través de medios de transmisión que solo admiten datos de 7 bits.
En la práctica, "codificación JIS" generalmente se refiere a datos de caracteres JIS X 0208 codificados con JIS X 0202. Por ejemplo, IANA usa la JIS_Encoding
etiqueta para referirse a JIS X 0202, y la ISO-2022-JP
etiqueta para referirse al perfil del mismo definido por RFC 1468 . [2]
Otros mecanismos de codificación para caracteres JIS incluyen la codificación Shift JIS y EUC-JP . Shift JIS agrega kanji, hiragana de ancho completo y katakana de ancho completo de JIS X 0208 a JIS X 0201 de una manera compatible con versiones anteriores. [3] Shift JIS es quizás la codificación más utilizada en Japón, ya que la compatibilidad con el conjunto de caracteres JIS X 0201 de un solo byte hizo posible que los fabricantes de equipos electrónicos (como los fabricantes de cajas registradoras) ofrecieran una actualización de equipos más antiguos y más baratos. que no era capaz de mostrar kanji a equipos más nuevos mientras conservaba la compatibilidad del juego de caracteres.
EUC-JP se utiliza en sistemas UNIX , donde las codificaciones JIS son incompatibles con los estándares POSIX .
Una alternativa más reciente a los caracteres codificados JIS es Unicode ( caracteres codificados UCS ), particularmente en el mecanismo de codificación UTF-8 .
Comparación de codificación
La siguiente tabla compara las características de los tres esquemas de codificación principales para JIS X 0208.
Codificación | Nombre alternativo | 7 bits? [a] | ISO 2022 ? | ¿Apátrida? [B] | Acepta ASCII ? | 0x00–7F ¿siempre ASCII? | Superconjunto de JIS X 0201 de 8 bits ? | ¿Soporta JIS X 0212 ? | ¿Auto sincronización? | |
---|---|---|---|---|---|---|---|---|---|---|
ISO-2022-JP | " JIS " (JIS X 0202) | sí | sí | No [c] | sí | Las secuencias pueden ser no ASCII [c] | No (codificación posible) [d] | Posible [e] | No | |
Shift_JIS | "SJIS" | No | No | sí | Casi [f] | Los bytes aislados pueden ser no ASCII [g] | sí | No | No | |
EUC-JP | "UJIS" (JIS Unixized) | No | Sí [h] | Sí [h] | Sí [i] | Siempre ASCII | No (codificado) [j] | Disponible [k] | No | |
Formatos Unicode para comparar [l] | ||||||||||
UTF-8 | No | No | sí | sí | sí | No (codificado) | Disponible | sí | ||
UTF-16 | No | No | sí | No | No | No (codificado) | Disponible | Solo más de palabras de 16 bits. | ||
GB 18030 | No | No [m] | sí | sí | Los bytes aislados pueden ser no ASCII | No (codificado) | Disponible | No |
- ^ es decir, no requiere una transmisión limpia de 8 bits .
- ^ es decir, la secuencia utilizada para codificar un carácter dado es siempre la misma, sin importar cuáles fueron los caracteres anteriores. Ver estado (informática) .
- ^ a b ISO-2022-JP es una codificación con estado : todos los conjuntos de caracteres se codifican en 0x21–7E y se cambian entre el uso de escapes ANSI. Por lo tanto, si bien es ASCII en su estado inicial, las secuencias completas de caracteres que no son ASCII se pueden codificar con bytes ASCII.
- ^ JIS X 0201 katakana están disponibles en JIS X 0202 e ISO 2022, pero no se incluyen en el perfil básico ISO-2022-JP, aunque son una extensión común.
- ^ JIS X 0212 está disponible en JIS X 0202 e ISO 2022, y se incluye en los perfiles ISO-2022-JP-1 e ISO-2022-JP-2, pero no en el perfil básico ISO-2022-JP.
- ^ Los caracteres de un solo byte 0x21–7E en Shift_JIS son correctamente ISO-646-JP , para ser un superconjunto de JIS X 0201 de 8 bits, pero a menudo se decodifican (no necesariamente se muestran) como ASCII, que difiere solo en dos lugares.
- ^ Algunos (no todos) bytes ASCII pueden aparecer como segundos bytes, pero no como primeros bytes, de caracteres de doble byte en Shift_JIS. Por lo tanto, en una secuencia de dos o más bytes ASCII, el segundo byte en adelante son necesariamente caracteres ASCII (o ISO-646-JP).
- ^ a b EUC de formato empaquetado se basa en los mecanismos ISO 2022, con designaciones de juegos de caracteres preestablecidas. La designación de juego de caracteres se escapa y se evitan los cambios de bloqueo, mientras que el uso de turnos únicos se puede implementar de una manera sin estado. No obstante, se siguen las restricciones de ISO 2022.
- ^ Los caracteres de un solo byte 0x21–7E en EUC-JP generalmente se consideran ASCII, pero a veces se tratan como ISO-646-JP .
- ^ A diferencia de Shift_JIS, EUC-JP no manejará una entrada JIS X 0201 simple de 8 bits sin una conversión previa, debido a la diferente representación del katakana JIS X 0201 (con turnos únicos).
- ^ JIS X 0212 en EUC-JP no siempre se implementa.
- ^ Además de las propiedades de las codificaciones en sí, los formatos Unicode tienen más ventajas derivadas del conjunto de caracteres subyacente: no se limitan a los caracteres codificados JIS, sino que pueden representar la totalidad de UCS (incluido el repertorio completo de caracteres codificados JIS) y, por lo tanto, son adecuado para uso internacional. También se ven menos afectados por la colisión de extensiones patentadas, debido a su mayor repertorio básico y áreas designadas de uso privado.
- ^ Si bien GB 18030 y GBK son extensiones de la forma EUC-CN de GB / T 2312, no siguen las restricciones de EUC o ISO 2022, a diferencia de EUC-JP (o el EUC-CN original).
Ver también
- Idioma japonés y computadoras
Referencias
- ^ Haralambous, Yannis (2007). Fuentes y codificaciones . O'Reilly Media . págs. 42–44. ISBN 9780596102425.
- ^ "Juegos de caracteres" . IANA.
- ^ Lunde, Ken (2009). Procesamiento de información CJKV . O'Reilly Media . págs. 262–268. ISBN 9780596514471.