El juego de caracteres CNS 11643 (Estándar Nacional Chino 11643), también conocido oficialmente como Código de Intercambio Estándar Chino o CSIC [1] ( Chino :中文 標準 交換 碼), es oficialmente el juego de caracteres estándar de la República de China . En la práctica, las variantes del conjunto de caracteres Big5 relacionado son estándar de facto .
Alias | CSIC (código de intercambio estándar chino) |
---|---|
Idioma (s) | Chino tradicional |
Estándar | CNS 11643 |
Clasificación | Codificación ISO 2022 , DBCS , CJK |
Formatos de codificación |
|
Otras codificaciones relacionadas | Big5 , CCCII |
CNS 11643 está diseñado para cumplir con ISO 2022 . Contiene 16 planos, por lo que el número máximo posible de caracteres codificables es 16 × 94 × 94 = 141376. Los planos 1 a 7 están definidos por el estándar; desde 2007, los planos 10 a 15 también han sido definidos por la norma. [2] : 115–122 Antes de esto, los planos 12 a 15 (35344 puntos de código) se designaron específicamente para caracteres definidos por el usuario. [ cita requerida ] A diferencia de CCCII , la codificación de caracteres variantes en CNS 11643 no está relacionada.
EUC-TW es una representación codificada de CNS 11643 y ASCII en formato de código Unix extendido (EUC). Otras codificaciones capaces de representar ciertos planos CSIC incluyen ISO-2022-CN (planos 1 y 2) e ISO-2022-CN-EXT (planos 1 a 7).
Historia
La primera edición de la norma se publicó en 1986 e incluía los planos 1 y 2, derivados de los niveles 1 y 2 de Big5 , con algunos reordenamientos debido a la corrección de los recuentos de trazos, la omisión de dos caracteres duplicados y la adición de 213 caracteres clásicos. radicales . Las extensiones del estándar se publicaron posteriormente en 1988 (6319 caracteres, ocupando el plano 14) y 1990 (7169 caracteres, ocupando el plano 15). [2] : 115-122
Unicode 1.0.0, aunque todavía no incluía hanzi , incluía caracteres para compatibilidad con CNS 11643: el bloque de formularios de compatibilidad CJK se tituló "Compatibilidad CNS 11643" en Unicode 1.0.0. [3] Cuando se estaba compilando el conjunto de ideogramas unificados Unicode CJK para Unicode 1.0.1, los organismos nacionales enviaron conjuntos de caracteres al Grupo de investigación conjunta CJK para su inclusión. La versión de CNS 11643 presentada incluía la extensión del plano 14, además de otros caracteres deseados adjuntos al plano 14 (después de 68-21, el último punto de código utilizado en la versión estándar de la extensión). [2] : 179–180
En la segunda edición de la norma, publicada en 1992, se definió una colección mucho mayor de hanzi en siete planos. Un subconjunto de la extensión del plano 14 de 1988, incluidos los 6148 puntos de código 01-01 a 66-38, se convirtió en el plano 3 (con los 171 caracteres restantes, los puntos de código 66-39 a 68-21, distribuidos en su lugar entre el plano 4). La extensión del plano 15 no se incluyó, aunque 338 de sus caracteres se incluyeron entre los planos 4 a 7. [2] : 115-122
La tercera edición de la norma, publicada en 2007, agregó el signo del euro , el cero ideográfico, el kana y las extensiones al bopomofo existente y el soporte del alfabeto romano al plano 1. Introdujo los planos 10 al 14, que contienen hanzi adicionales, e incorporó el plano existente. 15 extensión en el estándar mismo (dejando espacios donde los caracteres ya existían en los planos 4 a 7). También agregó 128 hanzi más al plano 3, comenzando en el punto de código 68-40. [2] : 115-122
A partir de 2017[actualizar], hay varios miles de caracteres CNS 11643 sin carácter Unicode correspondiente, principalmente en los planos 10 a 14; estos se asignan al área de uso privado complementario de Unicode . [4]
Relación con Big5
Los niveles 1 y 2 de la codificación Big5 corresponden principalmente a los planos 1 y 2 del SNC 11643, respectivamente, con diferencias ocasionales en el orden y con la eliminación de dos hanzi duplicados. Se pueden mapear usando una lista de rangos. [5] [6] Dentro del repertorio hanzi de Big5, solo un carácter se asigna a Unicode de manera diferente al carácter correspondiente de los dos primeros planos CNS 11643: a U + 5F5D (彝), mientras que su contraparte del plano 1 del CNS se asigna a un variante relacionada en U + 5F5E (彞). [7]
La variante Big5-2003 de Big5 se define como una codificación parcial de CNS 11643.
Referencias
- Esta página se basa en la información del sitio web oficial del CNS .
- ↑ ECMA (21 de enero de 1993). Código de intercambio estándar chino (CSIC) - Conjunto 1 (PDF) . ITSCJ / IPSJ . ISO-IR -171.
- ^ a b c d e Lunde, Ken (2008). "3. Estándares del juego de caracteres". Procesamiento de información CJKV (2ª ed.). O'Reilly Media . ISBN 9780596514471.
- ^ "3.8: Gráficos bloque por bloque" (PDF) . El estándar Unicode . versión 1.0. Consorcio Unicode .
- ^ "CNS 11643 en el área de uso privado complementario de Unicode" . [mac chino] . Consejo de Estudios de Asia Oriental de la Universidad de Yale.
- ^ Lunde, Ken (18 de diciembre de 1995). "4.3: Problemas de compatibilidad del juego de caracteres CJK - Chino (Taiwán)". CJK.INF Versión 1.9 .
- ^ Zhu, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Chang, WCH .; Crispin, M. (1996). "RFC 1922: codificación de caracteres chinos para mensajes de Internet" . Solicitudes de comentarios . IETF .
- ^ Lunde, Ken (15 de febrero de 2018). "Explorando IICore - Parte 4" . Blog de tipo CJK . Adobe Inc .
enlaces externos
- Sitio web oficial del CNS 11643
- Datos abiertos actuales del CNS 11643 , incluidos los datos de mapeo
- Asignaciones Unicode para otras versiones / ediciones / extensiones de CNS 11643:
- Asignaciones de consorcio Unicode para CNS 11643-1986 : planos 1 y 2, más el plano 14 de 1988 con extensiones. Utiliza un solo dígito hexadecimal con prefijo para indicar el plano.
- CNS-11643-1992 en Componentes internacionales para Unicode (ICU); utiliza el prefijo 0x81 a 0x8F para indicar el plano:
- Versión anterior : planos 1 a 7, más la extensión del plano 15 como plano 9.
- Versión intermedia : planos 1 a 7, para uso interno por el códec ISO-2022-CN-EXT.
- Versión actual : incluye solo los planos 1 y 2, para uso interno por el códec ISO-2022-CN.
- EUC-TW-2014 en UCI : asignaciones estándar para los planos 1 a 7 y 15, y asignaciones corporativas de IBM en los planos 12 y 13
- Tablas de códigos CNS-11643 con registro ISO-IR:
- ISO-IR-171 (plano 1)
- ISO-IR-172 (plano 2)
- ISO-IR-183 (plano 3)
- ISO-IR-184 (plano 4)
- ISO-IR-185 (plano 5)
- ISO-IR-186 (plano 6)
- ISO-IR-187 (plano 7)