El conjunto primario chino del CCITT [2] es un conjunto de caracteres gráficos multibyte para comunicaciones chinas creado para el Comité Consultivo de Teléfonos y Telégrafos Internacionales (CCITT) en 1992. [3] Se define en la UIT T.101 , anexo C, que codifica la sintaxis de datos 2 videotex . [2] Está registrado en el registro ISO-IR para su uso con ISO / IEC 2022 como ISO-IR-165 , [4] y codificable en la versión del código ISO-2022-CN-EXT . [1]
MIME / IANA | iso-ir-165 |
---|---|
Alias | CN-GB-ISOIR165 ( Formulario EUC ) [1] |
Idioma (s) | Chino simplificado , inglés , ruso Soporte parcial: griego , japonés |
Estándar | UIT T.101 , anexo C |
Definiciones | ISO-IR 165 |
Se extiende | GB 2312 |
Formatos de codificación | ISO-2022-CN-EXT , sintaxis de datos videotex 2 |
Sucesor | GB 18030 |
Es una modificación extendida de GB 2312-80 , y corresponde a la unión de los estándares GB 6345.1 -86 y GB 8565.2 -88 de China continental , con algunas modificaciones y extensiones adicionales. Un subconjunto de las extensiones GB 6345.1 se incorporan en GB 18030 , mientras que GB 8565.2 sirve como referencia de fuente de China continental para ciertos ideogramas unificados de CJK .
GB 6345.1
GB 6345.1-86 ( 32 × 32 conjunto de ideogramas chinos para el intercambio de información con fuentes de matriz de puntos ) incluye tanto una corrección como una extensión para GB 2312. La corrección altera los dos caracteres siguientes: [3]
Celda de fila | EUC | Sin enmendar | GB 6341.1 | Notas |
---|---|---|---|---|
03-71 | 0xA3E7 | ɡ | [a] | |
79-81 | 0xEFF1 | 鍾 | 锺 | [B] |
- ^ Corresponde aU + FF47 g en Unicode; sin embargo, el glifo de referencia no modificado también puede corresponder aU + 0261 ɡ . Vea a continuación cómo U + 0261 se asigna a / desde GB 6341.1, en comparación con cómo se asigna a / desde ISO-IR-165.
- ^ El glifo de referencia no modificado es un carácter chino tradicional correspondiente a U + 937E . El carácter en cuestión generalmente se reemplaza con钟( U + 949F , también la simplificación de鐘) en chino simplificado excepto en nombres de personas; el glifo modificado es una forma simplificada alternativa correspondiente a U + 953A .
Las implementaciones implementadas que incorporan GB 2312, como la página de códigos 936 de Windows , generalmente siguen estas correcciones al seleccionar sus asignaciones Unicode. [5]
La extensión agrega caracteres ISO 646-CN de medio ancho en la fila 10 (además de los caracteres de ancho completo existentes en la fila 3), extiende el conjunto de 26 caracteres pinyin no ASCII en la fila 8 con seis caracteres adicionales, y agrega formas de ancho medio de estos 32 caracteres pinyin en la fila 11. [3] Estas extensiones GB 6345.1 también se incorporan en GB / T 12345 , la contraparte en chino tradicional de GB 2312, además de 29 formas de presentación vertical en la fila 6. [3 ] [6]
Los seis caracteres pinyin adicionales de GB 6345.1 y las formas de presentación vertical de GB 12345, pero no las formas de ancho medio, se incluyen en la codificación clásica de Mac OS para chino simplificado (una modificación de EUC-CN ), [7] y también como códigos de dos bytes en GB 18030 . [8] Los caracteres pinyin adicionales son los siguientes: [7]
Celda de fila | EUC | Personaje [7] [8] | Notas |
---|---|---|---|
08-27 | 0xA8BB | U + 0251 ɑ | |
08-28 | 0xA8BC | U + 1E3F ḿ | [a] |
08-29 | 0xA8BD | U + 0144 ń | |
30-08 | 0xA8BE | U + 0148 ň | |
08-31 | 0xA8BF | U + 01F9 ǹ | [B] |
08-32 | 0xA8C0 | U + 0261 ɡ | [C] |
- ^ Asignado al área de uso privadoU + E7C7 por la primera edición (2000) de GB 18030 ; esto fue enmendado por la edición de 2005. [8]
- ^ Este carácter compuesto se agregó en Unicode 3.0. Antes de esto, este personaje se asignó a su secuencia de composición (es decir, U + 006E + 0300 ) de Apple. [7] Este cambio es anterior a la estabilización de las formas de normalización Unicode , que se introdujo en Unicode 3.1. [9]
- ^ Coincide con el glifo de referencia no modificado para 03-71 (ver arriba). ISO-IR-165 difiere aquí (ver más abajo).
GB 8565.2
GB 8565.2-88 ( Procesamiento de información - Juegos de caracteres codificados para comunicación de texto - Parte 2: Caracteres gráficos ) define una extensión para GB 2312, agregando 705 caracteres entre las filas 13-15 y 90-94, de los cuales 69 (todos en la fila 15) no son hanzi. Incluye las correcciones GB 2312 de GB 6345.1, pero no sus extensiones. [3]
La base de datos de Unihan hace referencia a GB 8565.2 como la fuente de China continental de varios hanzi incluidos en Unicode . La abreviatura de la fuente Unihan es G8
. [2]
Cambios del CCITT
ISO-IR-165 incorpora las extensiones GB 2312 de GB 6345.1-86 y GB 8565.2-88. [3] Además, agrega 161 caracteres más (incluidos 139 hanzi, identificados como "caracteres chinos generales y variantes"). [3] [4] Estas extensiones hanzi del CCITT se han confundido en ocasiones con caracteres GB 8565.2 estándar, incluso en revisiones anteriores de la base de datos Unihan . [2] En total, el conjunto contiene 8446 caracteres.
En la fila 6 se incluyen varios caracteres semigráficos con patrones . [4] Esto choca con las formas de presentación vertical incluidas en otras extensiones como Mac OS Simplified Chinese [7] y GB 18030. [8]
Las correcciones de GB 6345.1 a GB 2312 solo se aplican parcialmente, lo que da como resultado que dos asignaciones Unicode se inviertan en comparación con otras codificaciones que incluyen GB 2312 con extensiones GB 6345.1:
Celda de fila | EUC | GB 2312 (sin modificaciones) | GB 6341.1 | Mapeo GB 6341.1 [7] [8] | ISO-IR-165 [4] | Mapeo ISO-IR-165 [10] |
---|---|---|---|---|---|---|
03-71 | 0xA3E7 | ɡ | U + FF47 | ɡ | U + 0261 | |
08-32 | 0xA8C0 | (ausente) | ɡ | U + 0261 | U + FF47 | |
79-81 | 0xEFF1 | 鍾 | 锺 | U + 953A | 锺 | U + 953A |
Referencias
- ^ a b Zhu, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Chang, WCH .; Crispin, M. (1996). "Codificación de caracteres chinos para mensajes de Internet" . Solicitudes de comentarios . IETF . doi : 10.17487 / rfc1922 . RFC 1922.
- ^ a b c d Chung, Jaemin (24 de enero de 2018). "Caracteres Pseudo-G8" (PDF) . ISO / IEC JTC 1 / SC 2 / WG 2 / IRG N2276.
- ^ a b c d e f g h Lunde, Ken (2009). Procesamiento de información CJKV: Computación china, japonesa, coreana y vietnamita (2ª ed.). Sebastopol, CA : O'Reilly . págs. 94-111. ISBN 978-0-596-51447-1. CS1 maint: parámetro desalentado ( enlace )
- ^ a b c d CCITT (13 de julio de 1992). Códigos del juego de caracteres gráficos chinos para la comunicación (PDF) . ITSCJ / IPSJ . ISO-IR -165.
- ^ Steele, Shawn (2000). "cp936 a tabla Unicode" . Microsoft , Consorcio Unicode .
- ^ Lunde, Ken (1998). "Apéndice F: GB / T 12345" (PDF) . Procesamiento de información CJKV . O'Reilly Media . ISBN 9781565922242.
- ^ a b c d e f "Mapa (versión externa) de la codificación simplificada de chino de Mac OS a Unicode 3.0 y posterior" . Apple, Inc .
- ^ a b c d e Administración de Normalización de China (SAC) (2005-11-18). GB 18030-2005: Tecnología de la información: conjunto de caracteres codificados en chino .
- ^ "Políticas de estabilidad de codificación de caracteres Unicode" . Consorcio Unicode. 2017-06-23.
- ^ Viswanadha, Raghuram (30 de agosto de 2000). "Tabla Unicode a ISO-IR-165" . Componentes internacionales para Unicode . IBM . (Nota: los códigos se enumeran en la fuente en forma de 7 bits: agregue 0x80 a cada byte para la forma EUC, o reste 0x20 para la forma kuten)
enlaces externos
- ISO-IR-165: Código del juego de caracteres gráficos chinos para comunicación (registrado en 1992, modificado en 1994)
- Asignaciones Unicode para ISO-IR-165