Las escrituras en chino, japonés y coreano ( CJK ) comparten un trasfondo común, conocido colectivamente como caracteres CJK . En el proceso llamado unificación Han , los caracteres comunes (compartidos) fueron identificados y nombrados ideogramas unificados de CJK . A partir de Unicode 13.0, Unicode define un total de 92,856 ideogramas unificados CJK. [1]
Los términos ideogramas o ideogramas pueden inducir a error, ya que la escritura china no es estrictamente un sistema pictográfico o ideográfico .
Históricamente, Vietnam también usó ideogramas chinos, por lo que a veces se usa la abreviatura "CJKV". Este sistema fue reemplazado por el alfabeto vietnamita de base latina en la década de 1920.
Bloques de ideogramas unificados de CJK
Ideogramas unificados de CJK
El bloque básico denominado Ideogramas unificados CJK (4E00–9FFF) contiene 20,989 caracteres chinos básicos en el rango de U + 4E00 a U + 9FFC. El bloque no solo incluye caracteres utilizados en el sistema de escritura chino, sino también kanji utilizados en el sistema de escritura japonés y hanja , cuyo uso está disminuyendo en Corea . Muchos caracteres de este bloque se utilizan en los tres sistemas de escritura , mientras que otros se encuentran solo en uno o dos de los tres. Los caracteres chinos también se utilizan en la escritura Nôm de Vietnam (ahora obsoleta). Los primeros 20.902 caracteres del bloque están ordenados según el orden de radicales del Diccionario Kangxi . En este sistema, los caracteres escritos con la menor cantidad de trazos se enumeran primero. Los caracteres restantes se agregaron más tarde, por lo que no están en orden radical.
El bloque es el resultado de la unificación Han , [2] que fue algo controvertida en el este de Asia. [3] Dado que los caracteres chinos, japoneses y coreanos se codificaron en la misma ubicación, la apariencia de un glifo seleccionado podría depender de la fuente particular que se esté utilizando. Sin embargo, la regla de separación de fuentes establece que los caracteres codificados por separado en un conjunto de caracteres anterior permanecerían separados en la nueva codificación Unicode. [4]
Usando selectores de variación , es posible especificar ciertos ideogramas CJK variantes dentro de Unicode. El conjunto de caracteres Adobe-Japan1 , que tiene 14.683 secuencias de variación ideográfica, [5] es un ejemplo extremo del uso de selectores de variación. [6]
Gráficos
4E00-62FF , 6300-77FF , 7800-8CFF , 8D00-9FFF .
Fuentes
Nota: la mayoría de los caracteres aparecen en varias fuentes, lo que hace que la suma de los recuentos de caracteres individuales (102,437) sea mucho mayor que la cantidad de caracteres codificados (20,989). [7]
País o Región | Código | Fuente [8] | Número de letras | Total |
---|---|---|---|---|
porcelana | G0 | GB 2312-80 | 6.763 | 20,839 |
G1 | GB 12345-90 | 2.202 | ||
G3 | GB 7589-87 forma tradicional | 4.834 | ||
G5 | GB 7590-87 forma tradicional | 2.841 | ||
G7 | Gráfico de caracteres generales del chino moderno ( chino simplificado : 现代 汉语 通用 字 表) | 42 | ||
G8 | GB 8565-88 | 199 | ||
CME | Academia Nacional de Investigación Educativa | 4 | ||
GE | GB16500-95 | 3.775 | ||
GFC | Diccionario estándar de chino moderno (现代 汉语 规范 词典) | 2 | ||
GGFZ | Diccionario estándar de chino general (通用 规范 汉字 字典) | 1 | ||
GH | GB / T 15564-1995 | 59 | ||
GHZ | Hanyu Da Zidian | 1 | ||
GHZR | 汉语大字典 (第二 版) | 1 | ||
G K | GB 12052-89 | 89 | ||
GKJ | Términos en Ciencias y Tecnologías (科技 用 字) aprobados por el Comité Nacional de China para Términos en Ciencias y Tecnologías (CNCTST) | 13 | ||
GKX | Diccionario Kangxi | 3 | ||
GLK | 龍 龕 手 鑑 | 1 | ||
GT | Libro de códigos de telégrafo estándar (revisado), 1983 | 8 | ||
GZFY | Diccionario de dialectos chinos (汉语 方言 大 辞典) | 1 | ||
Hong Kong | H | Conjunto de caracteres complementario de Hong Kong , 2008 | 2,292 | 15,376 |
HB0 | Tabla de asignación de códigos de caracteres y glifos chinos por computadora, Informe técnico C-26 (電腦 用 中文 字型 與 字 碼 對照 表, 技術 通報 C-26) | 9 | ||
HB1 | Big-5 , nivel 1 | 5.401 | ||
HB2 | Big-5, nivel 2 | 7,650 | ||
HD | Conjunto de caracteres complementario de Hong Kong, 2016 | 24 | ||
Japón | J0 | JIS X 0208-1990 | 6.356 | 12,565 |
J1 | JIS X 0212-1990 | 3,058 | ||
J13 | JIS X 0213: Caracteres de nivel 3 de 2004 que reemplazan a los caracteres J1 | 1.037 | ||
J13A | JIS X 0213: Apéndice de carácter de nivel 3 de 2004 de JIS X 0213: 2000 de nivel 3 que reemplaza el carácter J1 | 2 | ||
J14 | JIS X 0213: Caracteres de nivel 4 de 2004 que reemplazan a los caracteres J1 | 1,704 | ||
J 3 | JIS X 0213: 2004 Nivel 3 | 95 | ||
J3A | Anexo de nivel 3 de JIS X 0213: 2004 | 7 | ||
J4 | JIS X 0213: 2004 Nivel 4 | 301 | ||
JARIB | ARIB STD-B24 | 3 | ||
JMJ | Proyecto de desarrollo y mantenimiento de información de personajes para el gobierno electrónico "Proyecto MojiJoho-Kiban" (文字 情報 基 盤整 備 事業) | 2 | ||
Corea del Norte | KP0 | KPS 9566-97 | 4.652 | 15.011 |
KP1 | KPS 10721-2000 | 10,359 | ||
Corea del Sur | K0 | KS C 5601-87 (ahora KS X 1001: 2004 ) | 4.620 | 15,434 |
K1 | KS C 5657-91 (ahora KS X 1002: 2001 ) | 2.855 | ||
K2 | PKS C 5700-1: 1994 | 7911 | ||
K3 | PKS C 5700-2: 1994 | 1 | ||
K4 | PKS 5700-3: 1998 | 4 | ||
K6 | KS X 1027-5: 2014 | 43 | ||
Taiwán | T1 | CNS 11643-1992 plano 1 | 5.413 | 18,383 |
T2 | CNS 11643-1992 plano 2 | 7,650 | ||
T3 | CNS 11643-1992 plano 3 | 4.144 | ||
T4 | CNS 11643-1992 plano 4 | 894 | ||
T5 | CNS 11643-1992 plano 5 | 64 | ||
T6 | CNS 11643-1992 plano 6 | 31 | ||
T7 | CNS 11643-1992 plano 7 | dieciséis | ||
tuberculosis | CNS 11643-1992 plano 11 | 2 | ||
TC | CNS 11643-1992 plano 12 | 2 | ||
TE | CNS 11643-1992 plano 14 | 9 | ||
TF | CNS 11643-1992 plano 15 | 158 | ||
Vietnam | V0 | TCVN 5773-1993 | 593 | 4.762 |
V1 | TCVN 6056: 1995 | 3.310 | ||
V2 | VHN 01-1998 | 763 | ||
V3 | VHN 02-1998 | 91 | ||
V4 | Diccionario sobre Nom (Từ điển chữ Nôm) Diccionario sobre Nom de la etnia Tay (Từ điển chữ Nôm Tày) Tabla de búsqueda para Nom en el sur (Bảng tra chữ Nôm miền Nam) | 1 | ||
VU | Extensiones horizontales vietnamitas | 4 | ||
n / A | UTC | Fuentes UTC | 67 | 67 |
En Unicode 4.1, se asignaron 14 caracteres HKSCS-2004 y 8 GB 18030 caracteres entre los puntos de código U + 9FA6 y U + 9FBB. Desde entonces, se agregaron otras adiciones a este bloque por varias razones, todas resumidas en la sección de historial de versiones a continuación.
Extensión A de ideogramas unificados de CJK
El bloque denominado CJK Unified Ideographs Extension A (3400–4DBF) contiene 6.592 caracteres adicionales en el rango de U + 3400 a U + 4DBF.
Gráficos
3400-4DBF .
Fuentes
Nota: La mayoría de los caracteres aparecen en más de una fuente, lo que hace que la suma de los recuentos de caracteres individuales (18.804) sea mucho mayor que la cantidad de caracteres codificados (6.592). [7]
País o Región | Código | Fuente [8] | Número de letras | Total |
---|---|---|---|---|
porcelana | G3 | GB 7589-87 forma tradicional | 2,391 | 6.196 |
G5 | GB 7590-87 forma tradicional | 1,226 | ||
G7 | Tabla de caracteres generales chinos modernos | 120 | ||
GGFZ | Diccionario estándar de chino general (通用 规范 汉字 字典) | 2 | ||
GHZ | Hanyu Da Zidian | 340 | ||
GKJ | Términos en Ciencias y Tecnologías (科技 用 字) aprobados por el Comité Nacional de China para Términos en Ciencias y Tecnologías (CNCTST) | 2 | ||
GKX | Diccionario Kangxi | 1,889 | ||
GS | Caracteres chinos de Singapur | 226 | ||
Hong Kong | H | Conjunto de caracteres complementario de Hong Kong , 2008 | 572 | 572 |
Japón | J 3 | JIS X 0213: 2004 Nivel 3 | 2 | 738 |
J4 | JIS X 0213: 2004 Nivel 4 | 78 | ||
JA | Ideogramas contemporáneos de proveedores de tecnología de la información japoneses, 1993 | 574 | ||
JA3 | JIS X 0213: Caracteres de nivel 3 de 2004 que reemplazan a los caracteres JA | 17 | ||
JA4 | JIS X 0213: Caracteres de nivel 4 de 2004 que reemplazan a los caracteres JA | 67 | ||
Corea del Norte | KP0 | KPS 9566-97 | 1 | 3,189 |
KP1 | KPS 10721-2000 | 3,188 | ||
Corea del Sur | K3 | PKS C 5700-2: 1994 | 1.833 | 1,863 |
K4 | PKS 5700-3: 1998 | 2 | ||
K6 | KS X 1027-5: 2014 | 28 | ||
Taiwán | T3 | CNS 11643-1992 plano 3 | 2,179 | 5.916 |
T4 | CNS 11643-1992 plano 4 | 2,919 | ||
T5 | CNS 11643-1992 plano 5 | 399 | ||
T6 | CNS 11643-1992 plano 6 | 200 | ||
T7 | CNS 11643-1992 plano 7 | 133 | ||
TE | CNS 11643-1992 plano 14 | 1 | ||
TF | CNS 11643-1992 plano 15 | 85 | ||
Reino Unido | Reino Unido | IRG N2107R2 | 2 | 2 |
Vietnam | V0 | TCVN 5773-1993 | 138 | 309 |
V2 | VHN 01-1998 | 151 | ||
V3 | VHN 02-1998 | 19 | ||
VU | Extensiones horizontales vietnamitas | 1 | ||
n / A | UTC | Fuentes UTC | 19 | 19 |
Extensión B de ideogramas unificados de CJK
El bloque denominado CJK Unified Ideographs Extension B (20000–2A6DF) contiene 42,718 caracteres en el rango U + 20000 a U + 2A6DD. Estos incluyen la mayoría de los caracteres utilizados en el Diccionario Kangxi que no están en el bloque básico de ideogramas unificados de CJK, así como muchos caracteres Nôm que se utilizaban anteriormente para escribir vietnamita.
Gráficos
20000-215FF , 21600-230FF , 23100-245FF , 24600-260FF , 26100-275FF , 27600-290FF , 29100-2A6DF .
Fuentes
Nota: Muchos caracteres aparecen en más de una fuente, lo que hace que la suma de los recuentos de caracteres individuales (74,037) sea mucho mayor que la cantidad de caracteres codificados (42,718). [7]
País o Región | Código | Fuente [8] | Número de letras | Total |
---|---|---|---|---|
porcelana | G3 | GB 7589-87 forma tradicional | 1 | 30,488 |
G4K | Siku Quanshu | 477 | ||
GBK | Enciclopedia de China | 86 | ||
GCH | Cihai | 247 | ||
GCY | Ciyuan | 66 | ||
GFZ | Fundador del sistema de prensa | sesenta y cinco | ||
GGFZ | Diccionario estándar de chino general (通用 规范 汉字 字典) | 5 | ||
GHC | Hanyu Da Cidian | 553 | ||
GHF | 漢文 佛典 疑難 俗字 彙 釋 與 研究 | 1 | ||
GHZ | Hanyu Da Zidian | 10,508 | ||
GHZR | 汉语大字典 (第二 版) | 1 | ||
GKJ | Términos en Ciencias y Tecnologías (科技 用 字) aprobados por el Comité Nacional de China para Términos en Ciencias y Tecnologías (CNCTST) | 7 | ||
GKX | Diccionario Kangxi | 18,471 | ||
Hong Kong | H | Conjunto de caracteres complementario de Hong Kong , 2008 | 1,703 | 1,703 |
Japón | J 3 | JIS X 0213: 2004 Nivel 3 | 25 | 303 |
J3A | Anexo de nivel 3 de JIS X 0213: 2004 | 1 | ||
J4 | JIS X 0213: 2004 Nivel 4 | 277 | ||
Macao | MAC | Conjunto de caracteres del sistema de información de Macao (澳門 資訊 系統 字 集) | 1 | 1 |
Corea del Norte | KP1 | KPS 10721-2000 | 5.766 | 5.766 |
Corea del Sur | K1 | KS C 5657-91 (ahora KS X 1002: 2001 ) | 1 | 247 |
K4 | PKS 5700-3: 1998 | 166 | ||
K6 | KS X 1027-5: 2014 | 80 | ||
Taiwán | T3 | CNS 11643-1992 plano 3 | 25 | 30.190 |
T4 | CNS 11643-1992 plano 4 | 3.408 | ||
T5 | CNS 11643-1992 plano 5 | 8.111 | ||
T6 | CNS 11643-1992 plano 6 | 5.934 | ||
T7 | CNS 11643-1992 plano 7 | 6.299 | ||
ejército de reserva | 化學 命名 原則 (第四版) (Nomenclatura química: 4ª edición) | 6 | ||
tuberculosis | CNS 11643-1992 plano 11 | 6 | ||
TF | CNS 11643-1992 plano 15 | 6.401 | ||
Reino Unido | Reino Unido | IRG N2107R2 | 12 | 12 |
Vietnam | V0 | TCVN 5773-1993 | 1,515 | 5.260 |
V2 | VHN 01-1998 | 2,290 | ||
V3 | VHN 02-1998 | 425 | ||
V4 | Diccionario sobre Nom (Từ điển chữ Nôm) Diccionario sobre Nom de la etnia Tay (Từ điển chữ Nôm Tày) Tabla de búsqueda para Nom en el sur (Bảng tra chữ Nôm miền Nam) | 1 | ||
VU | Extensiones horizontales vietnamitas | 1.029 | ||
n / A | SE SENTÓ | Base de datos de texto SAT Daizōkyō | 1 | 67 |
UTC | Fuentes UTC | 66 |
Extensión C de ideogramas unificados de CJK
El bloque denominado CJK Unified Ideographs Extension C (2A700–2B73F) contiene 4.149 caracteres en el rango U + 2A700 a U + 2B734 que se agregaron en Unicode 5.2 (2009).
Gráficos
2A700-2B73F .
Fuentes
Nota: Algunos caracteres aparecen en más de una fuente, lo que hace que la suma de los recuentos de caracteres individuales (4.548) sea mayor que la cantidad de caracteres codificados (4.149). [7]
País o Región | Código | Fuente [8] | Número de letras | Total |
---|---|---|---|---|
porcelana | GBK | Enciclopedia de China | 74 | 1.126 |
GCH | Cihai | 264 | ||
GCY | Ciyuan | 1 | ||
GCYY | Ideogramas de la Academia China de Topografía y Cartografía | 55 | ||
GFZ | Fundador del sistema de prensa | 1 | ||
GGFZ | Diccionario estándar de chino general (通用 规范 汉字 字典) | 2 | ||
GGH | Diccionario de chino antiguo (古代 汉语 词典) | 51 | ||
GHC | Hanyu Da Cidian | 14 | ||
GHZ | Hanyu Da Zidian | 1 | ||
GJZ | Commercial Press ideogramas | 61 | ||
GKJ | Términos en Ciencias y Tecnologías (科技 用 字) aprobados por el Comité Nacional de China para Términos en Ciencias y Tecnologías (CNCTST) | 4 | ||
GKX | Diccionario Kangxi | 6 | ||
GXC | Xiandai Hanyu Cidian | 25 | ||
GZFY | Diccionario de dialectos chinos (汉语 方言 大 辞典) | 202 | ||
GZJW | Colecciones de inscripciones de bronce de las dinastías Yin y Zhou (殷 周金文 集成 引得) | 365 | ||
Hong Kong | H | Conjunto de caracteres complementario de Hong Kong , 2008 | 1 | 1 |
Japón | JK | Colección japonesa Kokuji | 367 | 367 |
Macao | MAC | Conjunto de caracteres del sistema de información de Macao (澳門 資訊 系統 字 集) | dieciséis | dieciséis |
Corea del Norte | KP1 | KPS 10721-2000 | 8 | 8 |
Corea del Sur | K5 | Conjunto de caracteres coreano IRG Hanja | 404 | 405 |
K6 | KS X 1027-5: 2014 | 1 | ||
Taiwán | TC | CNS 11643-1992 plano 12 | 634 | 1.750 |
TD | CNS 11643-1992 plano 13 | 766 | ||
TE | CNS 11643-1992 plano 14 | 350 | ||
Reino Unido | Reino Unido | IRG N2107R2 | 1 | 1 |
Vietnam | V1 | TCVN 6056: 1995 | 1 | 787 |
V4 | Diccionario sobre Nom (Từ điển chữ Nôm) Diccionario sobre Nom de la etnia Tay (Từ điển chữ Nôm Tày) Tabla de búsqueda para Nom en el sur (Bảng tra chữ Nôm miền Nam) | 784 | ||
VU | Extensiones horizontales vietnamitas | 2 | ||
n / A | UTC | Fuentes UTC | 87 | 87 |
Extensión D de ideogramas unificados de CJK
El bloque denominado CJK Unified Ideographs Extension D (2B740–2B81F) contiene 222 caracteres en el rango U + 2B740 a U + 2B81D que se agregaron en Unicode 6.0 (2010).
Gráficos
2B740–2B81F .
Fuentes
Nota: Algunos caracteres aparecen en más de una fuente, lo que hace que la suma de los recuentos de caracteres individuales (227) sea mayor que la cantidad de caracteres codificados (222). [7]
País o Región | Código | Fuente [8] | Número de letras | Total |
---|---|---|---|---|
porcelana | GCH | Cihai | 1 | 76 |
GIDC | Sistema de identificación del Ministerio de Seguridad Pública de China | 32 | ||
GXC | Xiandai Hanyu Cidian | 4 | ||
GZH | Zhonghua Zihai | 39 | ||
Japón | J H | Programa Hanyo-Denshi (汎 用 電子 情報 交換 環境 整 備 プ ロ グ ラ ム) | 107 | 107 |
Taiwán | tuberculosis | CNS 11643-1992 plano 11 | 24 | 24 |
n / A | UTC | Fuentes UTC | 20 | 20 |
Extensión E de ideogramas unificados de CJK
El bloque denominado CJK Unified Ideographs Extension E (2B820–2CEAF) contiene 5.762 caracteres en el rango U + 2B820 a U + 2CEA1 que se agregaron en Unicode 8.0 (2015).
Gráficos
2B820–2CEAF .
Fuentes
Nota: Algunos caracteres aparecen en más de una fuente, lo que hace que la suma de los recuentos de caracteres individuales (5,812) sea mayor que la cantidad de caracteres codificados (5,762). [7]
País o Región | Código | Fuente [8] | Número de letras | Total |
---|---|---|---|---|
porcelana | GBK | Enciclopedia de China | 15 | 2.820 |
GCH | Cihai | 112 | ||
GCY | Ciyuan | 3 | ||
GCYY | Ideogramas de la Academia China de Topografía y Cartografía | 98 | ||
GDZ | Ideogramas de Geology Press | 1 | ||
GGFZ | Diccionario estándar de chino general (通用 规范 汉字 字典) | 4 | ||
GGH | Diccionario de chino antiguo (古代 汉语 词典) | 175 | ||
GHC | Hanyu Da Cidian | 7 | ||
GIDC | Sistema de identificación del Ministerio de Seguridad Pública de China | 36 | ||
GJZ | Commercial Press ideogramas | 147 | ||
GKJ | Términos en Ciencias y Tecnologías (科技 用 字) aprobados por el Comité Nacional de China para Términos en Ciencias y Tecnologías (CNCTST) | 2 | ||
GKX | Diccionario Kangxi | 22 | ||
GRM | Diario del Pueblo ideogramas | 3 | ||
GWZ | Los ideogramas de Hanyu Da Cidian Press | 12 | ||
GXC | Xiandai Hanyu Cidian | 57 | ||
GXH | Xinhua Zidian | 4 | ||
GZFY | Hanyu Fangyan Dacidian (汉语 方言 大 辞典, Diccionario de dialectos chinos) | 712 | ||
GZJW | Colecciones de inscripciones de bronce de las dinastías Yin y Zhou (殷 周金文 集成 引得) | 1.410 | ||
Japón | JK | Colección japonesa Kokuji | 415 | 415 |
Macao | MAC | Conjunto de caracteres del sistema de información de Macao (澳門 資訊 系統 字 集) | 48 | 48 |
Taiwán | T3 | CNS 11643-1992 plano 3 | 2 | 1.260 |
tuberculosis | CNS 11643-1992 plano 11 | 1 | ||
TC | CNS 11643-1992 plano 12 | 323 | ||
TD | CNS 11643-1992 plano 13 | 595 | ||
TE | CNS 11643-1992 plano 14 | 339 | ||
Reino Unido | Reino Unido | IRG N2107R2 | 2 | 2 |
Vietnam | V4 | Diccionario sobre Nom (Từ điển chữ Nôm) Diccionario sobre Nom de la etnia Tay (Từ điển chữ Nôm Tày) Tabla de búsqueda para Nom en el sur (Bảng tra chữ Nôm miền Nam) | 1.027 | 1.031 |
VU | Extensiones horizontales vietnamitas | 4 | ||
n / A | UCI | Fuentes UTC | 236 | 236 |
Extensión F de ideogramas unificados de CJK
El bloque denominado CJK Unified Ideographs Extension F (2CEB0–2EBEF) contiene 7,473 caracteres en el rango U + 2CEB0 a 2EBE0 que se agregaron en Unicode 10.0 (2017). Incluye más de 1000 personajes Sawndip para Zhuang .
Gráficos
2CEB0–2EBEF .
Fuentes
Nota: Algunos caracteres aparecen en más de una fuente, lo que hace que la suma de los recuentos de caracteres individuales (7,733) sea mayor que la cantidad de caracteres codificados (7,473). [7]
País o Región | Código | Fuente [8] | Número de letras | Total |
---|---|---|---|---|
porcelana | GCY | Ciyuan | 122 | 1,304 |
GFC | Diccionario estándar de chino moderno (现代 汉语 规范 词典) | 27 | ||
GIDC | Sistema de identificación del Ministerio de Seguridad Pública de China | 1 | ||
GLGYJ | Investigación de canciones de Zhuang Liao (壮族 嘹 歌 研究) | 1 | ||
GOCD | Diccionario Oxford Inglés-Chino Chino-Inglés (牛津 英汉 汉英 词典) | 2 | ||
GPGLG | Serie de cultura de canciones populares de Zhuang - Canciones de Liao del condado de Pingguo (壮族 民歌 文化 丛书 ・ 平 果 嘹 歌) | 70 | ||
GXHZ | Diccionario grande de Xinhua (新华 大 字典) | 51 | ||
GZ | Diccionario de caracteres de Zhuang antiguo (古 壮 字 字典) | 995 | ||
GZJW | Colecciones de inscripciones de bronce de las dinastías Yin y Zhou (殷 周金文 集成 引得) | 33 | ||
GZYS | Investigación de personajes étnicos antiguos chinos (中国 民族 古 文字 研究) | 2 | ||
Japón | JMJ | Proyecto de desarrollo y mantenimiento de información de personajes para el gobierno electrónico "Proyecto MojiJoho-Kiban" (文字 情報 基 盤整 備 事業) | 1,645 | 1,645 |
Corea del Sur | KC | Historia de Corea en línea (한국 역사 정보 통합 시스템) | 1,793 | 1,793 |
Macao | MAC | Conjunto de caracteres del sistema de información de Macao (澳門 資訊 系統 字 集) | 22 | 22 |
Taiwán | T3 | CNS 11643-1992 plano 3 | 1 | 3 |
T6 | CNS 11643-1992 plano 6 | 1 | ||
TC | CNS 11643-1992 plano 12 | 1 | ||
Reino Unido | Reino Unido | IRG N2107R2 | 2 | 2 |
Vietnam | VU | Extensiones horizontales vietnamitas | 1 | 1 |
n / A | SE SENTÓ | Base de datos de texto SAT Daizōkyō | 2,884 | 2,963 |
UTC | Fuentes UTC | 79 |
Extensión G de ideogramas unificados de CJK
Se agregó un bloque llamado CJK Unified Ideographs Extension G como parte de Unicode 13.0 al plano ideográfico terciario en el rango U + 30000 a U + 3134F, que contiene 4939 caracteres. [9]
Gráficos
30000–3134F .
Fuentes
Nota: Algunos caracteres aparecen en más de una fuente, lo que hace que la suma de los recuentos de caracteres individuales (4997) sea mayor que la cantidad de caracteres codificados (4939). [7]
País o Región | Código | Fuente [8] | Número de letras | Total |
---|---|---|---|---|
porcelana | GHZR | 汉语大字典 (第二 版) | 878 | 2.082 |
GPGLG | Serie de cultura de canciones populares de Zhuang - Canciones de Liao del condado de Pingguo (壮族 民歌 文化 丛书 ・ 平 果 嘹 歌) | 13 | ||
GZ | Diccionario de caracteres de Zhuang antiguo (古 壮 字 字典) | 1,191 | ||
Corea del Sur | KC | Historia de Corea en línea (한국 역사 정보 통합 시스템) | 428 | 428 |
Taiwán | T13 | TCA-CNS 11643 Avión 19 (pendiente nueva versión) | 347 | 353 |
tuberculosis | CNS 11643-1992 plano 11 | 3 | ||
TC | CNS 11643-1992 plano 12 | 2 | ||
TD | CNS 11643-1992 plano 13 | 1 | ||
Reino Unido | Reino Unido | IRG N2107R2 | 1,566 | 1,566 |
n / A | SE SENTÓ | Base de datos de texto SAT Daizōkyō | 329 | 568 |
UTC | Fuentes UTC | 239 |
Ideogramas de compatibilidad CJK
El bloque denominado Ideogramas de compatibilidad CJK (F900 – FAFF) se creó para mantener la compatibilidad de ida y vuelta con otros estándares. Sólo doce de sus caracteres tienen la propiedad "Ideograma unificado": U + FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 y FA29. [1] Ninguno de los otros personajes en este y otros bloques de "Compatibilidad" se relacionan con la Unificación CJK.
Gráficos
F900 – FAFF .
Fuentes
Nota: algunos caracteres aparecen en más de una fuente, lo que hace que la suma de los recuentos de caracteres individuales (22) sea mayor que la cantidad de caracteres unificados codificados (12). [7]
País o Región | Código | Fuente [8] | Número de letras | Total |
---|---|---|---|---|
Japón | J 3 | JIS X 0213: 2004 Nivel 3 | 3 | 8 |
J4 | JIS X 0213: 2004 Nivel 4 | 3 | ||
JA | Ideogramas contemporáneos de proveedores de tecnología de la información japoneses, 1993 | 1 | ||
JA3 | JIS X 0213: Caracteres de nivel 3 de 2004 que reemplazan a los caracteres JA | 1 | ||
Taiwán | TF | CNS 11643-1992 plano 15 | 1 | 1 |
Vietnam | V2 | VHN 01-1998 | 1 | 1 |
n / A | UTC | Fuentes UTC | 12 | 12 |
Fuentes UTC
El Grupo de Investigación Ideográfica (IRG) tiene la responsabilidad formal de desarrollar extensiones a los repertorios codificados de ideogramas CJK unificados. El Consorcio Unicode participa en este grupo como miembro de enlace de ISO. Los caracteres enviados por el Comité Técnico Unicode llevan el prefijo "UTC". Todos los ideogramas unificados de CJK en ISO / IEC10646 deben tener al menos un identificador de fuente. Sin embargo, los cambios en la información de la fuente del IRG pueden dejar un ideograma determinado sin tales fuentes. En tales casos, el ideograma se incluye en la base de datos U-source para garantizar que tenga al menos una fuente. Estos ideogramas se indican mediante un prefijo de fuente de "UCI" en lugar de "UTC". [10]
Las fuentes UTC consisten en lo siguiente:
- Diccionario ABC chino-inglés por John DeFrancis
- La colección de glifos Adobe-CNS1
- La colección de glifos de Adobe-Japan1
- Una lista de verificación completa de especies y subespecies de aves chinas (中国 鸟类 系统 检索)
- El gran diccionario de nom (Đại Tự Điển Chữ Nôm)
- Anotaciones a Shuowen Jiezi (comentadas por Duan Yucai )
- GB18030-2000
- Lista de caracteres requeridos proporcionada por La Iglesia de Jesucristo de los Santos de los Últimos Días (Hong Kong)
- Nuevo diccionario comercial (商务 新 词典), Hong Kong
- Informes de defectos presentados contra el estándar Unicode u otra comunicación directa con el comité editorial de Unicode
- Documentos del Comité Técnico Unicode (UTC)
- Diccionario de chino moderno (现代 汉语 词典), por la Academia China de Ciencias Sociales , Instituto de Investigación Lingüística, Oficina Editorial del Diccionario
- Documentos del grupo de trabajo (WG2)
- Wenlin (文林) http://www.wenlin.com/
Problemas conocidos
Desunificación
U + 4039
El carácter U + 4039 (䀹) fue una unificación de dos caracteres diferentes (uno con jiā ā fonético y otro con shǎn 㚒 fonético) hasta Unicode 5.0. Sin embargo, eran caracteres léxicamente diferentes que no deberían haberse unificado; tienen diferentes pronunciaciones y diferentes significados.
La propuesta de desunificación de U + 4039 [11] fue aceptada y el nuevo carácter está codificado en U + 9FC3 (鿃) en Unicode 5.1. [ aclaración necesaria ]
Otros 3 glifos en la Extensión B
En CJK Unified Ideographs Extension B, algunos caracteres se unifican incorrectamente con otros. Estos caracteres incluyen U + 2017B (𠅻), U + 204AF (𠒯) y U + 24CB2 (𤲲). Los dos primeros caracteres contenían una unificación incorrecta de China continental y la fuente vietnamita de su glifo, mientras que el último unifica China continental y los taiwaneses. [12]
Variantes unificables y duplicados exactos en la Extensión B
También en CJK Unified Ideographs Extension B, se codificaron cientos de variantes de glifos. [13] Además de la codificación deliberada de variantes de glifos cercanos, seis duplicados exactos (donde el mismo carácter se ha codificado dos veces inadvertidamente) y dos semiduplicados (donde el carácter CJK-B representa una desunificación de facto de dos formas de glifos unificadas en el carácter BMP correspondiente) se codificaron por error: [14]
- U + 34A8 㒨 = U + 20457 𠑗: U + 20457 es el mismo que el glifo de origen de China para U + 34A8, pero es significativamente diferente del glifo de origen de Taiwán para U + 34A8
- U + 3DB7 㶷 = U + 2420E 𤈎: mismas formas de glifo
- U + 8641 虁 = U + 27144 𧅄: U + 27144 es el mismo que el glifo de origen coreano para U + 8641, pero es significativamente diferente de los glifos de origen chino continental, Taiwán y Japón para U + 8641
- U + 204F2 𠓲 = U + 23515 𣔕: mismas formas de glifo, pero ordenadas bajo diferentes radicales
- U + 249BC 𤦼 = U + 249E9 𤧩: mismas formas de glifo
- U + 24BD2 𤯒 = U + 2A415 𪐕: mismas formas de glifo, pero ordenadas bajo diferentes radicales
- U + 26842 𦡂 = U + 26866 𦡦: mismas formas de glifo
- U + FA23 﨣 = U + 27EAF 𧺯: mismas formas de glifos (U + FA23 﨣 es un ideograma CJK unificado, a pesar de su nombre "IDEOGRAFO DE COMPATIBILIDAD CJK-FA23").
Otros ideogramas CJK en Unicode, no Unificado
Aparte de los ocho bloques de "Ideogramas unificados", Unicode tiene alrededor de una docena de bloques más con caracteres CJK no unificados. Se trata principalmente de radicales CJK, trazos, puntuación, marcas, símbolos y caracteres de compatibilidad. Aunque algunos personajes tienen sus contrapartes (descomponibles) en otros bloques, los usos pueden ser diferentes.
Se incluyen cuatro bloques de caracteres de compatibilidad para compatibilidad con sistemas de manejo de texto heredados y conjuntos de caracteres más antiguos:
- Compatibilidad CJK (3300–33FF)
- Formularios de compatibilidad CJK (FE30 – FE4F)
- Ideogramas de compatibilidad CJK (F900 – FAFF)
- Suplemento de ideogramas de compatibilidad CJK (2F800–2FA1F)
Incluyen formas de caracteres para el diseño de texto vertical y caracteres de texto enriquecido que Unicode recomienda manejar a través de otros medios. Por tanto, se desaconseja su uso.
Por lo general, los caracteres de compatibilidad son aquellos que no se habrían codificado excepto por compatibilidad y convertibilidad de ida y vuelta con otros estándares. Sin embargo, la cantidad de ideogramas CJK dentro de cualquier estándar que no sea Unicode es demasiado grande para caber en los bloques de ideogramas de compatibilidad CJK de Unicode. En cambio, los puntos de código se asignan cuando los caracteres afectados son aprobados por el Consorcio Unicode, pero aún tienen que asignar puntos de código dentro de los bloques de ideogramas unificados de CJK.
Soporte de fuentes
Los bloques CJK Unified Ideographs y CJK Unified Ideographs Extension A, que son parte del plano multilingüe básico , son compatibles con la mayoría de las fuentes CJK . Sin embargo, las fuentes japonesas y coreanas suelen tener menos caracteres (alrededor de 13.000 y 8.000, respectivamente) que las chinas. Las extensiones B, C, D son compatibles con fuentes adicionales MingLiU-ExtB, MingLiU_HKSCS-ExtB, PMingLiU-ExtB, SimSun-ExtB incluidas en Microsoft Windows desde Vista. [15]
Historial de versiones de Unicode
Versión Unicode | Adición | Avión | Personajes agregados | Caracteres totales |
---|---|---|---|---|
1.0 (1991) | Ideogramas unificados de CJK | Plano multilingüe básico (BMP) | 20,902 | 20,914 |
Ideogramas de compatibilidad CJK | BMP | 12 | ||
3,0 (1999) | Extensión A de ideogramas unificados de CJK | BMP | 6.582 | 27,496 |
3,1 (2001) | Extensión B de ideogramas unificados de CJK | Plano ideográfico suplementario (SIP) | 42,711 | 70,207 |
4.1 (2005) | Ideogramas unificados de CJK: Ideogramas de HKSCS-2004 y GB 18030-2000 no en ISO 10646 | BMP | 22 | 70,229 |
5.1 (2008) | Ideografías unificadas de CJK: ideografías de Adobe Japón y desunión de U + 4039 | BMP | 8 | 70,237 |
5.2 (2009) | Extensión C de ideogramas unificados de CJK | sorbo | 4.149 | 74,394 |
8 otros personajes de ARIB # 47, # 95, # 93 y HKSCS | BMP | 8 | ||
6,0 (2010) | Extensión D de ideogramas unificados de CJK | sorbo | 222 | 74,616 |
6,1 (2012) | 1 carácter correspondiente a Adobe-Japan1-6 CID + 20156 | BMP | 1 | 74,617 |
8.0 (2015) | Extensión E de ideogramas unificados de CJK | sorbo | 5.762 | 80,388 |
9 otros personajes | BMP | 9 | ||
10.0 (2017) | Extensión F de ideogramas unificados de CJK | sorbo | 7.473 | 87,882 |
21 otros personajes | BMP | 21 | ||
11,0 (2018) | Ideogramas unificados de CJK | BMP | 5 | 87,887 |
13,0 (2020) | Ideogramas unificados de CJK | BMP | 13 | 92,856 |
Extensión A de ideogramas unificados de CJK | BMP | 10 | ||
Extensión B de ideogramas unificados de CJK | sorbo | 7 | ||
Extensión G de ideogramas unificados de CJK | Plano ideográfico terciario (TIP) | 4.939 |
Ver también
- Unificación Han
- Lista de caracteres Unicode
- Lista de fuentes CJK
- Grupo de Investigación Ideográfica
Notas
- ^ a b "Unicode 13.0 UCD: PropList.txt" . 2019-11-27 . Consultado el 15 de marzo de 2020 .
- ^ El estándar Unicode 4.0, Apéndice A - Historia de la unificación de Han
- ^ Suzanne Topping, " La vida secreta de Unicode "
- ^ " Capítulo 11 - Scripts de Asia Oriental ", El estándar Unicode, 4.0 .
- ^ "Base de datos de variación ideográfica" . 2020-11-06 . Consultado el 6 de noviembre de 2020 .
- ^ PRI 108: Registro combinado de la colección Adobe Japan1 y de secuencias en esa colección
- ^ a b c d e f g h yo "Unihan_IRGSources.txt (de Unihan.zip)" . 2018-11-09 . Consultado el 18 de febrero de 2020 .
- ^ a b c d e f g h yo "UAX # 38: Base de datos Unicode Han (Unihan)" . Consorcio Unicode. 2020-03-05.
- ^ "Unicode 13.0.0" . 10 de marzo de 2020 . Consultado el 10 de marzo de 2020 .
- ^ Jenkins, John H. (13 de febrero de 2020). "UAX # 45: Ideogramas de fuente U" . Consorcio Unicode.
- ^ Andrew West y John Jenkins, propuesta de desunificación de U + 4039
- ^ Eiso Chan (陈永聪), Comentarios sobre cuatro glifos de error en los ideogramas unificados de CJK Ext B y E. [1]
- ^ variantes de glifos unificables
- ^ Cook, Richard (6 de octubre de 2003). "Informe de defectos en formularios CJK codificados duplicados" (PDF) . ISO / IEC JTC1 / SC2 / WG2 . Consultado el 28 de marzo de 2012 .
- ^ Lunde, Ken (2009). Procesamiento de información CJKV . O'Reilly. págs. 633–634. ISBN 978-0-596-51447-1.
enlaces externos
- Ideogramas de origen británico (documentos IRG N2107R2 e IRG N2232R)