La página de códigos 950 es la página de códigos utilizada en Microsoft Windows para chino tradicional . Es la implementación de Microsoft de la codificación de caracteres Big5 estándar de facto . La página de códigos no está registrada en IANA , [1] y, por lo tanto, no es un estándar para comunicar información a través de Internet, aunque generalmente se etiqueta simplemente como , incluidas las funciones de la biblioteca de Microsoft. [2]big5
Idioma (s) | Chino tradicional |
---|---|
Creado por | Microsoft |
Se extiende | Big5 |
Residencia en | Big5-ETen |
Terminología y variantes
La principal diferencia entre la página de códigos 950 de Windows y Big5 "común" (no específico del proveedor) es la incorporación de un subconjunto de las extensiones ETEN a Big5 en 0x F9D6 a 0xF9FE (que comprende los siete caracteres chinos碁, 銹, 裏, 墻, 恒, 粧 y 嫺, seguidos de 34 caracteres de dibujo de caja y elementos de bloque ). Los rangos utilizados por algunos de los otros caracteres extendidos de ETEN se definen en cambio como caracteres definidos por el usuario final (uso privado) . [3]
La implementación de IBM de CCSID 950, [4] es ligeramente diferente, incorporando algunas de las extensiones ETEN para los bytes iniciales 0xA3, [5] 0xC6, [3] [6] 0xC7 [7] y 0xC8, [3] [8] mientras se omite aquellos con el byte principal 0xF9 (que incluye Microsoft), asignándolos en su lugar al Área de uso privado como caracteres definidos por el usuario. [3] [9]
Microsoft actualizó su versión de la página de códigos 950 en 2000, agregando el símbolo del euro (€) en el código de doble byte 0xA3E1. IBM se refiere a la actualización del signo del euro como CCSID 1370 (que incluye signos de euro de un solo byte (0x80) y de doble byte) [10] o CCSID 1373 (que incluye solo el signo de euro de doble byte). [11] La página de códigos 1373 coincide con el comportamiento de Microsoft en el que se incluyen extensiones ETEN. [12] [13] [14] [15] [16]
CCSID 950 comprende la página de códigos de un solo byte 1114 (CCSID 1114) y la página de códigos de doble byte 947 (CCSID 947), [4] [17] [18] mientras que el CCSID 1370 extendido con el símbolo del euro comprende la página de códigos de un solo byte 1114 (CCSID 5210) y página de códigos de doble byte 947 (CCSID 21427). [10] [19] [20]
Códigos de un solo byte
Los siguientes son los caracteres gráficos de un solo byte incluidos por IBM. Los códigos 0x00 a 0x1F y 0x7F se pueden usar para los códigos de control C0 en su lugar, dependiendo del contexto (compare la página de códigos 437 , la página de códigos 897 ). Como se señaló anteriormente, el signo de euro de un solo byte en 0x80 no está incluido en los CCSID de IBM 950 o 1373, ni por Microsoft.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _MI | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ | ☺ 263A | ☻ 263B | ♥ 2665 | ♦ 2666 | ♣ 2663 | ♠ 2660 | • 2022 | ◘ 25D8 | ○ 25CB | ◙ 25D9 | ♂ 2642 | ♀ 2640 | ♪ 266A | ♫ 266B | ☼ 263C | |
1_ | ► 25BA | ◄ 25C4 | ↕ 2195 | ‼ 203C | ¶ 00B6 | § 00A7 | ▬ 25AC | ↨ 21A8 | ↑ 2191 | ↓ 2193 | → 2192 | ← 2190 | ∟ 221F | ↔ 2194 | ▲ 25B2 | ▼ 25BC |
2_ | SP 0020 | ! 0021 | " 0022 | # 0023 | $ 0024 | % 0025 | & 0026 | « 0027 | ( 0028 | ) 0029 | * 002A | + 002B | , 002C | - 002D | . 002E | / 002F |
3_ | 0 0030 | 1 0031 | 2 0032 | 3 0033 | 4 0034 | 5 0035 | 6 0036 | 7 0037 | 8 0038 | 9 0039 | : 003A | ; 003B | < 003C | = 003D | > 003E | ? 003F |
4_ | @ 0040 | A 0041 | B 0042 | C 0043 | D 0044 | E 0045 | F 0046 | G 0047 | H 0048 | Yo 0049 | J 004A | K 004B | L 004C | M 004D | N 004E | O 004F |
5_ | P 0050 | Q 0051 | R 0052 | S 0053 | T 0054 | U 0055 | V 0056 | W 0057 | X 0058 | Y 0059 | Z 005A | [ 005B | \ 005C | ] 005D | ^ 005E | _ 005F |
6_ | ` 0060 | un 0061 | b 0062 | c 0063 | d 0064 | e 0065 | f 0066 | g 0067 | h 0068 | yo 0069 | j 006A | k 006B | l 006C | m 006D | n 006E | o 006F |
7_ | p 0070 | q 0071 | r 0072 | s 0073 | t 0074 | u 0075 | v 0076 | w 0077 | x 0078 | y 0079 | z 007A | { 007B | | 007C | } 007D | ~ 007E | ⌂ 2302 |
8_ | 20 € AC |
Letra Número Puntuación Símbolo Otro Indefinido
El resto son partes de una secuencia de doble byte.
Uso del área de uso privado
Gama Big5 | Rango Unicode | Fórmula [24] |
---|---|---|
81 40–8D FE | U + EEB8 – U + F6B0 | 0xeeb8 + (157 * (H-0x81)) + (L<0x80)?(L-0x40):(L-0x62) |
8E 40 – A0 FE | U + E311 – U + EEB7 | 0xe311 + (157 * (H-0x8e)) + (L<0x80)?(L-0x40):(L-0x62) |
C6 A1 – C8 FE | U + F6B1 – U + F848 | 0xf672 + (157 * (H-0xc6)) + (L<0x80)?(L-0x40):(L-0x62) |
FA 40 – FE FE | U + E000 – U + E310 | 0xe000 + (157 * (H-0xfa)) + (L<0x80)?(L-0x40):(L-0x62) |
Este mapeo también se usa en HKSCS donde un glifo dado aún no se encuentra en la revisión Unicode especificada. [25]
Ver también
- LMBCS-18
- Página de códigos 951 , un truco de Microsoft para reemplazar cp950 con una versión habilitada para HKSCS en Windows XP
Referencias
- ^ "Juegos de caracteres" . IANA - Registros de protocolo .
- ^ "Propiedad Encoding.WindowsCodePage - .NET Framework (versión actual)" . MSDN . Microsoft.
- ^ a b c d Zhu, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Chang, WCH .; Crispin, M. (1996). "Codificación de caracteres chinos para mensajes de Internet" . Solicitudes de comentarios . IETF . doi : 10.17487 / rfc1922 . RFC 1922.
- ^ a b "Documento de información CCSID 950" . Archivado desde el original el 2 de diciembre de 2014.
- ^ "Byte de entrada A3: ibm-950_P110-1999" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte inicial C6: ibm-950_P110-1999" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte principal C7: ibm-950_P110-1999" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte principal C8: ibm-950_P110-1999" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte inicial F9: ibm-950_P110-1999" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ a b "Documento de información CCSID 1370" . Archivado desde el original el 27 de marzo de 2016.
- ^ "ibm-1373_P100-2002" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte de entrada A3: ibm-1373_P100-2002" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte principal C6: ibm-1373_P100-2002" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte principal C7: ibm-1373_P100-2002" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte principal C8: ibm-1373_P100-2002" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Byte de entrada F9: ibm-1373_P100-2002" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode .
- ^ "Documento de información CCSID 1114" . Archivado desde el original el 27 de marzo de 2016.
- ^ "Documento de información CCSID 947" . Archivado desde el original el 1 de diciembre de 2014.
- ^ "Documento de información CCSID 5210" . Archivado desde el original el 29 de noviembre de 2014.
- ^ "Documento de información CCSID 21427" . Archivado desde el original el 27 de marzo de 2016.
- ^ Página de códigos CPGID 01114 (pdf) (PDF) , IBM
- ^ Página de códigos CPGID 01114 (txt) , IBM
- ^ "Cuadro de mejor ajuste de Windows: CP950" . unicode.org . Consultado el 13 de septiembre de 2016 .
- ^ "Big5" . Base de datos Kanji . Consultado el 13 de septiembre de 2016 .
- ^ "Big5-HKSCS: 2008" . Archivado desde el original el 13 de septiembre de 2016.
enlaces externos
- Referencia de Microsoft para la página de códigos 950
- Asignación de la página de códigos 950 a Unicode
- Archivos de asignación de componentes internacionales para Unicode (ICU): windows-950-2000.ucm , ibm-950_P110-1999.ucm , ibm-1373_P100-2002.ucm