Conjuntos de caracteres del latín occidental (informática)

En este artículo se comparan varias representaciones binarias de conjuntos de caracteres de 8 bits para idiomas comunes de Europa occidental . Estas codificaciones fueron diseñadas para la representación de italiano , español , portugués , francés , alemán , holandés , inglés , danés , sueco , noruego e islandés , que usan el alfabeto latino , algunas letras adicionales y otras con diacríticos precompuestos , algo de puntuación y varios símbolos(incluidas algunas letras griegas). Aunque se les llama "Europa occidental", muchos de estos idiomas se hablan en todo el mundo. Además, estos conjuntos de caracteres son compatibles con muchos otros idiomas, como el malayo , el suajili y el latín clásico .

Este material es técnicamente obsoleto, habiendo sido reemplazado funcionalmente por Unicode . Sin embargo, sigue teniendo interés histórico.

Resumen [ editar ]

La serie ISO-8859 de conjuntos de caracteres de 8 bits codifica todos los conjuntos de caracteres latinos utilizados en Europa , aunque los mismos puntos de código tienen múltiples usos que causaron algunas dificultades (incluidos mojibake o caracteres confusos y problemas de comunicación). La llegada de Unicode , con un punto de código único para cada glifo , resolvió estos problemas.

ISO / IEC 8859-1 o Latin-1 es el más utilizado y también define los primeros 256 códigos en Unicode .
ISO / IEC 8859-15 modifica ISO-8859-1 para admitir totalmente el estonio , finlandés y francés y agregar el símbolo del euro .
Windows-1252 es un superconjunto de ISO-8859-1 que incluye los caracteres imprimibles de ISO / IEC 8859-15 y puntuación popular como las comillas curvas (también conocidas como comillas tipográficas , como en la configuración de Microsoft Word y programas similares). Es común que las herramientas de página web para Windows usen Windows-1252 pero etiqueten la página web como usando ISO-8859-1, esto se ha abordado en HTML5 , que exige que las páginas etiquetadas como ISO-8859-1 deben interpretarse como Windows- 1252.
IBM CP437 , que está diseñado solo para inglés , tiene muy pocas letras acentuadas (particularmente mayúsculas ) pero tiene muchos más caracteres gráficos que las otras páginas de códigos de IBM enumeradas aquí y también algunos caracteres matemáticos y griegos que son útiles como símbolos técnicos .
IBM CP850 tiene todos los caracteres imprimibles que tiene ISO-8859-1 (aunque organizados de manera diferente) y aún se las arregla para tener suficientes caracteres gráficos para construir una interfaz de usuario en modo texto utilizable .
IBM CP858 difiere de CP850 solo en un carácter: una i ( ı ) sin puntos , que rara vez se usa fuera de Turquía y sin equivalente en mayúsculas , fue reemplazada por el signo de moneda euro ( € ). ^[1]
IBM CP859 contiene todos los caracteres imprimibles que tiene ISO / IEC 8859-15 , por lo que, a diferencia de CP850 , admite el símbolo del euro , estonio , finlandés y francés .
Las páginas de códigos de IBM 037, 500 y 1047 son codificaciones EBCDIC que incluyen todos los caracteres ISO-8859-1 .
El conjunto de caracteres de Mac OS Roman (a menudo denominado MacRoman y conocido por IANA simplemente como MACINTOSH) tiene la mayoría, pero no todos, los mismos caracteres que ISO / IEC 8859-1, pero en una disposición muy diferente; y también agrega muchos caracteres técnicos y matemáticos (aunque carece de la importante × ) y más diacríticos . Se sabía que los navegadores web de Macintosh más antiguos mezclaban los pocos caracteres que estaban en ISO / IEC 8859-1, pero no su juego de caracteres nativo de Macintosh al editar texto de sitios web . Por el contrario, en el material web preparado en un Macintosh antiguo, muchos caracteres se mostraban incorrectamente cuando otros sistemas operativos los leían . La codificación Macintosh Latin , una modificación de Mac OS Roman para soportar ISO / IEC 8859-1, fue creada por los creadores de Kermit (protocolo) para resolver este problema.

Historia [ editar ]

Esta sección no cita ninguna fuente . Por favor, ayuda a mejorar esta sección mediante la adición de citas de fuentes confiables . El material no obtenido puede ser cuestionado y eliminado . ( Abril de 2020 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

Cuanto más temprano de siete bits de Estados Unidos Código Estándar Americano para Intercambio de Información ( 'ASCII') de codificación tiene suficientes caracteres para representar adecuadamente sólo unos pocos idiomas como el Inglés, Latín, malayo y swahili. Faltan algunas letras y combinaciones de letras y diacríticos que se utilizan en otros idiomas del alfabeto latino. Sin embargo, dado que no había otra opción en la mayoría de las plataformas informáticas suministradas por los EE. UU., El uso de ASCII era inevitable, excepto donde existía una fuerte industria informática nacional. Estaba el grupo de codificaciones ISO 646 que reemplazó algunos de los símbolos en ASCII con caracteres locales, pero el espacio era muy limitado y algunos de los símbolos reemplazados eran bastante comunes en cosas como lenguajes de programación.

La mayoría de las computadoras usaban internamente bytes de ocho bits, pero la comunicación (considerada inherentemente poco confiable) usaba siete bits de datos más un bit de paridad . Con el tiempo, se hizo común usar los ocho bits para datos, creando espacio para otros 128 caracteres. En los primeros días, la mayoría de estos eran específicos del sistema, pero gradualmente surgieron los estándares ISO / IEC 8859 para proporcionar cierta similitud entre plataformas para permitir el intercambio de información.

Hacia fines del siglo XX, a medida que disminuyeron los costos de almacenamiento y memoria, los problemas asociados con los significados múltiples de un código de ocho bits dado (solo hay siete conjuntos de códigos ISO-Latin) han dejado de estar justificados. Todos los principales sistemas operativos se han trasladado a Unicode como su principal representación interna. Sin embargo, como Windows no admitía el método UTF-8 para codificar Unicode (prefiriendo UTF-16 ), muchas aplicaciones continuaron restringidas a estos conjuntos de caracteres heredados.

El signo del euro [ editar ]

El euro y su símbolo del euro introdujeron una presión significativa para admitir el signo del euro (€), y la mayoría de los conjuntos de caracteres de 8 bits tuvieron que adaptarse de alguna manera.

Apple con MacRoman y Sun Microsystems con Solaris OS simplemente reemplazaron el signo de moneda genérico ( ¤ ). Esto provocó una dificultad significativa porque las organizaciones le habían encontrado otros usos, como el logotipo de la empresa.
ISO introdujo una variante adicional de ISO 8859, ISO 8859-15 , que reemplazó el signo de moneda genérico con el signo del euro, además de hacer algunos otros reemplazos de símbolos con letras con diacríticos. ISO 8859-15 nunca recibió una adopción generalizada.
Con Windows-1252 , Microsoft colocó el símbolo del euro en un espacio (posición 80 _hex ) en los códigos de control C1 existentes .

Todos estos problemas se han resuelto ya que los sistemas operativos se han actualizado para admitir Unicode como estándar, que codifica el signo del euro en U + 20AC (decimal 8364).

Tabla comparativa [ editar ]

Los puntos de código U + 0000 a U + 007F no se muestran en esta tabla actualmente, ya que están mapeados directamente en todos los conjuntos de caracteres enumerados aquí. El estándar de codificación ASCII define la especificación original para el mapeo de los primeros 0-127 caracteres.

La tabla está organizada por punto de código Unicode . Los conjuntos de caracteres se denominan aquí por sus nombres IANA en mayúsculas .

Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
NBSP	U + 00A0	A0	A0	A0	FF	FF	California
¡	U + 00A1	A1	A1	A1	ANUNCIO	ANUNCIO	C1
¢	U + 00A2	A2	A2	A2	9B	BD	A2
£	U + 00A3	A3	A3	A3	9C	9C	A3
¤	U + 00A4	A4		A4		CF
¥	U + 00A5	A5	A5	A5	9D	SER	B4
¦	U + 00A6	A6		A6		DD
§	U + 00A7	A7	A7	A7		F5	A4
¨	U + 00A8	A8		A8		F9	C.A.
©	U + 00A9	A9	A9	A9		B8	A9
ª	U + 00AA	Automóvil club británico	Automóvil club británico	Automóvil club británico	A6	A6	cama y desayuno
«	U + 00AB	AB	AB	AB	AE	AE	C7
¬	U + 00AC	C.A.	C.A.	C.A.	Automóvil club británico	Automóvil club británico	C2
TÍMIDO	U + 00AD	ANUNCIO	ANUNCIO	ANUNCIO		F0
®	U + 00AE	AE	AE	AE		A9	A8
¯	U + 00AF	AF	AF	AF		EE	F8
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
°	U + 00B0	B0	B0	B0	F8	F8	A1
±	U + 00B1	B1	B1	B1	F1	F1	B1
²	U + 00B2	B2	B2	B2	FD	FD
³	U + 00B3	B3	B3	B3		FC
´	U + 00B4	B4		B4		EF	AB
µ	U + 00B5	B5	B5	B5	E6	E6	B5
¶	U + 00B6	B6	B6	B6		F4	A6
·	U + 00B7	B7	B7	B7	FA	FA	E1
¸	U + 00B8	B8		B8		F7	FC
¹	U + 00B9	B9	B9	B9		pensión completa
º	U + 00BA	licenciado en Letras	licenciado en Letras	licenciado en Letras	A7	A7	antes de Cristo
»	U + 00BB	cama y desayuno	cama y desayuno	cama y desayuno	AF	AF	C8
¼	U + 00BC	antes de Cristo		antes de Cristo	C.A.	C.A.
½	U + 00BD	BD		BD	AB	AB
¾	U + 00BE	SER		SER		F3
¿	U + 00BF	BF	BF	BF	A8	A8	C0
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
A	U + 00C0	C0	C0	C0		B7	CB
A	U + 00C1	C1	C1	C1		B5	E7
A	U + 00C2	C2	C2	C2		B6	E5
A	U + 00C3	C3	C3	C3		C7	CC
A	U + 00C4	C4	C4	C4	8E	8E	80
A	U + 00C5	C5	C5	C5	8F	8F	81
Æ	U + 00C6	C6	C6	C6	92	92	AE
C	U + 00C7	C7	C7	C7	80	80	82
MI	U + 00C8	C8	C8	C8		D4	E9
MI	U + 00C9	C9	C9	C9	90	90	83
MI	U + 00CA	California	California	California		D2	E6
MI	U + 00CB	CB	CB	CB		D3	E8
I	U + 00CC	CC	CC	CC		Delaware	ED
I	U + 00CD	CD	CD	CD		D6	EA
I	U + 00CE	CE	CE	CE		D7	EB
I	U + 00CF	CF	CF	CF		D8	CE
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
D	U + 00D0	D0	D0	D0		D1
NORTE	U + 00D1	D1	D1	D1	A5	A5	84
Ò	U + 00D2	D2	D2	D2		E3	F1
Ó	U + 00D3	D3	D3	D3		E0	EE
Ô	U + 00D4	D4	D4	D4		E2	EF
Õ	U + 00D5	D5	D5	D5		E5	CD
Ö	U + 00D6	D6	D6	D6	99	99	85
×	U + 00D7	D7	D7	D7		9E
Ø	U + 00D8	D8	D8	D8		9D	AF
Ù	U + 00D9	D9	D9	D9		EB	F4
Ú	U + 00DA	DA	DA	DA		E9	F2
Û	U + 00DB	DB	DB	DB		EA	F3
Ü	U + 00DC	corriente continua	corriente continua	corriente continua	9A	9A	86
Ý	U + 00DD	DD	DD	DD		ED
Þ	U + 00DE	Delaware	Delaware	Delaware		E8
ß	U + 00DF	DF	DF	DF	E1	E1	A7
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
a	U + 00E0	E0	E0	E0	85	85	88
a	U + 00E1	E1	E1	E1	A0	A0	87
a	U + 00E2	E2	E2	E2	83	83	89
a	U + 00E3	E3	E3	E3		C6	8B
a	U + 00E4	E4	E4	E4	84	84	8A
a	U + 00E5	E5	E5	E5	86	86	8C
æ	U + 00E6	E6	E6	E6	91	91	SER
C	U + 00E7	E7	E7	E7	87	87	8D
mi	U + 00E8	E8	E8	E8	8A	8A	8F
mi	U + 00E9	E9	E9	E9	82	82	8E
mi	U + 00EA	EA	EA	EA	88	88	90
mi	U + 00EB	EB	EB	EB	89	89	91
I	U + 00EC	CE	CE	CE	8D	8D	93
I	U + 00ED	ED	ED	ED	A1	A1	92
I	U + 00EE	EE	EE	EE	8C	8C	94
I	U + 00EF	EF	EF	EF	8B	8B	95
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
D	U + 00F0	F0	F0	F0		D0
norte	U + 00F1	F1	F1	F1	A4	A4	96
ò	U + 00F2	F2	F2	F2	95	95	98
ó	U + 00F3	F3	F3	F3	A2	A2	97
ô	U + 00F4	F4	F4	F4	93	93	99
õ	U + 00F5	F5	F5	F5		E4	9B
ö	U + 00F6	F6	F6	F6	94	94	9A
÷	U + 00F7	F7	F7	F7	F6	F6	D6
ø	U + 00F8	F8	F8	F8		9B	BF
ù	U + 00F9	F9	F9	F9	97	97	9D
ú	U + 00FA	FA	FA	FA	A3	A3	9C
û	U + 00FB	pensión completa	pensión completa	pensión completa	96	96	9E
ü	U + 00FC	FC	FC	FC	81	81	9F
ý	U + 00FD	FD	FD	FD		CE
þ	U + 00FE	FE	FE	FE		E7
ÿ	U + 00FF	FF	FF	FF	98	98	D8
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
I	U + 0131					D5	F5
Œ	U + 0152		antes de Cristo	8C			CE
œ	U + 0153		BD	9C			CF
S	U + 0160		A6	8A
s	U + 0161		A8	9A
Ÿ	U + 0178		SER	9F			D9
Ž	U + 017D		B4	8E
ž	U + 017E		B8	9E
ƒ	U + 0192			83	9F	9F	C4
ˆ	U + 02C6			88			F6
ˇ	U + 02C7						FF
˘	U + 02D8						F9
˙	U + 02D9						FA
˚	U + 02DA						pensión completa
˛	U + 02DB						FE
˜	U + 02DC			98			F7
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
˝	U + 02DD						FD
Γ	U + 0393				E2
Θ	U + 0398				E9
Σ	U + 03A3				E4
Φ	U + 03A6				E8
Ω	U + 03A9				EA		BD
α	U + 03B1				E0
δ	U + 03B4				EB
ε	U + 03B5				EE
π	U + 03C0				E3		B9
σ	U + 03C3				E5
τ	U + 03C4				E7
φ	U + 03C6				ED
-	U + 2013			96			D0
-	U + 2014			97			D1
‗	U + 2017					F2
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
'	U + 2018			91			D4
'	U + 2019			92			D5
‚	U + 201A			82			E2
"	U + 201C			93			D2
"	U + 201D			94			D3
„	U + 201E			84			E3
†	U + 2020			86			A0
‡	U + 2021			87			E0
•	U + 2022			95			A5
...	U + 2026			85			C9
‰	U + 2030			89			E4
‹	U + 2039			8B			corriente continua
›	U + 203A			9B			DD
⁄	U + 2044						DA
ⁿ	U + 207F				FC
₧	U + 20A7				9E
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
€	U + 20AC		A4	80		(D5) ^{[nb 1]}^[2]^[3]	DB
™	U + 2122			99			Automóvil club británico
∂	U + 2202						B6
∆	U + 2206						C6
∏	U + 220F						B8
∑	U + 2211						B7
∙	U + 2219				F9
√	U + 221A				pensión completa		C3
∞	U + 221E				CE		B0
∩	U + 2229				EF
∫	U + 222B						licenciado en Letras
≈	U + 2248				F7		C5
≠	U + 2260						ANUNCIO
≡	U + 2261				F0
≤	U + 2264				F3		B2
≥	U + 2265				F2		B3
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
⌐	U + 2310				A9
⌠	U + 2320				F4
⌡	U + 2321				F5
─	U + 2500				C4	C4
│	U + 2502				B3	B3
┌	U + 250C				DA	DA
┐	U + 2510				BF	BF
└	U + 2514				C0	C0
┘	U + 2518				D9	D9
├	U + 251C				C3	C3
┤	U + 2524				B4	B4
┬	U + 252C				C2	C2
┴	U + 2534				C1	C1
┼	U + 253C				C5	C5
═	U + 2550				CD	CD
║	U + 2551				licenciado en Letras	licenciado en Letras
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
╒	U + 2552				D5
╓	U + 2553				D6
╔	U + 2554				C9	C9
╕	U + 2555				B8
╖	U + 2556				B7
╗	U + 2557				cama y desayuno	cama y desayuno
╘	U + 2558				D4
╙	U + 2559				D3
╚	U + 255A				C8	C8
╛	U + 255B				SER
╜	U + 255C				BD
╝	U + 255D				antes de Cristo	antes de Cristo
╞	U + 255E				C6
╟	U + 255F				C7
╠	U + 2560				CC	CC
╡	U + 2561				B5
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
╢	U + 2562				B6
╣	U + 2563				B9	B9
╤	U + 2564				D1
╥	U + 2565				D2
╦	U + 2566				CB	CB
╧	U + 2567				CF
╨	U + 2568				D0
╩	U + 2569				California	California
╪	U + 256A				D8
╫	U + 256B				D7
╬	U + 256C				CE	CE
▀	U + 2580				DF	DF
▄	U + 2584				corriente continua	corriente continua
█	U + 2588				DB	DB
▌	U + 258C				DD
▐	U + 2590				Delaware
Personaje	Punto de código	ISO-8859-1	ISO-8859-15	VENTANAS-1252	IBM437	IBM850	MACINTOSH
°	U + 2591				B0	B0
▒	U + 2592				B1	B1
▓	U + 2593				B2	B2
■	U + 25A0				FE	FE
◊	U + 25CA						D7
fi	U + FB01						Delaware
fl	U + FB02						DF

Las asignaciones para las páginas de códigos de IBM provienen del sitio Unicode proporcionado por Microsoft . Consulte el documento del Consorcio Unicode sobre las diferencias entre las asignaciones de IBM y Microsoft para estas páginas de códigos.
IBM437 e IBM850 definieron caracteres imprimibles para los rangos de códigos de control. Si bien estos no se pueden usar al imprimir texto a través de DOS , ya que quedarían atrapados antes de llegar a la pantalla, podrían ser usados por aplicaciones que usaran la memoria de la pantalla directamente.
Macintosh tiene un logotipo de Apple ⟨⟩ en 0xF0 y lo traduce a U + F8FF en el Área de uso privado para Unicode.

Notas [ editar ]

^ PC DOS 2000 de IBM, lanzado en 1998, cambió su definición de la página de códigos 850 a lo que llamaron la página de códigos modificada 850 que ahora incluye el símbolo del euro en el punto de código 213 en lugar de agregar soporte para la nueva página de códigos 858 . La razón de esto podría deberse a las restricciones existentes en la implementación de la lógica de cambio de página de códigos en MS-DOS / PC DOS , que limitaba los archivos .CPI a un tamaño de 64 KB o aproximadamente seis páginas de códigos como máximo, una limitación que se eludió en algunas versiones OEM de MS-DOS, en Windows NT , y tampoco existe en DR-DOS. Además, el analizador en MS-DOS / PC DOS limita el número de posibles entradas de país / página de códigos en archivos COUNTRY.SYS a un máximo de 146 o 438, una limitación que no existe en DR-DOS. Por lo tanto, agregar soporte para la página de códigos 858 podría haber significado eliminar otra (por ejemplo, la página de códigos 850) al mismo tiempo, lo que podría no haber sido una solución viable en ese momento, dado que algunas aplicaciones estaban programadas para usar la página de códigos 850.

Referencias [ editar ]

^ "00858" . Páginas de códigos por CPGID . IBM . Archivado desde el original el 6 de junio de 2016 . Consultado el 6 de junio de 2016 .
↑ Paul, Matthias R. (15 de agosto de 2001). "Cambio de páginas de códigos en FreeDOS" (Especificación de diseño técnico basada en fd-dev post [1] ). Archivado desde el original el 6 de junio de 2016 . Consultado el 6 de junio de 2016 . El nuevo ID oficial para la "página de códigos 850 con EURO SIGN" multilingüe es 858, no 850. IBM cambiará para usar 858 en lugar de su variante 850 con futuras ediciones de sus productos. [...] Sólo puedo imaginar por qué no añadir 858 a sus EGAx.CPI , COUNTRY.SYS y KEYBOARD.SYS archivos en el PC DOS 2000. Muchas aplicaciones de terceros están diseñadas para funcionar con 850 y no conocían 858 cuando se lanzó PC DOS 2000, por lo que es más fácil para todos, pero desafortunadamente no es compatible. […] Como se explicó anteriormente, COUNTRY.SYS y KEYBOARD.SYS contienen solo dos entradas de página de códigos para un país determinado en las ediciones occidentales de DOS. (En las ediciones árabe y hebrea, puede haber hasta 8 páginas de códigos para un país, en teoría no hay límite por debajo del rango de páginas de códigos permitidas 1..65534). […] El problema es que eliminar el soporte para 850 podría haber causado problemas de compatibilidad con aplicaciones que están programadas para usar 850. Agregar 858 como tercera opción a todos los archivos habría aumentado significativamente el tamaño de los archivos y las tablas. El analizador de archivos COUNTRY.SYS en MS-DOS / PC DOS IO.SYS / IBMBIO.COMreserva un bloc de notas de 6 Kb (para DOS 6) para cargar toda la información. Esto permite que se acepten un máximo de 438 entradas en un archivo COUNTRY.SYS; de lo contrario, aparecerá el mensaje "COUNTRY.SYS demasiado grande". El analizador NLSFUNC no tiene esta limitación, y los analizadores de archivos en DR-DOS (kernel y NLSFUNC) tampoco conocen tal restricción. Las versiones anteriores de MS-DOS / PC DOS incluso tenían un búfer de 2 Kb para un máximo de 146 entradas.
↑ Paul, Matthias R. (27 de agosto de 2001). "Cambio de páginas de códigos en FreeDOS (seguimiento)" . Archivado desde el original el 1 de octubre de 2014 . Consultado el 8 de mayo de 2013 . […] También se podrían crear archivos .CPI personalizados en el estilo tradicional FONT sin dificultades, pero solo se podrían almacenar hasta […] seis páginas de códigos en un archivo de este tipo si fuera utilizable por MS-DOS / PC DOS (algunos OEM problemas y NT puede manejar archivos de más de 64 Kb, pero MS-DOS / PC DOS no puede).

[NB_PCDOS_CP850-2] PC DOS 2000 de IBM, lanzado en 1998, cambió su definición de la página de códigos 850 a lo que llamaron la página de códigos modificada 850 que ahora incluye el símbolo del euro en el punto de código 213 en lugar de agregar soporte para la nueva página de códigos 858 . La razón de esto podría deberse a las restricciones existentes en la implementación de la lógica de cambio de página de códigos en MS-DOS / PC DOS , que limitaba los archivos .CPI a un tamaño de 64 KB o aproximadamente seis páginas de códigos como máximo, una limitación que se eludió en algunas versiones OEM de MS-DOS, en Windows NT , y tampoco existe en DR-DOS. Además, el analizador en MS-DOS / PC DOS limita el número de posibles entradas de país / página de códigos en archivos COUNTRY.SYS a un máximo de 146 o 438, una limitación que no existe en DR-DOS. Por lo tanto, agregar soporte para la página de códigos 858 podría haber significado eliminar otra (por ejemplo, la página de códigos 850) al mismo tiempo, lo que podría no haber sido una solución viable en ese momento, dado que algunas aplicaciones estaban programadas para usar la página de códigos 850.

[IBM2-1] "00858" . Páginas de códigos por CPGID . IBM . Archivado desde el original el 6 de junio de 2016 . Consultado el 6 de junio de 2016 .

[Paul_2001_CPSwitch-438-Entries-3] Paul, Matthias R. (15 de agosto de 2001). "Cambio de páginas de códigos en FreeDOS" (Especificación de diseño técnico basada en fd-dev post [1] ). Archivado desde el original el 6 de junio de 2016 . Consultado el 6 de junio de 2016 . El nuevo ID oficial para la "página de códigos 850 con EURO SIGN" multilingüe es 858, no 850. IBM cambiará para usar 858 en lugar de su variante 850 con futuras ediciones de sus productos. [...] Sólo puedo imaginar por qué no añadir 858 a sus EGAx.CPI , COUNTRY.SYS y KEYBOARD.SYS archivos en el PC DOS 2000. Muchas aplicaciones de terceros están diseñadas para funcionar con 850 y no conocían 858 cuando se lanzó PC DOS 2000, por lo que es más fácil para todos, pero desafortunadamente no es compatible. […] Como se explicó anteriormente, COUNTRY.SYS y KEYBOARD.SYS contienen solo dos entradas de página de códigos para un país determinado en las ediciones occidentales de DOS. (En las ediciones árabe y hebrea, puede haber hasta 8 páginas de códigos para un país, en teoría no hay límite por debajo del rango de páginas de códigos permitidas 1..65534). […] El problema es que eliminar el soporte para 850 podría haber causado problemas de compatibilidad con aplicaciones que están programadas para usar 850. Agregar 858 como tercera opción a todos los archivos habría aumentado significativamente el tamaño de los archivos y las tablas. El analizador de archivos COUNTRY.SYS en MS-DOS / PC DOS IO.SYS / IBMBIO.COMreserva un bloc de notas de 6 Kb (para DOS 6) para cargar toda la información. Esto permite que se acepten un máximo de 438 entradas en un archivo COUNTRY.SYS; de lo contrario, aparecerá el mensaje "COUNTRY.SYS demasiado grande". El analizador NLSFUNC no tiene esta limitación, y los analizadores de archivos en DR-DOS (kernel y NLSFUNC) tampoco conocen tal restricción. Las versiones anteriores de MS-DOS / PC DOS incluso tenían un búfer de 2 Kb para un máximo de 146 entradas.

[Paul_2001_CPSwitch-64KB-Size-4] Paul, Matthias R. (27 de agosto de 2001). "Cambio de páginas de códigos en FreeDOS (seguimiento)" . Archivado desde el original el 1 de octubre de 2014 . Consultado el 8 de mayo de 2013 . […] También se podrían crear archivos .CPI personalizados en el estilo tradicional FONT sin dificultades, pero solo se podrían almacenar hasta […] seis páginas de códigos en un archivo de este tipo si fuera utilizable por MS-DOS / PC DOS (algunos OEM problemas y NT puede manejar archivos de más de 64 Kb, pero MS-DOS / PC DOS no puede).

vtmiCodificaciones de caracteres
Telecomunicaciones tempranas	Código de telégrafo Aguja morse No latino Wabun / Kana chino cirílico coreano Baudot y Murray FIELDATA ASCII ISO / IEC 646 BCDIC 353 355 357 358 359 360 EBCDIC Teletex y videotex / teletexto ISO / IEC 6937 / ITU T.51 UIT T.61 UIT T.101 Teletexto del sistema mundial antecedentes conjuntos
ISO / IEC 8859	Partes aprobadas -1 (Europa occidental) -2 (Europa Central) -3 (maltés / esperanto) -4 (norte de Europa) -5 (cirílico) -6 (árabe) -7 (griego) -8 (hebreo) -9 (turco) -10 (nórdico) -11 (tailandés) -13 (Báltico) -14 (celta) -15 (Nueva Europa Occidental) -16 (rumano) Partes abandonadas -12 (Devanagari) Propuesto pero no aprobado Cirílico KOI-8 Sámi Francés / holandés / turco Adaptaciones galés Cirílico de Barents Cirílico del Volga Estonio Cirílico ucraniano
Uso bibliográfico	MARC-8 ANSEL CCCII / EACC ISO 5426 / 5426-2 / 5,427 mil / 5,428 / 6438 /6 861 / 6.862 mil / 10 585 /10586/10754/11822
Estándares nacionales	ArmSCII BraSCII CNS 11643 ELOT 927 GOST 10859 GB 2312 GB 12052 GB 18030 HKSCS ES 434 ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1284 LST 1564 LST 1590-1 LST 1590-2 LST 1590-3 LST 1590-4 PASCII RUSCII SI 960 TIS-620 TSCII VISCII VSCII YUSCII
ISO / IEC 2022	7 bits CN CN-EXT JP JP-EXT JP-1 JP-2 JP-3 KR ISO / IEC 4873 ISO / IEC 8859 ISO / IEC 10367 Código Unix extendido / EUC CN KR JP TW
Páginas de códigos de Mac OS ("scripts")	armenio Arábica Cirílico de Barents céltico CentEuro ChineseSimp / EUC-CN ChineseTrad / Big5 croata cirílico Devanagari / ISCII Dingbats Farsi (persa) gaélico georgiano griego Gujarati / ISCII Gurmukhi / ISCII hebreo Islandia Inuit Japonés / Shift JIS Teclado Coreano / EUC-KR Latín (Kermit) Maltés / esperanto Ogham / IS 434 romano rumano Sámi Símbolo Tailandés / TIS-620 turco Cirílico turco ucranio VT100
Páginas de códigos de DOS	100 111 112 113 151 152 161 162 163 164 165 166 210 220 301 437 449 489 620 667 668 707 708 709 710 711 714 715 720 721 737 768 770 771 772 773 774 775 776 777 778 790 850 851 852 853 854 855 / 872 856 857 858 859 860 861 862 863 864 865 866 / 808 867 868 869 874 / 1161 / 1162 876 877 878 881 882 883 884 885 891 895 896 897 898 899 900 903 904 906 907 909 910 911 926 927 928 929 932 934 936 938 941 942 943 944 946 947 948 949 950/1370 951 966 991 1034 1039 1040 1041 1042 1043 1044 1046 1086 1088 1092 1093 1098 1108 1109 1114 1115 1116 1117 1118 1119 1125 / 848 1126 1127 1131 / 849 1139 1167 1168 1300 1351 1361 1362 1363 1372 1373 1374 1375 1380 1381 1385 1386 1391 1392 1393 1394 3012 3021 3843 3844 3845 3846 3847 3848 30000 30001 30002 30003 30004 30005 30006 30007 30008 30009 30010 30011 30012 30013 30014 30015 30016 30017 30018 30019 30020 30021 30022 30023 30024 30025 30026 30027 30028 30029 30030 30031 30032 30033 30034 30039 30040 58152 58210 58335 59234 59829 60258 60853 61282 62306 CS Indic CSX Indic CSX + Indic CWI-2 Sistema de Irán Kamenický KOI8 Mazovia MIK
Páginas de códigos de IBM AIX	367 371 806 813 819 895 896 912 913 914 915 916 919 920 921 / 901 922 / 902 923 952 953 954 955 956 957 958 959 960 961 963 964 965 970 971 1004 1006 1008 1009 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1029 1036 1089 1111 1124 1129 / 1163 1133 1350 1382 1383
Páginas de códigos de IBM para codificaciones de otros proveedores	Apple Macintosh 1275 1280 1281 1282 1283 1284 1285 1286 Adobe 1038 1276 1277 DIC 1020 1021 1023 1090 1100 1101 1102 1103 1104 1105 1106 1107 1287 1288 HP 1050 1051 1052 1053 1054 1055 1056 1057 1058
Páginas de códigos de Windows	CER-GS 874 / 1,162 mil ( TIS-620 ) 932 / 943 ( JIS Shift ) 936 / 1386 ( GBK ) 950 / 1,37 mil ( Big5 ) 949 / 1,363 ( EUC-KR ) 1169 1174 Latín-8 extendido 1200 ( UTF-16LE ) 1201 ( UTF-16BE ) 1250 1251 1252 1253 1254 1255 1256 1257 1258 1261 1270 54936 (GB18030) armenio Cirílico + finlandés Cirílico + Francés Cirílico + Alemán Griego politónico 65001 ( UTF-8 )
Páginas de códigos de Microsoft para codificaciones de otros proveedores	Apple Macintosh 10000 10001 10002 10003 10004 10005 10006 10007 10008 10010 10017 10021 10029 10079 10081 10082
Páginas de códigos EBCDIC	37 390 391 392 393 394 395 435 829 834 835 837 839 881 882 883 884 885 886 887 888 889 890 931 933 / 1364 935 / 1388 937 / 1371 939 / 1399 1001 1003 1005 1007 1024 1027 1028 1030 1031 1032 1033 1037 1068 1071 1073 1074 1075 1076 1077 1078 1080 1082 1083 1085 1087 1091 1136 1150 1151 1152 1278 1279 1303 1364 1376 1377
Terminales DEC ( VTx )	Multinacional (MCS) Reemplazo nacional (NRCS) Franco canadiense suizo Español Reino Unido holandés finlandés francés Noruego y danés sueco Noruego y danés (alternativo) Griego de 8 bits Turco de 8 bits Hebreo de 7 bits Hebreo de 8 bits Gráficos especiales Técnico (TCS)
Plataforma específica	Bellota Estándar de Adobe Adobe Latin 1 CPC de Amstrad Apple I Manzana II Manzana III ATASCII Atari ST BICS Calculadoras casio Centros para el Control y la Prevención de Enfermedades Compucolor II CP / M + DEC RADIX 50 DEC MCS / NRCS DG Internacional ELWRO-Junior FIELDATA JOYA GEOS GSM 03.38 Extensión HP Roman HP Roman-8 HP Roman-9 HP FOCAL HP RPL IBM SQUOZE LICS LMBCS Acuario Mattel Minitel MSX NEC APC Siguiente OricSCII PCW PETSCII Sega SC-3000 Calculadoras afiladas Sharp MZ Sinclair QL Teletexto Calculadoras de TI TRS-80 Ventura Internacional Símbolo de Ventura WISCII XCCS ZX80 ZX81 Espectro ZX
Unicode / ISO / IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 ( UTF-16LE / UTF-16BE ) / UCS-2 UTF-32 ( UTF-32LE / UTF-32BE ) / UCS-4 UTF-EBCDIC GB 18030 BOCU-1 CESU-8 SCSU
Sistema de composición tipográfica TeX	corcho IL1 IL2 IL3 L7X LGR LY1 OML OMS OMX OT1 OT2 OT3 OT4 PL0 QX T2A T2B T2C DT2 T3 T4 T5 TS1 TS3 U X2
Páginas de códigos misceláneos	ABICOMP APL 293 310 (Escape gráfico) 351 (GDDM) 907 (OEM) ISO-IR-68 ARIB STD-B24 HZ IEC-P27-1 INIS 7 bits 8 bits cirílico ISO-IR-169 ISO 2033 Johab Mojikyō SEASCII Stanford / ITS TACE16 TRON UTF-5 UTF-6 WTF-8
Juegos de caracteres de control y no imprimibles	Morse prosigna Códigos de control C0 y C1 ISO / IEC 6429 / ANSI X3.64 / ECMA-48 / JIS X 0211 ISO 6630 DIN 31626 JIS X 0207 UIT T.101 C0 C1 Códigos de control EBCDIC Caracteres de control, formato y separador Unicode Caracteres de espacio en blanco
Temas relacionados	Página de código Página de códigos de Windows CCSID Codificaciones de caracteres en HTML Detección de juego de caracteres Unificación Han Hardware Mojibake
Conjuntos de caracteres