Windows-1252


Windows-1252 o CP-1252 ( página de códigos 1252) es una codificación de caracteres de un solo byte del alfabeto latino , que se usa de manera predeterminada en los componentes heredados de Microsoft Windows para inglés y muchos idiomas europeos, incluidos español, francés y alemán.

Es la codificación de caracteres de un solo byte más utilizada en el mundo ( al menos en sitios web ). En abril de 2022 , el 0,3 % de todos los sitios web declararon el uso de Windows-1252, [2] [3] pero, al mismo tiempo, el 1,2 % [2] usó ISO 8859-1 (mientras que solo 4 de los 1000 sitios web principales [4] ), que según los estándares de HTML5 debería considerarse la misma codificación, [5] de modo que el 1,5 % de los sitios web utilizan efectivamente Windows-1252. Las páginas declaradas como US- ASCII también contarían como este conjunto de caracteres. Un subconjunto desconocido (pero probablemente grande) de otras páginas usa solo la parte ASCII de UTF-8, o solo los códigos que coincidan con Windows-1252 de su conjunto de caracteres declarado, y también podrían contarse.

Dependiendo del país, el uso puede ser mucho más alto que el promedio mundial, por ejemplo, para Alemania, según el uso del sitio web (incluido ISO-8859-1) en 4,9%. [6] [7]

Esta codificación de caracteres es un superconjunto de ISO 8859-1 en términos de caracteres imprimibles, pero se diferencia de la ISO-8859-1 de IANA en el uso de caracteres visualizables en lugar de caracteres de control en el rango de 80 a 9F ( hexadecimal ). Los caracteres adicionales notables incluyen comillas tipográficas y todos los caracteres imprimibles que se encuentran en ISO 8859-15 (en lugares diferentes a los de ISO 8859-15). Windows lo conoce por el número de página de códigos 1252 y por el nombre aprobado por IANA "windows-1252".

Es muy común etiquetar incorrectamente el texto de Windows-1252 con la etiqueta de conjunto de caracteres ISO-8859-1. Un resultado común fue que todas las comillas y apóstrofes (producidos por "comillas tipográficas" en el software de procesamiento de texto) se reemplazaron con signos de interrogación o cuadros en sistemas operativos que no son de Windows, lo que dificulta la lectura del texto. La mayoría de los navegadores web y clientes de correo electrónico modernos tratan el juego de caracteres de tipo multimedia ISO-8859-1 como Windows-1252 para adaptarse a este tipo de etiquetado incorrecto. Este es ahora un comportamiento estándar en la especificación HTML5, que requiere que los documentos anunciados como ISO-8859-1 se analicen con la codificación Windows-1252. [5]

Históricamente, la frase "Página de códigos ANSI" se usaba en Windows para referirse a codificaciones que no son de DOS; la intención era que la mayoría de estos fueran estándares ANSI como ISO-8859-1 . A pesar de que Windows-1252 fue la primera página de códigos, y con mucho, la más popular, nombrada así en el lenguaje de Microsoft Windows, la página de códigos nunca ha sido un estándar ANSI. Microsoft explica: "El término ANSI, tal como se usa para referirse a las páginas de códigos de Windows, es una referencia histórica, pero hoy en día es un nombre inapropiado que persiste en la comunidad de Windows". [8]