De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

Windows-1252 o CP-1252 ( página de códigos 1252) es una codificación de caracteres de un solo byte del alfabeto latino , que se utiliza de forma predeterminada en los componentes heredados de Microsoft Windows para inglés y muchos idiomas europeos, incluidos español, francés y alemán.

Es la codificación de caracteres de un solo byte más utilizada en el mundo. En marzo de 2021 , el 0,3% de todos los sitios web declararon el uso de Windows-1252, [2] [3] pero al mismo tiempo el 1,4% [2] utilizaba ISO 8859-1 (mientras que solo el 0,8% de los 1000 sitios web principales [ 4] ), que según los estándares HTML5 debería considerarse la misma codificación, [5] de modo que el 1,7% de los sitios web utilizan efectivamente Windows-1252. Las páginas declaradas como US- ASCII también contarían como este juego de caracteres. Un subconjunto desconocido (pero probablemente grande) de otras páginas solo usa la porción ASCII de UTF-8, o solo los códigos que coinciden con Windows-1252 de su juego de caracteres declarado, y también podrían contarse.

Dependiendo del país, el uso puede ser mucho más alto que el promedio mundial, por ejemplo, para Alemania (incluida la norma ISO-8859-1) con un 6,4%. [6] [7]

Detalles [ editar ]

Esta codificación de caracteres es un superconjunto de ISO 8859-1 en términos de caracteres imprimibles, pero se diferencia del ISO-8859-1 de IANA por el uso de caracteres visualizables en lugar de caracteres de control en el rango de 80 a 9F ( hexadecimal ). Los caracteres adicionales notables incluyen comillas rizadas y todos los caracteres imprimibles que están en ISO 8859-15 (en lugares diferentes a ISO 8859-15). Windows lo conoce por el número de página de códigos 1252 y por el nombre aprobado por IANA "windows-1252".

Es muy común etiquetar incorrectamente el texto de Windows-1252 con la etiqueta de juego de caracteres ISO-8859-1. Un resultado común fue que todas las comillas y apóstrofos (producidos por "comillas tipográficas" en software de procesamiento de texto) fueron reemplazados por signos de interrogación o cuadros en sistemas operativos que no son Windows, lo que dificulta la lectura del texto. La mayoría de los navegadores web y clientes de correo electrónico modernos tratan el juego de caracteres de tipo de medio ISO-8859-1 como Windows-1252 para adaptarse a este tipo de etiquetado incorrecto. Este es ahora un comportamiento estándar en la especificación HTML5, que requiere que los documentos anunciados como ISO-8859-1 se analicen realmente con la codificación Windows-1252. [5]

Históricamente, la frase "Página de códigos ANSI" se usaba en Windows para referirse a codificaciones que no eran de DOS; la intención era que la mayoría de estos fueran estándares ANSI como ISO-8859-1 . Aunque Windows-1252 fue la primera página de códigos y, con mucho, la más popular nombrada así en el lenguaje de Microsoft Windows, la página de códigos nunca ha sido un estándar ANSI. Microsoft explica: "El término ANSI, tal como se usa para designar las páginas de códigos de Windows, es una referencia histórica, pero hoy en día es un nombre inapropiado que continúa persistiendo en la comunidad de Windows". [8]

En los paquetes LaTeX , CP-1252 se conoce como "ansinew".

IBM utiliza la página de códigos 1252 ( CCSID 1252 y CCSID 5348 extendido con el símbolo del euro ) para Windows-1252. [9] [10] [11]

Oracle lo llama "WE8MSWIN1252" . [12]

Juego de caracteres [ editar ]

La siguiente tabla muestra Windows-1252. Cada carácter se muestra con su equivalente Unicode basado en el mapeo Unicode.org de Windows-1252 con "mejor ajuste". Los números decimales (con estilo 0123 ) son el código Alt que se puede usar para escribirlos en sistemas Windows. Las diferencias con ISO-8859-1 se muestran con un sombreado más oscuro en la parte superior de sus colores de leyenda.

  Letra  Número  Puntuación  Símbolo  Otro  Indefinido

Según la información de los sitios web de Microsoft y Unicode Consortium, las posiciones 81, 8D, 8F, 90 y 9D no se utilizan; sin embargo, la API de Windows los MultiByteToWideCharasigna a los códigos de control C1 correspondientes . El mapeo de "mejor ajuste" también documenta este comportamiento. [13]

Historia [ editar ]

  • La primera versión de la página de códigos 1252 utilizada en Microsoft Windows 1.0 no tenía las posiciones D7 y F7 definidas. Todos los caracteres en los rangos 80–9F también estaban indefinidos.
  • Se había definido la segunda versión, utilizada en Microsoft Windows 2.0, las posiciones D7, F7, 91 y 92.
  • La tercera versión, utilizada desde Microsoft Windows 3.1, tenía definidas todas las posiciones actuales, excepto el signo del euro y la Z con el par de caracteres caron .
  • La versión final enumerada anteriormente debutó en Microsoft Windows 98 y se trasladó a versiones anteriores de Windows con la actualización del símbolo del euro.

Extensiones de OS / 2 [ editar ]

El sistema operativo OS / 2 admite una codificación con el nombre de página de códigos 1004 ( CCSID 1004) o "Windows Extended". [18] [19] Esto coincide principalmente con la página de códigos 1252, con la excepción de que ciertos caracteres de control C0 se reemplazan por caracteres diacríticos . Las diferencias con ISO-8859-1 se muestran con un sombreado más oscuro en la parte superior de sus colores de leyenda.

Extensiones de MSDOS [poco común] [ editar ]

Hay una página de códigos ampliada de gráficos 1252 rara vez utilizada, pero útil, donde los códigos 0x00 a 0x1f permiten el dibujo de cajas como se usa en aplicaciones como MSDOS Edit y Codeview. Una de las aplicaciones para utilizar esta página de códigos fue una utilidad de imagen de disco de instalación / recuperación de Intel Corporation de mediados / finales de 1995. Estos programas se escribieron para sus máquinas del programa de prueba de usuario P6 (ejemplo de EE. UU. [24] ). Se utilizó exclusivamente en su región EMEA (Europa, Oriente Medio y África). Con el tiempo, los programas se cambiaron para usar la página de códigos 850.

Variante de Palm OS [ editar ]

Palm OS 3.5 utiliza esta variante de Windows-1252 . Python le da la palmosetiqueta. [25]

Ver también [ editar ]

  • Conjuntos de caracteres del latín occidental (informática)
  • Windows-1250

Referencias [ editar ]

  1. ^ Juegos de caracteres , Autoridad de números asignados de Internet (IANA), 12 de diciembre de 2018
  2. ^ a b "Tendencias históricas en el uso de codificaciones de caracteres, febrero de 2021" . Consultado el 1 de marzo de 2021 .
  3. ^ "Preguntas frecuentes" .
  4. ^ "Encuesta de uso de codificaciones de caracteres desglosadas por clasificación" . w3techs.com . Consultado el 12 de abril de 2021 .
  5. ^ a b "Codificación" . WHATWG . 27 de enero de 2015. sec. 5.2 Nombres y etiquetas. Archivado desde el original el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
  6. ^ "Distribución de codificaciones de caracteres entre sitios web que utilizan .de" . w3techs.com . Consultado el 12 de abril de 2021 .
  7. ^ "Distribución de codificaciones de caracteres entre sitios web que usan alemán" . w3techs.com . Consultado el 1 de marzo de 2021 .
  8. ^ Wissink, Cathy (5 de abril de 2002). "Unicode y Windows XP" (PDF) . Microsoft . pag. 1. Archivado (PDF) desde el original el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
  9. ^ "Documento de información de la página de códigos 1252" . Archivado desde el original el 3 de marzo de 2016.
  10. ^ "Documento de información CCSID 1252" . Archivado desde el original el 26 de marzo de 2016.
  11. ^ "Documento de información CCSID 5348" . Archivado desde el original el 29 de noviembre de 2014.
  12. ^ "Guía de instalación del cliente de base de datos" . Oracle . Consultado el 14 de febrero de 2021 . CS1 maint: parámetro desalentado ( enlace )
  13. ^ a b "Asignaciones Unicode de Windows-1252 con 'Mejor ajuste ' " . Unicode . Archivado desde el original el 4 de febrero de 2015 . Consultado el 4 de febrero de 2015 .
  14. ^ Página de códigos CPGID 01252 (pdf) (PDF) , IBM
  15. ^ Página de códigos CPGID 01252 (txt) , IBM
  16. ^ Componentes internacionales para Unicode (ICU), ibm-1252_P100-2000.ucm , 2002-12-03
  17. ^ Componentes internacionales para Unicode (ICU), ibm-5348_P100-1997.ucm , 2002-12-03
  18. ^ "Documento de información de la página de códigos 1004" . Archivado desde el original el 25 de junio de 2015.
  19. ^ "Documento de información CCSID 1004" . Archivado desde el original el 26 de marzo de 2016.
  20. ^ "Página de códigos 01004" (PDF) . IBM . Archivado desde el original (PDF) el 8 de julio de 2015. (versión basada en la versión Windows 3.1 de Windows-1252)
  21. ^ Página de códigos CPGID 01004 (pdf) (PDF) , IBM
  22. ^ Página de códigos CPGID 01004 (txt) , IBM
  23. ^ Borgendale, Ken (2001). "Página de códigos 1004 - Windows extendido" . Páginas de códigos OS / 2 por número . Archivado desde el original el 13 de mayo de 2018 . Consultado el 13 de mayo de 2018 . (versión basada en la versión actual de Windows-1252)
  24. ^ "Rendimiento de los solucionadores de ecuaciones de la NASA en aplicaciones de mecánica computacional" (PDF) . NASA. Archivado desde el original (PDF) el 3 de mayo de 2019.
  25. ^ "Códecs - Registro de códecs y clases base (§ Codificaciones de texto)" . Biblioteca estándar de Python: documentación de Python 3.9.4 . Fundación de software Python .
  26. ^ Mullender, Sjoerd. "Códec de mapeo de caracteres Python para Palm OS 3.5" . Árbol de fuentes de CPython . Fundación de software Python .

Enlaces externos [ editar ]

  • Tablas de códigos de Microsoft para Windows-1252 ("Página de códigos 1252 Windows Latin 1 (ANSI)")
  • Tabla de mapeo Unicode y definición de página de códigos con mapeos de mejor ajuste para Windows-1252