En la terminología de codificación de caracteres , un punto de código o posición de código es cualquiera de los valores numéricos que componen el espacio de código . [1] [2] Muchos puntos de código representan caracteres individuales pero también pueden tener otros significados, como por ejemplo para formatear. [3]
Por ejemplo, el esquema de codificación de caracteres ASCII comprende 128 puntos de código en el rango 0 hex a 7F hex , ASCII extendido comprende 256 puntos de código en el rango 0 hex a FF hex y Unicode comprende 1,114,112 puntos de código en el rango 0 hex a 10FFFF hex . El espacio de código Unicode se divide en diecisiete planos (el plano multilingüe básico y 16 planos suplementarios), cada uno con 65.536 (= 2 16 ) puntos de código. Por lo tanto, el tamaño total del espacio de código Unicode es 17 × 65,536 = 1,114,112.
Definición
La noción de un punto de código se utiliza para la abstracción, para distinguir ambos:
- el número de una codificación como una secuencia de bits , y
- el carácter abstracto de una representación gráfica particular ( glifo ).
Esto se debe a que uno puede desear hacer estas distinciones para:
- codificar un espacio de código en particular de diferentes maneras, o
- mostrar un carácter a través de diferentes glifos.
Para Unicode, la secuencia particular de bits se denomina unidad de código ; para la codificación UCS-4 , cualquier punto de código se codifica como números binarios de 4 bytes ( octetos ) , mientras que en la codificación UTF-8 , los diferentes puntos de código se codifican como secuencias de uno a cuatro bytes de longitud, formando un código de sincronización automática . Consulte la comparación de codificaciones Unicode para obtener más detalles. Los puntos de código se asignan normalmente a caracteres abstractos . Un carácter abstracto no es un glifo gráfico sino una unidad de datos textuales. Sin embargo, los puntos de código también pueden dejarse reservados para asignaciones futuras (la mayor parte del espacio de código Unicode no está asignado) o para otras funciones designadas.
La distinción entre un punto de código y el carácter abstracto correspondiente no se pronuncia en Unicode, pero es evidente para muchos otros esquemas de codificación, donde pueden existir numerosas páginas de códigos para un solo espacio de código.
Historia
El concepto de un punto de código es parte de la solución de Unicode a un enigma difícil al que se enfrentaron los desarrolladores de codificación de caracteres en la década de 1980. [4] Si agregaran más bits por carácter para acomodar conjuntos de caracteres más grandes, esa decisión de diseño también constituiría un desperdicio inaceptable de los recursos informáticos entonces escasos para los usuarios de escritura latina (que constituían la gran mayoría de los usuarios de computadoras en ese momento), ya que esos bits adicionales siempre se pondrían a cero para dichos usuarios. [5] El punto de código evita este problema rompiendo la vieja idea de una correspondencia directa uno a uno entre caracteres y secuencias particulares de bits.
Ver también
Referencias
- ^ Glosario de términos Unicode
- ^ "The Unicode® Standard Version 11.0 - Core Specification" (PDF) . Consorcio Unicode . 30 de junio de 2018. p. 22. Archivado desde el original (pdf) el 19 de septiembre de 2018 . Consultado el 25 de diciembre de 2018 .
En una computadora, los caracteres abstractos se codifican internamente como números. Para crear una codificación de caracteres completa, es necesario definir la lista de todos los caracteres a codificar y establecer reglas sistemáticas sobre cómo los números representan los caracteres. El rango de números enteros que se utiliza para codificar los caracteres abstractos se denomina espacio de código. Un entero particular de este conjunto se denomina punto de código. Cuando un carácter abstracto se mapea o se asigna a un punto de código particular en el espacio de código, se lo denomina carácter codificado.
- ^ "The Unicode® Standard Version 11.0 - Core Specification" (PDF) . Consorcio Unicode . 30 de junio de 2018. p. 23. Archivado desde el original (pdf) el 19 de septiembre de 2018 . Consultado el 25 de diciembre de 2018 .
Formato: Invisible pero afecta a personajes vecinos; incluye separadores de línea / párrafo
- ^ Constable, Peter (13 de junio de 2001). "Comprensión de Unicode ™ - I" . NRSI: Computadoras y sistemas de escritura . Archivado desde el original (html) el 16 de septiembre de 2010 . Consultado el 25 de diciembre de 2018 .
A principios de la década de 1980, la industria del software comenzaba a reconocer la necesidad de una solución a los problemas relacionados con el uso de múltiples estándares de codificación de caracteres. En Xerox se inició un trabajo particularmente innovador. La estación de trabajo Xerox Star utilizó una codificación de varios bytes que le permitió admitir un solo juego de caracteres con potencialmente millones de caracteres.
- ^ Mark Davis, Ken Whistler (23 de marzo de 2001). "Estándar técnico Unicode # 10 ALGORITMO DE COLOCACIÓN DE UNICODE" . Consorcio Unicode . Archivado desde el original (html) el 25 de agosto de 2001 . Consultado el 25 de diciembre de 2018 .
6.2 Valores de peso grandes
Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )