Caracteres del conjunto de caracteres universales


El Consorcio Unicode e ISO/IEC JTC 1/SC 2 /WG 2 colaboran en el Juego de Caracteres Universales (UCS). El UCS es un estándar internacional para asignar caracteres utilizados en el lenguaje natural, las matemáticas, la música y otros dominios a valores legibles por máquina. Al crear este mapeo, el UCS permite a los proveedores de software de computadora interoperar y transmitir cadenas de texto codificadas en UCS de uno a otro. Debido a que es un mapa universal, se puede utilizar para representar varios idiomas al mismo tiempo. Esto evita la confusión de usar múltiples codificaciones de caracteres heredadas , que pueden dar como resultado que la misma secuencia de códigos tenga múltiples significados y, por lo tanto, se decodifique incorrectamente si se elige el incorrecto.

UCS tiene una capacidad potencial para codificar más de 1 millón de caracteres. Cada carácter UCS está representado de forma abstracta por un punto de código , que es un número entero entre 0 y 1 114 111, que se utiliza para representar cada carácter dentro de la lógica interna del software de procesamiento de texto (1 114 112 = 2 20 + 2 16 o 17 × 2 16 , o hexadecimal 110.000 puntos de código). A partir de Unicode 14.0, lanzado en septiembre de 2021, se asignan 288 512 (26 %) de estos puntos de código, incluidos 144 762 (13 %) caracteres asignados, 137 468 (12,3 %) reservados para uso privado , 2048 para sustitutos y 66 no caracteres designados, dejando 825.600 (74%) sin asignar. El número de caracteres codificados se compone de la siguiente manera:

ISO mantiene el mapeo básico de caracteres desde el nombre del personaje hasta el punto de código. A menudo, los términos "carácter" y "punto de código" se usan indistintamente. Sin embargo, cuando se hace una distinción, un punto de código se refiere al número entero del carácter: lo que uno podría considerar como su dirección. Mientras que un carácter en UCS 10646 incluye la combinación del punto de código y su nombre, Unicode agrega muchas otras propiedades útiles al conjunto de caracteres, como bloque, categoría, script y direccionalidad.

Los usuarios finales de software de computadora ingresan estos caracteres en los programas a través de varios métodos de entrada. Los métodos de entrada pueden ser a través del teclado o una paleta de caracteres gráficos.

El UCS se puede dividir de varias maneras, como por plano , bloque, categoría de carácter o propiedad de carácter. [1]

Una referencia de carácter numérico HTML o XML hace referencia a un carácter por su punto de código Unicode/ Conjunto de caracteres universal y utiliza el formato


Ejemplo de uso de barra oblicua de fracción . Este tipo de letra ( Apple Chancery ) muestra la fracción común sintetizada a la izquierda y el glifo de fracción precompuesta a la derecha como representación de la cadena de texto sin formato "1 1⁄4 1¼". Según el entorno de texto, la cadena única "1 1⁄4" podría producir cualquiera de los dos resultados, el de la derecha mediante la sustitución de la secuencia de fracción con el glifo de fracción precompuesto único.
Un ejemplo más elaborado del uso de la barra inclinada de fracción: texto sin formato "4 221⁄225" representado en Apple Chancery . Esta fuente proporciona al software de diseño de texto instrucciones para sintetizar la fracción de acuerdo con la regla Unicode descrita en esta sección.