Caracteres del conjunto de caracteres universales

El Consorcio Unicode y el JTC 1/SC 2 / WG 2 de ISO/IEC colaboran conjuntamente en la lista de caracteres del Conjunto de caracteres codificados universales . El conjunto de caracteres codificados universales, más comúnmente llamado conjunto de caracteres universales ( abreviado UCS, designación oficial: ISO / IEC 10646), es un estándar internacional para mapear caracteres , símbolos discretos utilizados en el lenguaje natural , las matemáticas , la música y otros dominios. a valores de datos únicos legibles por máquina . Al crear este mapeo, el UCS permite que la computadora proveedores de software para interoperar y transmitir, intercambiar , cadenas de texto codificadas en UCS de una a otra. Debido a que es un mapa universal , se puede utilizar para representar varios idiomas al mismo tiempo. Esto evita la confusión de usar múltiples codificaciones de caracteres heredadas , lo que puede dar como resultado que la misma secuencia de códigos tenga múltiples interpretaciones dependiendo de la codificación de caracteres en uso, lo que resulta en mojibake si se elige la incorrecta.

UCS tiene una capacidad potencial de más de 1 millón de caracteres. Cada carácter UCS está representado de forma abstracta por un punto de código , un número entero entre 0 y 1 114 111 (1 114 112 = 2 ²⁰ + 2 ¹⁶ o 17 × 2 ¹⁶ = 0x 110 000 puntos de código ), que se utiliza para representar cada carácter dentro de la lógica interna del software de procesamiento de texto . A partir de Unicode 15.0, lanzado en septiembre de 2022, 293 168 (26 %) de estos puntos de código están asignados, 149 251 (13 %) tienen caracteres asignados, 137 468 (12,3 %) están reservados para uso privado, 2048 se utilizan para habilitar el mecanismo de sustitutos , y 66 son designados comono personajes , dejando los 820 944 restantes (74 %) sin asignar. El número de caracteres codificados se compone de la siguiente manera:

ISO mantiene el mapeo básico de caracteres desde el nombre del personaje hasta el punto de código. A menudo, los términos carácter y punto de código se usan indistintamente. Sin embargo, cuando se hace una distinción, un punto de código se refiere al número entero del carácter: lo que uno podría considerar como su dirección. Mientras tanto, un carácter en ISO/IEC 10646 incluye la combinación del punto de código y su nombre, Unicode agrega muchas otras propiedades útiles al conjunto de caracteres, como bloque , categoría, script y direccionalidad .

Además del UCS, el estándar Unicode complementario (no es un proyecto conjunto con ISO, sino una publicación del Consorcio Unicode) proporciona otros detalles de implementación como:

Los usuarios finales de software de computadora ingresan estos caracteres en los programas a través de varios métodos de entrada , por ejemplo, teclados físicos o paletas de caracteres virtuales .

El UCS se puede dividir de varias maneras, como por plano , bloque, categoría de carácter o propiedad de carácter . ^[1]

Ejemplo de uso de barra oblicua de fracción . Este tipo de letra ( Apple Chancery ) muestra la fracción común sintetizada a la izquierda y el glifo de fracción precompuesta a la derecha como representación de la cadena de texto sin formato "1 1⁄4 1¼". Según el entorno de texto, la cadena única "1 1⁄4" podría producir cualquiera de los dos resultados, el de la derecha mediante la sustitución de la secuencia de fracción con el glifo de fracción precompuesto único.

Un ejemplo más elaborado del uso de la barra inclinada de fracción: texto sin formato "4 221⁄225" representado en Apple Chancery . Esta fuente proporciona al software de diseño de texto instrucciones para sintetizar la fracción de acuerdo con la regla Unicode descrita en esta sección.