Nombres y abreviaturas de alias Unicode


En Unicode , los caracteres pueden tener un nombre único . Un personaje también puede tener uno o más nombres de alias . Un nombre de alias puede ser una abreviatura, un nombre de control C0 o C1, una corrección, un nombre alternativo o un invento. Un alias también es único sobre todos los nombres y alias y, por lo tanto, identifica.

El nombre Unicode principal y formal es único en todos los nombres, solo usa ciertos caracteres y formato, y se garantiza que nunca cambiará. El nombre formal consta de caracteres A – Z (mayúsculas), 0–9, "" (espacio) y "-" (guión). Junto a este nombre, un personaje puede tener uno o más nombres de alias formales (normativos) . Dicho alias también sigue las reglas de un nombre: caracteres utilizados (AZ, -, 0-9, ) y no utilizados (az,%, $, etc.). Los nombres de alias también son únicos en el conjunto de nombres completo (es decir, todos los nombres y nombres de alias son únicos en su conjunto combinado). Los nombres de alias se describen formalmente en el estándar Unicode. [1] [2]

En este sentido, una abreviatura también se considera un nombre .

El estándar Unicode también utiliza (publica) "nombres de alias" que no son formales y no se enumeran en el NameAliases.txtarchivo normativo . Estos nombres pueden no ser únicos y pueden usar caracteres incorrectos en su nombre.

Hay cinco posibles razones para asignar un nombre de alias a un punto de código. [1] Un carácter puede tener varios alias: por ejemplo, U + 0008 tiene un alias de control RETROCESO y un alias de abreviatura BS .

1. Abreviatura
Abreviaturas (o acrónimos) comunes para códigos de control, caracteres de formato, espacios y selectores de variación.
Hay 352 de estos alias, incluidos 256 alias para selectores de variantes (VS-1 ... VS-256).
Por ejemplo, U + 00A0 NO-BREAK SPACE tiene alias  NBSP .
Presentación: en las tablas de códigos, la abreviatura se muestra en un cuadro discontinuo:
NBSP
.
2. Control
Los nombres ISO 6429 para las funciones de control C0 y C1 y nombres similares que ocurren comúnmente se agregan como un alias al carácter.
Hay 84 de esos alias.
Por ejemplo, U + 0008 tiene alias RETROCESO .
Presentación: Los caracteres de control no tienen un nombre principal, están etiquetados como . Su nombre de alias como RETROCESO se utiliza en la documentación del gráfico, pero nunca como nombre principal. Esto evita el reemplazo involuntario (automatizado) por el carácter de control actual que interrumpe. Por ejemplo, usando un nombre de alias BEL en línea sería reemplazado por U + 0007 , activando el sonido de la campana.
3. Corrección
Esta es una corrección para un "problema grave" en el nombre del personaje principal, generalmente un error.
Hay 28 de esos alias.
Por ejemplo, U + 2118 SCRIPT CAPITAL P es en realidad una p minúscula , por lo que se le da un alias ※ FUNCIÓN ELÍPTICA WEIERSTRASS : "en realidad esta tiene la forma de una p caligráfica minúscula, a pesar de su nombre, ya través del alias se agrega la ortografía correcta".
Presentación: Un nombre corregido está precedido por el símbolo ※ (la marca de referencia ).
4. Alternativo
Algunos nombres alternativos ampliamente utilizados para caracteres de formato.
Hay 1 de esos alias.
Ejemplo: U + FEFF ZERO WIDTH NO-BREAK SPACE tiene alternativa MARCA DE ORDEN DE BYTE .
Presentación: aparece en la descripción de las tablas de caracteres.
5. Figment
Varias etiquetas documentadas para puntos de código de control C1 que nunca fueron aprobados en ningún estándar ( figment = fingido, en ficción).
Hay 3 de esos alias.
Por ejemplo, U + 0099 tiene un alias de figura INTRODUCTOR DE CARÁCTER GRÁFICO ÚNICO . Este nombre es un concepto arquitectónico de los primeros borradores de ISO / IEC 10646-1, pero nunca fue aprobado ni estandarizado.
Presentación: Estas abreviaturas de figment no se publican en Standard; el gráfico muestra "XXX" para cada uno de manera informal, es decir: no es una abreviatura única o identificativa.