Propiedad de carácter Unicode


El estándar Unicode asigna varias propiedades a cada carácter y punto de código Unicode . [1] [2] : Nombre 

Las propiedades se pueden usar para manejar caracteres (puntos de código) en procesos, como saltos de línea, dirección del script de derecha a izquierda o aplicando controles. Algunas "propiedades de carácter" también se definen para puntos de código que no tienen ningún carácter asignado y puntos de código que están etiquetados como "<no es un carácter>". Las propiedades de los personajes se describen en el Anexo estándar # 44. [2]

Las propiedades tienen niveles de contundencia: normativa, informativa, contributiva o provisional. Para simplificar la especificación, se puede asignar una propiedad de carácter especificando un rango continuo de puntos de código que tienen la misma propiedad. [ cita requerida ]

A un carácter Unicode se le asigna un nombre único (na). [1] El nombre está compuesto por letras mayúsculas de la A a la Z, dígitos del 0 al 9, guión menos (-) y espacio (). Se excluyen algunas secuencias: los nombres que comienzan con un espacio o guion, los nombres que terminan con un espacio o un guion, los espacios repetidos o guiones, y el espacio después del guion no están permitidos. Se garantiza que el nombre es único dentro de Unicode y se puede utilizar para identificar un punto de código y su carácter. Los caracteres ideográficos, de los cuales hay decenas de miles, se nombran en el patrón " cjk ideograma unificado - hhhh ". Por ejemplo, U + 4E00 CJK UNIFIED IDEOGRAPH-4E00 . Los caracteres de formato también se nombran: U + 00A0 ESPACIO SIN ROTURA   .

Las siguientes clases de puntos de código no tienen un Nombre (na = ""): Controles (Categoría general: Cc), Uso privado (Co), Sustituto (Cs), No caracteres (Cn) y Reservado (Cn). Pueden ser referenciados, de manera informal, por un meta-nombre genérico o específico, llamado "Etiquetas de puntos de código": <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private- use- hhhh > o <sustituto>. Dado que estas etiquetas contienen <> - corchetes, nunca pueden aparecer como un Nombre, lo que evita confusiones.

En la versión 2.0 de Unicode, se cambiaron muchos nombres. A partir de ese momento, entró en vigor la regla "un nombre nunca cambiará", incluido el uso estricto (normativo) de los alias. Los nombres de la versión 1.0 en desuso se trasladaron a la propiedad Alias, para proporcionar cierta compatibilidad con versiones anteriores.