Propiedad de carácter Unicode


Las propiedades se pueden usar para manejar caracteres (puntos de código) en procesos, como saltos de línea, dirección de secuencias de comandos de derecha a izquierda o aplicación de controles. Algunas "propiedades de carácter" también se definen para puntos de código que no tienen ningún carácter asignado y puntos de código que están etiquetados como "<no es un carácter>". Las propiedades de los personajes se describen en el Anexo estándar #44. [2]

Las propiedades tienen niveles de contundencia: normativa, informativa, contributiva o provisional. Para simplificar la especificación, se puede asignar una propiedad de carácter especificando un rango continuo de puntos de código que tienen la misma propiedad. [ cita requerida ]

A un carácter Unicode se le asigna un Nombre único (na). [1] El nombre se compone de letras mayúsculas de la A a la Z, dígitos del 0 al 9, guión menos (-) y espacio ( ). Algunas secuencias están excluidas: los nombres que comienzan con un espacio o guión, los nombres que terminan con un espacio o guión, los espacios repetidos o guiones y el espacio después del guión no están permitidos. Se garantiza que el nombre es único dentro de Unicode y se puede utilizar para identificar un punto de código y su carácter. Los caracteres ideográficos, de los cuales hay decenas de miles, se nombran con el patrón " cjk unified ideograph - hhhh ". Por ejemplo, U+4E00 CJK UNIFIED IDEOGRAPH-4E00 . Los caracteres de formato también se nombran: U+00A0 ESPACIO SIN BREAK   .

Las siguientes clases de punto de código no tienen un Nombre (na=""): Controles (Categoría general: Cc), Uso privado (Co), Suplente (Cs), No caracteres (Cn) y Reservado (Cn). Pueden ser referenciados, informalmente, por un meta-nombre genérico o específico, llamado "Etiquetas de punto de código": <control>, <control-0088>, <reservado>, <noncharacter- hhhh >, <private- use- hhhh > , o <suplente>. Dado que estas etiquetas contienen corchetes <>, nunca pueden aparecer como un nombre, lo que evita confusiones.

En la versión 2.0 de Unicode, se cambiaron muchos nombres. A partir de entonces entró en vigor la regla "un nombre nunca cambiará", incluido el uso estricto (normativo) de nombres de alias. Los nombres de la versión 1.0 en desuso se movieron a la propiedad Alias, para proporcionar cierta compatibilidad con versiones anteriores.

A partir de la versión 2.0 de Unicode, el nombre publicado de un punto de código nunca cambiará. Por lo tanto, en el caso de que el nombre de un personaje esté mal escrito o si el nombre del personaje es completamente incorrecto o muy engañoso, se puede asignar un alias de nombre de personaje formal al personaje, y las aplicaciones pueden usar este alias en lugar del nombre del personaje defectuoso real. . [1] Por ejemplo, U+FE18FORMULARIO DE PRESENTACIÓN PARA SOPORTE LENTICULAR BLANCO DERECHO VERTICAL tiene el alias de nombre de personaje "FORMULARIO DE PRESENTACIÓN PARA SOPORTE LENTICULAR BLANCO DERECHO VERTICAL" para mitigar el error ortográfico de "soporte" como "brakcet" en el actual Nombre del personaje; U+A015YI SÍLABA WU tiene el alias de nombre de personaje "YI SYLLABLE ITERATION MARK" porque, a diferencia del nombre de personaje, no tiene un valor silábico fijo.