Propiedad de carácter Unicode

El estándar Unicode asigna propiedades de carácter a cada punto de código . ^[1] Estas propiedades se pueden usar para manejar "caracteres" (puntos de código) en procesos, como saltos de línea, dirección del script de derecha a izquierda o aplicando controles. Ligeramente inconsecuente, algunas "propiedades de carácter" también se definen para puntos de código que no tienen ningún carácter asignado y puntos de código que están etiquetados como "". Las propiedades de los personajes se describen en el Anexo estándar # 44. ^[2]

Las propiedades tienen niveles de contundencia: normativa, informativa, contributiva o provisional. Para simplificar la especificación, se puede asignar una propiedad de carácter especificando un rango continuo de puntos de código que tienen la misma propiedad.

Nombre

A un carácter Unicode se le asigna un nombre único (na). ^[1] El nombre se compone de letras mayúsculas de la A a la Z, dígitos del 0 al 9, - (guión menos) y . Algunas secuencias están excluidas: los nombres que comienzan con un espacio o un guión, los nombres que terminan con un espacio o un guión, los espacios repetidos o los guiones y el espacio después del guión no están permitidos. Se garantiza que el nombre es único dentro de Unicode y se puede utilizar para identificar un punto de código y su carácter. Los caracteres ideográficos, de los cuales hay decenas de miles, se nombran en el patrón " cjk ideograma unificado - hhhh ". Por ejemplo, U + 4E00 一 CJK UNIFIED IDEOGRAPH-4E00 . Los caracteres de formato también se nombran:U + 00A0 ESPACIO SIN ROTURA .

Las siguientes clases de puntos de código no tienen un Nombre (na = ""): Controles (Categoría general: Cc), Uso privado (Co), Sustituto (Cs), No caracteres (Cn) y Reservado (Cn). Pueden ser referenciados, de manera informal, por un meta-nombre genérico o específico, llamado "Etiquetas de puntos de código": , , , hhhh >, use- hhhh > , . Dado que estas etiquetas contienen <> - corchetes, nunca pueden aparecer como un Nombre, lo que evita confusiones.

Nombres de la versión 1.0

En la versión 2.0 de Unicode, se cambiaron muchos nombres. A partir de ese momento entró en vigor la regla "un nombre nunca cambiará", incluido el uso estricto (normativo) de los alias. Los nombres de la versión 1.0 en desuso se trasladaron a la propiedad Alias, para proporcionar cierta compatibilidad con versiones anteriores.

Alias del nombre del personaje

A partir de la versión 2.0 de Unicode, el nombre publicado de un punto de código nunca cambiará. Por lo tanto, en el caso de que el nombre de un personaje esté mal escrito o si el nombre del personaje es completamente incorrecto o engañoso, se puede asignar un Alias de nombre de personaje formal al personaje, y las aplicaciones pueden usar este alias en lugar del nombre del personaje defectuoso real. . ^[1] Por ejemplo,U + FE18 ︘ FORMULARIO DE PRESENTACIÓN PARA BRAKCET LENTICULAR BLANCO DERECHO VERTICAL tiene el nombre de carácter alias "FORMULARIO DE PRESENTACIÓN PARA SOPORTE LENTICULAR BLANCO DERECHO VERTICAL" para mitigar la falta de ortografía de "bracket" como "brakcet" en el nombre real del personaje;U + A015 ꀕ YI SYLLABLE WU tiene el nombre de carácter alias "YI SYLLABLE ITERATION MARK" porque, al contrario que el nombre del personaje, no tiene un valor silábico fijo.

Además de los alias de nombres de caracteres, que son correcciones de nombres de caracteres defectuosos, a algunos caracteres se les asignan alias que son nombres alternativos o abreviaturas. En el estándar Unicode se definen cinco tipos de alias de nombres de caracteres:

Corrección: correcciones por nombres de personajes mal escritos o muy incorrectos;
Control: nombres ISO 6429 para funciones de control C0 y C1 (que no tienen nombres de caracteres asignados en el estándar Unicode);
Alternativo: nombres alternativos para algunos caracteres de formato (solo U + FEFF "ESPACIO SIN INTERRUPCIÓN DE ANCHO CERO" que tiene el alias "MARCA DE ORDEN DE BYTE");
Figura: Etiquetas documentadas para algunas funciones del código de control C1 que no son nombres reales en ningún estándar;
Abreviatura: abreviaturas o acrónimos de códigos de control, caracteres de formato, espacios y selectores de variación.

Todos los alias de nombres de caracteres formales siguen las reglas para los nombres de caracteres permitidos, y se garantiza que son únicos tanto en el alias del nombre del carácter como en los espacios de nombres del nombre del carácter (por esta razón, el nombre ISO 6429 "BELL" no se define como un alias para U +0007 porque U + 1F514 se llama "BELL"). ^[1]

A partir de la versión 12.1 de Unicode, veintiocho alias de nombres de caracteres formales se definen como correcciones para nombres de caracteres defectuosos. ^[3]

v t mi Lista de correcciones de nombres de personajes (nombres de alias)
Personaje		Nombre	Alias
01A2	Ƣ	LETRA MAYÚSCULA LATINA OI	LETRA MAYÚSCULA LATINA GHA
01A3	ƣ	LETRA MINÚSCULA LATINA OI	LETRA MINÚSCULA LATINA GHA
0709	܉	COLON SUBLINEAR SIRIO BOCADO A LA DERECHA	COLON SUBLINEAR SIRIO BOCADO A LA IZQUIERDA
0CDE	ೞ	LETRA KANNADA FA	LETRA KANNADA LLLA
0E9D	ຝ	LAO LETRA FO TAM	LAO LETRA FO FON
0E9F	ຟ	LAO LETRA FO SUNG	LAO LETRA FO FAY
0EA3	ຣ	LETRA LAO LO LING	LAO LETRA RO
0EA5	ລ	LETRA LAO LOOT	LAO LETRA LO
0FD0	࿐	MARCA TIBETANA BSKA- SHOG GI MGO RGYAN	MARCA TIBETANA BKA- SHOG GI MGO RGYAN
11EC	ᇬ	HANGUL JONGSEONG IEUNG-KIYEOK	HANGUL JONGSEONG YESIEUNG-KIYEOK
11ED	ᇭ	HANGUL JONGSEONG IEUNG-SSANGKIYEOK	HANGUL JONGSEONG YESIEUNG-SSANGKIYEOK
11EE	ᇮ	HANGUL JONGSEONG SSANGIEUNG	HANGUL JONGSEONG SSANGYESIEUNG
11EF	ᇯ	HANGUL JONGSEONG IEUNG-KHIEUKH	HANGUL JONGSEONG YESIEUNG-KHIEUKH
2118	℘	GUIÓN CAPITAL P	FUNCIÓN ELÍPTICA WEIERSTRASS
2448	⑈	OCR DASH	MICR EN SÍMBOLO DE NOSOTROS
2449	⑉	NÚMERO DE CUENTA DE CLIENTE DE OCR	SÍMBOLO MICR DASH
2B7A	⭺	HACIA LA IZQUIERDA FLECHA DE CABEZA TRIÁNGULO CON DOBLE CARRERA HORIZONTAL	HACIA LA IZQUIERDA FLECHA DE CABEZA TRIÁNGULO CON DOBLE CARRERA VERTICAL
2B7C	⭼	FLECHA DE CABEZA TRIÁNGULO HACIA LA DERECHA CON DOBLE CARRERA HORIZONTAL	FLECHA DE CABEZA TRIÁNGULO HACIA LA DERECHA CON DOBLE CARRERA VERTICAL
A015	ꀕ	YI SÍLABA WU	MARCA DE ITERACIÓN DE LA SÍLABA YI
FE18	︘	FORMULARIO DE PRESENTACIÓN PARA BRAKCET LENTICULAR BLANCO DERECHO VERTICAL	FORMA DE PRESENTACIÓN SOPORTE LENTICULAR BLANCO DERECHO VERTICAL
122D4	𒋔	CAMISETA SEÑAL CUNEIFORME TENU	CUNEIFORM SIGN NU11 TENU
122D5	𒋕	CAMISETA CUNEIFORM SIGN OVER CAMISETA BUR OVER BUR	CUNEIFORM SIGN NU11 SOBRE NU11 BUR OVER BUR
16E56	𖹖	MEDEFAIDRIN LETRA MAYÚSCULA HP	MEDEFAIDRIN LETRA MAYÚSCULA H
16E57	𖹗	MEDEFAIDRIN LETRA MAYÚSCULA NY	MEDEFAIDRIN LETRA MAYÚSCULA NG
16E76	𖹶	MEDEFAIDRIN LETRA PEQUEÑA HP	MEDEFAIDRIN LETRA H MINÚSCULA
16E77	𖹷	MEDEFAIDRIN MINÚSCULA NY	MEDEFAIDRIN MINÚSCULA NG
1B001	𛀁	HIRAGANA LETRA ARCHAIC YE	CARTA E-1 DE HENTAIGANA
1D0C5	𝃅	SÍMBOLO MUSICAL BIZANTINO FHTORA SKLIRON CHROMA VASIS	SÍMBOLO MUSICAL BIZANTINO FTHORA SKLIRON CHROMA VASIS

Aparte de estos nombres normativos, los nombres informales pueden mostrarse en las tablas de código Unicode. Estos son otros nombres de uso común para un carácter, y no es necesario restringirlos a letras A – Z, dígitos 0–9, - (guión-menos) y . No se garantiza que estos nombres informales sean únicos y se pueden cambiar o eliminar en versiones posteriores del estándar.

Categoría general

A cada punto de código se le asigna un valor para Categoría general. Esta es una de las propiedades de carácter que también se definen para puntos de código no asignados y puntos de código que se definen como "no un carácter".

Categoría general ( propiedad de carácter Unicode ) ^[a] v t mi
Valor	Categoría Mayor, menor	Tipo básico ^[b]	Personaje asignado ^[b]	Contar (a partir de 13.0)	Observaciones

L, letra
Lu	Letra, mayúscula	Gráfico	Personaje	1,791
Ll	Letra minúscula	Gráfico	Personaje	2,155
Teniente	Carta, título	Gráfico	Personaje	31	Ligaduras que contienen mayúsculas seguidas de minúsculas (p. Ej., ǅ , ǈ , ǋ y ǲ )
Lm	Letra, modificador	Gráfico	Personaje	260	Una letra modificadora
Lo	Carta, otro	Gráfico	Personaje	127,004	Un ideograma o una letra en un alfabeto unicase
M, marca
Minnesota	Mark, sin espaciamiento	Gráfico	Personaje	1.839
Mc	Marca, combinación de espaciado	Gráfico	Personaje	443
Me	Mark, adjuntando	Gráfico	Personaje	13
N, número
Dakota del Norte	Número, dígito decimal	Gráfico	Personaje	650	Todos estos, y solo estos, tienen Tipo numérico = De ^[c]
Nl	Número, letra	Gráfico	Personaje	236	Números compuestos por letras o símbolos similares a letras (p. Ej., Números romanos )
No	Número, otro	Gráfico	Personaje	895	Por ejemplo, fracciones vulgares , dígitos en superíndice y subíndice
P, puntuación
Ordenador personal	Puntuación, conector	Gráfico	Personaje	10	Incluye subrayado "_"
Pd	Puntuación, guión	Gráfico	Personaje	25	Incluye varios caracteres de guión.
PD	Puntuación, abierto	Gráfico	Personaje	75	Caracteres de corchete de apertura
Educación física	Puntuación, cerrar	Gráfico	Personaje	73	Caracteres de corchete de cierre
Pi	Puntuación, cita inicial	Gráfico	Personaje	12	Comillas de apertura . No incluye las comillas ASCII "neutrales". Puede comportarse como Ps o Pe dependiendo del uso
Pf	Puntuación, cita final	Gráfico	Personaje	10	Comillas de cierre. Puede comportarse como Ps o Pe dependiendo del uso
Correos	Puntuación, otro	Gráfico	Personaje	593
S, símbolo
Sm	Símbolo, matemáticas	Gráfico	Personaje	948	Símbolos matemáticos (p. Ej., + , - , = , × , ÷ , √ , ∊ , ≠ ). No incluye paréntesis y corchetes, que se encuentran en las categorías Ps y Pe. ¡Tampoco incluye ! , * , - o / , que a pesar de su uso frecuente como operadores matemáticos, se consideran principalmente "puntuación".
Carolina del Sur	Símbolo, moneda	Gráfico	Personaje	62	Símbolos de moneda
Sk	Símbolo, modificador	Gráfico	Personaje	123
Entonces	Símbolo, otro	Gráfico	Personaje	6.431
Z, separador
Zs	Separador, espacio	Gráfico	Personaje	17	Incluye el espacio, pero no TAB , CR o LF , que son Cc
Zl	Separador, línea	Formato	Personaje	1	Solo SEPARADOR DE LÍNEA U + 2028 (LSEP)
Zp	Separador, párrafo	Formato	Personaje	1	Solo SEPARADOR DE PÁRRAFOS U + 2029 (PSEP)
C, otro
Cc	Otro, control	Control	Personaje	65 (nunca cambiará) ^[c]	Sin nombre, ^[d]
Cf	Otro, formato	Formato	Personaje	161	Incluye el guión suave , caracteres de control de unión ( zwnj y zwj ), caracteres de control para admitir texto bidireccional y caracteres de etiquetas de idioma
Cs	Otro, sustituto	Sustituto	No (solo se usa en UTF-16 )	2,048 (nunca cambiará) ^[c]	Sin nombre, ^[d]
Co	Otro uso privado	Uso privado	Carácter (pero sin interpretación especificada)	137.468 en total (nunca cambiará) ^[c] ( 6.400 en BMP , 131.068 en los aviones 15-16 )	Sin nombre, ^[d]
Cn	Otro, no asignado	Sin carácter	No	66 (nunca cambiará) ^[c]	Sin nombre, ^[d]
Cn	Otro, no asignado	Reservado	No	830,606	Sin nombre, ^[d]
^ "Tabla 4-4: Categoría general" (PDF) . El estándar Unicode . Consorcio Unicode. Marzo de 2020. ^ a b "Tabla 2-3: Tipos de puntos de código" (PDF) . El estándar Unicode . Consorcio Unicode. Marzo de 2020. ^ a b c d e Políticas de estabilidad de la codificación de caracteres Unicode: Estabilidad del valor de la propiedad Política de estabilidad: Algunos grupos de gc nunca cambiarán. gc = Nd se corresponde con el tipo numérico = De (decimal). ^ a b c d e "Tabla 4-9: Construcción de etiquetas de puntos de código" (PDF) . El estándar Unicode . Consorcio Unicode. Marzo de 2020.Se puede utilizar una etiqueta de punto de código para identificar un punto de código sin nombre. Por ejemplo, hhhh >, . El nombre permanece en blanco, lo que puede evitar que se reemplace inadvertidamente, en la documentación, un nombre de control con un código de control verdadero. Unicode también usa para .

Puntuación

Los caracteres tienen propiedades independientes para indicar que son un carácter de puntuación . Todas las propiedades tienen valores Sí / No : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .

Espacio en blanco

El espacio en blanco es un concepto de uso común para un efecto tipográfico. Básicamente, cubre caracteres invisibles que tienen un efecto de espaciado en el texto renderizado. Incluye espacios , pestañas y nuevos controles de formato de línea. En Unicode, dicho carácter tiene la propiedad establecida "WSpace = yes". En la versión 13.0, hay 25 caracteres de espacio en blanco.

v t mi Caracteres Unicode con propiedad White_Space = sí ^[a]^[b]
Nombre	Punto de código		Caja de ancho	¿Puede romperse ?	¿En IDN ?	Texto	Cuadra	Categoría general	Notas
tabulación de caracteres	U + 0009	9		sí	No	Común	Latín básico	Otro, control	HT, pestaña horizontal . HTML / XML entidad denominada : `&Tab`, LaTeX : '\ tab'
linea de alimentación	U + 000A	10	Es un salto de línea			Común	Latín básico	Otro, control	LF, salto de línea . Entidad con nombre HTML / XML:`&NewLine`
tabulación de línea	U + 000B	11	Es un salto de línea			Común	Latín básico	Otro, control	VT, pestaña vertical
formulario de alimentación	U + 000C	12	Es un salto de línea			Común	Latín básico	Otro, control	FF, avance de formulario
retorno de carro	U + 000D	13	Es un salto de línea			Común	Latín básico	Otro, control	CR, retorno de carro
espacio	U + 0020	32		sí	No	Común	Latín básico	Separador, espacio	Más común (espacio ASCII normal)
Proxima linea	U + 0085	133	Es un salto de línea			Común	Suplemento Latin-1	Otro, control	NEL, siguiente línea
espacio sin descanso	U + 00A0	160		No	No	Común	Suplemento Latin-1	Separador, espacio	Espacio de no rotura : idéntico a U + 0020, pero no un punto en el que pueda romperse una línea. Entidad con nombre HTML / XML:, LaTeX: '\'
marca de espacio ogham	U + 1680	5760		sí	No	Ogham	Ogham	Separador, espacio	Se utiliza para la separación entre palabras en el texto Ogham . Normalmente una línea vertical en texto vertical o una línea horizontal en texto horizontal, pero también puede ser un espacio en blanco en fuentes "sin tallo". Requiere una fuente Ogham.
en quad	U + 2000	8192		sí	No	Común	Puntuación general	Separador, espacio	Ancho de uno en . U + 2002 es canónicamente equivalente a este personaje; Se prefiere U + 2002.
em quad	U + 2001	8193		sí	No	Común	Puntuación general	Separador, espacio	También conocido como "quad de cordero". Ancho de uno em . U + 2003 es canónicamente equivalente a este personaje; Se prefiere U + 2003.
en el espacio	U + 2002	8194		sí	No	Común	Puntuación general	Separador, espacio	También conocido como "nuez". Ancho de uno en . U + 2000 En Quad es canónicamente equivalente a este personaje; Se prefiere U + 2002. Entidad con nombre HTML / XML:, LaTeX: '\ enspace'
em espacio	U + 2003	8195		sí	No	Común	Puntuación general	Separador, espacio	También conocido como "cordero". Ancho de uno em . U + 2001 Em Quad es canónicamente equivalente a este personaje; Se prefiere U + 2003. Entidad con nombre HTML / XML:, LaTeX: '\ quad'
espacio de tres por em	U + 2004	8196		sí	No	Común	Puntuación general	Separador, espacio	También conocido como "espacio grueso". Un tercio de un em de ancho. Entidad con nombre HTML / XML:`&emsp13`
espacio de cuatro por em	U + 2005	8197		sí	No	Común	Puntuación general	Separador, espacio	También conocido como "espacio medio". Un cuarto de un em de ancho. Entidad con nombre HTML / XML:`&emsp14`
espacio de seis por em	U + 2006	8198		sí	No	Común	Puntuación general	Separador, espacio	Un sexto de un em de ancho. En tipografía informática, a veces se equipara a U + 2009.
espacio de la figura	U + 2007	8199		No	No	Común	Puntuación general	Separador, espacio	Espacio de figura . En fuentes con dígitos monoespaciados, igual al ancho de un dígito. Entidad con nombre HTML / XML:`&numsp`
espacio de puntuación	U + 2008	8200		sí	No	Común	Puntuación general	Separador, espacio	Tan ancho como la puntuación estrecha de una fuente, es decir, el ancho de avance del punto o la coma. ^[4] Entidad con nombre HTML / XML:`&puncsp`
espacio delgado	U + 2009	8201		sí	No	Común	Puntuación general	Separador, espacio	Espacio delgado ; una quinta parte (a veces una sexta parte) de un em de ancho. Recomendado para su uso como separador de miles para medidas realizadas con unidades SI . A diferencia de U + 2002 a U + 2008, su ancho puede ajustarse en la composición tipográfica. ^[5] HTML / XML entidad denominada: ; LaTeX: '\,'
espacio para el cabello	U + 200A	8202		sí	No	Común	Puntuación general	Separador, espacio	Más delgado que un espacio delgado. Entidad con nombre HTML / XML: `&hairsp`( no funciona en todos los navegadores)
separador de linea	U + 2028	8232	Es un salto de línea			Común	Puntuación general	Separador, línea
separador de párrafos	U + 2029	8233	Es un salto de línea			Común	Puntuación general	Separador, párrafo
espacio estrecho sin descanso	U + 202F	8239		No	No	Común	Puntuación general	Separador, espacio	Espacio estrecho sin interrupciones . Similar en función a U + 00A0 No-Break Space. Cuando se usa con mongol, su ancho suele ser un tercio del espacio normal; en otro contexto, su ancho a veces se parece al del Thin Space (U + 2009).
espacio matemático medio	U + 205F	8287		sí	No	Común	Puntuación general	Separador, espacio	MMSP. Utilizado en fórmulas matemáticas. Cuatro dieciocho de un em. ^[6] En tipografía matemática, los anchos de los espacios generalmente se dan en múltiplos enteros de un décimo octavo de un em, y 4/18 em se pueden usar en varias situaciones, por ejemplo entre la a y el + y entre el + y el b en la expresión a + b . ^[7] Entidad con nombre HTML / XML:`&MediumSpace`
espacio ideográfico	U + 3000	12288		sí	No	Común	Símbolos y puntuación de CJK	Separador, espacio	Tan ancho como una celda de caracteres CJK ( ancho completo ). Utilizado, por ejemplo, en tai tou .

v t mi Propiedad de caracteres Unicode relacionados White_Space = no
Nombre	Punto de código		Caja de ancho	¿Puede romperse ?	¿En IDN ?	Texto	Cuadra	Categoría general	Notas
separador de vocales de mongolia	U + 180E	6158	᠎	sí	No	mongol	mongol	Otro, formato	MVS. Un carácter de espacio estrecho, utilizado en mongol para hacer que los dos últimos caracteres de una palabra adopten formas diferentes. ^[8] Ya no se clasifica como carácter de espacio (es decir, en la categoría Zs) en Unicode 6.3.0, a pesar de que estaba en versiones anteriores del estándar.
espacio de ancho cero	U + 200B	8203		sí	No	?	Puntuación general	Otro, formato	ZWSP, espacio de ancho cero . Se utiliza para indicar los límites de las palabras a los sistemas de procesamiento de texto cuando se utilizan scripts que no utilizan espacios explícitos. Es similar al guión suave , con la diferencia de que este último se usa para indicar los límites de las sílabas y debe mostrar un guión visible cuando la línea se rompe. Entidad con nombre HTML / XML : `&ZeroWidthSpace`^[9]^[c]
no carpintero de ancho cero	U + 200C	8204	‌	sí	Depende del contexto ^[14]	?	Puntuación general	Otro, formato	ZWNJ, no ensamblador de ancho cero . Cuando se coloca entre dos caracteres que de otro modo estarían conectados, un ZWNJ hace que se impriman en sus formas final e inicial, respectivamente. Entidad con nombre HTML / XML:`‌`
carpintero de ancho cero	U + 200D	8205	‍	sí	Depende del contexto ^[15]	?	Puntuación general	Otro, formato	ZWJ, carpintero de ancho cero . Cuando se coloca entre dos caracteres que de otro modo no estarían conectados, un ZWJ hace que se impriman en sus formas conectadas. También se puede utilizar para mostrar formularios de unión de forma aislada. Dependiendo de si se espera una ligadura o conjunción por defecto, puede inducir (como en emoji y en cingalés ) o suprimir (como en Devanagari ) la sustitución con un solo glifo, mientras se permite el uso de formas de unión individuales (a diferencia de ZWNJ). Entidad con nombre HTML / XML:`‍`
ensamblador de palabras	U + 2060	8288	⁠	No	No	?	Puntuación general	Otro, formato	WJ, ensamblador de palabras . Similar a U + 200B, pero no es un punto en el que se pueda romper una línea. Entidad con nombre HTML / XML:`&NoBreak`
espacio sin rotura de ancho cero	U + FEFF	65279		No	No	?	Formularios de presentación en árabe -B	Otro, formato	Espacio sin rotura de ancho cero . Se utiliza principalmente como marca de orden de bytes . El uso como indicación de no rotura está obsoleto a partir de Unicode 3.2; ver U + 2060 en su lugar.

^ White_Space es una propiedad binaria Unicode. ^[dieciséis]
^ "Unicode 13.0 UCD: PropList.txt" . 2019-11-27 . Consultado el 12 de marzo de 2020 .
^ Aunque&ZeroWidthSpacees uno de HTML5 entidad nombrada por U + 200B, los nombres adicionalesNegativeMediumSpace,NegativeThickSpace,NegativeThinSpaceyNegativeVeryThinSpace(que son nombres usados en el Wolfram Idioma para espacios negativa anticipadas, que se asigna al área de uso privado )^[10]^[11]^{[12 ]}^[13] también están definidos por HTML5 como alias para U + 200B (p&NegativeMediumSpace.Ej.). ^[9]

Otras caracteristicas generales

Ideográfico, alfabético, sin carácter.

Propiedades relacionadas con la visualización

Dar forma, ancho.

Escritura bidireccional

Seis propiedades de caracteres pertenecen a la escritura bidireccional: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket y Bidi_Paired_Bracket_Type.

Una de las características principales de Unicode es la compatibilidad con la visualización de texto bidireccional ( Bidi ) de derecha a izquierda (R-to-L) y de izquierda a derecha (L-to-R). El algoritmo bidireccional Unicode UAX9 ^[17] describe el proceso de presentación de texto con la alteración de las direcciones del script. Por ejemplo, habilita una cita en hebreo en un texto en inglés. Bidi_Character_Type marca el comportamiento de un personaje en escritura direccional. Para anular una dirección, Unicode ha definido caracteres de control de formato especiales ( Bidi-Control s). Estos caracteres pueden imponer una dirección y, por definición, solo afectan la escritura bidireccional.

Cada punto de código tiene una propiedad llamada Bidi_Class . Define su comportamiento en un texto bidireccional según lo interpreta el algoritmo:

Tipo de carácter bidireccional ( propiedad de carácter Unicode Bidi_Class) ^[1]

Tipo ^[2]	Descripción	Fuerza	Direccionalidad	Alcance general	Carácter Bidi_Control ^[3]
L	De izquierda a derecha	Fuerte	De izquierda a derecha	La mayoría de caracteres alfabéticos y silábicos, caracteres chinos, dígitos no europeos o no árabes, caracteres LRM, ...	U + 200E MARCA DE IZQUIERDA A DERECHA (LRM)
R	De derecha a izquierda	Fuerte	R-to-L	Adlam, hebreo, Mandaic, Mende Kikakui, N'Ko, Samaritan, escrituras antiguas como Kharoshthi y Nabataean, carácter RLM, ...	U + 200F MARCA DE DERECHA A IZQUIERDA (RLM)
Alabama	Letra árabe	Fuerte	R-to-L	Alfabetos árabe, hanifi rohingya, sogdiano, siríaco y thaana, y la mayoría de los signos de puntuación específicos de esos guiones, caracteres ALM, ...	U + 061C LETRA ÁRABE (ALM)
ES	Número europeo	Débil		Dígitos europeos, dígitos árabe-índicos del este, números epactos coptos, ...
ES	Separador europeo	Débil		signo , signo menos , ...
ET	Terminador de números europeos	Débil		signo de grado , símbolos de moneda, ...
UN	Número árabe	Débil		Dígitos árabe-índicos, separadores de miles y decimales árabes, dígitos Rumi, dígitos Hanifi Rohingya, ...
CS	Separador de números comunes	Débil		colon , coma , punto final , espacio sin descanso , ...
NSM	Marca no espaciadora	Débil		Caracteres en categorías generales Marcar, sin espacios y Marcar, adjunto (Mn, Me)
BN	Límite neutral	Débil		Ignorables predeterminados, no caracteres, caracteres de control distintos a los que se les dan explícitamente otros tipos
B	Separador de párrafos	Neutral		separador de párrafos , funciones de nueva línea apropiadas, determinación de párrafos de protocolo de nivel superior
S	Separador de segmentos	Neutral		Pestañas
WS	Espacio en blanco	Neutral		espacio , espacio de la figura , separador de linea , alimentación de formulario , espacios de bloque de puntuación general (conjunto más pequeño que la lista de espacios en blanco Unicode )
EN	Otros neutrales	Neutral		Todos los demás personajes, incluidos carácter de reemplazo de objeto
LRE	Incrustación de izquierda a derecha	Explícito	De izquierda a derecha	Solo personaje LRE	U + 202A EMPOTRADO DE IZQUIERDA A DERECHA (LRE)
LRO	Anulación de izquierda a derecha	Explícito	De izquierda a derecha	Solo personaje LRO	ANULACIÓN DE IZQUIERDA A DERECHA U + 202D (LRO)
RLE	Incrustación de derecha a izquierda	Explícito	R-to-L	Solo carácter RLE	U + 202B EMPOTRADO DE DERECHA A IZQUIERDA (RLE)
RLO	Anulación de derecha a izquierda	Explícito	R-to-L	Solo carácter RLO	U + 202E ANULACIÓN DE DERECHA A IZQUIERDA (RLO)
PDF	Formato direccional pop	Explícito		Solo carácter PDF	FORMATO DIRECCIONAL POP U + 202C (PDF)
LRI	Aislar de izquierda a derecha	Explícito	De izquierda a derecha	Solo carácter LRI	U + 2066 AISLADO DE IZQUIERDA A DERECHA (LRI)
RLI	Aislar de derecha a izquierda	Explícito	R-to-L	Solo carácter RLI	U + 2067 AISLADO DE DERECHA A IZQUIERDA (RLI)
FSI	Primer aislamiento fuerte	Explícito		Solo carácter FSI	U + 2068 PRIMER AISLADO FUERTE (FSI)
PDI	Aislamiento direccional pop	Explícito		Solo carácter PDI	U + 2069 POP AISLADO DIRECCIONAL (PDI)
Notas 1. ^ Algoritmo bidireccional Unicode (UAX # 9) , a partir de la versión Unicode 12.0 2. ^ Posibles tipos de caracteres bidireccionales para la propiedad del carácter: Bidi_Class o 'type' 3. ^ Caracteres Bidi_Control : Se definen doce caracteres de formato Bidi_Control. Son invisibles y no tienen ningún efecto aparte de la direccionalidad. Nueve de ellos tienen un tipo BiDi exclusivo y anulante que utiliza el algoritmo. Su tipo es también su acrónimo (por ejemplo, el carácter 'LRE' tiene el tipo BiDi 'LRE').

En situaciones normales, el algoritmo puede determinar la dirección de un texto mediante esta propiedad de carácter. Para controlar situaciones Bidi más complejas, por ejemplo, cuando un texto en inglés tiene una cita en hebreo, se agregan opciones adicionales a Unicode. Doce caracteres tienen la propiedad Bidi_Control = Sí : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM y RLO como se indica en la tabla. Estos son caracteres de control de formato invisibles, solo utilizados por el algoritmo y sin efecto fuera del formato bidireccional. ^[17] A pesar del nombre, son caracteres de formato, no de control, y tienen la categoría general "Otro, formato (Cf)" en la definición Unicode.

Básicamente, el algoritmo determina una secuencia de caracteres con el mismo tipo de dirección fuerte (R-to-L o L-to-R), teniendo en cuenta una anulación por los controles bidireccionales especiales. A las cadenas de números (tipos débiles) se les asigna una dirección de acuerdo con su entorno fuerte, al igual que los caracteres neutrales. Finalmente, los caracteres se muestran según la dirección de una cadena.

Dos propiedades de carácter son relevantes para determinar una imagen especular de un glifo en texto bidireccional: Bidi_Mirrored = Yes indica que el glifo debe reflejarse cuando se escribe R-to-L. La propiedad Bidi_Mirroring_Glyph = U + hhhh puede apuntar al personaje reflejado. Por ejemplo, los corchetes "()" se reflejan de esta manera. Dar forma a escrituras cursivas como el árabe y reflejar glifos que tienen una dirección no es parte del algoritmo.

Caja

El valor de caso es normativo en Unicode. Pertenece a aquellos guiones con letras mayúsculas (también conocidas como mayúsculas, mayúsculas) y minúsculas (también conocidas como minúsculas, minúsculas). La diferencia entre mayúsculas y minúsculas se produce en las escrituras Adlam, armenio, cherokee, copto, cirílico, deseret, glagolítico, griego, khutsuri y mkhedruli georgiano, latín, medefaidrin, húngaro antiguo, Osage y Warang Citi.

(superior, inferior, título, plegado, tanto simple como completo)

Valores y tipos numéricos

Decimal

Los caracteres se clasifican con un tipo numérico . ^{[1] Los} caracteres como fracciones, subíndices, superíndices, números romanos, numeradores de moneda, números encerrados en un círculo y dígitos específicos de la escritura son de tipo numérico. Tienen un valor numérico que puede ser decimal, incluido cero y negativos, o una fracción vulgar. Si no existe tal valor, como ocurre con la mayoría de los caracteres, el tipo numérico es "Ninguno".

Los caracteres que tienen un valor numérico se separan en tres grupos: decimal (De), dígito (Di) y numérico (Nu, es decir, todos los demás). "Decimal" significa que el carácter es un dígito decimal directo. Sólo los caracteres que forman parte de un rango codificado contiguo 0..9 tienen tipo numérico Decimal. Otros dígitos, como los superíndices, tienen Dígito de tipo numérico. Todos los caracteres numéricos como fracciones y números romanos terminan con el tipo "Numérico". El efecto deseado es que un analizador simple puede usar estos valores numéricos decimales, sin distraerse con, digamos, un superíndice numérico o una fracción. Setenta y tres ideogramas CJK que representan un número, incluidos los que se utilizan para la contabilidad, se escriben numéricos.

Por otro lado, los caracteres que podrían tener un valor numérico como segundo significado siguen marcados como tipo numérico "Ninguno" y no tienen valor numérico (""). Por ejemplo, se pueden usar letras latinas en la numeración de párrafos como "II.A.1.b", pero las letras "I", "A" y "b" no son numéricas (escriba "Ninguno") y no tienen valor numérico.

v t mi Tipo numérico ^[a]^[b] ( propiedad de carácter Unicode )
Tipo numérico	Código	Tiene valor numérico	Ejemplo	Observaciones
No numérico	`None`	No	A X (latín) ! Д μ に	Valor numérico = "NaN"
Decimal	`De`	sí	0 1 9 ६ (Devanagari 6) ೬ (Canarés 6) 𝟨 (Matemático, estilo sans serif)	Dígito recto (decimal- base ). Corresponde en ambos sentidos con Categoría general = Nd ^[a]
Dígito	`Di`	sí	¹ (superíndice) ① ⒈ (dígito con punto)	Decimal, pero en contexto tipográfico
Numérico	`Nu`	sí	¾ ௰ (Tamil número diez) Ⅹ (número romano) 六 (Han número 6)	Valor numérico, pero no base decimal
una. ^"Sección 4.6: Valor numérico" (PDF) . El estándar Unicode . Consorcio Unicode. Marzo de 2020.
B. ^"Tipos numéricos derivados de Unicode 13.0" . Base de datos de caracteres Unicode . Consorcio Unicode. 2019-09-08.

Dígitos hexadecimales

Los caracteres hexadecimales son los de la serie con valores hexadecimales 0 ... 9ABCDEF (dieciséis caracteres, valor decimal 0-15). La propiedad de carácter Hex_Digit se establece en Sí cuando un personaje está en una de estas series:

Caracteres en Unicode marcados `Hex_Digit=Yes`^[a]
`0123456789ABCDEF`	Latín básico, mayúsculas	También `ASCII_Hex_Digit=Yes`
`0123456789abcdef`	Latín básico, letras minúsculas	También `ASCII_Hex_Digit=Yes`
`０１２３４５６７８９ＡＢＣＤＥＦ`	Formas de ancho completo , mayúsculas
`０１２３４５６７８９ａｂｃｄｅｆ`	Formularios de ancho completo, letras minúsculas
una. ^"Unicode 13.0 UCD: PropList.txt" . 2019-11-27 . Consultado el 12 de marzo de 2020 .

Cuarenta y cuatro caracteres están marcados como Hex_Digit. Los del bloque Latín básico también están marcados como ASCII_Hex_Digit .

Unicode no tiene caracteres separados para valores hexadecimales. Una consecuencia es que cuando se utilizan caracteres regulares no es posible determinar si se pretende un valor hexadecimal, o incluso si se pretende un valor en absoluto. Eso debería determinarse en un nivel superior, por ejemplo, anteponiendo "0x" a un número hexadecimal o por contexto. La única característica es que Unicode puede notar que una secuencia puede ser o no un valor hexadecimal.

Cuadra

Un bloque es un rango contiguo de puntos de código con un nombre único. Se identifica por su primer y último punto de código. Los bloques no se superponen . Un bloque puede contener puntos de código que están reservados, no asignados, etc. Cada carácter que se asigna tiene un único valor de "nombre de bloque" de los 308 nombres asignados a partir de la versión Unicode 13.0. Los puntos de código no asignados fuera de un bloque existente, tienen el valor predeterminado "No_block".

v t mi Bloques Unicode y scripts contenidos
Avión	Rango de bloque	Nombre del bloque	Puntos de código ^[a]	Caracteres asignados	Guiones ^[b]^[c]^[d]^[e]^[f]
0 BMP	U + 0000..U + 007F	Latín básico ^[g]	128	128	Latín (52 caracteres), Común (76 caracteres)
0 BMP	U + 0080..U + 00FF	Suplemento Latin-1 ^[h]	128	128	Latín (64 caracteres), Común (64 caracteres)
0 BMP	U + 0100..U + 017F	Latín extendido-A	128	128	latín
0 BMP	U + 0180..U + 024F	Latín extendido-B	208	208	latín
0 BMP	U + 0250..U + 02AF	Extensiones IPA	96	96	latín
0 BMP	U + 02B0..U + 02FF	Letras modificadoras de espaciado	80	80	Bopomofo (2 caracteres), latín (14 caracteres), común (64 caracteres)
0 BMP	U + 0300..U + 036F	Combinando marcas diacríticas	112	112	Heredado
0 BMP	U + 0370..U + 03FF	Griego y copto	144	135	Copto (14 caracteres), Griego (117 caracteres), Común (4 caracteres)
0 BMP	U + 0400..U + 04FF	cirílico	256	256	Cirílico (254 caracteres), Heredado (2 caracteres)
0 BMP	U + 0500..U + 052F	Suplemento cirílico	48	48	cirílico
0 BMP	U + 0530..U + 058F	armenio	96	91	armenio
0 BMP	U + 0590..U + 05FF	hebreo	112	88	hebreo
0 BMP	U + 0600..U + 06FF	Arábica	256	255	Árabe (237 caracteres), Común (6 caracteres), Heredado (12 caracteres)
0 BMP	U + 0700..U + 074F	Siríaco	80	77	Siríaco
0 BMP	U + 0750..U + 077F	Suplemento árabe	48	48	Arábica
0 BMP	U + 0780..U + 07BF	Thaana	64	50	Thaana
0 BMP	U + 07C0..U + 07FF	NKo	64	62	Nko
0 BMP	U + 0800..U + 083F	samaritano	64	61	samaritano
0 BMP	U + 0840..U + 085F	Mandaic	32	29	Mandaic
0 BMP	U + 0860..U + 086F	Suplemento siríaco	dieciséis	11	Siríaco
0 BMP	U + 08A0..U + 08FF	Árabe extendido-A	96	84	Árabe (83 caracteres), Común (1 carácter)
0 BMP	U + 0900..U + 097F	Devanagari	128	128	Devanagari (122 caracteres), Común (2 caracteres), Heredado (4 caracteres)
0 BMP	U + 0980..U + 09FF	bengalí	128	96	bengalí
0 BMP	U + 0A00..U + 0A7F	Gurmukhi	128	80	Gurmukhi
0 BMP	U + 0A80..U + 0AFF	Gujarati	128	91	Gujarati
0 BMP	U + 0B00..U + 0B7F	Oriya	128	91	Oriya
0 BMP	U + 0B80..U + 0BFF	Tamil	128	72	Tamil
0 BMP	U + 0C00..U + 0C7F	Telugu	128	98	Telugu
0 BMP	U + 0C80..U + 0CFF	Canarés	128	89	Canarés
0 BMP	U + 0D00..U + 0D7F	Malayalam	128	118	Malayalam
0 BMP	U + 0D80..U + 0DFF	Cingalés	128	91	Cingalés
0 BMP	U + 0E00..U + 0E7F	tailandés	128	87	Tailandés (86 caracteres), Común (1 carácter)
0 BMP	U + 0E80..U + 0EFF	Lao	128	82	Lao
0 BMP	U + 0F00..U + 0FFF	Tibetano	256	211	Tibetano (207 caracteres), Común (4 caracteres)
0 BMP	U + 1000..U + 109F	Myanmar	160	160	Myanmar
0 BMP	U + 10A0..U + 10FF	georgiano	96	88	Georgiano (87 caracteres), Común (1 carácter)
0 BMP	U + 1100..U + 11FF	Hangul Jamo	256	256	Hangul
0 BMP	U + 1200..U + 137F	Etíope	384	358	Etíope
0 BMP	U + 1380..U + 139F	Suplemento etíope	32	26	Etíope
0 BMP	U + 13A0..U + 13FF	Cherokee	96	92	Cherokee
0 BMP	U + 1400..U + 167F	Sílabas aborígenes canadienses unificadas	640	640	Aborigen canadiense
0 BMP	U + 1680..U + 169F	Ogham	32	29	Ogham
0 BMP	U + 16A0..U + 16FF	Rúnico	96	89	Rúnico (86 caracteres), Común (3 caracteres)
0 BMP	U + 1700..U + 171F	Tagalo	32	20	Tagalo
0 BMP	U + 1720..U + 173F	Hanunoo	32	23	Hanunoo (21 caracteres), Común (2 caracteres)
0 BMP	U + 1740..U + 175F	Buhid	32	20	Buhid
0 BMP	U + 1760..U + 177F	Tagbanwa	32	18	Tagbanwa
0 BMP	U + 1780..U + 17FF	Jemer	128	114	Jemer
0 BMP	U + 1800..U + 18AF	mongol	176	157	Mongol (154 caracteres), Común (3 caracteres)
0 BMP	U + 18B0..U + 18FF	Extensión de la sílabas aborígenes canadienses unificadas	80	70	Aborigen canadiense
0 BMP	U + 1900..U + 194F	Limbu	80	68	Limbu
0 BMP	U + 1950..U + 197F	Tai Le	48	35	Tai Le
0 BMP	U + 1980..U + 19DF	Nuevo Tai Lue	96	83	Nuevo Tai Lue
0 BMP	U + 19E0..U + 19FF	Símbolos Khmer	32	32	Jemer
0 BMP	U + 1A00..U + 1A1F	Buginés	32	30	Buginés
0 BMP	U + 1A20..U + 1AAF	Tai Tham	144	127	Tai Tham
0 BMP	U + 1AB0..U + 1AFF	Ampliación de la combinación de marcas diacríticas	80	17	Heredado
0 BMP	U + 1B00..U + 1B7F	Balinés	128	121	Balinés
0 BMP	U + 1B80..U + 1BBF	Sundanés	64	64	Sundanés
0 BMP	U + 1BC0..U + 1BFF	Batak	64	56	Batak
0 BMP	U + 1C00..U + 1C4F	Lepcha	80	74	Lepcha
0 BMP	U + 1C50..U + 1C7F	Ol Chiki	48	48	Ol Chiki
0 BMP	U + 1C80..U + 1C8F	Cirílico Extendido-C	dieciséis	9	cirílico
0 BMP	U + 1C90..U + 1CBF	Georgiano extendido	48	46	georgiano
0 BMP	U + 1CC0..U + 1CCF	Suplemento Sundanés	dieciséis	8	Sundanés
0 BMP	U + 1CD0..U + 1CFF	Extensiones védicas	48	43	Común (16 caracteres), Heredado (27 caracteres)
0 BMP	U + 1D00..U + 1D7F	Extensiones fonéticas	128	128	Cirílico (2 caracteres), Griego (15 caracteres), Latín (111 caracteres)
0 BMP	U + 1D80..U + 1DBF	Suplemento de extensiones fonéticas	64	64	Griego (1 carácter), Latín (63 caracteres)
0 BMP	U + 1DC0..U + 1DFF	Suplemento de combinación de marcas diacríticas	64	63	Heredado
0 BMP	U + 1E00..U + 1EFF	Latino extendido adicional	256	256	latín
0 BMP	U + 1F00..U + 1FFF	Griego extendido	256	233	griego
0 BMP	U + 2000..U + 206F	Puntuación general	112	111	Común (109 caracteres), Heredado (2 caracteres)
0 BMP	U + 2070..U + 209F	Superíndices y subíndices	48	42	Latín (15 caracteres), Común (27 caracteres)
0 BMP	U + 20A0..U + 20CF	Símbolos de moneda	48	32	Común
0 BMP	U + 20D0..U + 20FF	Combinando marcas diacríticas para símbolos	48	33	Heredado
0 BMP	U + 2100..U + 214F	Símbolos tipo letras	80	80	Griego (1 carácter), Latín (4 caracteres), Común (75 caracteres)
0 BMP	U + 2150..U + 218F	Formularios numéricos	64	60	Latín (41 caracteres), Común (19 caracteres)
0 BMP	U + 2190..U + 21FF	Flechas	112	112	Común
0 BMP	U + 2200..U + 22FF	Operadores matemáticos	256	256	Común
0 BMP	U + 2300..U + 23FF	Técnica miscelánea	256	256	Común
0 BMP	U + 2400..U + 243F	Imágenes de control	64	39	Común
0 BMP	U + 2440..U + 245F	Reconocimiento óptico de caracteres	32	11	Común
0 BMP	U + 2460..U + 24FF	Alfanuméricos adjuntos	160	160	Común
0 BMP	U + 2500..U + 257F	Dibujo de caja	128	128	Común
0 BMP	U + 2580..U + 259F	Elementos de bloque	32	32	Común
0 BMP	U + 25A0..U + 25FF	Formas geométricas	96	96	Común
0 BMP	U + 2600..U + 26FF	Símbolos Misceláneos	256	256	Común
0 BMP	U + 2700..U + 27BF	Dingbats	192	192	Común
0 BMP	U + 27C0..U + 27EF	Símbolos matemáticos varios-A	48	48	Común
0 BMP	U + 27F0..U + 27FF	Flechas suplementarias-A	dieciséis	dieciséis	Común
0 BMP	U + 2800..U + 28FF	Patrones Braille	256	256	Braille
0 BMP	U + 2900..U + 297F	Flechas suplementarias-B	128	128	Común
0 BMP	U + 2980..U + 29FF	Símbolos matemáticos varios-B	128	128	Común
0 BMP	U + 2A00..U + 2AFF	Operadores matemáticos suplementarios	256	256	Común
0 BMP	U + 2B00..U + 2BFF	Símbolos y flechas varios	256	253	Común
0 BMP	U + 2C00..U + 2C5F	Glagolítico	96	94	Glagolítico
0 BMP	U + 2C60..U + 2C7F	Latín extendido-C	32	32	latín
0 BMP	U + 2C80..U + 2CFF	copto	128	123	copto
0 BMP	U + 2D00..U + 2D2F	Suplemento georgiano	48	40	georgiano
0 BMP	U + 2D30..U + 2D7F	Tifinagh	80	59	Tifinagh
0 BMP	U + 2D80..U + 2DDF	Etíope extendido	96	79	Etíope
0 BMP	U + 2DE0..U + 2DFF	Cirílico extendido-A	32	32	cirílico
0 BMP	U + 2E00..U + 2E7F	Puntuación suplementaria	128	83	Común
0 BMP	U + 2E80..U + 2EFF	Suplemento de radicales CJK	128	115	Han
0 BMP	U + 2F00..U + 2FDF	Radicales Kangxi	224	214	Han
0 BMP	U + 2FF0..U + 2FFF	Caracteres de descripción ideográfica	dieciséis	12	Común
0 BMP	U + 3000..U + 303F	Símbolos y puntuación de CJK	64	64	Han (15 caracteres), Hangul (2 caracteres), Común (43 caracteres), Heredado (4 caracteres)
0 BMP	U + 3040..U + 309F	Hiragana	96	93	Hiragana (89 caracteres), Común (2 caracteres), Heredado (2 caracteres)
0 BMP	U + 30A0..U + 30FF	Katakana	96	96	Katakana (93 caracteres), Común (3 caracteres)
0 BMP	U + 3100..U + 312F	Bopomofo	48	43	Bopomofo
0 BMP	U + 3130..U + 318F	Compatibilidad Hangul Jamo	96	94	Hangul
0 BMP	U + 3190..U + 319F	Kanbun	dieciséis	dieciséis	Común
0 BMP	U + 31A0..U + 31BF	Bopomofo extendido	32	32	Bopomofo
0 BMP	U + 31C0..U + 31EF	Trazos de CJK	48	36	Común
0 BMP	U + 31F0..U + 31FF	Extensiones fonéticas de Katakana	dieciséis	dieciséis	Katakana
0 BMP	U + 3200..U + 32FF	Cartas y meses CJK adjuntos	256	255	Hangul (62 caracteres), Katakana (47 caracteres), Común (146 caracteres)
0 BMP	U + 3300..U + 33FF	Compatibilidad CJK	256	256	Katakana (88 caracteres), Común (168 caracteres)
0 BMP	U + 3400..U + 4DBF	Extensión A de ideogramas unificados de CJK	6.592	6.592	Han
0 BMP	U + 4DC0..U + 4DFF	Símbolos del hexagrama de Yijing	64	64	Común
0 BMP	U + 4E00..U + 9FFF	Ideogramas unificados de CJK	20.992	20,989	Han
0 BMP	U + A000..U + A48F	Sílabas Yi	1,168	1,165	Yi
0 BMP	U + A490..U + A4CF	Radicales Yi	64	55	Yi
0 BMP	U + A4D0..U + A4FF	Lisu	48	48	Lisu
0 BMP	U + A500..U + A63F	Vai	320	300	Vai
0 BMP	U + A640..U + A69F	Cirílico extendido-B	96	96	cirílico
0 BMP	U + A6A0..U + A6FF	Bamum	96	88	Bamum
0 BMP	U + A700..U + A71F	Letras de tono modificador	32	32	Común
0 BMP	U + A720..U + A7FF	Latín extendido-D	224	180	Latín (175 caracteres), Común (5 caracteres)
0 BMP	U + A800..U + A82F	Syloti Nagri	48	45	Syloti Nagri
0 BMP	U + A830..U + A83F	Formularios de números índicos comunes	dieciséis	10	Común
0 BMP	U + A840..U + A87F	Phags-pa	64	56	Phags Pa
0 BMP	U + A880..U + A8DF	Saurashtra	96	82	Saurashtra
0 BMP	U + A8E0..U + A8FF	Devanagari extendido	32	32	Devanagari
0 BMP	U + A900..U + A92F	Kayah Li	48	48	Kayah Li (47 caracteres), Común (1 carácter)
0 BMP	U + A930..U + A95F	Rejang	48	37	Rejang
0 BMP	U + A960..U + A97F	Hangul Jamo extendido-A	32	29	Hangul
0 BMP	U + A980..U + A9DF	javanés	96	91	Javanés (90 caracteres), común (1 carácter)
0 BMP	U + A9E0..U + A9FF	Myanmar extendido-B	32	31	Myanmar
0 BMP	U + AA00..U + AA5F	Cham	96	83	Cham
0 BMP	U + AA60..U + AA7F	Myanmar Extendido-A	32	32	Myanmar
0 BMP	U + AA80..U + AADF	Tai Viet	96	72	Tai Viet
0 BMP	U + AAE0..U + AAFF	Extensiones Meetei Mayek	32	23	Meetei Mayek
0 BMP	U + AB00..U + AB2F	Etíope Extendido-A	48	32	Etíope
0 BMP	U + AB30..U + AB6F	Latín extendido-E	64	60	Latín (56 caracteres), Griego (1 carácter), Común (3 caracteres)
0 BMP	U + AB70..U + ABBF	Suplemento Cherokee	80	80	Cherokee
0 BMP	U + ABC0..U + ABFF	Meetei Mayek	64	56	Meetei Mayek
0 BMP	U + AC00..U + D7AF	Sílabas Hangul	11.184	11,172	Hangul
0 BMP	U + D7B0..U + D7FF	Hangul Jamo extendido-B	80	72	Hangul
0 BMP	U + D800..U + DB7F	Altos sustitutos	896	0	Desconocido
0 BMP	U + DB80..U + DBFF	Sustitutos de alto uso privado	128	0	Desconocido
0 BMP	U + DC00..U + DFFF	Sustitutos bajos	1.024	0	Desconocido
0 BMP	U + E000..U + F8FF	Área de uso privado	6.400	6.400	Desconocido
0 BMP	U + F900..U + FAFF	Ideogramas de compatibilidad CJK	512	472	Han
0 BMP	U + FB00..U + FB4F	Formularios de presentación alfabéticos	80	58	Armenio (5 caracteres), hebreo (46 caracteres), latín (7 caracteres)
0 BMP	U + FB50..U + FDFF	Formularios de presentación en árabe-A	688	611	Árabe (609 caracteres), Común (2 caracteres)
0 BMP	U + FE00..U + FE0F	Selectores de variación	dieciséis	dieciséis	Heredado
0 BMP	U + FE10..U + FE1F	Formas verticales	dieciséis	10	Común
0 BMP	U + FE20..U + FE2F	Combinar medias marcas	dieciséis	dieciséis	Cirílico (2 caracteres), Heredado (14 caracteres)
0 BMP	U + FE30..U + FE4F	Formularios de compatibilidad CJK	32	32	Común
0 BMP	U + FE50..U + FE6F	Variantes de formato pequeño	32	26	Común
0 BMP	U + FE70..U + FEFF	Formularios de presentación en árabe-B	144	141	Árabe (140 caracteres), Común (1 carácter)
0 BMP	U + FF00..U + FFEF	Formularios de ancho medio y ancho completo	240	225	Hangul (52 caracteres), Katakana (55 caracteres), Latín (52 caracteres), Común (66 caracteres)
0 BMP	U + FFF0..U + FFFF	Especiales	dieciséis	5	Común
1 SMP	U + 10000..U + 1007F	Silabario lineal B	128	88	Lineal B
1 SMP	U + 10080..U + 100FF	Ideogramas lineales B	128	123	Lineal B
1 SMP	U + 10100..U + 1013F	Números del Egeo	64	57	Común
1 SMP	U + 10140..U + 1018F	Números griegos antiguos	80	79	griego
1 SMP	U + 10190..U + 101CF	Simbolos Antiguos	64	14	Griego (1 carácter), Común (13 caracteres)
1 SMP	U + 101D0..U + 101FF	Disco de Phaistos	48	46	Común (45 caracteres), Heredado (1 carácter)
1 SMP	U + 10280..U + 1029F	Licio	32	29	Licio
1 SMP	U + 102A0..U + 102DF	Carian	64	49	Carian
1 SMP	U + 102E0..U + 102FF	Números coptos de Epact	32	28	Común (27 caracteres), Heredado (1 carácter)
1 SMP	U + 10300..U + 1032F	Cursiva antigua	48	39	Cursiva antigua
1 SMP	U + 10330..U + 1034F	gótico	32	27	gótico
1 SMP	U + 10350..U + 1037F	Viejo Permic	48	43	Viejo Permic
1 SMP	U + 10380..U + 1039F	Ugarítico	32	31	Ugarítico
1 SMP	U + 103A0..U + 103DF	Persa antiguo	64	50	Persa antiguo
1 SMP	U + 10400..U + 1044F	Deseret	80	80	Deseret
1 SMP	U + 10450..U + 1047F	Shavian	48	48	Shavian
1 SMP	U + 10480..U + 104AF	Osmanya	48	40	Osmanya
1 SMP	U + 104B0..U + 104FF	Osage	80	72	Osage
1 SMP	U + 10500..U + 1052F	Elbasan	48	40	Elbasan
1 SMP	U + 10530..U + 1056F	Albanés caucásico	64	53	Albanés caucásico
1 SMP	U + 10600..U + 1077F	Lineal A	384	341	Lineal A
1 SMP	U + 10800..U + 1083F	Silabario chipriota	64	55	Chipriota
1 SMP	U + 10840..U + 1085F	Arameo imperial	32	31	Arameo imperial
1 SMP	U + 10860..U + 1087F	Palmyrene	32	32	Palmyrene
1 SMP	U + 10880..U + 108AF	Nabateo	48	40	Nabateo
1 SMP	U + 108E0..U + 108FF	Hatran	32	26	Hatran
1 SMP	U + 10900..U + 1091F	Fenicio	32	29	Fenicio
1 SMP	U + 10920..U + 1093F	Lidio	32	27	Lidio
1 SMP	U + 10980..U + 1099F	Jeroglíficos meroíticos	32	32	Jeroglíficos meroíticos
1 SMP	U + 109A0..U + 109FF	Cursiva meroítica	96	90	Cursiva meroítica
1 SMP	U + 10A00..U + 10A5F	Kharoshthi	96	68	Kharoshthi
1 SMP	U + 10A60..U + 10A7F	Viejo sur de Arabia	32	32	Viejo sur de Arabia
1 SMP	U + 10A80..U + 10A9F	Viejo árabe del norte	32	32	Viejo árabe del norte
1 SMP	U + 10AC0..U + 10AFF	maniqueo	64	51	maniqueo
1 SMP	U + 10B00..U + 10B3F	Avestan	64	61	Avestan
1 SMP	U + 10B40..U + 10B5F	Parto inscripcional	32	30	Parto inscripcional
1 SMP	U + 10B60..U + 10B7F	Pahlavi inscripcional	32	27	Pahlavi inscripcional
1 SMP	U + 10B80..U + 10BAF	Salterio Pahlavi	48	29	Salterio Pahlavi
1 SMP	U + 10C00..U + 10C4F	Viejo turco	80	73	Viejo turco
1 SMP	U + 10C80..U + 10CFF	Húngaro antiguo	128	108	Húngaro antiguo
1 SMP	U + 10D00..U + 10D3F	Hanifi Rohingya	64	50	Hanifi Rohingya
1 SMP	U + 10E60..U + 10E7F	Símbolos numéricos de Rumi	32	31	Arábica
1 SMP	U + 10E80..U + 10EBF	Yezidi	64	47	Yezidi
1 SMP	U + 10F00..U + 10F2F	Viejo Sogdian	48	40	Viejo Sogdian
1 SMP	U + 10F30..U + 10F6F	Sogdian	64	42	Sogdian
1 SMP	U + 10FB0..U + 10FDF	Chorasmian	48	28	Chorasmian
1 SMP	U + 10FE0..U + 10FFF	Elymaic	32	23	Elymaic
1 SMP	U + 11000..U + 1107F	Brahmi	128	109	Brahmi
1 SMP	U + 11080..U + 110CF	Kaithi	80	67	Kaithi
1 SMP	U + 110D0..U + 110FF	Sora Sompeng	48	35	Sora Sompeng
1 SMP	U + 11100..U + 1114F	Chakma	80	71	Chakma
1 SMP	U + 11150..U + 1117F	Mahajani	48	39	Mahajani
1 SMP	U + 11180..U + 111DF	Sharada	96	96	Sharada
1 SMP	U + 111E0..U + 111FF	Números arcaicos cingaleses	32	20	Cingalés
1 SMP	U + 11200..U + 1124F	Khojki	80	62	Khojki
1 SMP	U + 11280..U + 112AF	Multani	48	38	Multani
1 SMP	U + 112B0..U + 112FF	Khudawadi	80	69	Khudawadi
1 SMP	U + 11300..U + 1137F	Grantha	128	86	Grantha (85 caracteres), Heredado (1 carácter)
1 SMP	U + 11400..U + 1147F	Newa	128	97	Newa
1 SMP	U + 11480..U + 114DF	Tirhuta	96	82	Tirhuta
1 SMP	U + 11580..U + 115FF	Siddham	128	92	Siddham
1 SMP	U + 11600..U + 1165F	Modi	96	79	Modi
1 SMP	U + 11660..U + 1167F	Suplemento de Mongolia	32	13	mongol
1 SMP	U + 11680..U + 116CF	Takri	80	67	Takri
1 SMP	U + 11700..U + 1173F	Ahom	64	58	Ahom
1 SMP	U + 11800..U + 1184F	Dogra	80	60	Dogra
1 SMP	U + 118A0..U + 118FF	Warang Citi	96	84	Warang Citi
1 SMP	U + 11900..U + 1195F	Buceo Akuru	96	72	Buceo Akuru
1 SMP	U + 119A0..U + 119FF	Nandinagari	96	sesenta y cinco	Nandinagari
1 SMP	U + 11A00..U + 11A4F	Plaza Zanabazar	80	72	Plaza Zanabazar
1 SMP	U + 11A50..U + 11AAF	Soyombo	96	83	Soyombo
1 SMP	U + 11AC0..U + 11AFF	Pau Cin Hau	64	57	Pau Cin Hau
1 SMP	U + 11C00..U + 11C6F	Bhaiksuki	112	97	Bhaiksuki
1 SMP	U + 11C70..U + 11CBF	Marchen	80	68	Marchen
1 SMP	U + 11D00..U + 11D5F	Masaram Gondi	96	75	Masaram Gondi
1 SMP	U + 11D60..U + 11DAF	Gunjala Gondi	80	63	Gunjala Gondi
1 SMP	U + 11EE0..U + 11EFF	Makasar	32	25	Makasar
1 SMP	U + 11FB0..U + 11FBF	Suplemento Lisu	dieciséis	1	Lisu
1 SMP	U + 11FC0..U + 11FFF	Suplemento tamil	64	51	Tamil
1 SMP	U + 12000..U + 123FF	Cuneiforme	1.024	922	Cuneiforme
1 SMP	U + 12400..U + 1247F	Números cuneiformes y puntuación	128	116	Cuneiforme
1 SMP	U + 12480..U + 1254F	Cuneiforme dinástico temprano	208	196	Cuneiforme
1 SMP	U + 13000..U + 1342F	Jeroglíficos egipcios	1.072	1.071	Jeroglíficos egipcios
1 SMP	U + 13430..U + 1343F	Controles de formato de jeroglíficos egipcios	dieciséis	9	Jeroglíficos egipcios
1 SMP	U + 14400..U + 1467F	Jeroglíficos de Anatolia	640	583	Jeroglíficos de Anatolia
1 SMP	U + 16800..U + 16A3F	Suplemento Bamum	576	569	Bamum
1 SMP	U + 16A40..U + 16A6F	Mro	48	43	Mro
1 SMP	U + 16AD0..U + 16AFF	Bassa Vah	48	36	Bassa Vah
1 SMP	U + 16B00..U + 16B8F	Pahawh Hmong	144	127	Pahawh Hmong
1 SMP	U + 16E40..U + 16E9F	Medefaidrina	96	91	Medefaidrina
1 SMP	U + 16F00..U + 16F9F	Miao	160	149	Miao
1 SMP	U + 16FE0..U + 16FFF	Símbolos ideográficos y puntuación	32	7	Han (2 caracteres), Khitan Small Script (1 carácter), Nushu (1 carácter), Tangut (1 carácter), Común (2 caracteres)
1 SMP	U + 17000..U + 187FF	Tangut	6.144	6.136	Tangut
1 SMP	U + 18800..U + 18AFF	Componentes Tangut	768	768	Tangut
1 SMP	U + 18B00..U + 18CFF	Guión pequeño de Khitan	512	470	Letra pequeña de Khitan
1 SMP	U + 18D00..U + 18D8F	Suplemento Tangut	144	9	Tangut
1 SMP	U + 1B000..U + 1B0FF	Suplemento de Kana	256	256	Hiragana (255 caracteres), Katakana (1 carácter)
1 SMP	U + 1B100..U + 1B12F	Kana extendido-A	48	31	Hiragana
1 SMP	U + 1B130..U + 1B16F	Extensión pequeña de Kana	64	7	Hiragana (3 caracteres), Katakana (4 caracteres)
1 SMP	U + 1B170..U + 1B2FF	Nushu	400	396	Nüshu
1 SMP	U + 1BC00..U + 1BC9F	Duployan	160	143	Duployan
1 SMP	U + 1BCA0..U + 1BCAF	Controles de formato de taquigrafía	dieciséis	4	Común
1 SMP	U + 1D000..U + 1D0FF	Símbolos musicales bizantinos	256	246	Común
1 SMP	U + 1D100..U + 1D1FF	Simbolos musicales	256	231	Común (209 caracteres), Heredado (22 caracteres)
1 SMP	U + 1D200..U + 1D24F	Notación musical griega antigua	80	70	griego
1 SMP	U + 1D2E0..U + 1D2FF	Numerales Mayas	32	20	Común
1 SMP	U + 1D300..U + 1D35F	Símbolos de Tai Xuan Jing	96	87	Común
1 SMP	U + 1D360..U + 1D37F	Contar números de varilla	32	25	Común
1 SMP	U + 1D400..U + 1D7FF	Símbolos alfanuméricos matemáticos	1.024	996	Común
1 SMP	U + 1D800..U + 1DAAF	Sutton SignEscritura	688	672	FirmarEscribir
1 SMP	U + 1E000..U + 1E02F	Suplemento glagolítico	48	38	Glagolítico
1 SMP	U + 1E100..U + 1E14F	Nyiakeng Puachue Hmong	80	71	Nyiakeng Puachue Hmong
1 SMP	U + 1E2C0..U + 1E2FF	Wancho	64	59	Wancho
1 SMP	U + 1E800..U + 1E8DF	Mende Kikakui	224	213	Mende Kikakui
1 SMP	U + 1E900..U + 1E95F	Adlam	96	88	Adlam
1 SMP	U + 1EC70..U + 1ECBF	Números indios de Siyaq	80	68	Común
1 SMP	U + 1ED00..U + 1ED4F	Números otomanos Siyaq	80	61	Común
1 SMP	U + 1EE00..U + 1EEFF	Símbolos alfabéticos matemáticos árabes	256	143	Arábica
1 SMP	U + 1F000..U + 1F02F	Azulejos de Mahjong	48	44	Común
1 SMP	U + 1F030..U + 1F09F	Azulejos de dominó	112	100	Común
1 SMP	U + 1F0A0..U + 1F0FF	Jugando a las cartas	96	82	Común
1 SMP	U + 1F100..U + 1F1FF	Suplemento alfanumérico adjunto	256	200	Común
1 SMP	U + 1F200..U + 1F2FF	Suplemento ideográfico adjunto	256	64	Hiragana (1 carácter), Común (63 caracteres)
1 SMP	U + 1F300..U + 1F5FF	Símbolos y pictogramas misceláneos	768	768	Común
1 SMP	U + 1F600..U + 1F64F	Emoticonos	80	80	Común
1 SMP	U + 1F650..U + 1F67F	Dingbats ornamentales	48	48	Común
1 SMP	U + 1F680..U + 1F6FF	Símbolos de transporte y mapas	128	114	Común
1 SMP	U + 1F700..U + 1F77F	Simbolos Alquimicos	128	116	Común
1 SMP	U + 1F780..U + 1F7FF	Formas geométricas extendidas	128	101	Común
1 SMP	U + 1F800..U + 1F8FF	Flechas suplementarias-C	256	150	Común
1 SMP	U + 1F900..U + 1F9FF	Símbolos y pictogramas suplementarios	256	254	Común
1 SMP	U + 1FA00..U + 1FA6F	Símbolos de ajedrez	112	98	Común
1 SMP	U + 1FA70..U + 1FAFF	Símbolos y pictogramas Extended-A	144	57	Común
1 SMP	U + 1FB00..U + 1FBFF	Símbolos para la informática heredada	256	212	Común
2 SIP	U + 20000..U + 2A6DF	Extensión B de ideogramas unificados de CJK	42,720	42,718	Han
2 SIP	U + 2A700..U + 2B73F	Extensión C de ideogramas unificados de CJK	4.160	4.149	Han
2 SIP	U + 2B740..U + 2B81F	Extensión D de ideogramas unificados de CJK	224	222	Han
2 SIP	U + 2B820..U + 2CEAF	Extensión E de ideogramas unificados de CJK	5.776	5.762	Han
2 SIP	U + 2CEB0..U + 2EBEF	Extensión F de ideogramas unificados de CJK	7.488	7.473	Han
2 SIP	U + 2F800..U + 2FA1F	Suplemento de ideogramas de compatibilidad CJK	544	542	Han
3 SUGERENCIA	U + 30000..U + 3134F	Extensión G de ideogramas unificados de CJK	4.944	4.939	Han
14 SSP	U + E0000..U + E007F	Etiquetas	128	97	Común
14 SSP	U + E0100..U + E01EF	Suplemento de selectores de variación	240	240	Heredado
15 PUA-A	U + F0000..U + FFFFF	Área de uso privado complementario-A	65,536	65,534	Desconocido
16 PUA-B	U + 100000..U + 10FFFF	Área de uso privado complementario-B	65,536	65,534	Desconocido
^ El recuento de puntos de código incluye puntos de código no asignados: sin carácter, reservado ^ La secuencia de comandos tiene uno o varios caracteres en el bloque, según lo definido por la propiedad de secuencia de comandos. Esto es independiente del nombre del bloque. ^ "Común" y "Desconocido" (Zyyy) y "Heredado" (Zinh o Qaai) se refieren a Scripts en ISO 15924 ^ Archivo de datos de bloques Unicode . A partir de la versión 13.0 de Unicode ^ UAX 24: Propiedad de secuencia de comandos Unicode (código alfa 4) ^ UAX 24: archivo de datos de secuencia de comandos ^ Llamado "Controles C0 y latín básico" en ISO / IEC 10646 ^ Llamado "Controles C1 y suplemento Latin-1" en ISO / IEC 10646

Texto

Cada carácter asignado puede tener un valor único para su propiedad "Script", lo que significa a qué script pertenece. ^[18] El valor es un código de cuatro letras en el rango Aaaa-Zzzz, como está disponible en ISO 15924, que se asigna a un sistema de escritura . Aparte de describir el trasfondo y el uso de un script, Unicode no usa una conexión entre un script y los lenguajes que usan ese script. Entonces, "hebreo" se refiere a la escritura hebrea, no al idioma hebreo.

El código especial Zyyy para "Común" permite un solo valor para un carácter que se utiliza en varios scripts. El código Zinh "Escritura heredada", que se utiliza para combinar caracteres y algunos otros puntos de código de propósito especial, indica que un carácter "hereda" su identidad de secuencia de comandos del carácter con el que se combina. (Unicode usaba anteriormente el código privado Qaai para este propósito). El código Zzzz "Desconocido" se usa para todos los caracteres que no pertenecen a un script (es decir, el valor predeterminado), como símbolos y caracteres de formato. En general, los caracteres de un solo guión se pueden dispersar en varios bloques, como los caracteres latinos . Y también al revés: pueden estar presentes varios scripts en un solo bloque, por ejemplo, el bloque Letterlike Symbols contiene caracteres de los scripts latinos, griegos y comunes.

Cuando la secuencia de comandos es "" (en blanco), según Unicode, el carácter no pertenece a una secuencia de comandos. Esto se refiere a los símbolos, porque los códigos de secuencia de comandos ISO existentes "Zmth" (notación matemática), "Zsym" (símbolo) y "Zsye" (símbolo, variante emoji) no se utilizan en Unicode. La propiedad "Script" también está en blanco para los puntos de código que no son un carácter tipográfico, como controles, sustitutos y puntos de código de uso privado.

Si hay un nombre de alias de script específico en ISO 15924, se usa en el nombre del carácter: U + 0041 A AMÉRICA MAYÚSCULA A , yU + 05D0 א HEBREO letra alef .

v t mi Secuencias de comandos en ISO 15924 ^[a]^[b] y en Unicode ^[c]^[d]
ISO 15924			Secuencia de comandos en Unicode ^[e]
Código	Nombre formal ISO	Direccionalidad	Alias Unicode ^[f]	Versión	Caracteres	Notas	Descripción

Adlm	Adlam	secuencia de comandos de derecha a izquierda	Adlam	9.0	88		Capítulo 19.9
Afak	Afaka	varía	ZZ - No en Unicode, se explora la propuesta ^[19]
Aghb	Albanés caucásico	de izquierda a derecha	Albanés caucásico	7.0	53	Antiguo / histórico	Capítulo 8.10
Ahom	Ahom, Tai Ahom	de izquierda a derecha	Ahom	8.0	58	Antiguo / histórico	Capítulo 15.15
árabe	Arábica	secuencia de comandos de derecha a izquierda	Arábica	1.0	1,291		Capítulo 9.2
Aran	Árabe (variante Nastaliq)	mezclado	ZZ : variante tipográfica del árabe ( § árabe )
Armi	Arameo imperial	secuencia de comandos de derecha a izquierda	Arameo imperial	5.2	31	Antiguo / histórico	Capítulo 10.4
Armn	armenio	de izquierda a derecha	armenio	1.0	96		Capítulo 7.6
Avst	Avestan	secuencia de comandos de derecha a izquierda	Avestan	5.2	61	Antiguo / histórico	Capítulo 10.7
Bali	Balinés	de izquierda a derecha	Balinés	5,0	121		Capítulo 17.3
Bamu	Bamum	de izquierda a derecha	Bamum	5.2	657		Capítulo 19.6
Bajo	Bassa Vah	de izquierda a derecha	Bassa Vah	7.0	36	Antiguo / histórico	Capítulo 19.7
Batk	Batak	de izquierda a derecha	Batak	6.0	56		Capítulo 17.6
Beng	Bengalí (bengalí)	de izquierda a derecha	bengalí	1.0	96		Capítulo 12.2
Bhks	Bhaiksuki	de izquierda a derecha	Bhaiksuki	9.0	97	Antiguo / histórico	Capítulo 14.3
Blis	Blissymbols	varía	ZZ - No en Unicode, se explora la propuesta ^[19]
Bopo	Bopomofo	de izquierda a derecha	Bopomofo	1.0	77		Capítulo 18.3
Brah	Brahmi	de izquierda a derecha	Brahmi	6.0	109	Antiguo / histórico	Capítulo 14,1
Brai	Braille	de izquierda a derecha	Braille	3,0	256		Capítulo 21.1
Bugi	Buginés	de izquierda a derecha	Buginés	4.1	30		Capítulo 17.2
Buhd	Buhid	de izquierda a derecha	Buhid	3.2	20		Capítulo 17.1
Cakm	Chakma	de izquierda a derecha	Chakma	6.1	71		Capítulo 13.11
Latas	Sílabas aborígenes canadienses unificadas	de izquierda a derecha	Aborigen canadiense	3,0	710		Capítulo 20.2
Cari	Carian	escritura de izquierda a derecha, de derecha a izquierda	Carian	5.1	49	Antiguo / histórico	Capítulo 8.4
Cham	Cham	de izquierda a derecha	Cham	5.1	83		Capítulo 16.10
Cher	Cherokee	de izquierda a derecha	Cherokee	3,0	172		Capítulo 20.1
Chrs	Chorasmian	secuencia de comandos de derecha a izquierda , de arriba a abajo	Chorasmian	13,0	28	Antiguo / histórico	Capítulo 10.8
Cirt	Cirth	varía	ZZ : no en Unicode
copto	copto	de izquierda a derecha	copto	1.0	137	Antiguo / histórico, desunificado del griego en 4.1	Capítulo 7.3
CPMN	Cypro-Minoan	de izquierda a derecha	ZZ : no en Unicode
Cprt	Silabario chipriota	secuencia de comandos de derecha a izquierda	Chipriota	4.0	55	Antiguo / histórico	Capítulo 8.3
Cyrl	cirílico	de izquierda a derecha	cirílico	1.0	443	Incluye variante tipográfica antiguo eslavo eclesiástico ( § Cyrs)	Capítulo 7.4
Cyrs	Cirílico (variante del antiguo eslavo eclesiástico)	varía	ZZ : variante tipográfica del cirílico ( § Cyrl )			Antiguo / histórico
Deva	Devanagari (Nagari)	de izquierda a derecha	Devanagari	1.0	154		Capítulo 12.1
Diak	Buceo Akuru	de izquierda a derecha	Buceo Akuru	13,0	72	Antiguo / histórico	Capítulo 15.14
Dogr	Dogra	de izquierda a derecha	Dogra	11,0	60	Antiguo / histórico	Capítulo 15.17
Dsrt	Deseret (mormón)	de izquierda a derecha	Deseret	3.1	80		Capítulo 20.4
Dupl	Taquigrafía Duployan, taquigrafía Duployan	de izquierda a derecha	Duployan	7.0	143		Capítulo 21.5
Egyd	Demótico egipcio	mezclado	ZZ : no en Unicode
Egyh	Hierático egipcio	mezclado	ZZ : no en Unicode
Egipto	Jeroglíficos egipcios	de izquierda a derecha	Jeroglíficos egipcios	5.2	1.080	Antiguo / histórico	Capítulo 11.4
Elba	Elbasan	de izquierda a derecha	Elbasan	7.0	40	Antiguo / histórico	Capítulo 8.9
Elym	Elymaic	secuencia de comandos de derecha a izquierda	Elymaic	12,0	23	Antiguo / histórico	Capítulo 10.9
Ethi	Etíope (Geʻez)	de izquierda a derecha	Etíope	3,0	495		Capítulo 19.1
Geok	Khutsuri (Asomtavruli y Nuskhuri)	de izquierda a derecha	georgiano			Unicode agrupa "Khutsori", "Asomtavruli" y "Nuskhuri" en "georgiano" ( § Geok ). También "Mkhedruli" y "Mtavruli" son "georgianos" ( § Geor )	Capítulo 7.7
Geor	Georgiano (Mkhedruli y Mtavruli)	de izquierda a derecha	georgiano	1.0	173	En Unicode, también incluye a Geok (Nuskhuri)	Capítulo 7.7
Glag	Glagolítico	de izquierda a derecha	Glagolítico	4.1	132	Antiguo / histórico	Capítulo 7.5
Gong	Gunjala Gondi	de izquierda a derecha	Gunjala Gondi	11,0	63		Capítulo 13.15
Gonm	Masaram Gondi	de izquierda a derecha	Masaram Gondi	10.0	75		Capítulo 13.14
godo	gótico	de izquierda a derecha	gótico	3.1	27	Antiguo / histórico	Capítulo 8.8
Gran	Grantha	de izquierda a derecha	Grantha	7.0	85	Antiguo / histórico	Capítulo 15.13
Grek	griego	de izquierda a derecha	griego	1.0	518	Direccionalidad a veces como boustrophedon	Capítulo 7.2
Gujr	Gujarati	de izquierda a derecha	Gujarati	1.0	91		Capítulo 12.4
Gurú	Gurmukhi	de izquierda a derecha	Gurmukhi	1.0	80		Capítulo 12.3
Hanb	Han con Bopomofo (alias de Han + Bopomofo)	mezclado	ZZ - Ver § Hani , § Bopo
Colgar	Hangul (Hangŭl, Hangeul)	de izquierda a derecha, de arriba a abajo	Hangul	1.0	11,739	Sílabas hangul reubicadas en 2.0	Capítulo 18.6
Hani	Han (Hanzi, Kanji, Hanja)	de arriba a abajo, columnas de derecha a izquierda (históricamente)	Han	1.0	94,204		Capítulo 18.1
Hano	Hanunoo (Hanunóo)	de izquierda a derecha, de abajo hacia arriba	Hanunoo	3.2	21		Capítulo 17.1
Hans	Han (variante simplificada)	varía	ZZ : subconjunto de Han (Hanzi, Kanji, Hanja) ( § Hani )
Hant	Han (variante tradicional)	varía	ZZ - Subconjunto de § Hani
Hatr	Hatran	secuencia de comandos de derecha a izquierda	Hatran	8.0	26	Antiguo / histórico	Capítulo 10.12
Hebr	hebreo	secuencia de comandos de derecha a izquierda	hebreo	1.0	134		Capítulo 9.1
Hira	Hiragana	de arriba a abajo, de izquierda a derecha	Hiragana	1.0	379		Capítulo 18.4
Hluw	Jeroglíficos de Anatolia (Jeroglíficos Luwianos, Jeroglíficos hititas)	de izquierda a derecha	Jeroglíficos de Anatolia	8.0	583	Antiguo / histórico	Capítulo 11.6
Hmng	Pahawh Hmong	de izquierda a derecha	Pahawh Hmong	7.0	127		Capítulo 16.11
Hmnp	Nyiakeng Puachue Hmong	de izquierda a derecha	Nyiakeng Puachue Hmong	12,0	71		Capítulo 16.12
Hrkt	Silabarios japoneses (alias de Hiragana + Katakana)	de arriba a abajo, de izquierda a derecha	Katakana o Hiragana			Ver § Hira , § Kana	Capítulo 18.4
Colgado	Húngaro antiguo (rúnico húngaro)	secuencia de comandos de derecha a izquierda	Húngaro antiguo	8.0	108	Antiguo / histórico	Capítulo 8.7
Inds	Indo (Harappa)	mezclado	ZZ - No en Unicode, se explora la propuesta ^[19]
Ital	Cursiva antigua (etrusca, osca, etc.)	script de derecha a izquierda , de izquierda a derecha	Cursiva antigua	3.1	39	Antiguo / histórico	Capítulo 8.5
Jamo	Jamo (alias del subconjunto Jamo de Hangul)	varía	ZZ - Subconjunto de § Hang
Java	javanés	de izquierda a derecha	javanés	5.2	90		Capítulo 17.4
Jpan	Japonés (alias de Han + Hiragana + Katakana)	varía	ZZ - Ver § Hani , § Hira y § Kana
Jurc	Jurchen	de izquierda a derecha	ZZ : no en Unicode
Kali	Kayah Li	de izquierda a derecha	Kayah Li	5.1	47		Capítulo 16.9
Kana	Katakana	de arriba a abajo, de izquierda a derecha	Katakana	1.0	304		Capítulo 18.4
Khar	Kharoshthi	secuencia de comandos de derecha a izquierda	Kharoshthi	4.1	68	Antiguo / histórico	Capítulo 14.2
Khmr	Jemer	de izquierda a derecha	Jemer	3,0	146		Capítulo 16.4
Khoj	Khojki	de izquierda a derecha	Khojki	7.0	62	Antiguo / histórico	Capítulo 15.7
Kitl	Escritura grande de Khitan	de izquierda a derecha	ZZ : no en Unicode
Kits	Letra pequeña de Khitan	de arriba hacia abajo	Guión pequeño de Khitan	13,0	471	Antiguo / histórico	Capítulo 18.12
Knda	Canarés	de izquierda a derecha	Canarés	1.0	89		Capítulo 12.8
Kore	Coreano (alias de Hangul + Han)	de izquierda a derecha	ZZ - Ver § Hani , § Hang
Kpel	Kpelle	de izquierda a derecha	ZZ - No en Unicode, se explora la propuesta ^[19]
Kthi	Kaithi	de izquierda a derecha	Kaithi	5.2	67	Antiguo / histórico	Capítulo 15.2
Lana	Tai Tham (Lanna)	de izquierda a derecha	Tai Tham	5.2	127		Capítulo 16.7
Laoo	Lao	de izquierda a derecha	Lao	1.0	82		Capítulo 16.2
Latf	Latín (variante Fraktur)	varía	ZZ : variante tipográfica del latín ( § Latn )
Latg	Latín (variante gaélica)	de izquierda a derecha	ZZ : variante tipográfica del latín ( § Latn )
Latn	latín	de izquierda a derecha	latín	1.0	1.374	Ver también: escritura latina en Unicode	Capítulo 7.1
Leke	Leke	de izquierda a derecha	ZZ : no en Unicode
Lepc	Lepcha (Róng)	de izquierda a derecha	Lepcha	5.1	74		Capítulo 13.12
Miembro	Limbu	de izquierda a derecha	Limbu	4.0	68		Capítulo 13.6
Lina	Lineal A	de izquierda a derecha	Lineal A	7.0	341	Antiguo / histórico	Capítulo 8.1
Linb	Lineal B	de izquierda a derecha	Lineal B	4.0	211	Antiguo / histórico	Capítulo 8.2
Lisu	Lisu (Fraser)	de izquierda a derecha	Lisu	5.2	49		Capítulo 18.9
Loma	Loma	de izquierda a derecha	ZZ - No en Unicode, se explora la propuesta ^[19]
Lyci	Licio	de izquierda a derecha	Licio	5.1	29	Antiguo / histórico	Capítulo 8.4
Lydi	Lidio	secuencia de comandos de derecha a izquierda	Lidio	5.1	27	Antiguo / histórico	Capítulo 8.4
Mahj	Mahajani	de izquierda a derecha	Mahajani	7.0	39	Antiguo / histórico	Capítulo 15.6
Maka	Makasar	de izquierda a derecha	Makasar	11,0	25	Antiguo / histórico	Capítulo 17.8
Mand	Mandaic, Mandaean	secuencia de comandos de derecha a izquierda	Mandaic	6.0	29		Capítulo 9.5
Mani	maniqueo	secuencia de comandos de derecha a izquierda	maniqueo	7.0	51	Antiguo / histórico	Capítulo 10.5
Bagazo	Marchen	de izquierda a derecha	Marchen	9.0	68	Antiguo / histórico	Capítulo 14.5
maya	Jeroglíficos mayas	mezclado	ZZ : no en Unicode
Medf	Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ)	de izquierda a derecha, de izquierda a derecha	Medefaidrina	11,0	91		Capítulo 19.10
Arreglar	Mende Kikakui	secuencia de comandos de derecha a izquierda	Mende Kikakui	7.0	213		Capítulo 19.8
Merc	Cursiva meroítica	secuencia de comandos de derecha a izquierda	Cursiva meroítica	6.1	90	Antiguo / histórico	Capítulo 11.5
Mero	Jeroglíficos meroíticos	secuencia de comandos de derecha a izquierda	Jeroglíficos meroíticos	6.1	32	Antiguo / histórico	Capítulo 11.5
Mlym	Malayalam	de izquierda a derecha	Malayalam	1.0	118		Capítulo 12.9
Modi	Modi, Moḍī	de izquierda a derecha	Modi	7.0	79	Antiguo / histórico	Capítulo 15.11
Mong	mongol	de arriba a abajo, de izquierda a derecha	mongol	3,0	167	Mong incluye guiones claros y manchúes	Capítulo 13.5
Luna	Luna (código lunar, escritura lunar, tipo lunar)	mezclado	ZZ - No en Unicode, se explora la propuesta ^[19]
Mroo	Mro, Mru	de izquierda a derecha	Mro	7.0	43		Capítulo 13.8
Mtei	Meitei Mayek (Meithei, Meetei)	de izquierda a derecha	Meetei Mayek	5.2	79		Capítulo 13.7
Mult	Multani	de izquierda a derecha	Multani	8.0	38	Antiguo / histórico	Capítulo 15.9
Mymr	Myanmar (birmano)	de izquierda a derecha	Myanmar	3,0	223		Capítulo 16.3
Nand	Nandinagari	de izquierda a derecha	Nandinagari	12,0	sesenta y cinco	Antiguo / histórico	Capítulo 15.12
Narb	Antiguo árabe del norte (antiguo árabe del norte)	script de derecha a izquierda , script de derecha a izquierda	Viejo árabe del norte	7.0	32	Antiguo / histórico	Capítulo 10.1
Nbat	Nabateo	secuencia de comandos de derecha a izquierda	Nabateo	7.0	40	Antiguo / histórico	Capítulo 10.10
Newa	Newa, Newar, Newari, Nepāla lipi	de izquierda a derecha	Newa	9.0	97		Capítulo 13.3
Nkdb	Naxi Dongba (na²¹ɕi³³ a³³ba²¹, Nakhi Tomba)	de izquierda a derecha	ZZ : no en Unicode
Nkgb	Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba)	de izquierda a derecha	ZZ - No en Unicode, se explora la propuesta ^[19]
Nkoo	N'Ko	secuencia de comandos de derecha a izquierda	NKo	5,0	62		Capítulo 19.4
Nshu	Nüshu	de arriba hacia abajo	Nushu	10.0	397		Capítulo 18.8
Ogam	Ogham	de abajo hacia arriba, de izquierda a derecha	Ogham	3,0	29	Antiguo / histórico	Capítulo 8.12
Olck	Ol Chiki (Ol Cemet ', Ol, Santali)	de izquierda a derecha	Ol Chiki	5.1	48		Capítulo 13.10
Orkh	Antiguo turco, Orkhon Runic	secuencia de comandos de derecha a izquierda	Viejo turco	5.2	73	Antiguo / histórico	Capítulo 14.8
Orya	Oriya (Odia)	de izquierda a derecha	Oriya	1.0	91		Capítulo 12.5
Osge	Osage	de izquierda a derecha	Osage	9.0	72		Capítulo 20.3
Osma	Osmanya	de izquierda a derecha	Osmanya	4.0	40		Capítulo 19.2
Ougr	Viejo uigur	mezclado	ZZ : no en Unicode
Palma	Palmyrene	secuencia de comandos de derecha a izquierda	Palmyrene	7.0	32	Antiguo / histórico	Capítulo 10.11
Pauc	Pau Cin Hau	de izquierda a derecha	Pau Cin Hau	7.0	57		Capítulo 16.13
Pcun	Proto-Cuneiforme	de izquierda a derecha	ZZ : no en Unicode
Pelm	Protoelamita	de izquierda a derecha	ZZ : no en Unicode
Permanente	Viejo Permic	de izquierda a derecha	Viejo Permic	7.0	43	Antiguo / histórico	Capítulo 8.11
Phag	Phags-pa	de arriba hacia abajo	Phags-pa	5,0	56	Antiguo / histórico	Capítulo 14.4
Phli	Pahlavi inscripcional	secuencia de comandos de derecha a izquierda	Pahlavi inscripcional	5.2	27	Antiguo / histórico	Capítulo 10.6
Phlp	Salterio Pahlavi	secuencia de comandos de derecha a izquierda	Salterio Pahlavi	7.0	29	Antiguo / histórico	Capítulo 10.6
Phlv	Libro Pahlavi	mezclado	ZZ : no en Unicode
Phnx	Fenicio	secuencia de comandos de derecha a izquierda	Fenicio	5,0	29	Antiguo / histórico ^[g]	Capítulo 10.3
Piqd	Klingon (KLI pIqaD)	de izquierda a derecha	ZZ - Rechazado para su inclusión en Unicode ^[20]^[21]
Plrd	Miao (Pollard)	de izquierda a derecha	Miao	6.1	149		Capítulo 18.10
Prti	Parto inscripcional	secuencia de comandos de derecha a izquierda	Parto inscripcional	5.2	30	Antiguo / histórico	Capítulo 10.6
Psin	Proto-Sinaítico	mezclado	ZZ : no en Unicode
Qaaa-Qabx	Reservado para uso privado (rango)		ZZ : no en Unicode
Ranj	Ranjana	de izquierda a derecha	ZZ : no en Unicode
Rjng	Rejang (Redjang, Kaganga)	de izquierda a derecha	Rejang	5.1	37		Capítulo 17.5
Rohg	Hanifi Rohingya	secuencia de comandos de derecha a izquierda	Hanifi Rohingya	11,0	50		Capítulo 16.14
Roro	Rongorongo	mezclado	ZZ - No en Unicode, se explora la propuesta ^[19]
Runr	Rúnico	de izquierda a derecha, boustrophedon	Rúnico	3,0	86	Antiguo / histórico	Capítulo 8,6
Samr	samaritano	secuencia de comandos de derecha a izquierda , de arriba a abajo	samaritano	5.2	61		Capítulo 9.4
Sara	Sarati	mezclado	ZZ : no en Unicode
Sarb	Viejo sur de Arabia	secuencia de comandos de derecha a izquierda	Viejo sur de Arabia	5.2	32	Antiguo / histórico	Capítulo 10.2
Saur	Saurashtra	de izquierda a derecha	Saurashtra	5.1	82		Capítulo 13.13
Sgnw	FirmarEscribir	de arriba hacia abajo	FirmarEscribir	8.0	672		Capítulo 21.6
Shaw	Shavian (Shaw)	de izquierda a derecha	Shavian	4.0	48		Capítulo 8.13
Shrd	Sharada, Śāradā	de izquierda a derecha	Sharada	6.1	96		Capítulo 15.3
Shui	Shuishu	de izquierda a derecha	ZZ : no en Unicode
Sidd	Siddham, Siddhaṃ, Siddhamātṛkā	de izquierda a derecha	Siddham	7.0	92	Antiguo / histórico	Capítulo 15.5
Sind	Khudawadi, sindhi	de izquierda a derecha	Khudawadi	7.0	69		Capítulo 15.8
Sinh	Cingalés	de izquierda a derecha	Cingalés	3,0	111		Capítulo 13.2
Sogd	Sogdian	secuencia de comandos de derecha a izquierda , de arriba a abajo, columnas de izquierda a derecha	Sogdian	11,0	42	Antiguo / histórico	Capítulo 14.10
Entonces ve	Viejo Sogdian	secuencia de comandos de derecha a izquierda	Viejo Sogdian	11,0	40	Antiguo / histórico	Capítulo 14.9
Sora	Sora Sompeng	de izquierda a derecha	Sora Sompeng	6.1	35		Capítulo 15.16
Soyo	Soyombo	de izquierda a derecha	Soyombo	10.0	83	Antiguo / histórico	Capítulo 14.7
Sund	Sundanés	de izquierda a derecha	Sundanés	5.1	72		Capítulo 17.7
Sylo	Syloti Nagri	de izquierda a derecha	Syloti Nagri	4.1	45	Antiguo / histórico	Capítulo 15.1
Syrc	Siríaco	secuencia de comandos de derecha a izquierda	Siríaco	3,0	88	Includes typographic variants Estrangelo (§ Syre), Western (§ Syrj), and Eastern (§ Syrn)	Ch 9.3
Syre	Syriac (Estrangelo variant)	mixed	ZZ— Typographic variant of Syriac (§ Syrc)
Syrj	Syriac (Western variant)	mixed	ZZ— Typographic variant of Syriac (§ Syrc)
Syrn	Syriac (Eastern variant)	mixed	ZZ— Typographic variant of Syriac (§ Syrc)
Tagb	Tagbanwa	left-to-right	Tagbanwa	3.2	18		Ch 17.1
Takr	Takri, Ṭākrī, Ṭāṅkrī	left-to-right	Takri	6.1	67		Ch 15.4
Tale	Tai Le	left-to-right	Tai Le	4.0	35		Ch 16.5
Talu	New Tai Lue	left-to-right	New Tai Lue	4.1	83		Ch 16.6
Taml	Tamil	left-to-right	Tamil	1.0	123		Ch 12.6
Tang	Tangut	top-to-bottom, columns right-to-left, left-to-right	Tangut	9.0	6,914	Ancient/historic	Ch 18.11
Tavt	Tai Viet	left-to-right	Tai Viet	5.2	72		Ch 16.8
Telu	Telugu	left-to-right	Telugu	1.0	98		Ch 12.7
Teng	Tengwar	left-to-right	ZZ— Not in Unicode
Tfng	Tifinagh (Berber)	left-to-right	Tifinagh	4.1	59		Ch 19.3
Tglg	Tagalog (Baybayin, Alibata)	left-to-right	Tagalog	3.2	20		Ch 17.1
Thaa	Thaana	right-to-left script	Thaana	3.0	50		Ch 13.1
Thai	Thai	left-to-right	Thai	1.0	86		Ch 16.1
Tibt	Tibetan	left-to-right	Tibetan	2.0	207	Added in 1.0, removed in 1.1 and reintroduced in 2.0	Ch 13.4
Tirh	Tirhuta	left-to-right	Tirhuta	7.0	82		Ch 15.10
Tnsa	Tangsa	left-to-right	ZZ— Not in Unicode^[22]
Toto	Toto	left-to-right	ZZ— Not in Unicode
Ugar	Ugaritic	left-to-right	Ugaritic	4.0	31	Ancient/historic	Ch 11.2
Vaii	Vai	left-to-right	Vai	5.1	300		Ch 19.5
Visp	Visible Speech	left-to-right	ZZ— Not in Unicode
Vith	Vithkuqi	left-to-right	ZZ— Not in Unicode
Wara	Warang Citi (Varang Kshiti)	left-to-right	Warang Citi	7.0	84		Ch 13.9
Wcho	Wancho	left-to-right	Wancho	12.0	59		Ch 13.16
Wole	Woleai	mixed	ZZ— Not in Unicode, proposal is explored^[19]
Xpeo	Old Persian	left-to-right	Old Persian	4.1	50	Ancient/historic	Ch 11.3
Xsux	Cuneiform, Sumero-Akkadian	left-to-right	Cuneiform	5.0	1,234	Ancient/historic	Ch 11.1
Yezi	Yezidi	right-to-left script	Yezidi	13.0	47	Ancient/historic	Ch 9.6
Yiii	Yi	left-to-right	Yi	3.0	1,220		Ch 18.7
Zanb	Zanabazar Square (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Horizontal Square Script)	left-to-right	Zanabazar Square	10.0	72	Ancient/historic	Ch 14.6
Zinh	Code for inherited script		Inherited		573
Zmth	Mathematical notation		ZZ— Not a 'script' in Unicode
Zsym	Symbols		ZZ— Not a 'script' in Unicode
Zsye	Symbols (emoji variant)		ZZ— Not a 'script' in Unicode
Zxxx	Code for unwritten documents		ZZ— Not a 'script' in Unicode
Zyyy	Code for undetermined script		Common		8,087
Zzzz	Code for uncoded script		Unknown		970,188	In Unicode: All other code points
Notes ^ ISO 15924 publications As of 17 February 2021 ^[update] ^ ISO 15924 Normative text file As of 17 February 2021 ^[update] ^ ISO 15924 Changes (including Aliases for Unicode; as of 17 February 2021 ^[update]) ^ Unicode version 13.0 ^ Unicode charts ^ Unicode uses the "Property Value Alias" (Alias) as the script-name. These Alias names are part of Unicode and are published informatively next to ISO 15924. An alias script name may be used in a character name: `Palm`, Palmyrene → U+10860 𐡠PALMYRENE LETTER ALEPH. ^ In Unicode, the Phoenician script is intended for the representation of text in Paleo-Hebrew, Archaic Phoenician, Phoenician, Early Aramaic, Late Phoenician cursive, Phoenician papyri, Siloam Hebrew, Hebrew seals, Ammonite, Moabite, and Punic. ^[23]

Propiedades de normalización

Decompositions, decomposition type, canonical combining class, composition exclusions, and more.

Edad

Age is the version of the Standard in which the code point was first designated. The version number is shortened to the numbering major.minor, although there more detailed version numbers are used: versions 4.0.0 and 4.0.1 both are named 4.0 as Age. Given the releases, Age can be from the range: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0, 12.0, 12.1, and 13.0.^[24] The long values for Age begin in a V and use an underscore instead of a dot: V1_1, for example.^[2] Codepoints without a specifically assigned age value have the value "NA", with the long form "Unassigned".

Obsoleto

Once a character has been defined, it will not be withdrawn or changed in defining properties (code point, name). But it can be declared deprecated: A coded character whose use is strongly discouraged.^[25] As of Unicode version 10.0, fifteen characters are deprecated:

U+0149 LATIN SMALL LETTER N PRECEDED BY APOSTROPHE: use the sequence ʼ0020 006E (ʼ n) instead
U+0673 ARABIC LETTER ALEF WITH WAVY HAMZA BELOW: use the sequence 0627 065F (اٟ) instead
U+0F77 TIBETAN VOWEL SIGN VOCALIC RR: use the sequence 0FB2 0F81 (ྲཱྀ) instead
U+0F79 TIBETAN VOWEL SIGN VOCALIC LL: use the sequence 0FB3 0F81 (ླཱྀ) instead
U+17A3 KHMER INDEPENDENT VOWEL QAQ: use 17A2 KHMER LETTER QA (អ) instead
U+17A4 KHMER INDEPENDENT VOWEL QAA: use the sequence 17A2 17B6 (អា) instead
U+206A INHIBIT SYMMETRIC SWAPPING
U+206B ACTIVATE SYMMETRIC SWAPPING
U+206C INHIBIT ARABIC FORM SHAPING
U+206D ACTIVATE ARABIC FORM SHAPING
U+206E NATIONAL DIGIT SHAPES
U+206F NOMINAL DIGIT SHAPES
U+2329 LEFT-POINTING ANGLE BRACKET: use U+3008 LEFT ANGLE BRACKET (〈) instead
U+232A RIGHT-POINTING ANGLE BRACKET: use U+3009 RIGHT ANGLE BRACKET (〉) instead
U+E0001 LANGUAGE TAG

The format characters U+206A through U+206F and U+E0001 should not be used at all, but for the other deprecated characters there are recommended alternatives, as shown above.

Límites

The Unicode Standard specifies the following boundary-related properties:

Grapheme cluster
Word
Line
Sentence

Referencias

^ a b c d e "The Unicode Standard, Chapter 4: Character Properties" (PDF). Unicode, Inc. March 2020. Retrieved 2020-03-15.
^ a b "Unicode Standard Annex #44: Unicode Character Database". The Unicode Standard. 2017-06-14.
^ "UCD: Name Aliases". Unicode Character Database. Unicode Consortium. 2019-03-08.
^ "Character design standards – space characters". Character design standards. Microsoft. 1998–1999. Archived from the original on August 23, 2000. Retrieved 2009-05-18.
^ The Unicode Standard 5.0, printed edition, p.205
^ "General Punctuation" (PDF). The Unicode Standard 5.1. Unicode Inc. 1991–2008. Retrieved 2009-05-13.
^ Sargent, Murray III (2006-08-29). "Unicode Nearly Plain Text Encoding of Mathematics (Version 2)". Unicode Technical Note #28. Unicode Inc. pp. 19–20. Retrieved 2009-05-19.
^ Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard. Addison-Wesley. ISBN 0-201-70052-2.
^ a b Hickson, Ian. "12.5 Named character references". HTML Standard. WHATWG.
^ Wolfram. "\[NegativeThickSpace]". Wolfram Language Documentation.
^ Wolfram. "\[NegativeMediumSpace]". Wolfram Language Documentation.
^ Wolfram. "\[NegativeThinSpace]". Wolfram Language Documentation.
^ Wolfram. "\[NegativeVeryThinSpace]". Wolfram Language Documentation.
^ Faltstrom, P., ed. (August 2010). "Zero Width Non-Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA). IETF. sec. A.1. doi:10.17487/RFC5892. RFC 5892. Retrieved September 4, 2019.
^ Faltstrom, P., ed. (August 2010). "Zero Width Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA). IETF. sec. A.2. doi:10.17487/RFC5892. RFC 5892. Retrieved September 4, 2019.
^ "Unicode Standard Annex #44, Unicode Character Database".
^ a b "Unicode Standard Annex #9: Unicode Bidirectional Algorithm". The Unicode Standard. 2017-05-14.
^ "Unicode Standard Annex #24: Unicode Script Property". The Unicode Standard. 2015-06-01.
^ a b c d e f g h i "Proposed New Scripts". Unicode Consortium. 2018-05-25. Retrieved 2019-09-12.
^ Michael Everson (1997-09-18). "Proposal to encode Klingon in Plane 1 of ISO/IEC 10646-2".
^ The Unicode Consortium (2001-08-14). "Approved Minutes of the UTC 87 / L2 184 Joint Meeting".
^ Morey, Stephen; Pandey, Anshuman (2021-01-07). "Proposal to add the Tangsa Script in the SMP of the UCS" (PDF). Unicode Consortium. L2/L2021/21027. Retrieved 2021-02-19.
^ "Middle East-II, Ancient Scripts" (PDF). 13.0.0. The Unicode Consortiumtitle=Middle-East scripts II. Retrieved 2021-01-28.
^ "UCD: Derived Age". Unicode Character Database. Unicode Consortium. 2019-09-08.
^ "The Unicode Standard, Chapter 3.4 Characters and Encoding, D13: Deprecated character" (PDF). The Unicode Standard. March 2020.

[fn1-4] "Tabla 4-4: Categoría general" (PDF) . El estándar Unicode . Consorcio Unicode. Marzo de 2020.

[fn2-5] "Tabla 2-3: Tipos de puntos de código" (PDF) . El estándar Unicode . Consorcio Unicode. Marzo de 2020.

[fn3-6] Políticas de estabilidad de la codificación de caracteres Unicode: Estabilidad del valor de la propiedad Política de estabilidad: Algunos grupos de gc nunca cambiarán. gc = Nd se corresponde con el tipo numérico = De (decimal).

[fn4-7] "Tabla 4-9: Construcción de etiquetas de puntos de código" (PDF) . El estándar Unicode . Consorcio Unicode. Marzo de 2020.Se puede utilizar una etiqueta de punto de código para identificar un punto de código sin nombre. Por ejemplo, hhhh >, . El nombre permanece en blanco, lo que puede evitar que se reemplace inadvertidamente, en la documentación, un nombre de control con un código de control verdadero. Unicode también usa para .

[wsdef-8] White_Space es una propiedad binaria Unicode. ^[dieciséis]

[ws-9] "Unicode 13.0 UCD: PropList.txt" . 2019-11-27 . Consultado el 12 de marzo de 2020 .

[20] Aunque&ZeroWidthSpacees uno de HTML5 entidad nombrada por U + 200B, los nombres adicionalesNegativeMediumSpace,NegativeThickSpace,NegativeThinSpaceyNegativeVeryThinSpace(que son nombres usados en el Wolfram Idioma para espacios negativa anticipadas, que se asigna al área de uso privado )^[10]^[11]^{[12 ]}^[13] también están definidos por HTML5 como alias para U + 200B (p&NegativeMediumSpace.Ej.). ^[9]

[Number_of_code_points-25] ^ El recuento de puntos de código incluye puntos de código no asignados: sin carácter, reservado

[Script_in_block_definition-26] La secuencia de comandos tiene uno o varios caracteres en el bloque, según lo definido por la propiedad de secuencia de comandos. Esto es independiente del nombre del bloque.

[Common_and_Inherited-27] "Común" y "Desconocido" (Zyyy) y "Heredado" (Zinh o Qaai) se refieren a Scripts en ISO 15924

[Unicode_blocks_datafile-28] Archivo de datos de bloques Unicode . A partir de la versión 13.0 de Unicode

[Unicode_script_property-29] UAX 24: Propiedad de secuencia de comandos Unicode (código alfa 4)

[Unicode_scripts_datafile-30] UAX 24: archivo de datos de secuencia de comandos

[Basic_Latin-31] Llamado "Controles C0 y latín básico" en ISO / IEC 10646

[Latin1_Supplement-32] Llamado "Controles C1 y suplemento Latin-1" en ISO / IEC 10646

[cnote_a_grp_ISO_Unicode] 
ISO 15924 publications As of 17 February 2021 ^[update]

[cnote_b_grp_ISO_list] 
ISO 15924 Normative text file As of 17 February 2021 ^[update]

[cnote_c_grp_ISO_changes] 
ISO 15924 Changes (including Aliases for Unicode; as of 17 February 2021 ^[update])

[cnote_d_grp_Asof_Unicode_version] 
Unicode version 13.0

[cnote_e_grp_Unicode_charts] 
Unicode charts

[cnote_f_grp_Aliases_for_Unicode] 
Unicode uses the "Property Value Alias" (Alias) as the script-name. These Alias names are part of Unicode and are published informatively next to ISO 15924. An alias script name may be used in a character name: Palm, Palmyrene → U+10860 𐡠PALMYRENE LETTER ALEPH.

[cnote_g_grp_Scripts] 
In Unicode, the Phoenician script is intended for the representation of text in Paleo-Hebrew, Archaic Phoenician, Phoenician, Early Aramaic, Late Phoenician cursive, Phoenician papyri, Siloam Hebrew, Hebrew seals, Ammonite, Moabite, and Punic. ^[23]

[Chapter4-1] "The Unicode Standard, Chapter 4: Character Properties" (PDF). Unicode, Inc. March 2020. Retrieved 2020-03-15.

[UAX44-2] "Unicode Standard Annex #44: Unicode Character Database". The Unicode Standard. 2017-06-14.

[3] "UCD: Name Aliases". Unicode Character Database. Unicode Consortium. 2019-03-08.

[10] "Character design standards – space characters". Character design standards. Microsoft. 1998–1999. Archived from the original on August 23, 2000. Retrieved 2009-05-18.

[11] The Unicode Standard 5.0, printed edition, p.205

[12] "General Punctuation" (PDF). The Unicode Standard 5.1. Unicode Inc. 1991–2008. Retrieved 2009-05-13.

[13] Sargent, Murray III (2006-08-29). "Unicode Nearly Plain Text Encoding of Mathematics (Version 2)". Unicode Technical Note #28. Unicode Inc. pp. 19–20. Retrieved 2009-05-19.

[Gillam-14] Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard. Addison-Wesley. ISBN 0-201-70052-2.

[html5entity-15] Hickson, Ian. "12.5 Named character references". HTML Standard. WHATWG.

[16] Wolfram. "\[NegativeThickSpace]". Wolfram Language Documentation.

[17] Wolfram. "\[NegativeMediumSpace]". Wolfram Language Documentation.

[18] Wolfram. "\[NegativeThinSpace]". Wolfram Language Documentation.

[19] Wolfram. "\[NegativeVeryThinSpace]". Wolfram Language Documentation.

[21] Faltstrom, P., ed. (August 2010). "Zero Width Non-Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA). IETF. sec. A.1. doi:10.17487/RFC5892. RFC 5892. Retrieved September 4, 2019.

[22] Faltstrom, P., ed. (August 2010). "Zero Width Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA). IETF. sec. A.2. doi:10.17487/RFC5892. RFC 5892. Retrieved September 4, 2019.

[23] "Unicode Standard Annex #44, Unicode Character Database".

[UAX9-24] "Unicode Standard Annex #9: Unicode Bidirectional Algorithm". The Unicode Standard. 2017-05-14.

[33] "Unicode Standard Annex #24: Unicode Script Property". The Unicode Standard. 2015-06-01.

[uniproposed-34] ^ a b c d e f g h i "Proposed New Scripts". Unicode Consortium. 2018-05-25. Retrieved 2019-09-12.

[35] Michael Everson (1997-09-18). "Proposal to encode Klingon in Plane 1 of ISO/IEC 10646-2".

[36] The Unicode Consortium (2001-08-14). "Approved Minutes of the UTC 87 / L2 184 Joint Meeting".

[37] Morey, Stephen; Pandey, Anshuman (2021-01-07). "Proposal to add the Tangsa Script in the SMP of the UCS" (PDF). Unicode Consortium. L2/L2021/21027. Retrieved 2021-02-19.

[38] "Middle East-II, Ancient Scripts" (PDF). 13.0.0. The Unicode Consortiumtitle=Middle-East scripts II. Retrieved 2021-01-28.

[DerivedAge-39] "UCD: Derived Age". Unicode Character Database. Unicode Consortium. 2019-09-08.

[40] "The Unicode Standard, Chapter 3.4 Characters and Encoding, D13: Deprecated character" (PDF). The Unicode Standard. March 2020.

[1]