El estándar Unicode asigna propiedades de carácter a cada punto de código . [1] Estas propiedades se pueden usar para manejar "caracteres" (puntos de código) en procesos, como saltos de línea, dirección del script de derecha a izquierda o aplicando controles. Ligeramente inconsecuente, algunas "propiedades de carácter" también se definen para puntos de código que no tienen ningún carácter asignado y puntos de código que están etiquetados como "
Las propiedades tienen niveles de contundencia: normativa, informativa, contributiva o provisional. Para simplificar la especificación, se puede asignar una propiedad de carácter especificando un rango continuo de puntos de código que tienen la misma propiedad.
Nombre
A un carácter Unicode se le asigna un nombre único (na). [1] El nombre se compone de letras mayúsculas de la A a la Z, dígitos del 0 al 9, - (guión menos) y
Las siguientes clases de puntos de código no tienen un Nombre (na = ""): Controles (Categoría general: Cc), Uso privado (Co), Sustituto (Cs), No caracteres (Cn) y Reservado (Cn). Pueden ser referenciados, de manera informal, por un meta-nombre genérico o específico, llamado "Etiquetas de puntos de código":
Nombres de la versión 1.0
En la versión 2.0 de Unicode, se cambiaron muchos nombres. A partir de ese momento entró en vigor la regla "un nombre nunca cambiará", incluido el uso estricto (normativo) de los alias. Los nombres de la versión 1.0 en desuso se trasladaron a la propiedad Alias, para proporcionar cierta compatibilidad con versiones anteriores.
Alias del nombre del personaje
A partir de la versión 2.0 de Unicode, el nombre publicado de un punto de código nunca cambiará. Por lo tanto, en el caso de que el nombre de un personaje esté mal escrito o si el nombre del personaje es completamente incorrecto o engañoso, se puede asignar un Alias de nombre de personaje formal al personaje, y las aplicaciones pueden usar este alias en lugar del nombre del personaje defectuoso real. . [1] Por ejemplo,U + FE18 ︘ FORMULARIO DE PRESENTACIÓN PARA BRAKCET LENTICULAR BLANCO DERECHO VERTICAL tiene el nombre de carácter alias "FORMULARIO DE PRESENTACIÓN PARA SOPORTE LENTICULAR BLANCO DERECHO VERTICAL" para mitigar la falta de ortografía de "bracket" como "brakcet" en el nombre real del personaje;U + A015 ꀕ YI SYLLABLE WU tiene el nombre de carácter alias "YI SYLLABLE ITERATION MARK" porque, al contrario que el nombre del personaje, no tiene un valor silábico fijo.
Además de los alias de nombres de caracteres, que son correcciones de nombres de caracteres defectuosos, a algunos caracteres se les asignan alias que son nombres alternativos o abreviaturas. En el estándar Unicode se definen cinco tipos de alias de nombres de caracteres:
- Corrección: correcciones por nombres de personajes mal escritos o muy incorrectos;
- Control: nombres ISO 6429 para funciones de control C0 y C1 (que no tienen nombres de caracteres asignados en el estándar Unicode);
- Alternativo: nombres alternativos para algunos caracteres de formato (solo U + FEFF "ESPACIO SIN INTERRUPCIÓN DE ANCHO CERO" que tiene el alias "MARCA DE ORDEN DE BYTE");
- Figura: Etiquetas documentadas para algunas funciones del código de control C1 que no son nombres reales en ningún estándar;
- Abreviatura: abreviaturas o acrónimos de códigos de control, caracteres de formato, espacios y selectores de variación.
Todos los alias de nombres de caracteres formales siguen las reglas para los nombres de caracteres permitidos, y se garantiza que son únicos tanto en el alias del nombre del carácter como en los espacios de nombres del nombre del carácter (por esta razón, el nombre ISO 6429 "BELL" no se define como un alias para U +0007 porque U + 1F514 se llama "BELL"). [1]
A partir de la versión 12.1 de Unicode, veintiocho alias de nombres de caracteres formales se definen como correcciones para nombres de caracteres defectuosos. [3]
Personaje | Nombre | Alias | |
---|---|---|---|
01A2 | Ƣ | LETRA MAYÚSCULA LATINA OI | LETRA MAYÚSCULA LATINA GHA |
01A3 | ƣ | LETRA MINÚSCULA LATINA OI | LETRA MINÚSCULA LATINA GHA |
0709 | ܉ | COLON SUBLINEAR SIRIO BOCADO A LA DERECHA | COLON SUBLINEAR SIRIO BOCADO A LA IZQUIERDA |
0CDE | ೞ | LETRA KANNADA FA | LETRA KANNADA LLLA |
0E9D | ຝ | LAO LETRA FO TAM | LAO LETRA FO FON |
0E9F | ຟ | LAO LETRA FO SUNG | LAO LETRA FO FAY |
0EA3 | ຣ | LETRA LAO LO LING | LAO LETRA RO |
0EA5 | ລ | LETRA LAO LOOT | LAO LETRA LO |
0FD0 | ࿐ | MARCA TIBETANA BSKA- SHOG GI MGO RGYAN | MARCA TIBETANA BKA- SHOG GI MGO RGYAN |
11EC | ᇬ | HANGUL JONGSEONG IEUNG-KIYEOK | HANGUL JONGSEONG YESIEUNG-KIYEOK |
11ED | ᇭ | HANGUL JONGSEONG IEUNG-SSANGKIYEOK | HANGUL JONGSEONG YESIEUNG-SSANGKIYEOK |
11EE | ᇮ | HANGUL JONGSEONG SSANGIEUNG | HANGUL JONGSEONG SSANGYESIEUNG |
11EF | ᇯ | HANGUL JONGSEONG IEUNG-KHIEUKH | HANGUL JONGSEONG YESIEUNG-KHIEUKH |
2118 | ℘ | GUIÓN CAPITAL P | FUNCIÓN ELÍPTICA WEIERSTRASS |
2448 | ⑈ | OCR DASH | MICR EN SÍMBOLO DE NOSOTROS |
2449 | ⑉ | NÚMERO DE CUENTA DE CLIENTE DE OCR | SÍMBOLO MICR DASH |
2B7A | ⭺ | HACIA LA IZQUIERDA FLECHA DE CABEZA TRIÁNGULO CON DOBLE CARRERA HORIZONTAL | HACIA LA IZQUIERDA FLECHA DE CABEZA TRIÁNGULO CON DOBLE CARRERA VERTICAL |
2B7C | ⭼ | FLECHA DE CABEZA TRIÁNGULO HACIA LA DERECHA CON DOBLE CARRERA HORIZONTAL | FLECHA DE CABEZA TRIÁNGULO HACIA LA DERECHA CON DOBLE CARRERA VERTICAL |
A015 | ꀕ | YI SÍLABA WU | MARCA DE ITERACIÓN DE LA SÍLABA YI |
FE18 | ︘ | FORMULARIO DE PRESENTACIÓN PARA BRAKCET LENTICULAR BLANCO DERECHO VERTICAL | FORMA DE PRESENTACIÓN SOPORTE LENTICULAR BLANCO DERECHO VERTICAL |
122D4 | 𒋔 | CAMISETA SEÑAL CUNEIFORME TENU | CUNEIFORM SIGN NU11 TENU |
122D5 | 𒋕 | CAMISETA CUNEIFORM SIGN OVER CAMISETA BUR OVER BUR | CUNEIFORM SIGN NU11 SOBRE NU11 BUR OVER BUR |
16E56 | 𖹖 | MEDEFAIDRIN LETRA MAYÚSCULA HP | MEDEFAIDRIN LETRA MAYÚSCULA H |
16E57 | 𖹗 | MEDEFAIDRIN LETRA MAYÚSCULA NY | MEDEFAIDRIN LETRA MAYÚSCULA NG |
16E76 | 𖹶 | MEDEFAIDRIN LETRA PEQUEÑA HP | MEDEFAIDRIN LETRA H MINÚSCULA |
16E77 | 𖹷 | MEDEFAIDRIN MINÚSCULA NY | MEDEFAIDRIN MINÚSCULA NG |
1B001 | 𛀁 | HIRAGANA LETRA ARCHAIC YE | CARTA E-1 DE HENTAIGANA |
1D0C5 | 𝃅 | SÍMBOLO MUSICAL BIZANTINO FHTORA SKLIRON CHROMA VASIS | SÍMBOLO MUSICAL BIZANTINO FTHORA SKLIRON CHROMA VASIS |
Aparte de estos nombres normativos, los nombres informales pueden mostrarse en las tablas de código Unicode. Estos son otros nombres de uso común para un carácter, y no es necesario restringirlos a letras A – Z, dígitos 0–9, - (guión-menos) y
Categoría general
A cada punto de código se le asigna un valor para Categoría general. Esta es una de las propiedades de carácter que también se definen para puntos de código no asignados y puntos de código que se definen como "no un carácter".
Categoría general ( propiedad de carácter Unicode ) [a] | |||||
---|---|---|---|---|---|
Valor | Categoría Mayor, menor | Tipo básico [b] | Personaje asignado [b] | Contar (a partir de 13.0) | Observaciones |
L, letra | |||||
Lu | Letra, mayúscula | Gráfico | Personaje | 1,791 | |
Ll | Letra minúscula | Gráfico | Personaje | 2,155 | |
Teniente | Carta, título | Gráfico | Personaje | 31 | Ligaduras que contienen mayúsculas seguidas de minúsculas (p. Ej., Dž , Lj , Nj y Dz ) |
Lm | Letra, modificador | Gráfico | Personaje | 260 | Una letra modificadora |
Lo | Carta, otro | Gráfico | Personaje | 127,004 | Un ideograma o una letra en un alfabeto unicase |
M, marca | |||||
Minnesota | Mark, sin espaciamiento | Gráfico | Personaje | 1.839 | |
Mc | Marca, combinación de espaciado | Gráfico | Personaje | 443 | |
Me | Mark, adjuntando | Gráfico | Personaje | 13 | |
N, número | |||||
Dakota del Norte | Número, dígito decimal | Gráfico | Personaje | 650 | Todos estos, y solo estos, tienen Tipo numérico = De [c] |
Nl | Número, letra | Gráfico | Personaje | 236 | Números compuestos por letras o símbolos similares a letras (p. Ej., Números romanos ) |
No | Número, otro | Gráfico | Personaje | 895 | Por ejemplo, fracciones vulgares , dígitos en superíndice y subíndice |
P, puntuación | |||||
Ordenador personal | Puntuación, conector | Gráfico | Personaje | 10 | Incluye subrayado "_" |
Pd | Puntuación, guión | Gráfico | Personaje | 25 | Incluye varios caracteres de guión. |
PD | Puntuación, abierto | Gráfico | Personaje | 75 | Caracteres de corchete de apertura |
Educación física | Puntuación, cerrar | Gráfico | Personaje | 73 | Caracteres de corchete de cierre |
Pi | Puntuación, cita inicial | Gráfico | Personaje | 12 | Comillas de apertura . No incluye las comillas ASCII "neutrales". Puede comportarse como Ps o Pe dependiendo del uso |
Pf | Puntuación, cita final | Gráfico | Personaje | 10 | Comillas de cierre. Puede comportarse como Ps o Pe dependiendo del uso |
Correos | Puntuación, otro | Gráfico | Personaje | 593 | |
S, símbolo | |||||
Sm | Símbolo, matemáticas | Gráfico | Personaje | 948 | Símbolos matemáticos (p. Ej., + , - , = , × , ÷ , √ , ∊ , ≠ ). No incluye paréntesis y corchetes, que se encuentran en las categorías Ps y Pe. ¡Tampoco incluye ! , * , - o / , que a pesar de su uso frecuente como operadores matemáticos, se consideran principalmente "puntuación". |
Carolina del Sur | Símbolo, moneda | Gráfico | Personaje | 62 | Símbolos de moneda |
Sk | Símbolo, modificador | Gráfico | Personaje | 123 | |
Entonces | Símbolo, otro | Gráfico | Personaje | 6.431 | |
Z, separador | |||||
Zs | Separador, espacio | Gráfico | Personaje | 17 | Incluye el espacio, pero no TAB , CR o LF , que son Cc |
Zl | Separador, línea | Formato | Personaje | 1 | Solo SEPARADOR DE LÍNEA U + 2028 (LSEP) |
Zp | Separador, párrafo | Formato | Personaje | 1 | Solo SEPARADOR DE PÁRRAFOS U + 2029 (PSEP) |
C, otro | |||||
Cc | Otro, control | Control | Personaje | 65 (nunca cambiará) [c] | Sin nombre, [d] |
Cf | Otro, formato | Formato | Personaje | 161 | Incluye el guión suave , caracteres de control de unión ( zwnj y zwj ), caracteres de control para admitir texto bidireccional y caracteres de etiquetas de idioma |
Cs | Otro, sustituto | Sustituto | No (solo se usa en UTF-16 ) | 2,048 (nunca cambiará) [c] | Sin nombre, [d] |
Co | Otro uso privado | Uso privado | Carácter (pero sin interpretación especificada) | 137.468 en total (nunca cambiará) [c] ( 6.400 en BMP , 131.068 en los aviones 15-16 ) | Sin nombre, [d] |
Cn | Otro, no asignado | Sin carácter | No | 66 (nunca cambiará) [c] | Sin nombre, [d] |
Reservado | No | 830,606 | Sin nombre, [d] | ||
|
Puntuación
Los caracteres tienen propiedades independientes para indicar que son un carácter de puntuación . Todas las propiedades tienen valores Sí / No : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .
Espacio en blanco
El espacio en blanco es un concepto de uso común para un efecto tipográfico. Básicamente, cubre caracteres invisibles que tienen un efecto de espaciado en el texto renderizado. Incluye espacios , pestañas y nuevos controles de formato de línea. En Unicode, dicho carácter tiene la propiedad establecida "WSpace = yes". En la versión 13.0, hay 25 caracteres de espacio en blanco.
Nombre | Punto de código | Caja de ancho | ¿Puede romperse ? | ¿En IDN ? | Texto | Cuadra | Categoría general | Notas | |
---|---|---|---|---|---|---|---|---|---|
tabulación de caracteres | U + 0009 | 9 | sí | No | Común | Latín básico | Otro, control | HT, pestaña horizontal . HTML / XML entidad denominada : &Tab , LaTeX : '\ tab' | |
linea de alimentación | U + 000A | 10 | Es un salto de línea | Común | Latín básico | Otro, control | LF, salto de línea . Entidad con nombre HTML / XML:&NewLine | ||
tabulación de línea | U + 000B | 11 | Es un salto de línea | Común | Latín básico | Otro, control | VT, pestaña vertical | ||
formulario de alimentación | U + 000C | 12 | Es un salto de línea | Común | Latín básico | Otro, control | FF, avance de formulario | ||
retorno de carro | U + 000D | 13 | Es un salto de línea | Común | Latín básico | Otro, control | CR, retorno de carro | ||
espacio | U + 0020 | 32 | sí | No | Común | Latín básico | Separador, espacio | Más común (espacio ASCII normal) | |
Proxima linea | U + 0085 | 133 | Es un salto de línea | Común | Suplemento Latin-1 | Otro, control | NEL, siguiente línea | ||
espacio sin descanso | U + 00A0 | 160 | No | No | Común | Suplemento Latin-1 | Separador, espacio | Espacio de no rotura : idéntico a U + 0020, pero no un punto en el que pueda romperse una línea. Entidad con nombre HTML / XML:, LaTeX: '\' | |
marca de espacio ogham | U + 1680 | 5760 | sí | No | Ogham | Ogham | Separador, espacio | Se utiliza para la separación entre palabras en el texto Ogham . Normalmente una línea vertical en texto vertical o una línea horizontal en texto horizontal, pero también puede ser un espacio en blanco en fuentes "sin tallo". Requiere una fuente Ogham. | |
en quad | U + 2000 | 8192 | sí | No | Común | Puntuación general | Separador, espacio | Ancho de uno en . U + 2002 es canónicamente equivalente a este personaje; Se prefiere U + 2002. | |
em quad | U + 2001 | 8193 | sí | No | Común | Puntuación general | Separador, espacio | También conocido como "quad de cordero". Ancho de uno em . U + 2003 es canónicamente equivalente a este personaje; Se prefiere U + 2003. | |
en el espacio | U + 2002 | 8194 | sí | No | Común | Puntuación general | Separador, espacio | También conocido como "nuez". Ancho de uno en . U + 2000 En Quad es canónicamente equivalente a este personaje; Se prefiere U + 2002. Entidad con nombre HTML / XML:, LaTeX: '\ enspace' | |
em espacio | U + 2003 | 8195 | sí | No | Común | Puntuación general | Separador, espacio | También conocido como "cordero". Ancho de uno em . U + 2001 Em Quad es canónicamente equivalente a este personaje; Se prefiere U + 2003. Entidad con nombre HTML / XML:, LaTeX: '\ quad' | |
espacio de tres por em | U + 2004 | 8196 | sí | No | Común | Puntuación general | Separador, espacio | También conocido como "espacio grueso". Un tercio de un em de ancho. Entidad con nombre HTML / XML:&emsp13 | |
espacio de cuatro por em | U + 2005 | 8197 | sí | No | Común | Puntuación general | Separador, espacio | También conocido como "espacio medio". Un cuarto de un em de ancho. Entidad con nombre HTML / XML:&emsp14 | |
espacio de seis por em | U + 2006 | 8198 | sí | No | Común | Puntuación general | Separador, espacio | Un sexto de un em de ancho. En tipografía informática, a veces se equipara a U + 2009. | |
espacio de la figura | U + 2007 | 8199 | No | No | Común | Puntuación general | Separador, espacio | Espacio de figura . En fuentes con dígitos monoespaciados, igual al ancho de un dígito. Entidad con nombre HTML / XML:&numsp | |
espacio de puntuación | U + 2008 | 8200 | sí | No | Común | Puntuación general | Separador, espacio | Tan ancho como la puntuación estrecha de una fuente, es decir, el ancho de avance del punto o la coma. [4] Entidad con nombre HTML / XML:&puncsp | |
espacio delgado | U + 2009 | 8201 | sí | No | Común | Puntuación general | Separador, espacio | Espacio delgado ; una quinta parte (a veces una sexta parte) de un em de ancho. Recomendado para su uso como separador de miles para medidas realizadas con unidades SI . A diferencia de U + 2002 a U + 2008, su ancho puede ajustarse en la composición tipográfica. [5] HTML / XML entidad denominada: ; LaTeX: '\,' | |
espacio para el cabello | U + 200A | 8202 | sí | No | Común | Puntuación general | Separador, espacio | Más delgado que un espacio delgado. Entidad con nombre HTML / XML: &hairsp ( no funciona en todos los navegadores) | |
separador de linea | U + 2028 | 8232 | Es un salto de línea | Común | Puntuación general | Separador, línea | |||
separador de párrafos | U + 2029 | 8233 | Es un salto de línea | Común | Puntuación general | Separador, párrafo | |||
espacio estrecho sin descanso | U + 202F | 8239 | No | No | Común | Puntuación general | Separador, espacio | Espacio estrecho sin interrupciones . Similar en función a U + 00A0 No-Break Space. Cuando se usa con mongol, su ancho suele ser un tercio del espacio normal; en otro contexto, su ancho a veces se parece al del Thin Space (U + 2009). | |
espacio matemático medio | U + 205F | 8287 | sí | No | Común | Puntuación general | Separador, espacio | MMSP. Utilizado en fórmulas matemáticas. Cuatro dieciocho de un em. [6] En tipografía matemática, los anchos de los espacios generalmente se dan en múltiplos enteros de un décimo octavo de un em, y 4/18 em se pueden usar en varias situaciones, por ejemplo entre la a y el + y entre el + y el b en la expresión a + b . [7] Entidad con nombre HTML / XML:&MediumSpace | |
espacio ideográfico | U + 3000 | 12288 | sí | No | Común | Símbolos y puntuación de CJK | Separador, espacio | Tan ancho como una celda de caracteres CJK ( ancho completo ). Utilizado, por ejemplo, en tai tou . |
Nombre | Punto de código | Caja de ancho | ¿Puede romperse ? | ¿En IDN ? | Texto | Cuadra | Categoría general | Notas | |
---|---|---|---|---|---|---|---|---|---|
separador de vocales de mongolia | U + 180E | 6158 | | sí | No | mongol | mongol | Otro, formato | MVS. Un carácter de espacio estrecho, utilizado en mongol para hacer que los dos últimos caracteres de una palabra adopten formas diferentes. [8] Ya no se clasifica como carácter de espacio (es decir, en la categoría Zs) en Unicode 6.3.0, a pesar de que estaba en versiones anteriores del estándar. |
espacio de ancho cero | U + 200B | 8203 | | sí | No | ? | Puntuación general | Otro, formato | ZWSP, espacio de ancho cero . Se utiliza para indicar los límites de las palabras a los sistemas de procesamiento de texto cuando se utilizan scripts que no utilizan espacios explícitos. Es similar al guión suave , con la diferencia de que este último se usa para indicar los límites de las sílabas y debe mostrar un guión visible cuando la línea se rompe. Entidad con nombre HTML / XML : &ZeroWidthSpace [9] [c] |
no carpintero de ancho cero | U + 200C | 8204 | | sí | Depende del contexto [14] | ? | Puntuación general | Otro, formato | ZWNJ, no ensamblador de ancho cero . Cuando se coloca entre dos caracteres que de otro modo estarían conectados, un ZWNJ hace que se impriman en sus formas final e inicial, respectivamente. Entidad con nombre HTML / XML: |
carpintero de ancho cero | U + 200D | 8205 | | sí | Depende del contexto [15] | ? | Puntuación general | Otro, formato | ZWJ, carpintero de ancho cero . Cuando se coloca entre dos caracteres que de otro modo no estarían conectados, un ZWJ hace que se impriman en sus formas conectadas. También se puede utilizar para mostrar formularios de unión de forma aislada. Dependiendo de si se espera una ligadura o conjunción por defecto, puede inducir (como en emoji y en cingalés ) o suprimir (como en Devanagari ) la sustitución con un solo glifo, mientras se permite el uso de formas de unión individuales (a diferencia de ZWNJ). Entidad con nombre HTML / XML: |
ensamblador de palabras | U + 2060 | 8288 | | No | No | ? | Puntuación general | Otro, formato | WJ, ensamblador de palabras . Similar a U + 200B, pero no es un punto en el que se pueda romper una línea. Entidad con nombre HTML / XML:&NoBreak |
espacio sin rotura de ancho cero | U + FEFF | 65279 | | No | No | ? | Formularios de presentación en árabe -B | Otro, formato | Espacio sin rotura de ancho cero . Se utiliza principalmente como marca de orden de bytes . El uso como indicación de no rotura está obsoleto a partir de Unicode 3.2; ver U + 2060 en su lugar. |
|
Otras caracteristicas generales
Ideográfico, alfabético, sin carácter.
Dar forma, ancho.
Escritura bidireccional
Seis propiedades de caracteres pertenecen a la escritura bidireccional: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket y Bidi_Paired_Bracket_Type.
Una de las características principales de Unicode es la compatibilidad con la visualización de texto bidireccional ( Bidi ) de derecha a izquierda (R-to-L) y de izquierda a derecha (L-to-R). El algoritmo bidireccional Unicode UAX9 [17] describe el proceso de presentación de texto con la alteración de las direcciones del script. Por ejemplo, habilita una cita en hebreo en un texto en inglés. Bidi_Character_Type marca el comportamiento de un personaje en escritura direccional. Para anular una dirección, Unicode ha definido caracteres de control de formato especiales ( Bidi-Control s). Estos caracteres pueden imponer una dirección y, por definición, solo afectan la escritura bidireccional.
Cada punto de código tiene una propiedad llamada Bidi_Class . Define su comportamiento en un texto bidireccional según lo interpreta el algoritmo:
Tipo [2] | Descripción | Fuerza | Direccionalidad | Alcance general | Carácter Bidi_Control [3] |
---|---|---|---|---|---|
L | De izquierda a derecha | Fuerte | De izquierda a derecha | La mayoría de caracteres alfabéticos y silábicos, caracteres chinos, dígitos no europeos o no árabes, caracteres LRM, ... | U + 200E MARCA DE IZQUIERDA A DERECHA (LRM) |
R | De derecha a izquierda | Fuerte | R-to-L | Adlam, hebreo, Mandaic, Mende Kikakui, N'Ko, Samaritan, escrituras antiguas como Kharoshthi y Nabataean, carácter RLM, ... | U + 200F MARCA DE DERECHA A IZQUIERDA (RLM) |
Alabama | Letra árabe | Fuerte | R-to-L | Alfabetos árabe, hanifi rohingya, sogdiano, siríaco y thaana, y la mayoría de los signos de puntuación específicos de esos guiones, caracteres ALM, ... | U + 061C LETRA ÁRABE (ALM) |
ES | Número europeo | Débil | Dígitos europeos, dígitos árabe-índicos del este, números epactos coptos, ... | ||
ES | Separador europeo | Débil | signo , signo menos , ... | ||
ET | Terminador de números europeos | Débil | signo de grado , símbolos de moneda, ... | ||
UN | Número árabe | Débil | Dígitos árabe-índicos, separadores de miles y decimales árabes, dígitos Rumi, dígitos Hanifi Rohingya, ... | ||
CS | Separador de números comunes | Débil | colon , coma , punto final , espacio sin descanso , ... | ||
NSM | Marca no espaciadora | Débil | Caracteres en categorías generales Marcar, sin espacios y Marcar, adjunto (Mn, Me) | ||
BN | Límite neutral | Débil | Ignorables predeterminados, no caracteres, caracteres de control distintos a los que se les dan explícitamente otros tipos | ||
B | Separador de párrafos | Neutral | separador de párrafos , funciones de nueva línea apropiadas, determinación de párrafos de protocolo de nivel superior | ||
S | Separador de segmentos | Neutral | Pestañas | ||
WS | Espacio en blanco | Neutral | espacio , espacio de la figura , separador de linea , alimentación de formulario , espacios de bloque de puntuación general (conjunto más pequeño que la lista de espacios en blanco Unicode ) | ||
EN | Otros neutrales | Neutral | Todos los demás personajes, incluidos carácter de reemplazo de objeto | ||
LRE | Incrustación de izquierda a derecha | Explícito | De izquierda a derecha | Solo personaje LRE | U + 202A EMPOTRADO DE IZQUIERDA A DERECHA (LRE) |
LRO | Anulación de izquierda a derecha | Explícito | De izquierda a derecha | Solo personaje LRO | ANULACIÓN DE IZQUIERDA A DERECHA U + 202D (LRO) |
RLE | Incrustación de derecha a izquierda | Explícito | R-to-L | Solo carácter RLE | U + 202B EMPOTRADO DE DERECHA A IZQUIERDA (RLE) |
RLO | Anulación de derecha a izquierda | Explícito | R-to-L | Solo carácter RLO | U + 202E ANULACIÓN DE DERECHA A IZQUIERDA (RLO) |
Formato direccional pop | Explícito | Solo carácter PDF | FORMATO DIRECCIONAL POP U + 202C (PDF) | ||
LRI | Aislar de izquierda a derecha | Explícito | De izquierda a derecha | Solo carácter LRI | U + 2066 AISLADO DE IZQUIERDA A DERECHA (LRI) |
RLI | Aislar de derecha a izquierda | Explícito | R-to-L | Solo carácter RLI | U + 2067 AISLADO DE DERECHA A IZQUIERDA (RLI) |
FSI | Primer aislamiento fuerte | Explícito | Solo carácter FSI | U + 2068 PRIMER AISLADO FUERTE (FSI) | |
PDI | Aislamiento direccional pop | Explícito | Solo carácter PDI | U + 2069 POP AISLADO DIRECCIONAL (PDI) | |
Notas
|
En situaciones normales, el algoritmo puede determinar la dirección de un texto mediante esta propiedad de carácter. Para controlar situaciones Bidi más complejas, por ejemplo, cuando un texto en inglés tiene una cita en hebreo, se agregan opciones adicionales a Unicode. Doce caracteres tienen la propiedad Bidi_Control = Sí : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM y RLO como se indica en la tabla. Estos son caracteres de control de formato invisibles, solo utilizados por el algoritmo y sin efecto fuera del formato bidireccional. [17] A pesar del nombre, son caracteres de formato, no de control, y tienen la categoría general "Otro, formato (Cf)" en la definición Unicode.
Básicamente, el algoritmo determina una secuencia de caracteres con el mismo tipo de dirección fuerte (R-to-L o L-to-R), teniendo en cuenta una anulación por los controles bidireccionales especiales. A las cadenas de números (tipos débiles) se les asigna una dirección de acuerdo con su entorno fuerte, al igual que los caracteres neutrales. Finalmente, los caracteres se muestran según la dirección de una cadena.
Dos propiedades de carácter son relevantes para determinar una imagen especular de un glifo en texto bidireccional: Bidi_Mirrored = Yes indica que el glifo debe reflejarse cuando se escribe R-to-L. La propiedad Bidi_Mirroring_Glyph = U + hhhh puede apuntar al personaje reflejado. Por ejemplo, los corchetes "()" se reflejan de esta manera. Dar forma a escrituras cursivas como el árabe y reflejar glifos que tienen una dirección no es parte del algoritmo.
Caja
El valor de caso es normativo en Unicode. Pertenece a aquellos guiones con letras mayúsculas (también conocidas como mayúsculas, mayúsculas) y minúsculas (también conocidas como minúsculas, minúsculas). La diferencia entre mayúsculas y minúsculas se produce en las escrituras Adlam, armenio, cherokee, copto, cirílico, deseret, glagolítico, griego, khutsuri y mkhedruli georgiano, latín, medefaidrin, húngaro antiguo, Osage y Warang Citi.
(superior, inferior, título, plegado, tanto simple como completo)
Valores y tipos numéricos
Decimal
Los caracteres se clasifican con un tipo numérico . [1] Los caracteres como fracciones, subíndices, superíndices, números romanos, numeradores de moneda, números encerrados en un círculo y dígitos específicos de la escritura son de tipo numérico. Tienen un valor numérico que puede ser decimal, incluido cero y negativos, o una fracción vulgar. Si no existe tal valor, como ocurre con la mayoría de los caracteres, el tipo numérico es "Ninguno".
Los caracteres que tienen un valor numérico se separan en tres grupos: decimal (De), dígito (Di) y numérico (Nu, es decir, todos los demás). "Decimal" significa que el carácter es un dígito decimal directo. Sólo los caracteres que forman parte de un rango codificado contiguo 0..9 tienen tipo numérico Decimal. Otros dígitos, como los superíndices, tienen Dígito de tipo numérico. Todos los caracteres numéricos como fracciones y números romanos terminan con el tipo "Numérico". El efecto deseado es que un analizador simple puede usar estos valores numéricos decimales, sin distraerse con, digamos, un superíndice numérico o una fracción. Setenta y tres ideogramas CJK que representan un número, incluidos los que se utilizan para la contabilidad, se escriben numéricos.
Por otro lado, los caracteres que podrían tener un valor numérico como segundo significado siguen marcados como tipo numérico "Ninguno" y no tienen valor numérico (""). Por ejemplo, se pueden usar letras latinas en la numeración de párrafos como "II.A.1.b", pero las letras "I", "A" y "b" no son numéricas (escriba "Ninguno") y no tienen valor numérico.
Tipo numérico [a] [b] ( propiedad de carácter Unicode ) | ||||
---|---|---|---|---|
Tipo numérico | Código | Tiene valor numérico | Ejemplo | Observaciones |
No numérico | None | No |
| Valor numérico = "NaN" |
Decimal | De | sí |
| Dígito recto (decimal- base ). Corresponde en ambos sentidos con Categoría general = Nd [a] |
Dígito | Di | sí |
| Decimal, pero en contexto tipográfico |
Numérico | Nu | sí |
| Valor numérico, pero no base decimal |
una. ^"Sección 4.6: Valor numérico" (PDF) . El estándar Unicode . Consorcio Unicode. Marzo de 2020. | ||||
B. ^"Tipos numéricos derivados de Unicode 13.0" . Base de datos de caracteres Unicode . Consorcio Unicode. 2019-09-08. |
Dígitos hexadecimales
Los caracteres hexadecimales son los de la serie con valores hexadecimales 0 ... 9ABCDEF (dieciséis caracteres, valor decimal 0-15). La propiedad de carácter Hex_Digit se establece en Sí cuando un personaje está en una de estas series:
Caracteres en Unicode marcados Hex_Digit=Yes [a] | |||
---|---|---|---|
0123456789ABCDEF | Latín básico, mayúsculas | También ASCII_Hex_Digit=Yes | |
0123456789abcdef | Latín básico, letras minúsculas | También ASCII_Hex_Digit=Yes | |
0123456789ABCDEF | Formas de ancho completo , mayúsculas | ||
0123456789abcdef | Formularios de ancho completo, letras minúsculas | ||
una. ^"Unicode 13.0 UCD: PropList.txt" . 2019-11-27 . Consultado el 12 de marzo de 2020 . |
Cuarenta y cuatro caracteres están marcados como Hex_Digit. Los del bloque Latín básico también están marcados como ASCII_Hex_Digit .
Unicode no tiene caracteres separados para valores hexadecimales. Una consecuencia es que cuando se utilizan caracteres regulares no es posible determinar si se pretende un valor hexadecimal, o incluso si se pretende un valor en absoluto. Eso debería determinarse en un nivel superior, por ejemplo, anteponiendo "0x" a un número hexadecimal o por contexto. La única característica es que Unicode puede notar que una secuencia puede ser o no un valor hexadecimal.
Cuadra
Un bloque es un rango contiguo de puntos de código con un nombre único. Se identifica por su primer y último punto de código. Los bloques no se superponen . Un bloque puede contener puntos de código que están reservados, no asignados, etc. Cada carácter que se asigna tiene un único valor de "nombre de bloque" de los 308 nombres asignados a partir de la versión Unicode 13.0. Los puntos de código no asignados fuera de un bloque existente, tienen el valor predeterminado "No_block".
Avión | Rango de bloque | Nombre del bloque | Puntos de código [a] | Caracteres asignados | Guiones [b] [c] [d] [e] [f] |
---|---|---|---|---|---|
0 BMP | U + 0000..U + 007F | Latín básico [g] | 128 | 128 | Latín (52 caracteres), Común (76 caracteres) |
0 BMP | U + 0080..U + 00FF | Suplemento Latin-1 [h] | 128 | 128 | Latín (64 caracteres), Común (64 caracteres) |
0 BMP | U + 0100..U + 017F | Latín extendido-A | 128 | 128 | latín |
0 BMP | U + 0180..U + 024F | Latín extendido-B | 208 | 208 | latín |
0 BMP | U + 0250..U + 02AF | Extensiones IPA | 96 | 96 | latín |
0 BMP | U + 02B0..U + 02FF | Letras modificadoras de espaciado | 80 | 80 | Bopomofo (2 caracteres), latín (14 caracteres), común (64 caracteres) |
0 BMP | U + 0300..U + 036F | Combinando marcas diacríticas | 112 | 112 | Heredado |
0 BMP | U + 0370..U + 03FF | Griego y copto | 144 | 135 | Copto (14 caracteres), Griego (117 caracteres), Común (4 caracteres) |
0 BMP | U + 0400..U + 04FF | cirílico | 256 | 256 | Cirílico (254 caracteres), Heredado (2 caracteres) |
0 BMP | U + 0500..U + 052F | Suplemento cirílico | 48 | 48 | cirílico |
0 BMP | U + 0530..U + 058F | armenio | 96 | 91 | armenio |
0 BMP | U + 0590..U + 05FF | hebreo | 112 | 88 | hebreo |
0 BMP | U + 0600..U + 06FF | Arábica | 256 | 255 | Árabe (237 caracteres), Común (6 caracteres), Heredado (12 caracteres) |
0 BMP | U + 0700..U + 074F | Siríaco | 80 | 77 | Siríaco |
0 BMP | U + 0750..U + 077F | Suplemento árabe | 48 | 48 | Arábica |
0 BMP | U + 0780..U + 07BF | Thaana | 64 | 50 | Thaana |
0 BMP | U + 07C0..U + 07FF | NKo | 64 | 62 | Nko |
0 BMP | U + 0800..U + 083F | samaritano | 64 | 61 | samaritano |
0 BMP | U + 0840..U + 085F | Mandaic | 32 | 29 | Mandaic |
0 BMP | U + 0860..U + 086F | Suplemento siríaco | dieciséis | 11 | Siríaco |
0 BMP | U + 08A0..U + 08FF | Árabe extendido-A | 96 | 84 | Árabe (83 caracteres), Común (1 carácter) |
0 BMP | U + 0900..U + 097F | Devanagari | 128 | 128 | Devanagari (122 caracteres), Común (2 caracteres), Heredado (4 caracteres) |
0 BMP | U + 0980..U + 09FF | bengalí | 128 | 96 | bengalí |
0 BMP | U + 0A00..U + 0A7F | Gurmukhi | 128 | 80 | Gurmukhi |
0 BMP | U + 0A80..U + 0AFF | Gujarati | 128 | 91 | Gujarati |
0 BMP | U + 0B00..U + 0B7F | Oriya | 128 | 91 | Oriya |
0 BMP | U + 0B80..U + 0BFF | Tamil | 128 | 72 | Tamil |
0 BMP | U + 0C00..U + 0C7F | Telugu | 128 | 98 | Telugu |
0 BMP | U + 0C80..U + 0CFF | Canarés | 128 | 89 | Canarés |
0 BMP | U + 0D00..U + 0D7F | Malayalam | 128 | 118 | Malayalam |
0 BMP | U + 0D80..U + 0DFF | Cingalés | 128 | 91 | Cingalés |
0 BMP | U + 0E00..U + 0E7F | tailandés | 128 | 87 | Tailandés (86 caracteres), Común (1 carácter) |
0 BMP | U + 0E80..U + 0EFF | Lao | 128 | 82 | Lao |
0 BMP | U + 0F00..U + 0FFF | Tibetano | 256 | 211 | Tibetano (207 caracteres), Común (4 caracteres) |
0 BMP | U + 1000..U + 109F | Myanmar | 160 | 160 | Myanmar |
0 BMP | U + 10A0..U + 10FF | georgiano | 96 | 88 | Georgiano (87 caracteres), Común (1 carácter) |
0 BMP | U + 1100..U + 11FF | Hangul Jamo | 256 | 256 | Hangul |
0 BMP | U + 1200..U + 137F | Etíope | 384 | 358 | Etíope |
0 BMP | U + 1380..U + 139F | Suplemento etíope | 32 | 26 | Etíope |
0 BMP | U + 13A0..U + 13FF | Cherokee | 96 | 92 | Cherokee |
0 BMP | U + 1400..U + 167F | Sílabas aborígenes canadienses unificadas | 640 | 640 | Aborigen canadiense |
0 BMP | U + 1680..U + 169F | Ogham | 32 | 29 | Ogham |
0 BMP | U + 16A0..U + 16FF | Rúnico | 96 | 89 | Rúnico (86 caracteres), Común (3 caracteres) |
0 BMP | U + 1700..U + 171F | Tagalo | 32 | 20 | Tagalo |
0 BMP | U + 1720..U + 173F | Hanunoo | 32 | 23 | Hanunoo (21 caracteres), Común (2 caracteres) |
0 BMP | U + 1740..U + 175F | Buhid | 32 | 20 | Buhid |
0 BMP | U + 1760..U + 177F | Tagbanwa | 32 | 18 | Tagbanwa |
0 BMP | U + 1780..U + 17FF | Jemer | 128 | 114 | Jemer |
0 BMP | U + 1800..U + 18AF | mongol | 176 | 157 | Mongol (154 caracteres), Común (3 caracteres) |
0 BMP | U + 18B0..U + 18FF | Extensión de la sílabas aborígenes canadienses unificadas | 80 | 70 | Aborigen canadiense |
0 BMP | U + 1900..U + 194F | Limbu | 80 | 68 | Limbu |
0 BMP | U + 1950..U + 197F | Tai Le | 48 | 35 | Tai Le |
0 BMP | U + 1980..U + 19DF | Nuevo Tai Lue | 96 | 83 | Nuevo Tai Lue |
0 BMP | U + 19E0..U + 19FF | Símbolos Khmer | 32 | 32 | Jemer |
0 BMP | U + 1A00..U + 1A1F | Buginés | 32 | 30 | Buginés |
0 BMP | U + 1A20..U + 1AAF | Tai Tham | 144 | 127 | Tai Tham |
0 BMP | U + 1AB0..U + 1AFF | Ampliación de la combinación de marcas diacríticas | 80 | 17 | Heredado |
0 BMP | U + 1B00..U + 1B7F | Balinés | 128 | 121 | Balinés |
0 BMP | U + 1B80..U + 1BBF | Sundanés | 64 | 64 | Sundanés |
0 BMP | U + 1BC0..U + 1BFF | Batak | 64 | 56 | Batak |
0 BMP | U + 1C00..U + 1C4F | Lepcha | 80 | 74 | Lepcha |
0 BMP | U + 1C50..U + 1C7F | Ol Chiki | 48 | 48 | Ol Chiki |
0 BMP | U + 1C80..U + 1C8F | Cirílico Extendido-C | dieciséis | 9 | cirílico |
0 BMP | U + 1C90..U + 1CBF | Georgiano extendido | 48 | 46 | georgiano |
0 BMP | U + 1CC0..U + 1CCF | Suplemento Sundanés | dieciséis | 8 | Sundanés |
0 BMP | U + 1CD0..U + 1CFF | Extensiones védicas | 48 | 43 | Común (16 caracteres), Heredado (27 caracteres) |
0 BMP | U + 1D00..U + 1D7F | Extensiones fonéticas | 128 | 128 | Cirílico (2 caracteres), Griego (15 caracteres), Latín (111 caracteres) |
0 BMP | U + 1D80..U + 1DBF | Suplemento de extensiones fonéticas | 64 | 64 | Griego (1 carácter), Latín (63 caracteres) |
0 BMP | U + 1DC0..U + 1DFF | Suplemento de combinación de marcas diacríticas | 64 | 63 | Heredado |
0 BMP | U + 1E00..U + 1EFF | Latino extendido adicional | 256 | 256 | latín |
0 BMP | U + 1F00..U + 1FFF | Griego extendido | 256 | 233 | griego |
0 BMP | U + 2000..U + 206F | Puntuación general | 112 | 111 | Común (109 caracteres), Heredado (2 caracteres) |
0 BMP | U + 2070..U + 209F | Superíndices y subíndices | 48 | 42 | Latín (15 caracteres), Común (27 caracteres) |
0 BMP | U + 20A0..U + 20CF | Símbolos de moneda | 48 | 32 | Común |
0 BMP | U + 20D0..U + 20FF | Combinando marcas diacríticas para símbolos | 48 | 33 | Heredado |
0 BMP | U + 2100..U + 214F | Símbolos tipo letras | 80 | 80 | Griego (1 carácter), Latín (4 caracteres), Común (75 caracteres) |
0 BMP | U + 2150..U + 218F | Formularios numéricos | 64 | 60 | Latín (41 caracteres), Común (19 caracteres) |
0 BMP | U + 2190..U + 21FF | Flechas | 112 | 112 | Común |
0 BMP | U + 2200..U + 22FF | Operadores matemáticos | 256 | 256 | Común |
0 BMP | U + 2300..U + 23FF | Técnica miscelánea | 256 | 256 | Común |
0 BMP | U + 2400..U + 243F | Imágenes de control | 64 | 39 | Común |
0 BMP | U + 2440..U + 245F | Reconocimiento óptico de caracteres | 32 | 11 | Común |
0 BMP | U + 2460..U + 24FF | Alfanuméricos adjuntos | 160 | 160 | Común |
0 BMP | U + 2500..U + 257F | Dibujo de caja | 128 | 128 | Común |
0 BMP | U + 2580..U + 259F | Elementos de bloque | 32 | 32 | Común |
0 BMP | U + 25A0..U + 25FF | Formas geométricas | 96 | 96 | Común |
0 BMP | U + 2600..U + 26FF | Símbolos Misceláneos | 256 | 256 | Común |
0 BMP | U + 2700..U + 27BF | Dingbats | 192 | 192 | Común |
0 BMP | U + 27C0..U + 27EF | Símbolos matemáticos varios-A | 48 | 48 | Común |
0 BMP | U + 27F0..U + 27FF | Flechas suplementarias-A | dieciséis | dieciséis | Común |
0 BMP | U + 2800..U + 28FF | Patrones Braille | 256 | 256 | Braille |
0 BMP | U + 2900..U + 297F | Flechas suplementarias-B | 128 | 128 | Común |
0 BMP | U + 2980..U + 29FF | Símbolos matemáticos varios-B | 128 | 128 | Común |
0 BMP | U + 2A00..U + 2AFF | Operadores matemáticos suplementarios | 256 | 256 | Común |
0 BMP | U + 2B00..U + 2BFF | Símbolos y flechas varios | 256 | 253 | Común |
0 BMP | U + 2C00..U + 2C5F | Glagolítico | 96 | 94 | Glagolítico |
0 BMP | U + 2C60..U + 2C7F | Latín extendido-C | 32 | 32 | latín |
0 BMP | U + 2C80..U + 2CFF | copto | 128 | 123 | copto |
0 BMP | U + 2D00..U + 2D2F | Suplemento georgiano | 48 | 40 | georgiano |
0 BMP | U + 2D30..U + 2D7F | Tifinagh | 80 | 59 | Tifinagh |
0 BMP | U + 2D80..U + 2DDF | Etíope extendido | 96 | 79 | Etíope |
0 BMP | U + 2DE0..U + 2DFF | Cirílico extendido-A | 32 | 32 | cirílico |
0 BMP | U + 2E00..U + 2E7F | Puntuación suplementaria | 128 | 83 | Común |
0 BMP | U + 2E80..U + 2EFF | Suplemento de radicales CJK | 128 | 115 | Han |
0 BMP | U + 2F00..U + 2FDF | Radicales Kangxi | 224 | 214 | Han |
0 BMP | U + 2FF0..U + 2FFF | Caracteres de descripción ideográfica | dieciséis | 12 | Común |
0 BMP | U + 3000..U + 303F | Símbolos y puntuación de CJK | 64 | 64 | Han (15 caracteres), Hangul (2 caracteres), Común (43 caracteres), Heredado (4 caracteres) |
0 BMP | U + 3040..U + 309F | Hiragana | 96 | 93 | Hiragana (89 caracteres), Común (2 caracteres), Heredado (2 caracteres) |
0 BMP | U + 30A0..U + 30FF | Katakana | 96 | 96 | Katakana (93 caracteres), Común (3 caracteres) |
0 BMP | U + 3100..U + 312F | Bopomofo | 48 | 43 | Bopomofo |
0 BMP | U + 3130..U + 318F | Compatibilidad Hangul Jamo | 96 | 94 | Hangul |
0 BMP | U + 3190..U + 319F | Kanbun | dieciséis | dieciséis | Común |
0 BMP | U + 31A0..U + 31BF | Bopomofo extendido | 32 | 32 | Bopomofo |
0 BMP | U + 31C0..U + 31EF | Trazos de CJK | 48 | 36 | Común |
0 BMP | U + 31F0..U + 31FF | Extensiones fonéticas de Katakana | dieciséis | dieciséis | Katakana |
0 BMP | U + 3200..U + 32FF | Cartas y meses CJK adjuntos | 256 | 255 | Hangul (62 caracteres), Katakana (47 caracteres), Común (146 caracteres) |
0 BMP | U + 3300..U + 33FF | Compatibilidad CJK | 256 | 256 | Katakana (88 caracteres), Común (168 caracteres) |
0 BMP | U + 3400..U + 4DBF | Extensión A de ideogramas unificados de CJK | 6.592 | 6.592 | Han |
0 BMP | U + 4DC0..U + 4DFF | Símbolos del hexagrama de Yijing | 64 | 64 | Común |
0 BMP | U + 4E00..U + 9FFF | Ideogramas unificados de CJK | 20.992 | 20,989 | Han |
0 BMP | U + A000..U + A48F | Sílabas Yi | 1,168 | 1,165 | Yi |
0 BMP | U + A490..U + A4CF | Radicales Yi | 64 | 55 | Yi |
0 BMP | U + A4D0..U + A4FF | Lisu | 48 | 48 | Lisu |
0 BMP | U + A500..U + A63F | Vai | 320 | 300 | Vai |
0 BMP | U + A640..U + A69F | Cirílico extendido-B | 96 | 96 | cirílico |
0 BMP | U + A6A0..U + A6FF | Bamum | 96 | 88 | Bamum |
0 BMP | U + A700..U + A71F | Letras de tono modificador | 32 | 32 | Común |
0 BMP | U + A720..U + A7FF | Latín extendido-D | 224 | 180 | Latín (175 caracteres), Común (5 caracteres) |
0 BMP | U + A800..U + A82F | Syloti Nagri | 48 | 45 | Syloti Nagri |
0 BMP | U + A830..U + A83F | Formularios de números índicos comunes | dieciséis | 10 | Común |
0 BMP | U + A840..U + A87F | Phags-pa | 64 | 56 | Phags Pa |
0 BMP | U + A880..U + A8DF | Saurashtra | 96 | 82 | Saurashtra |
0 BMP | U + A8E0..U + A8FF | Devanagari extendido | 32 | 32 | Devanagari |
0 BMP | U + A900..U + A92F | Kayah Li | 48 | 48 | Kayah Li (47 caracteres), Común (1 carácter) |
0 BMP | U + A930..U + A95F | Rejang | 48 | 37 | Rejang |
0 BMP | U + A960..U + A97F | Hangul Jamo extendido-A | 32 | 29 | Hangul |
0 BMP | U + A980..U + A9DF | javanés | 96 | 91 | Javanés (90 caracteres), común (1 carácter) |
0 BMP | U + A9E0..U + A9FF | Myanmar extendido-B | 32 | 31 | Myanmar |
0 BMP | U + AA00..U + AA5F | Cham | 96 | 83 | Cham |
0 BMP | U + AA60..U + AA7F | Myanmar Extendido-A | 32 | 32 | Myanmar |
0 BMP | U + AA80..U + AADF | Tai Viet | 96 | 72 | Tai Viet |
0 BMP | U + AAE0..U + AAFF | Extensiones Meetei Mayek | 32 | 23 | Meetei Mayek |
0 BMP | U + AB00..U + AB2F | Etíope Extendido-A | 48 | 32 | Etíope |
0 BMP | U + AB30..U + AB6F | Latín extendido-E | 64 | 60 | Latín (56 caracteres), Griego (1 carácter), Común (3 caracteres) |
0 BMP | U + AB70..U + ABBF | Suplemento Cherokee | 80 | 80 | Cherokee |
0 BMP | U + ABC0..U + ABFF | Meetei Mayek | 64 | 56 | Meetei Mayek |
0 BMP | U + AC00..U + D7AF | Sílabas Hangul | 11.184 | 11,172 | Hangul |
0 BMP | U + D7B0..U + D7FF | Hangul Jamo extendido-B | 80 | 72 | Hangul |
0 BMP | U + D800..U + DB7F | Altos sustitutos | 896 | 0 | Desconocido |
0 BMP | U + DB80..U + DBFF | Sustitutos de alto uso privado | 128 | 0 | Desconocido |
0 BMP | U + DC00..U + DFFF | Sustitutos bajos | 1.024 | 0 | Desconocido |
0 BMP | U + E000..U + F8FF | Área de uso privado | 6.400 | 6.400 | Desconocido |
0 BMP | U + F900..U + FAFF | Ideogramas de compatibilidad CJK | 512 | 472 | Han |
0 BMP | U + FB00..U + FB4F | Formularios de presentación alfabéticos | 80 | 58 | Armenio (5 caracteres), hebreo (46 caracteres), latín (7 caracteres) |
0 BMP | U + FB50..U + FDFF | Formularios de presentación en árabe-A | 688 | 611 | Árabe (609 caracteres), Común (2 caracteres) |
0 BMP | U + FE00..U + FE0F | Selectores de variación | dieciséis | dieciséis | Heredado |
0 BMP | U + FE10..U + FE1F | Formas verticales | dieciséis | 10 | Común |
0 BMP | U + FE20..U + FE2F | Combinar medias marcas | dieciséis | dieciséis | Cirílico (2 caracteres), Heredado (14 caracteres) |
0 BMP | U + FE30..U + FE4F | Formularios de compatibilidad CJK | 32 | 32 | Común |
0 BMP | U + FE50..U + FE6F | Variantes de formato pequeño | 32 | 26 | Común |
0 BMP | U + FE70..U + FEFF | Formularios de presentación en árabe-B | 144 | 141 | Árabe (140 caracteres), Común (1 carácter) |
0 BMP | U + FF00..U + FFEF | Formularios de ancho medio y ancho completo | 240 | 225 | Hangul (52 caracteres), Katakana (55 caracteres), Latín (52 caracteres), Común (66 caracteres) |
0 BMP | U + FFF0..U + FFFF | Especiales | dieciséis | 5 | Común |
1 SMP | U + 10000..U + 1007F | Silabario lineal B | 128 | 88 | Lineal B |
1 SMP | U + 10080..U + 100FF | Ideogramas lineales B | 128 | 123 | Lineal B |
1 SMP | U + 10100..U + 1013F | Números del Egeo | 64 | 57 | Común |
1 SMP | U + 10140..U + 1018F | Números griegos antiguos | 80 | 79 | griego |
1 SMP | U + 10190..U + 101CF | Simbolos Antiguos | 64 | 14 | Griego (1 carácter), Común (13 caracteres) |
1 SMP | U + 101D0..U + 101FF | Disco de Phaistos | 48 | 46 | Común (45 caracteres), Heredado (1 carácter) |
1 SMP | U + 10280..U + 1029F | Licio | 32 | 29 | Licio |
1 SMP | U + 102A0..U + 102DF | Carian | 64 | 49 | Carian |
1 SMP | U + 102E0..U + 102FF | Números coptos de Epact | 32 | 28 | Común (27 caracteres), Heredado (1 carácter) |
1 SMP | U + 10300..U + 1032F | Cursiva antigua | 48 | 39 | Cursiva antigua |
1 SMP | U + 10330..U + 1034F | gótico | 32 | 27 | gótico |
1 SMP | U + 10350..U + 1037F | Viejo Permic | 48 | 43 | Viejo Permic |
1 SMP | U + 10380..U + 1039F | Ugarítico | 32 | 31 | Ugarítico |
1 SMP | U + 103A0..U + 103DF | Persa antiguo | 64 | 50 | Persa antiguo |
1 SMP | U + 10400..U + 1044F | Deseret | 80 | 80 | Deseret |
1 SMP | U + 10450..U + 1047F | Shavian | 48 | 48 | Shavian |
1 SMP | U + 10480..U + 104AF | Osmanya | 48 | 40 | Osmanya |
1 SMP | U + 104B0..U + 104FF | Osage | 80 | 72 | Osage |
1 SMP | U + 10500..U + 1052F | Elbasan | 48 | 40 | Elbasan |
1 SMP | U + 10530..U + 1056F | Albanés caucásico | 64 | 53 | Albanés caucásico |
1 SMP | U + 10600..U + 1077F | Lineal A | 384 | 341 | Lineal A |
1 SMP | U + 10800..U + 1083F | Silabario chipriota | 64 | 55 | Chipriota |
1 SMP | U + 10840..U + 1085F | Arameo imperial | 32 | 31 | Arameo imperial |
1 SMP | U + 10860..U + 1087F | Palmyrene | 32 | 32 | Palmyrene |
1 SMP | U + 10880..U + 108AF | Nabateo | 48 | 40 | Nabateo |
1 SMP | U + 108E0..U + 108FF | Hatran | 32 | 26 | Hatran |
1 SMP | U + 10900..U + 1091F | Fenicio | 32 | 29 | Fenicio |
1 SMP | U + 10920..U + 1093F | Lidio | 32 | 27 | Lidio |
1 SMP | U + 10980..U + 1099F | Jeroglíficos meroíticos | 32 | 32 | Jeroglíficos meroíticos |
1 SMP | U + 109A0..U + 109FF | Cursiva meroítica | 96 | 90 | Cursiva meroítica |
1 SMP | U + 10A00..U + 10A5F | Kharoshthi | 96 | 68 | Kharoshthi |
1 SMP | U + 10A60..U + 10A7F | Viejo sur de Arabia | 32 | 32 | Viejo sur de Arabia |
1 SMP | U + 10A80..U + 10A9F | Viejo árabe del norte | 32 | 32 | Viejo árabe del norte |
1 SMP | U + 10AC0..U + 10AFF | maniqueo | 64 | 51 | maniqueo |
1 SMP | U + 10B00..U + 10B3F | Avestan | 64 | 61 | Avestan |
1 SMP | U + 10B40..U + 10B5F | Parto inscripcional | 32 | 30 | Parto inscripcional |
1 SMP | U + 10B60..U + 10B7F | Pahlavi inscripcional | 32 | 27 | Pahlavi inscripcional |
1 SMP | U + 10B80..U + 10BAF | Salterio Pahlavi | 48 | 29 | Salterio Pahlavi |
1 SMP | U + 10C00..U + 10C4F | Viejo turco | 80 | 73 | Viejo turco |
1 SMP | U + 10C80..U + 10CFF | Húngaro antiguo | 128 | 108 | Húngaro antiguo |
1 SMP | U + 10D00..U + 10D3F | Hanifi Rohingya | 64 | 50 | Hanifi Rohingya |
1 SMP | U + 10E60..U + 10E7F | Símbolos numéricos de Rumi | 32 | 31 | Arábica |
1 SMP | U + 10E80..U + 10EBF | Yezidi | 64 | 47 | Yezidi |
1 SMP | U + 10F00..U + 10F2F | Viejo Sogdian | 48 | 40 | Viejo Sogdian |
1 SMP | U + 10F30..U + 10F6F | Sogdian | 64 | 42 | Sogdian |
1 SMP | U + 10FB0..U + 10FDF | Chorasmian | 48 | 28 | Chorasmian |
1 SMP | U + 10FE0..U + 10FFF | Elymaic | 32 | 23 | Elymaic |
1 SMP | U + 11000..U + 1107F | Brahmi | 128 | 109 | Brahmi |
1 SMP | U + 11080..U + 110CF | Kaithi | 80 | 67 | Kaithi |
1 SMP | U + 110D0..U + 110FF | Sora Sompeng | 48 | 35 | Sora Sompeng |
1 SMP | U + 11100..U + 1114F | Chakma | 80 | 71 | Chakma |
1 SMP | U + 11150..U + 1117F | Mahajani | 48 | 39 | Mahajani |
1 SMP | U + 11180..U + 111DF | Sharada | 96 | 96 | Sharada |
1 SMP | U + 111E0..U + 111FF | Números arcaicos cingaleses | 32 | 20 | Cingalés |
1 SMP | U + 11200..U + 1124F | Khojki | 80 | 62 | Khojki |
1 SMP | U + 11280..U + 112AF | Multani | 48 | 38 | Multani |
1 SMP | U + 112B0..U + 112FF | Khudawadi | 80 | 69 | Khudawadi |
1 SMP | U + 11300..U + 1137F | Grantha | 128 | 86 | Grantha (85 caracteres), Heredado (1 carácter) |
1 SMP | U + 11400..U + 1147F | Newa | 128 | 97 | Newa |
1 SMP | U + 11480..U + 114DF | Tirhuta | 96 | 82 | Tirhuta |
1 SMP | U + 11580..U + 115FF | Siddham | 128 | 92 | Siddham |
1 SMP | U + 11600..U + 1165F | Modi | 96 | 79 | Modi |
1 SMP | U + 11660..U + 1167F | Suplemento de Mongolia | 32 | 13 | mongol |
1 SMP | U + 11680..U + 116CF | Takri | 80 | 67 | Takri |
1 SMP | U + 11700..U + 1173F | Ahom | 64 | 58 | Ahom |
1 SMP | U + 11800..U + 1184F | Dogra | 80 | 60 | Dogra |
1 SMP | U + 118A0..U + 118FF | Warang Citi | 96 | 84 | Warang Citi |
1 SMP | U + 11900..U + 1195F | Buceo Akuru | 96 | 72 | Buceo Akuru |
1 SMP | U + 119A0..U + 119FF | Nandinagari | 96 | sesenta y cinco | Nandinagari |
1 SMP | U + 11A00..U + 11A4F | Plaza Zanabazar | 80 | 72 | Plaza Zanabazar |
1 SMP | U + 11A50..U + 11AAF | Soyombo | 96 | 83 | Soyombo |
1 SMP | U + 11AC0..U + 11AFF | Pau Cin Hau | 64 | 57 | Pau Cin Hau |
1 SMP | U + 11C00..U + 11C6F | Bhaiksuki | 112 | 97 | Bhaiksuki |
1 SMP | U + 11C70..U + 11CBF | Marchen | 80 | 68 | Marchen |
1 SMP | U + 11D00..U + 11D5F | Masaram Gondi | 96 | 75 | Masaram Gondi |
1 SMP | U + 11D60..U + 11DAF | Gunjala Gondi | 80 | 63 | Gunjala Gondi |
1 SMP | U + 11EE0..U + 11EFF | Makasar | 32 | 25 | Makasar |
1 SMP | U + 11FB0..U + 11FBF | Suplemento Lisu | dieciséis | 1 | Lisu |
1 SMP | U + 11FC0..U + 11FFF | Suplemento tamil | 64 | 51 | Tamil |
1 SMP | U + 12000..U + 123FF | Cuneiforme | 1.024 | 922 | Cuneiforme |
1 SMP | U + 12400..U + 1247F | Números cuneiformes y puntuación | 128 | 116 | Cuneiforme |
1 SMP | U + 12480..U + 1254F | Cuneiforme dinástico temprano | 208 | 196 | Cuneiforme |
1 SMP | U + 13000..U + 1342F | Jeroglíficos egipcios | 1.072 | 1.071 | Jeroglíficos egipcios |
1 SMP | U + 13430..U + 1343F | Controles de formato de jeroglíficos egipcios | dieciséis | 9 | Jeroglíficos egipcios |
1 SMP | U + 14400..U + 1467F | Jeroglíficos de Anatolia | 640 | 583 | Jeroglíficos de Anatolia |
1 SMP | U + 16800..U + 16A3F | Suplemento Bamum | 576 | 569 | Bamum |
1 SMP | U + 16A40..U + 16A6F | Mro | 48 | 43 | Mro |
1 SMP | U + 16AD0..U + 16AFF | Bassa Vah | 48 | 36 | Bassa Vah |
1 SMP | U + 16B00..U + 16B8F | Pahawh Hmong | 144 | 127 | Pahawh Hmong |
1 SMP | U + 16E40..U + 16E9F | Medefaidrina | 96 | 91 | Medefaidrina |
1 SMP | U + 16F00..U + 16F9F | Miao | 160 | 149 | Miao |
1 SMP | U + 16FE0..U + 16FFF | Símbolos ideográficos y puntuación | 32 | 7 | Han (2 caracteres), Khitan Small Script (1 carácter), Nushu (1 carácter), Tangut (1 carácter), Común (2 caracteres) |
1 SMP | U + 17000..U + 187FF | Tangut | 6.144 | 6.136 | Tangut |
1 SMP | U + 18800..U + 18AFF | Componentes Tangut | 768 | 768 | Tangut |
1 SMP | U + 18B00..U + 18CFF | Guión pequeño de Khitan | 512 | 470 | Letra pequeña de Khitan |
1 SMP | U + 18D00..U + 18D8F | Suplemento Tangut | 144 | 9 | Tangut |
1 SMP | U + 1B000..U + 1B0FF | Suplemento de Kana | 256 | 256 | Hiragana (255 caracteres), Katakana (1 carácter) |
1 SMP | U + 1B100..U + 1B12F | Kana extendido-A | 48 | 31 | Hiragana |
1 SMP | U + 1B130..U + 1B16F | Extensión pequeña de Kana | 64 | 7 | Hiragana (3 caracteres), Katakana (4 caracteres) |
1 SMP | U + 1B170..U + 1B2FF | Nushu | 400 | 396 | Nüshu |
1 SMP | U + 1BC00..U + 1BC9F | Duployan | 160 | 143 | Duployan |
1 SMP | U + 1BCA0..U + 1BCAF | Controles de formato de taquigrafía | dieciséis | 4 | Común |
1 SMP | U + 1D000..U + 1D0FF | Símbolos musicales bizantinos | 256 | 246 | Común |
1 SMP | U + 1D100..U + 1D1FF | Simbolos musicales | 256 | 231 | Común (209 caracteres), Heredado (22 caracteres) |
1 SMP | U + 1D200..U + 1D24F | Notación musical griega antigua | 80 | 70 | griego |
1 SMP | U + 1D2E0..U + 1D2FF | Numerales Mayas | 32 | 20 | Común |
1 SMP | U + 1D300..U + 1D35F | Símbolos de Tai Xuan Jing | 96 | 87 | Común |
1 SMP | U + 1D360..U + 1D37F | Contar números de varilla | 32 | 25 | Común |
1 SMP | U + 1D400..U + 1D7FF | Símbolos alfanuméricos matemáticos | 1.024 | 996 | Común |
1 SMP | U + 1D800..U + 1DAAF | Sutton SignEscritura | 688 | 672 | FirmarEscribir |
1 SMP | U + 1E000..U + 1E02F | Suplemento glagolítico | 48 | 38 | Glagolítico |
1 SMP | U + 1E100..U + 1E14F | Nyiakeng Puachue Hmong | 80 | 71 | Nyiakeng Puachue Hmong |
1 SMP | U + 1E2C0..U + 1E2FF | Wancho | 64 | 59 | Wancho |
1 SMP | U + 1E800..U + 1E8DF | Mende Kikakui | 224 | 213 | Mende Kikakui |
1 SMP | U + 1E900..U + 1E95F | Adlam | 96 | 88 | Adlam |
1 SMP | U + 1EC70..U + 1ECBF | Números indios de Siyaq | 80 | 68 | Común |
1 SMP | U + 1ED00..U + 1ED4F | Números otomanos Siyaq | 80 | 61 | Común |
1 SMP | U + 1EE00..U + 1EEFF | Símbolos alfabéticos matemáticos árabes | 256 | 143 | Arábica |
1 SMP | U + 1F000..U + 1F02F | Azulejos de Mahjong | 48 | 44 | Común |
1 SMP | U + 1F030..U + 1F09F | Azulejos de dominó | 112 | 100 | Común |
1 SMP | U + 1F0A0..U + 1F0FF | Jugando a las cartas | 96 | 82 | Común |
1 SMP | U + 1F100..U + 1F1FF | Suplemento alfanumérico adjunto | 256 | 200 | Común |
1 SMP | U + 1F200..U + 1F2FF | Suplemento ideográfico adjunto | 256 | 64 | Hiragana (1 carácter), Común (63 caracteres) |
1 SMP | U + 1F300..U + 1F5FF | Símbolos y pictogramas misceláneos | 768 | 768 | Común |
1 SMP | U + 1F600..U + 1F64F | Emoticonos | 80 | 80 | Común |
1 SMP | U + 1F650..U + 1F67F | Dingbats ornamentales | 48 | 48 | Común |
1 SMP | U + 1F680..U + 1F6FF | Símbolos de transporte y mapas | 128 | 114 | Común |
1 SMP | U + 1F700..U + 1F77F | Simbolos Alquimicos | 128 | 116 | Común |
1 SMP | U + 1F780..U + 1F7FF | Formas geométricas extendidas | 128 | 101 | Común |
1 SMP | U + 1F800..U + 1F8FF | Flechas suplementarias-C | 256 | 150 | Común |
1 SMP | U + 1F900..U + 1F9FF | Símbolos y pictogramas suplementarios | 256 | 254 | Común |
1 SMP | U + 1FA00..U + 1FA6F | Símbolos de ajedrez | 112 | 98 | Común |
1 SMP | U + 1FA70..U + 1FAFF | Símbolos y pictogramas Extended-A | 144 | 57 | Común |
1 SMP | U + 1FB00..U + 1FBFF | Símbolos para la informática heredada | 256 | 212 | Común |
2 SIP | U + 20000..U + 2A6DF | Extensión B de ideogramas unificados de CJK | 42,720 | 42,718 | Han |
2 SIP | U + 2A700..U + 2B73F | Extensión C de ideogramas unificados de CJK | 4.160 | 4.149 | Han |
2 SIP | U + 2B740..U + 2B81F | Extensión D de ideogramas unificados de CJK | 224 | 222 | Han |
2 SIP | U + 2B820..U + 2CEAF | Extensión E de ideogramas unificados de CJK | 5.776 | 5.762 | Han |
2 SIP | U + 2CEB0..U + 2EBEF | Extensión F de ideogramas unificados de CJK | 7.488 | 7.473 | Han |
2 SIP | U + 2F800..U + 2FA1F | Suplemento de ideogramas de compatibilidad CJK | 544 | 542 | Han |
3 SUGERENCIA | U + 30000..U + 3134F | Extensión G de ideogramas unificados de CJK | 4.944 | 4.939 | Han |
14 SSP | U + E0000..U + E007F | Etiquetas | 128 | 97 | Común |
14 SSP | U + E0100..U + E01EF | Suplemento de selectores de variación | 240 | 240 | Heredado |
15 PUA-A | U + F0000..U + FFFFF | Área de uso privado complementario-A | 65,536 | 65,534 | Desconocido |
16 PUA-B | U + 100000..U + 10FFFF | Área de uso privado complementario-B | 65,536 | 65,534 | Desconocido |
|
Texto
Cada carácter asignado puede tener un valor único para su propiedad "Script", lo que significa a qué script pertenece. [18] El valor es un código de cuatro letras en el rango Aaaa-Zzzz, como está disponible en ISO 15924, que se asigna a un sistema de escritura . Aparte de describir el trasfondo y el uso de un script, Unicode no usa una conexión entre un script y los lenguajes que usan ese script. Entonces, "hebreo" se refiere a la escritura hebrea, no al idioma hebreo.
El código especial Zyyy para "Común" permite un solo valor para un carácter que se utiliza en varios scripts. El código Zinh "Escritura heredada", que se utiliza para combinar caracteres y algunos otros puntos de código de propósito especial, indica que un carácter "hereda" su identidad de secuencia de comandos del carácter con el que se combina. (Unicode usaba anteriormente el código privado Qaai para este propósito). El código Zzzz "Desconocido" se usa para todos los caracteres que no pertenecen a un script (es decir, el valor predeterminado), como símbolos y caracteres de formato. En general, los caracteres de un solo guión se pueden dispersar en varios bloques, como los caracteres latinos . Y también al revés: pueden estar presentes varios scripts en un solo bloque, por ejemplo, el bloque Letterlike Symbols contiene caracteres de los scripts latinos, griegos y comunes.
Cuando la secuencia de comandos es "" (en blanco), según Unicode, el carácter no pertenece a una secuencia de comandos. Esto se refiere a los símbolos, porque los códigos de secuencia de comandos ISO existentes "Zmth" (notación matemática), "Zsym" (símbolo) y "Zsye" (símbolo, variante emoji) no se utilizan en Unicode. La propiedad "Script" también está en blanco para los puntos de código que no son un carácter tipográfico, como controles, sustitutos y puntos de código de uso privado.
Si hay un nombre de alias de script específico en ISO 15924, se usa en el nombre del carácter: U + 0041 A AMÉRICA MAYÚSCULA A , yU + 05D0 א HEBREO letra alef .
ISO 15924 | Secuencia de comandos en Unicode [e] | ||||||
---|---|---|---|---|---|---|---|
Código | Nombre formal ISO | Direccionalidad | Alias Unicode [f] | Versión | Caracteres | Notas | Descripción |
| |||||||
Adlm | Adlam | secuencia de comandos de derecha a izquierda | Adlam | 9.0 | 88 | Capítulo 19.9 | |
Afak | Afaka | varía | - No en Unicode, se explora la propuesta [19] | ||||
Aghb | Albanés caucásico | de izquierda a derecha | Albanés caucásico | 7.0 | 53 | Antiguo / histórico | Capítulo 8.10 |
Ahom | Ahom, Tai Ahom | de izquierda a derecha | Ahom | 8.0 | 58 | Antiguo / histórico | Capítulo 15.15 |
árabe | Arábica | secuencia de comandos de derecha a izquierda | Arábica | 1.0 | 1,291 | Capítulo 9.2 | |
Aran | Árabe (variante Nastaliq) | mezclado | : variante tipográfica del árabe ( § árabe ) | ||||
Armi | Arameo imperial | secuencia de comandos de derecha a izquierda | Arameo imperial | 5.2 | 31 | Antiguo / histórico | Capítulo 10.4 |
Armn | armenio | de izquierda a derecha | armenio | 1.0 | 96 | Capítulo 7.6 | |
Avst | Avestan | secuencia de comandos de derecha a izquierda | Avestan | 5.2 | 61 | Antiguo / histórico | Capítulo 10.7 |
Bali | Balinés | de izquierda a derecha | Balinés | 5,0 | 121 | Capítulo 17.3 | |
Bamu | Bamum | de izquierda a derecha | Bamum | 5.2 | 657 | Capítulo 19.6 | |
Bajo | Bassa Vah | de izquierda a derecha | Bassa Vah | 7.0 | 36 | Antiguo / histórico | Capítulo 19.7 |
Batk | Batak | de izquierda a derecha | Batak | 6.0 | 56 | Capítulo 17.6 | |
Beng | Bengalí (bengalí) | de izquierda a derecha | bengalí | 1.0 | 96 | Capítulo 12.2 | |
Bhks | Bhaiksuki | de izquierda a derecha | Bhaiksuki | 9.0 | 97 | Antiguo / histórico | Capítulo 14.3 |
Blis | Blissymbols | varía | - No en Unicode, se explora la propuesta [19] | ||||
Bopo | Bopomofo | de izquierda a derecha | Bopomofo | 1.0 | 77 | Capítulo 18.3 | |
Brah | Brahmi | de izquierda a derecha | Brahmi | 6.0 | 109 | Antiguo / histórico | Capítulo 14,1 |
Brai | Braille | de izquierda a derecha | Braille | 3,0 | 256 | Capítulo 21.1 | |
Bugi | Buginés | de izquierda a derecha | Buginés | 4.1 | 30 | Capítulo 17.2 | |
Buhd | Buhid | de izquierda a derecha | Buhid | 3.2 | 20 | Capítulo 17.1 | |
Cakm | Chakma | de izquierda a derecha | Chakma | 6.1 | 71 | Capítulo 13.11 | |
Latas | Sílabas aborígenes canadienses unificadas | de izquierda a derecha | Aborigen canadiense | 3,0 | 710 | Capítulo 20.2 | |
Cari | Carian | escritura de izquierda a derecha, de derecha a izquierda | Carian | 5.1 | 49 | Antiguo / histórico | Capítulo 8.4 |
Cham | Cham | de izquierda a derecha | Cham | 5.1 | 83 | Capítulo 16.10 | |
Cher | Cherokee | de izquierda a derecha | Cherokee | 3,0 | 172 | Capítulo 20.1 | |
Chrs | Chorasmian | secuencia de comandos de derecha a izquierda , de arriba a abajo | Chorasmian | 13,0 | 28 | Antiguo / histórico | Capítulo 10.8 |
Cirt | Cirth | varía | : no en Unicode | ||||
copto | copto | de izquierda a derecha | copto | 1.0 | 137 | Antiguo / histórico, desunificado del griego en 4.1 | Capítulo 7.3 |
CPMN | Cypro-Minoan | de izquierda a derecha | : no en Unicode | ||||
Cprt | Silabario chipriota | secuencia de comandos de derecha a izquierda | Chipriota | 4.0 | 55 | Antiguo / histórico | Capítulo 8.3 |
Cyrl | cirílico | de izquierda a derecha | cirílico | 1.0 | 443 | Incluye variante tipográfica antiguo eslavo eclesiástico ( § Cyrs) | Capítulo 7.4 |
Cyrs | Cirílico (variante del antiguo eslavo eclesiástico) | varía | : variante tipográfica del cirílico ( § Cyrl ) | Antiguo / histórico | |||
Deva | Devanagari (Nagari) | de izquierda a derecha | Devanagari | 1.0 | 154 | Capítulo 12.1 | |
Diak | Buceo Akuru | de izquierda a derecha | Buceo Akuru | 13,0 | 72 | Antiguo / histórico | Capítulo 15.14 |
Dogr | Dogra | de izquierda a derecha | Dogra | 11,0 | 60 | Antiguo / histórico | Capítulo 15.17 |
Dsrt | Deseret (mormón) | de izquierda a derecha | Deseret | 3.1 | 80 | Capítulo 20.4 | |
Dupl | Taquigrafía Duployan, taquigrafía Duployan | de izquierda a derecha | Duployan | 7.0 | 143 | Capítulo 21.5 | |
Egyd | Demótico egipcio | mezclado | : no en Unicode | ||||
Egyh | Hierático egipcio | mezclado | : no en Unicode | ||||
Egipto | Jeroglíficos egipcios | de izquierda a derecha | Jeroglíficos egipcios | 5.2 | 1.080 | Antiguo / histórico | Capítulo 11.4 |
Elba | Elbasan | de izquierda a derecha | Elbasan | 7.0 | 40 | Antiguo / histórico | Capítulo 8.9 |
Elym | Elymaic | secuencia de comandos de derecha a izquierda | Elymaic | 12,0 | 23 | Antiguo / histórico | Capítulo 10.9 |
Ethi | Etíope (Geʻez) | de izquierda a derecha | Etíope | 3,0 | 495 | Capítulo 19.1 | |
Geok | Khutsuri (Asomtavruli y Nuskhuri) | de izquierda a derecha | georgiano | Unicode agrupa "Khutsori", "Asomtavruli" y "Nuskhuri" en "georgiano" ( § Geok ). También "Mkhedruli" y "Mtavruli" son "georgianos" ( § Geor ) | Capítulo 7.7 | ||
Geor | Georgiano (Mkhedruli y Mtavruli) | de izquierda a derecha | georgiano | 1.0 | 173 | En Unicode, también incluye a Geok (Nuskhuri) | Capítulo 7.7 |
Glag | Glagolítico | de izquierda a derecha | Glagolítico | 4.1 | 132 | Antiguo / histórico | Capítulo 7.5 |
Gong | Gunjala Gondi | de izquierda a derecha | Gunjala Gondi | 11,0 | 63 | Capítulo 13.15 | |
Gonm | Masaram Gondi | de izquierda a derecha | Masaram Gondi | 10.0 | 75 | Capítulo 13.14 | |
godo | gótico | de izquierda a derecha | gótico | 3.1 | 27 | Antiguo / histórico | Capítulo 8.8 |
Gran | Grantha | de izquierda a derecha | Grantha | 7.0 | 85 | Antiguo / histórico | Capítulo 15.13 |
Grek | griego | de izquierda a derecha | griego | 1.0 | 518 | Direccionalidad a veces como boustrophedon | Capítulo 7.2 |
Gujr | Gujarati | de izquierda a derecha | Gujarati | 1.0 | 91 | Capítulo 12.4 | |
Gurú | Gurmukhi | de izquierda a derecha | Gurmukhi | 1.0 | 80 | Capítulo 12.3 | |
Hanb | Han con Bopomofo (alias de Han + Bopomofo) | mezclado | - Ver § Hani , § Bopo | ||||
Colgar | Hangul (Hangŭl, Hangeul) | de izquierda a derecha, de arriba a abajo | Hangul | 1.0 | 11,739 | Sílabas hangul reubicadas en 2.0 | Capítulo 18.6 |
Hani | Han (Hanzi, Kanji, Hanja) | de arriba a abajo, columnas de derecha a izquierda (históricamente) | Han | 1.0 | 94,204 | Capítulo 18.1 | |
Hano | Hanunoo (Hanunóo) | de izquierda a derecha, de abajo hacia arriba | Hanunoo | 3.2 | 21 | Capítulo 17.1 | |
Hans | Han (variante simplificada) | varía | : subconjunto de Han (Hanzi, Kanji, Hanja) ( § Hani ) | ||||
Hant | Han (variante tradicional) | varía | - Subconjunto de § Hani | ||||
Hatr | Hatran | secuencia de comandos de derecha a izquierda | Hatran | 8.0 | 26 | Antiguo / histórico | Capítulo 10.12 |
Hebr | hebreo | secuencia de comandos de derecha a izquierda | hebreo | 1.0 | 134 | Capítulo 9.1 | |
Hira | Hiragana | de arriba a abajo, de izquierda a derecha | Hiragana | 1.0 | 379 | Capítulo 18.4 | |
Hluw | Jeroglíficos de Anatolia (Jeroglíficos Luwianos, Jeroglíficos hititas) | de izquierda a derecha | Jeroglíficos de Anatolia | 8.0 | 583 | Antiguo / histórico | Capítulo 11.6 |
Hmng | Pahawh Hmong | de izquierda a derecha | Pahawh Hmong | 7.0 | 127 | Capítulo 16.11 | |
Hmnp | Nyiakeng Puachue Hmong | de izquierda a derecha | Nyiakeng Puachue Hmong | 12,0 | 71 | Capítulo 16.12 | |
Hrkt | Silabarios japoneses (alias de Hiragana + Katakana) | de arriba a abajo, de izquierda a derecha | Katakana o Hiragana | Ver § Hira , § Kana | Capítulo 18.4 | ||
Colgado | Húngaro antiguo (rúnico húngaro) | secuencia de comandos de derecha a izquierda | Húngaro antiguo | 8.0 | 108 | Antiguo / histórico | Capítulo 8.7 |
Inds | Indo (Harappa) | mezclado | - No en Unicode, se explora la propuesta [19] | ||||
Ital | Cursiva antigua (etrusca, osca, etc.) | script de derecha a izquierda , de izquierda a derecha | Cursiva antigua | 3.1 | 39 | Antiguo / histórico | Capítulo 8.5 |
Jamo | Jamo (alias del subconjunto Jamo de Hangul) | varía | - Subconjunto de § Hang | ||||
Java | javanés | de izquierda a derecha | javanés | 5.2 | 90 | Capítulo 17.4 | |
Jpan | Japonés (alias de Han + Hiragana + Katakana) | varía | - Ver § Hani , § Hira y § Kana | ||||
Jurc | Jurchen | de izquierda a derecha | : no en Unicode | ||||
Kali | Kayah Li | de izquierda a derecha | Kayah Li | 5.1 | 47 | Capítulo 16.9 | |
Kana | Katakana | de arriba a abajo, de izquierda a derecha | Katakana | 1.0 | 304 | Capítulo 18.4 | |
Khar | Kharoshthi | secuencia de comandos de derecha a izquierda | Kharoshthi | 4.1 | 68 | Antiguo / histórico | Capítulo 14.2 |
Khmr | Jemer | de izquierda a derecha | Jemer | 3,0 | 146 | Capítulo 16.4 | |
Khoj | Khojki | de izquierda a derecha | Khojki | 7.0 | 62 | Antiguo / histórico | Capítulo 15.7 |
Kitl | Escritura grande de Khitan | de izquierda a derecha | : no en Unicode | ||||
Kits | Letra pequeña de Khitan | de arriba hacia abajo | Guión pequeño de Khitan | 13,0 | 471 | Antiguo / histórico | Capítulo 18.12 |
Knda | Canarés | de izquierda a derecha | Canarés | 1.0 | 89 | Capítulo 12.8 | |
Kore | Coreano (alias de Hangul + Han) | de izquierda a derecha | - Ver § Hani , § Hang | ||||
Kpel | Kpelle | de izquierda a derecha | - No en Unicode, se explora la propuesta [19] | ||||
Kthi | Kaithi | de izquierda a derecha | Kaithi | 5.2 | 67 | Antiguo / histórico | Capítulo 15.2 |
Lana | Tai Tham (Lanna) | de izquierda a derecha | Tai Tham | 5.2 | 127 | Capítulo 16.7 | |
Laoo | Lao | de izquierda a derecha | Lao | 1.0 | 82 | Capítulo 16.2 | |
Latf | Latín (variante Fraktur) | varía | : variante tipográfica del latín ( § Latn ) | ||||
Latg | Latín (variante gaélica) | de izquierda a derecha | : variante tipográfica del latín ( § Latn ) | ||||
Latn | latín | de izquierda a derecha | latín | 1.0 | 1.374 | Ver también: escritura latina en Unicode | Capítulo 7.1 |
Leke | Leke | de izquierda a derecha | : no en Unicode | ||||
Lepc | Lepcha (Róng) | de izquierda a derecha | Lepcha | 5.1 | 74 | Capítulo 13.12 | |
Miembro | Limbu | de izquierda a derecha | Limbu | 4.0 | 68 | Capítulo 13.6 | |
Lina | Lineal A | de izquierda a derecha | Lineal A | 7.0 | 341 | Antiguo / histórico | Capítulo 8.1 |
Linb | Lineal B | de izquierda a derecha | Lineal B | 4.0 | 211 | Antiguo / histórico | Capítulo 8.2 |
Lisu | Lisu (Fraser) | de izquierda a derecha | Lisu | 5.2 | 49 | Capítulo 18.9 | |
Loma | Loma | de izquierda a derecha | - No en Unicode, se explora la propuesta [19] | ||||
Lyci | Licio | de izquierda a derecha | Licio | 5.1 | 29 | Antiguo / histórico | Capítulo 8.4 |
Lydi | Lidio | secuencia de comandos de derecha a izquierda | Lidio | 5.1 | 27 | Antiguo / histórico | Capítulo 8.4 |
Mahj | Mahajani | de izquierda a derecha | Mahajani | 7.0 | 39 | Antiguo / histórico | Capítulo 15.6 |
Maka | Makasar | de izquierda a derecha | Makasar | 11,0 | 25 | Antiguo / histórico | Capítulo 17.8 |
Mand | Mandaic, Mandaean | secuencia de comandos de derecha a izquierda | Mandaic | 6.0 | 29 | Capítulo 9.5 | |
Mani | maniqueo | secuencia de comandos de derecha a izquierda | maniqueo | 7.0 | 51 | Antiguo / histórico | Capítulo 10.5 |
Bagazo | Marchen | de izquierda a derecha | Marchen | 9.0 | 68 | Antiguo / histórico | Capítulo 14.5 |
maya | Jeroglíficos mayas | mezclado | : no en Unicode | ||||
Medf | Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ) | de izquierda a derecha, de izquierda a derecha | Medefaidrina | 11,0 | 91 | Capítulo 19.10 | |
Arreglar | Mende Kikakui | secuencia de comandos de derecha a izquierda | Mende Kikakui | 7.0 | 213 | Capítulo 19.8 | |
Merc | Cursiva meroítica | secuencia de comandos de derecha a izquierda | Cursiva meroítica | 6.1 | 90 | Antiguo / histórico | Capítulo 11.5 |
Mero | Jeroglíficos meroíticos | secuencia de comandos de derecha a izquierda | Jeroglíficos meroíticos | 6.1 | 32 | Antiguo / histórico | Capítulo 11.5 |
Mlym | Malayalam | de izquierda a derecha | Malayalam | 1.0 | 118 | Capítulo 12.9 | |
Modi | Modi, Moḍī | de izquierda a derecha | Modi | 7.0 | 79 | Antiguo / histórico | Capítulo 15.11 |
Mong | mongol | de arriba a abajo, de izquierda a derecha | mongol | 3,0 | 167 | Mong incluye guiones claros y manchúes | Capítulo 13.5 |
Luna | Luna (código lunar, escritura lunar, tipo lunar) | mezclado | - No en Unicode, se explora la propuesta [19] | ||||
Mroo | Mro, Mru | de izquierda a derecha | Mro | 7.0 | 43 | Capítulo 13.8 | |
Mtei | Meitei Mayek (Meithei, Meetei) | de izquierda a derecha | Meetei Mayek | 5.2 | 79 | Capítulo 13.7 | |
Mult | Multani | de izquierda a derecha | Multani | 8.0 | 38 | Antiguo / histórico | Capítulo 15.9 |
Mymr | Myanmar (birmano) | de izquierda a derecha | Myanmar | 3,0 | 223 | Capítulo 16.3 | |
Nand | Nandinagari | de izquierda a derecha | Nandinagari | 12,0 | sesenta y cinco | Antiguo / histórico | Capítulo 15.12 |
Narb | Antiguo árabe del norte (antiguo árabe del norte) | script de derecha a izquierda , script de derecha a izquierda | Viejo árabe del norte | 7.0 | 32 | Antiguo / histórico | Capítulo 10.1 |
Nbat | Nabateo | secuencia de comandos de derecha a izquierda | Nabateo | 7.0 | 40 | Antiguo / histórico | Capítulo 10.10 |
Newa | Newa, Newar, Newari, Nepāla lipi | de izquierda a derecha | Newa | 9.0 | 97 | Capítulo 13.3 | |
Nkdb | Naxi Dongba (na²¹ɕi³³ a³³ba²¹, Nakhi Tomba) | de izquierda a derecha | : no en Unicode | ||||
Nkgb | Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) | de izquierda a derecha | - No en Unicode, se explora la propuesta [19] | ||||
Nkoo | N'Ko | secuencia de comandos de derecha a izquierda | NKo | 5,0 | 62 | Capítulo 19.4 | |
Nshu | Nüshu | de arriba hacia abajo | Nushu | 10.0 | 397 | Capítulo 18.8 | |
Ogam | Ogham | de abajo hacia arriba, de izquierda a derecha | Ogham | 3,0 | 29 | Antiguo / histórico | Capítulo 8.12 |
Olck | Ol Chiki (Ol Cemet ', Ol, Santali) | de izquierda a derecha | Ol Chiki | 5.1 | 48 | Capítulo 13.10 | |
Orkh | Antiguo turco, Orkhon Runic | secuencia de comandos de derecha a izquierda | Viejo turco | 5.2 | 73 | Antiguo / histórico | Capítulo 14.8 |
Orya | Oriya (Odia) | de izquierda a derecha | Oriya | 1.0 | 91 | Capítulo 12.5 | |
Osge | Osage | de izquierda a derecha | Osage | 9.0 | 72 | Capítulo 20.3 | |
Osma | Osmanya | de izquierda a derecha | Osmanya | 4.0 | 40 | Capítulo 19.2 | |
Ougr | Viejo uigur | mezclado | : no en Unicode | ||||
Palma | Palmyrene | secuencia de comandos de derecha a izquierda | Palmyrene | 7.0 | 32 | Antiguo / histórico | Capítulo 10.11 |
Pauc | Pau Cin Hau | de izquierda a derecha | Pau Cin Hau | 7.0 | 57 | Capítulo 16.13 | |
Pcun | Proto-Cuneiforme | de izquierda a derecha | : no en Unicode | ||||
Pelm | Protoelamita | de izquierda a derecha | : no en Unicode | ||||
Permanente | Viejo Permic | de izquierda a derecha | Viejo Permic | 7.0 | 43 | Antiguo / histórico | Capítulo 8.11 |
Phag | Phags-pa | de arriba hacia abajo | Phags-pa | 5,0 | 56 | Antiguo / histórico | Capítulo 14.4 |
Phli | Pahlavi inscripcional | secuencia de comandos de derecha a izquierda | Pahlavi inscripcional | 5.2 | 27 | Antiguo / histórico | Capítulo 10.6 |
Phlp | Salterio Pahlavi | secuencia de comandos de derecha a izquierda | Salterio Pahlavi | 7.0 | 29 | Antiguo / histórico | Capítulo 10.6 |
Phlv | Libro Pahlavi | mezclado | : no en Unicode | ||||
Phnx | Fenicio | secuencia de comandos de derecha a izquierda | Fenicio | 5,0 | 29 | Antiguo / histórico [g] | Capítulo 10.3 |
Piqd | Klingon (KLI pIqaD) | de izquierda a derecha | - Rechazado para su inclusión en Unicode [20] [21] | ||||
Plrd | Miao (Pollard) | de izquierda a derecha | Miao | 6.1 | 149 | Capítulo 18.10 | |
Prti | Parto inscripcional | secuencia de comandos de derecha a izquierda | Parto inscripcional | 5.2 | 30 | Antiguo / histórico | Capítulo 10.6 |
Psin | Proto-Sinaítico | mezclado | : no en Unicode | ||||
Qaaa-Qabx | Reservado para uso privado (rango) | : no en Unicode | |||||
Ranj | Ranjana | de izquierda a derecha | : no en Unicode | ||||
Rjng | Rejang (Redjang, Kaganga) | de izquierda a derecha | Rejang | 5.1 | 37 | Capítulo 17.5 | |
Rohg | Hanifi Rohingya | secuencia de comandos de derecha a izquierda | Hanifi Rohingya | 11,0 | 50 | Capítulo 16.14 | |
Roro | Rongorongo | mezclado | - No en Unicode, se explora la propuesta [19] | ||||
Runr | Rúnico | de izquierda a derecha, boustrophedon | Rúnico | 3,0 | 86 | Antiguo / histórico | Capítulo 8,6 |
Samr | samaritano | secuencia de comandos de derecha a izquierda , de arriba a abajo | samaritano | 5.2 | 61 | Capítulo 9.4 | |
Sara | Sarati | mezclado | : no en Unicode | ||||
Sarb | Viejo sur de Arabia | secuencia de comandos de derecha a izquierda | Viejo sur de Arabia | 5.2 | 32 | Antiguo / histórico | Capítulo 10.2 |
Saur | Saurashtra | de izquierda a derecha | Saurashtra | 5.1 | 82 | Capítulo 13.13 | |
Sgnw | FirmarEscribir | de arriba hacia abajo | FirmarEscribir | 8.0 | 672 | Capítulo 21.6 | |
Shaw | Shavian (Shaw) | de izquierda a derecha | Shavian | 4.0 | 48 | Capítulo 8.13 | |
Shrd | Sharada, Śāradā | de izquierda a derecha | Sharada | 6.1 | 96 | Capítulo 15.3 | |
Shui | Shuishu | de izquierda a derecha | : no en Unicode | ||||
Sidd | Siddham, Siddhaṃ, Siddhamātṛkā | de izquierda a derecha | Siddham | 7.0 | 92 | Antiguo / histórico | Capítulo 15.5 |
Sind | Khudawadi, sindhi | de izquierda a derecha | Khudawadi | 7.0 | 69 | Capítulo 15.8 | |
Sinh | Cingalés | de izquierda a derecha | Cingalés | 3,0 | 111 | Capítulo 13.2 | |
Sogd | Sogdian | secuencia de comandos de derecha a izquierda , de arriba a abajo, columnas de izquierda a derecha | Sogdian | 11,0 | 42 | Antiguo / histórico | Capítulo 14.10 |
Entonces ve | Viejo Sogdian | secuencia de comandos de derecha a izquierda | Viejo Sogdian | 11,0 | 40 | Antiguo / histórico | Capítulo 14.9 |
Sora | Sora Sompeng | de izquierda a derecha | Sora Sompeng | 6.1 | 35 | Capítulo 15.16 | |
Soyo | Soyombo | de izquierda a derecha | Soyombo | 10.0 | 83 | Antiguo / histórico | Capítulo 14.7 |
Sund | Sundanés | de izquierda a derecha | Sundanés | 5.1 | 72 | Capítulo 17.7 | |
Sylo | Syloti Nagri | de izquierda a derecha | Syloti Nagri | 4.1 | 45 | Antiguo / histórico | Capítulo 15.1 |
Syrc | Siríaco | secuencia de comandos de derecha a izquierda | Siríaco | 3,0 | 88 | Includes typographic variants Estrangelo (§ Syre), Western (§ Syrj), and Eastern (§ Syrn) | Ch 9.3 |
Syre | Syriac (Estrangelo variant) | mixed | — Typographic variant of Syriac (§ Syrc) | ||||
Syrj | Syriac (Western variant) | mixed | — Typographic variant of Syriac (§ Syrc) | ||||
Syrn | Syriac (Eastern variant) | mixed | — Typographic variant of Syriac (§ Syrc) | ||||
Tagb | Tagbanwa | left-to-right | Tagbanwa | 3.2 | 18 | Ch 17.1 | |
Takr | Takri, Ṭākrī, Ṭāṅkrī | left-to-right | Takri | 6.1 | 67 | Ch 15.4 | |
Tale | Tai Le | left-to-right | Tai Le | 4.0 | 35 | Ch 16.5 | |
Talu | New Tai Lue | left-to-right | New Tai Lue | 4.1 | 83 | Ch 16.6 | |
Taml | Tamil | left-to-right | Tamil | 1.0 | 123 | Ch 12.6 | |
Tang | Tangut | top-to-bottom, columns right-to-left, left-to-right | Tangut | 9.0 | 6,914 | Ancient/historic | Ch 18.11 |
Tavt | Tai Viet | left-to-right | Tai Viet | 5.2 | 72 | Ch 16.8 | |
Telu | Telugu | left-to-right | Telugu | 1.0 | 98 | Ch 12.7 | |
Teng | Tengwar | left-to-right | — Not in Unicode | ||||
Tfng | Tifinagh (Berber) | left-to-right | Tifinagh | 4.1 | 59 | Ch 19.3 | |
Tglg | Tagalog (Baybayin, Alibata) | left-to-right | Tagalog | 3.2 | 20 | Ch 17.1 | |
Thaa | Thaana | right-to-left script | Thaana | 3.0 | 50 | Ch 13.1 | |
Thai | Thai | left-to-right | Thai | 1.0 | 86 | Ch 16.1 | |
Tibt | Tibetan | left-to-right | Tibetan | 2.0 | 207 | Added in 1.0, removed in 1.1 and reintroduced in 2.0 | Ch 13.4 |
Tirh | Tirhuta | left-to-right | Tirhuta | 7.0 | 82 | Ch 15.10 | |
Tnsa | Tangsa | left-to-right | — Not in Unicode[22] | ||||
Toto | Toto | left-to-right | — Not in Unicode | ||||
Ugar | Ugaritic | left-to-right | Ugaritic | 4.0 | 31 | Ancient/historic | Ch 11.2 |
Vaii | Vai | left-to-right | Vai | 5.1 | 300 | Ch 19.5 | |
Visp | Visible Speech | left-to-right | — Not in Unicode | ||||
Vith | Vithkuqi | left-to-right | — Not in Unicode | ||||
Wara | Warang Citi (Varang Kshiti) | left-to-right | Warang Citi | 7.0 | 84 | Ch 13.9 | |
Wcho | Wancho | left-to-right | Wancho | 12.0 | 59 | Ch 13.16 | |
Wole | Woleai | mixed | — Not in Unicode, proposal is explored[19] | ||||
Xpeo | Old Persian | left-to-right | Old Persian | 4.1 | 50 | Ancient/historic | Ch 11.3 |
Xsux | Cuneiform, Sumero-Akkadian | left-to-right | Cuneiform | 5.0 | 1,234 | Ancient/historic | Ch 11.1 |
Yezi | Yezidi | right-to-left script | Yezidi | 13.0 | 47 | Ancient/historic | Ch 9.6 |
Yiii | Yi | left-to-right | Yi | 3.0 | 1,220 | Ch 18.7 | |
Zanb | Zanabazar Square (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Horizontal Square Script) | left-to-right | Zanabazar Square | 10.0 | 72 | Ancient/historic | Ch 14.6 |
Zinh | Code for inherited script | Inherited | 573 | ||||
Zmth | Mathematical notation | — Not a 'script' in Unicode | |||||
Zsym | Symbols | — Not a 'script' in Unicode | |||||
Zsye | Symbols (emoji variant) | — Not a 'script' in Unicode | |||||
Zxxx | Code for unwritten documents | — Not a 'script' in Unicode | |||||
Zyyy | Code for undetermined script | Common | 8,087 | ||||
Zzzz | Code for uncoded script | Unknown | 970,188 | In Unicode: All other code points | |||
Notes
|
Propiedades de normalización
Decompositions, decomposition type, canonical combining class, composition exclusions, and more.
Edad
Age is the version of the Standard in which the code point was first designated. The version number is shortened to the numbering major.minor, although there more detailed version numbers are used: versions 4.0.0 and 4.0.1 both are named 4.0 as Age. Given the releases, Age can be from the range: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0, 12.0, 12.1, and 13.0.[24] The long values for Age begin in a V and use an underscore instead of a dot: V1_1, for example.[2] Codepoints without a specifically assigned age value have the value "NA", with the long form "Unassigned".
Obsoleto
Once a character has been defined, it will not be withdrawn or changed in defining properties (code point, name). But it can be declared deprecated: A coded character whose use is strongly discouraged.[25] As of Unicode version 10.0, fifteen characters are deprecated:
- U+0149 LATIN SMALL LETTER N PRECEDED BY APOSTROPHE: use the sequence ʼ0020 006E (ʼ n) instead
- U+0673 ARABIC LETTER ALEF WITH WAVY HAMZA BELOW: use the sequence 0627 065F (اٟ) instead
- U+0F77 TIBETAN VOWEL SIGN VOCALIC RR: use the sequence 0FB2 0F81 (ྲཱྀ) instead
- U+0F79 TIBETAN VOWEL SIGN VOCALIC LL: use the sequence 0FB3 0F81 (ླཱྀ) instead
- U+17A3 KHMER INDEPENDENT VOWEL QAQ: use 17A2 KHMER LETTER QA (អ) instead
- U+17A4 KHMER INDEPENDENT VOWEL QAA: use the sequence 17A2 17B6 (អា) instead
- U+206A INHIBIT SYMMETRIC SWAPPING
- U+206B ACTIVATE SYMMETRIC SWAPPING
- U+206C INHIBIT ARABIC FORM SHAPING
- U+206D ACTIVATE ARABIC FORM SHAPING
- U+206E NATIONAL DIGIT SHAPES
- U+206F NOMINAL DIGIT SHAPES
- U+2329 LEFT-POINTING ANGLE BRACKET: use U+3008 LEFT ANGLE BRACKET (〈) instead
- U+232A RIGHT-POINTING ANGLE BRACKET: use U+3009 RIGHT ANGLE BRACKET (〉) instead
- U+E0001 LANGUAGE TAG
The format characters U+206A through U+206F and U+E0001 should not be used at all, but for the other deprecated characters there are recommended alternatives, as shown above.
Límites
The Unicode Standard specifies the following boundary-related properties:
- Grapheme cluster
- Word
- Line
- Sentence
Referencias
- ^ a b c d e "The Unicode Standard, Chapter 4: Character Properties" (PDF). Unicode, Inc. March 2020. Retrieved 2020-03-15.
- ^ a b "Unicode Standard Annex #44: Unicode Character Database". The Unicode Standard. 2017-06-14.
- ^ "UCD: Name Aliases". Unicode Character Database. Unicode Consortium. 2019-03-08.
- ^ "Character design standards – space characters". Character design standards. Microsoft. 1998–1999. Archived from the original on August 23, 2000. Retrieved 2009-05-18.
- ^ The Unicode Standard 5.0, printed edition, p.205
- ^ "General Punctuation" (PDF). The Unicode Standard 5.1. Unicode Inc. 1991–2008. Retrieved 2009-05-13.
- ^ Sargent, Murray III (2006-08-29). "Unicode Nearly Plain Text Encoding of Mathematics (Version 2)". Unicode Technical Note #28. Unicode Inc. pp. 19–20. Retrieved 2009-05-19.
- ^ Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard. Addison-Wesley. ISBN 0-201-70052-2.
- ^ a b Hickson, Ian. "12.5 Named character references". HTML Standard. WHATWG.
- ^ Wolfram. "\[NegativeThickSpace]". Wolfram Language Documentation.
- ^ Wolfram. "\[NegativeMediumSpace]". Wolfram Language Documentation.
- ^ Wolfram. "\[NegativeThinSpace]". Wolfram Language Documentation.
- ^ Wolfram. "\[NegativeVeryThinSpace]". Wolfram Language Documentation.
- ^ Faltstrom, P., ed. (August 2010). "Zero Width Non-Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA). IETF. sec. A.1. doi:10.17487/RFC5892. RFC 5892. Retrieved September 4, 2019.
- ^ Faltstrom, P., ed. (August 2010). "Zero Width Joiner". The Unicode Code Points and Internationalized Domain Names for Applications (IDNA). IETF. sec. A.2. doi:10.17487/RFC5892. RFC 5892. Retrieved September 4, 2019.
- ^ "Unicode Standard Annex #44, Unicode Character Database".
- ^ a b "Unicode Standard Annex #9: Unicode Bidirectional Algorithm". The Unicode Standard. 2017-05-14.
- ^ "Unicode Standard Annex #24: Unicode Script Property". The Unicode Standard. 2015-06-01.
- ^ a b c d e f g h i "Proposed New Scripts". Unicode Consortium. 2018-05-25. Retrieved 2019-09-12.
- ^ Michael Everson (1997-09-18). "Proposal to encode Klingon in Plane 1 of ISO/IEC 10646-2".
- ^ The Unicode Consortium (2001-08-14). "Approved Minutes of the UTC 87 / L2 184 Joint Meeting".
- ^ Morey, Stephen; Pandey, Anshuman (2021-01-07). "Proposal to add the Tangsa Script in the SMP of the UCS" (PDF). Unicode Consortium. L2/L2021/21027. Retrieved 2021-02-19.
- ^ "Middle East-II, Ancient Scripts" (PDF). 13.0.0. The Unicode Consortiumtitle=Middle-East scripts II. Retrieved 2021-01-28.
- ^ "UCD: Derived Age". Unicode Character Database. Unicode Consortium. 2019-09-08.
- ^ "The Unicode Standard, Chapter 3.4 Characters and Encoding, D13: Deprecated character" (PDF). The Unicode Standard. March 2020.