El estándar Unicode asigna propiedades de carácter a cada punto de código . [1] Estas propiedades se pueden usar para manejar "caracteres" (puntos de código) en procesos, como saltos de línea, dirección del script de derecha a izquierda o aplicando controles. Ligeramente inconsecuente, algunas "propiedades de carácter" también se definen para puntos de código que no tienen ningún carácter asignado, y puntos de código que están etiquetados como "
Las propiedades tienen niveles de contundencia: normativa, informativa, contributiva o provisional. Para simplificar la especificación, se puede asignar una propiedad de carácter especificando un rango continuo de puntos de código que tienen la misma propiedad.
Nombre
A un carácter Unicode se le asigna un nombre único (na). [1] El nombre se compone de letras mayúsculas de la A a la Z, dígitos del 0 al 9, - (guión menos) y
Las siguientes clases de puntos de código no tienen un Nombre (na = ""): Controles (Categoría general: Cc), Uso privado (Co), Sustituto (Cs), No caracteres (Cn) y Reservado (Cn). Pueden ser referenciados, de manera informal, por un meta-nombre genérico o específico, llamado "Etiquetas de puntos de código":
Nombres de la versión 1.0
En la versión 2.0 de Unicode, se cambiaron muchos nombres. A partir de ese momento entró en vigor la regla "un nombre nunca cambiará", incluido el uso estricto (normativo) de los alias. Los nombres de la versión 1.0 en desuso se trasladaron a la propiedad Alias, para proporcionar cierta compatibilidad con versiones anteriores.
Alias del nombre del personaje
A partir de la versión 2.0 de Unicode, el nombre publicado de un punto de código nunca cambiará. Por lo tanto, en el caso de que el nombre de un personaje esté mal escrito o si el nombre del personaje es completamente incorrecto o engañoso, se puede asignar un Alias de nombre de personaje formal al personaje, y las aplicaciones pueden usar este alias en lugar del nombre del personaje defectuoso real. . [1] Por ejemplo,U + FE18 ︘ FORMULARIO DE PRESENTACIÓN PARA BRAKCET LENTICULAR BLANCO DERECHO VERTICAL tiene el nombre de carácter alias "FORMULARIO DE PRESENTACIÓN PARA SOPORTE LENTICULAR BLANCO DERECHO VERTICAL" para mitigar la falta de ortografía de "bracket" como "brakcet" en el nombre real del personaje;U + A015 ꀕ YI SYLLABLE WU tiene el nombre de carácter alias "YI SYLLABLE ITERATION MARK" porque, al contrario que el nombre del personaje, no tiene un valor silábico fijo.
Además de los alias de nombres de caracteres, que son correcciones de nombres de caracteres defectuosos, a algunos caracteres se les asignan alias que son nombres alternativos o abreviaturas. En el estándar Unicode se definen cinco tipos de alias de nombres de caracteres:
- Corrección: correcciones por nombres de personajes mal escritos o muy incorrectos;
- Control: nombres ISO 6429 para funciones de control C0 y C1 (que no tienen nombres de caracteres asignados en el estándar Unicode);
- Alternativo: nombres alternativos para algunos caracteres de formato (solo U + FEFF "ESPACIO SIN INTERRUPCIÓN DE ANCHO CERO" que tiene el alias "MARCA DE ORDEN DE BYTE");
- Figura: Etiquetas documentadas para algunas funciones del código de control C1 que no son nombres reales en ningún estándar;
- Abreviatura: abreviaturas o acrónimos de códigos de control, caracteres de formato, espacios y selectores de variación.
Todos los alias de nombres de caracteres formales siguen las reglas para los nombres de caracteres permitidos, y se garantiza que son únicos tanto en el alias del nombre del carácter como en los espacios de nombres del nombre del carácter (por esta razón, el nombre ISO 6429 "BELL" no se define como un alias para U +0007 porque U + 1F514 se llama "BELL"). [1]
A partir de la versión 12.1 de Unicode, veintiocho alias de nombres de caracteres formales se definen como correcciones para nombres de caracteres defectuosos. [3]
Personaje | Nombre | Alias | |
---|---|---|---|
01A2 | Ƣ | LETRA MAYÚSCULA LATINA OI | LETRA MAYÚSCULA LATINA GHA |
01A3 | ƣ | LETRA MINÚSCULA LATINA OI | LETRA MINÚSCULA LATINA GHA |
0709 | ܉ | COLON SUBLINEAR SIRIO BOCADO A LA DERECHA | COLON SUBLINEAR SIRIO BOCADO A LA IZQUIERDA |
0CDE | ೞ | LETRA KANNADA FA | LETRA KANNADA LLLA |
0E9D | ຝ | LAO LETRA FO TAM | LAO LETRA FO FON |
0E9F | ຟ | LAO LETRA FO SUNG | LAO LETRA FO FAY |
0EA3 | ຣ | LETRA LAO LO LING | LAO LETRA RO |
0EA5 | ລ | LETRA LAO LOOT | LAO LETRA LO |
0FD0 | ࿐ | MARCA TIBETANA BSKA- SHOG GI MGO RGYAN | MARCA TIBETANA BKA- SHOG GI MGO RGYAN |
11EC | ᇬ | HANGUL JONGSEONG IEUNG-KIYEOK | HANGUL JONGSEONG YESIEUNG-KIYEOK |
11ED | ᇭ | HANGUL JONGSEONG IEUNG-SSANGKIYEOK | HANGUL JONGSEONG YESIEUNG-SSANGKIYEOK |
11EE | ᇮ | HANGUL JONGSEONG SSANGIEUNG | HANGUL JONGSEONG SSANGYESIEUNG |
11EF | ᇯ | HANGUL JONGSEONG IEUNG-KHIEUKH | HANGUL JONGSEONG YESIEUNG-KHIEUKH |
2118 | ℘ | GUIÓN CAPITAL P | FUNCIÓN ELÍPTICA WEIERSTRASS |
2448 | ⑈ | OCR DASH | MICR EN SÍMBOLO NOSOTROS |
2449 | ⑉ | NÚMERO DE CUENTA DE CLIENTE DE OCR | SÍMBOLO MICR DASH |
2B7A | ⭺ | HACIA LA IZQUIERDA FLECHA DE CABEZA TRIÁNGULO CON DOBLE CARRERA HORIZONTAL | HACIA LA IZQUIERDA FLECHA DE CABEZA TRIÁNGULO CON DOBLE CARRERA VERTICAL |
2B7C | ⭼ | FLECHA DE CABEZA TRIÁNGULO HACIA LA DERECHA CON DOBLE CARRERA HORIZONTAL | FLECHA DE CABEZA TRIÁNGULO HACIA LA DERECHA CON DOBLE CARRERA VERTICAL |
A015 | ꀕ | YI SÍLABA WU | MARCA DE ITERACIÓN DE LA SÍLABA YI |
FE18 | ︘ | FORMULARIO DE PRESENTACIÓN PARA BRAKCET LENTICULAR BLANCO DERECHO VERTICAL | FORMA DE PRESENTACIÓN SOPORTE LENTICULAR BLANCO DERECHO VERTICAL |
122D4 | 𒋔 | CAMISETA SIGNO CUNEIFORME TENU | CUNEIFORM SIGN NU11 TENU |
122D5 | 𒋕 | CAMISETA CUNEIFORM SIGN OVER CAMISETA BUR OVER BUR | CUNEIFORM SIGN NU11 SOBRE NU11 BUR OVER BUR |
16E56 | 𖹖 | MEDEFAIDRIN LETRA MAYÚSCULA HP | MEDEFAIDRIN LETRA H MAYÚSCULA |
16E57 | 𖹗 | MEDEFAIDRIN LETRA MAYÚSCULA NY | MEDEFAIDRIN LETRA MAYÚSCULA NG |
16E76 | 𖹶 | MEDEFAIDRIN LETRA PEQUEÑA HP | MEDEFAIDRIN LETRA H MINÚSCULA |
16E77 | 𖹷 | MEDEFAIDRIN MINÚSCULA NY | MEDEFAIDRIN MINÚSCULA NG |
1B001 | 𛀁 | HIRAGANA LETRA ARCHAIC YE | CARTA E-1 DE HENTAIGANA |
1D0C5 | 𝃅 | SÍMBOLO MUSICAL BIZANTINO FHTORA SKLIRON CHROMA VASIS | SÍMBOLO MUSICAL BIZANTINO FTHORA SKLIRON CHROMA VASIS |
Aparte de estos nombres normativos, los nombres informales pueden mostrarse en las tablas de código Unicode. Estos son otros nombres de uso común para un carácter y no es necesario restringirlos a letras A – Z, dígitos 0–9, - (guión-menos) y
Categoría general
A cada punto de código se le asigna un valor para Categoría general. Esta es una de las propiedades de carácter que también se definen para puntos de código no asignados y puntos de código que se definen como "no un carácter".
Categoría general ( propiedad de carácter Unicode ) [a] | |||||
---|---|---|---|---|---|
Valor | Categoría Mayor, menor | Tipo básico [b] | Personaje asignado [b] | Contar (a partir de 13.0) | Observaciones |
L, letra | |||||
Lu | Letra, mayúscula | Gráfico | Personaje | 1,791 | |
Ll | Letra, minúscula | Gráfico | Personaje | 2,155 | |
Teniente | Carta, título | Gráfico | Personaje | 31 | Ligaduras que contienen mayúsculas seguidas de minúsculas (p. Ej., Dž , Lj , Nj y Dz ) |
Lm | Letra, modificador | Gráfico | Personaje | 260 | Una letra modificadora |
Lo | Carta, otro | Gráfico | Personaje | 127,004 | Un ideograma o una letra en un alfabeto unicase |
M, marca | |||||
Minnesota | Mark, sin espacio | Gráfico | Personaje | 1.839 | |
Mc | Marca, combinación de espaciado | Gráfico | Personaje | 443 | |
Me | Mark, adjuntando | Gráfico | Personaje | 13 | |
N, número | |||||
Dakota del Norte | Número, dígito decimal | Gráfico | Personaje | 650 | Todos estos, y solo estos, tienen Tipo numérico = De [c] |
Nl | Número, letra | Gráfico | Personaje | 236 | Números compuestos por letras o símbolos similares a letras (p. Ej., Números romanos ) |
No | Número, otro | Gráfico | Personaje | 895 | Por ejemplo, fracciones vulgares , dígitos en superíndice y subíndice |
P, puntuación | |||||
Ordenador personal | Puntuación, conector | Gráfico | Personaje | 10 | Incluye guión bajo "_" |
Pd | Puntuación, guión | Gráfico | Personaje | 25 | Incluye varios caracteres de guión. |
PD | Puntuación, abierto | Gráfico | Personaje | 75 | Caracteres de corchete de apertura |
Educación física | Puntuación, cerrar | Gráfico | Personaje | 73 | Caracteres de corchete de cierre |
Pi | Puntuación, cita inicial | Gráfico | Personaje | 12 | Comillas de apertura . No incluye las comillas ASCII "neutrales". Puede comportarse como Ps o Pe dependiendo del uso |
Pf | Puntuación, cita final | Gráfico | Personaje | 10 | Comillas de cierre. Puede comportarse como Ps o Pe dependiendo del uso |
Correos | Puntuación, otro | Gráfico | Personaje | 593 | |
S, símbolo | |||||
Sm | Símbolo, matemáticas | Gráfico | Personaje | 948 | Símbolos matemáticos (p. Ej., + , - , = , × , ÷ , √ , ∊ , ≠ ). No incluye paréntesis y corchetes, que se encuentran en las categorías Ps y Pe. ¡Tampoco incluye ! , * , - o / , que a pesar de su uso frecuente como operadores matemáticos, se consideran principalmente "puntuación". |
Carolina del Sur | Símbolo, moneda | Gráfico | Personaje | 62 | Símbolos de moneda |
Sk | Símbolo, modificador | Gráfico | Personaje | 123 | |
Entonces | Símbolo, otro | Gráfico | Personaje | 6.431 | |
Z, separador | |||||
Zs | Separador, espacio | Gráfico | Personaje | 17 | Incluye el espacio, pero no TAB , CR o LF , que son Cc |
Zl | Separador, línea | Formato | Personaje | 1 | Solo SEPARADOR DE LÍNEA U + 2028 (LSEP) |
Zp | Separador, párrafo | Formato | Personaje | 1 | Solo SEPARADOR DE PÁRRAFOS U + 2029 (PSEP) |
C, otro | |||||
Cc | Otro, control | Control | Personaje | 65 (nunca cambiará) [c] | Sin nombre, [d] |
Cf | Otro, formato | Formato | Personaje | 161 | Incluye el guión suave , caracteres de control de unión ( zwnj y zwj ), caracteres de control para admitir texto bidireccional y caracteres de etiquetas de idioma |
Cs | Otro, sustituto | Sustituto | No (solo se usa en UTF-16 ) | 2,048 (nunca cambiará) [c] | Sin nombre, [d] |
Co | Otro uso privado | Uso privado | Carácter (pero sin interpretación especificada) | 137.468 en total (nunca cambiará) [c] ( 6.400 en BMP , 131.068 en los aviones 15-16 ) | Sin nombre, [d] |
Cn | Otro, no asignado | Sin carácter | No | 66 (nunca cambiará) [c] | Sin nombre, [d] |
Reservado | No | 830,606 | Sin nombre, [d] | ||
|
Puntuación
Los caracteres tienen propiedades independientes para indicar que son un carácter de puntuación . Todas las propiedades tienen valores Sí / No : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .
Espacio en blanco
El espacio en blanco es un concepto de uso común para un efecto tipográfico. Básicamente, cubre caracteres invisibles que tienen un efecto de espaciado en el texto renderizado. Incluye espacios , pestañas y nuevos controles de formato de línea. En Unicode, dicho carácter tiene la propiedad establecida "WSpace = yes". En la versión 13.0, hay 25 caracteres de espacio en blanco.
Nombre | Punto de código | Caja de ancho | ¿Puede romperse ? | ¿En IDN ? | Texto | Cuadra | Categoría general | Notas | |
---|---|---|---|---|---|---|---|---|---|
tabulación de caracteres | U + 0009 | 9 | sí | No | Común | Latín básico | Otro, control | HT, pestaña horizontal . HTML / XML entidad denominada : &Tab , LaTeX : '\ tab' | |
linea de alimentación | U + 000A | 10 | Es un salto de línea | Común | Latín básico | Otro, control | LF, salto de línea . Entidad con nombre HTML / XML:&NewLine | ||
tabulación de línea | U + 000B | 11 | Es un salto de línea | Común | Latín básico | Otro, control | VT, pestaña vertical | ||
formulario de alimentación | U + 000C | 12 | Es un salto de línea | Común | Latín básico | Otro, control | FF, avance de formulario | ||
retorno de carro | U + 000D | 13 | Es un salto de línea | Común | Latín básico | Otro, control | CR, retorno de carro | ||
espacio | U + 0020 | 32 | sí | No | Común | Latín básico | Separador, espacio | Más común (espacio ASCII normal) | |
Proxima linea | U + 0085 | 133 | Es un salto de línea | Común | Suplemento Latin-1 | Otro, control | NEL, siguiente línea | ||
espacio sin descanso | U + 00A0 | 160 | No | No | Común | Suplemento Latin-1 | Separador, espacio | Espacio de no rotura : idéntico a U + 0020, pero no un punto en el que pueda romperse una línea. Entidad con nombre HTML / XML:, LaTeX: '\' | |
marca de espacio ogham | U + 1680 | 5760 | sí | No | Ogham | Ogham | Separador, espacio | Se utiliza para la separación entre palabras en el texto Ogham . Normalmente una línea vertical en texto vertical o una línea horizontal en texto horizontal, pero también puede ser un espacio en blanco en fuentes "sin tallo". Requiere una fuente Ogham. | |
en quad | U + 2000 | 8192 | sí | No | Común | Puntuación general | Separador, espacio | Ancho de uno en . U + 2002 es canónicamente equivalente a este personaje; Se prefiere U + 2002. | |
em quad | U + 2001 | 8193 | sí | No | Común | Puntuación general | Separador, espacio | También conocido como "quad de cordero". Ancho de uno em . U + 2003 es canónicamente equivalente a este personaje; Se prefiere U + 2003. | |
en el espacio | U + 2002 | 8194 | sí | No | Común | Puntuación general | Separador, espacio | También conocido como "nuez". Ancho de uno en . U + 2000 En Quad es canónicamente equivalente a este personaje; Se prefiere U + 2002. Entidad con nombre HTML / XML:, LaTeX: '\ enspace' | |
em espacio | U + 2003 | 8195 | sí | No | Común | Puntuación general | Separador, espacio | También conocido como "cordero". Ancho de uno em . U + 2001 Em Quad es canónicamente equivalente a este personaje; Se prefiere U + 2003. Entidad con nombre HTML / XML:, LaTeX: '\ quad' | |
espacio de tres por em | U + 2004 | 8196 | sí | No | Común | Puntuación general | Separador, espacio | También conocido como "espacio grueso". Un tercio de un em de ancho. Entidad con nombre HTML / XML:&emsp13 | |
espacio de cuatro por em | U + 2005 | 8197 | sí | No | Común | Puntuación general | Separador, espacio | También conocido como "espacio medio". Un cuarto de un em de ancho. Entidad con nombre HTML / XML:&emsp14 | |
espacio de seis por em | U + 2006 | 8198 | sí | No | Común | Puntuación general | Separador, espacio | Un sexto de un em de ancho. En tipografía informática, a veces se equipara a U + 2009. | |
espacio de la figura | U + 2007 | 8199 | No | No | Común | Puntuación general | Separador, espacio | Espacio de figura . En fuentes con dígitos monoespaciados, igual al ancho de un dígito. Entidad con nombre HTML / XML:&numsp | |
espacio de puntuación | U + 2008 | 8200 | sí | No | Común | Puntuación general | Separador, espacio | Tan ancho como la puntuación estrecha de una fuente, es decir, el ancho de avance del punto o la coma. [4] Entidad con nombre HTML / XML:&puncsp | |
espacio delgado | U + 2009 | 8201 | sí | No | Común | Puntuación general | Separador, espacio | Espacio delgado ; una quinta parte (a veces una sexta parte) de un em de ancho. Recomendado para su uso como separador de miles para medidas realizadas con unidades SI . A diferencia de U + 2002 a U + 2008, su ancho puede ajustarse en la composición tipográfica. [5] HTML / XML entidad denominada: ; LaTeX: '\,' | |
espacio para el cabello | U + 200A | 8202 | sí | No | Común | Puntuación general | Separador, espacio | Más delgado que un espacio delgado. Entidad con nombre HTML / XML: &hairsp ( no funciona en todos los navegadores) | |
separador de linea | U + 2028 | 8232 | Es un salto de línea | Común | Puntuación general | Separador, línea | |||
separador de párrafos | U + 2029 | 8233 | Es un salto de línea | Común | Puntuación general | Separador, párrafo | |||
espacio estrecho sin descanso | U + 202F | 8239 | No | No | Común | Puntuación general | Separador, espacio | Espacio estrecho sin interrupciones . Similar en función a U + 00A0 No-Break Space. Cuando se usa con mongol, su ancho suele ser un tercio del espacio normal; en otro contexto, su ancho a veces se parece al del Thin Space (U + 2009). | |
espacio matemático medio | U + 205F | 8287 | sí | No | Común | Puntuación general | Separador, espacio | MMSP. Utilizado en fórmulas matemáticas. Cuatro dieciocho de un em. [6] En tipografía matemática, los anchos de los espacios generalmente se dan en múltiplos enteros de un décimo octavo de un em, y 4/18 em se pueden usar en varias situaciones, por ejemplo, entre la a y el + y entre el + y el b en la expresión a + b . [7] Entidad con nombre HTML / XML:&MediumSpace | |
espacio ideográfico | U + 3000 | 12288 | sí | No | Común | Símbolos y puntuación de CJK | Separador, espacio | Tan ancho como una celda de caracteres CJK ( ancho completo ). Utilizado, por ejemplo, en tai tou . |
Nombre | Punto de código | Caja de ancho | ¿Puede romperse ? | ¿En IDN ? | Texto | Cuadra | Categoría general | Notas | |
---|---|---|---|---|---|---|---|---|---|
separador de vocales de mongolia | U + 180E | 6158 | | sí | No | mongol | mongol | Otro, formato | MVS. Un carácter de espacio estrecho, utilizado en mongol para hacer que los dos últimos caracteres de una palabra adopten formas diferentes. [8] Ya no se clasifica como carácter de espacio (es decir, en la categoría Zs) en Unicode 6.3.0, a pesar de que estaba en versiones anteriores del estándar. |
espacio de ancho cero | U + 200B | 8203 | | sí | No | ? | Puntuación general | Otro, formato | ZWSP, espacio de ancho cero . Se utiliza para indicar los límites de las palabras a los sistemas de procesamiento de texto cuando se utilizan scripts que no utilizan espacios explícitos. Es similar al guión suave , con la diferencia de que este último se usa para indicar los límites de las sílabas y debe mostrar un guión visible cuando la línea se rompe. Entidad con nombre HTML / XML : &ZeroWidthSpace [9] [c] |
no carpintero de ancho cero | U + 200C | 8204 | | sí | Depende del contexto [14] | ? | Puntuación general | Otro, formato | ZWNJ, no ensamblador de ancho cero . Cuando se coloca entre dos caracteres que de otro modo estarían conectados, un ZWNJ hace que se impriman en sus formas final e inicial, respectivamente. Entidad con nombre HTML / XML: |
carpintero de ancho cero | U + 200D | 8205 | | sí | Depende del contexto [15] | ? | Puntuación general | Otro, formato | ZWJ, carpintero de ancho cero . Cuando se coloca entre dos caracteres que de otro modo no estarían conectados, un ZWJ hace que se impriman en sus formas conectadas. También se puede utilizar para mostrar formularios de unión de forma aislada. Dependiendo de si se espera una ligadura o conjunción por defecto, puede inducir (como en emoji y en cingalés ) o suprimir (como en Devanagari ) la sustitución con un solo glifo, mientras se permite el uso de formas de unión individuales (a diferencia de ZWNJ). Entidad con nombre HTML / XML: |
ensamblador de palabras | U + 2060 | 8288 | | No | No | ? | Puntuación general | Otro, formato | WJ, ensamblador de palabras . Similar a U + 200B, pero no es un punto en el que se pueda romper una línea. Entidad con nombre HTML / XML:&NoBreak |
espacio sin rotura de ancho cero | U + FEFF | 65279 | | No | No | ? | Formularios de presentación en árabe -B | Otro, formato | Espacio sin rotura de ancho cero . Se utiliza principalmente como marca de orden de bytes . El uso como indicación de no rotura está obsoleto a partir de Unicode 3.2; ver U + 2060 en su lugar. |
|
Otras caracteristicas generales
Ideográfico, alfabético, sin carácter.
Dar forma, ancho.
Escritura bidireccional
Seis propiedades de caracteres pertenecen a la escritura bidireccional: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket y Bidi_Paired_Bracket_Type.
Una de las características principales de Unicode es la compatibilidad con la visualización de texto bidireccional ( Bidi ) de derecha a izquierda (R-to-L) y de izquierda a derecha (L-to-R). El algoritmo bidireccional Unicode UAX9 [17] describe el proceso de presentación de texto con la alteración de las direcciones del script. Por ejemplo, habilita una cita en hebreo en un texto en inglés. Bidi_Character_Type marca el comportamiento de un personaje en escritura direccional. Para anular una dirección, Unicode ha definido caracteres de control de formato especiales ( Bidi-Control s). Estos caracteres pueden imponer una dirección y, por definición, solo afectan la escritura bidireccional.
Cada punto de código tiene una propiedad llamada Bidi_Class . Define su comportamiento en un texto bidireccional según lo interpreta el algoritmo:
Tipo [2] | Descripción | Fuerza | Direccionalidad | Alcance general | Carácter Bidi_Control [3] |
---|---|---|---|---|---|
L | De izquierda a derecha | Fuerte | De izquierda a derecha | La mayoría de caracteres alfabéticos y silábicos, caracteres chinos, dígitos no europeos o no árabes, caracteres LRM, ... | U + 200E MARCA DE IZQUIERDA A DERECHA (LRM) |
R | De derecha a izquierda | Fuerte | De derecha a izquierda | Adlam, hebreo, Mandaic, Mende Kikakui, N'Ko, Samaritan, escrituras antiguas como Kharoshthi y Nabataean, carácter RLM, ... | U + 200F MARCA DE DERECHA A IZQUIERDA (RLM) |
Alabama | Letra árabe | Fuerte | De derecha a izquierda | Alfabetos árabe, hanifi rohingya, sogdiano, siríaco y thaana, y la mayoría de los signos de puntuación específicos de esos guiones, caracteres ALM, ... | U + 061C LETRA ÁRABE (ALM) |
ES | Número europeo | Débil | Dígitos europeos, dígitos árabe-índicos del este, números epactos coptos, ... | ||
ES | Separador europeo | Débil | signo , signo menos , ... | ||
ET | Terminador de números europeos | Débil | signo de grado , símbolos de moneda, ... | ||
UN | Número árabe | Débil | Dígitos árabe-índicos, separadores de miles y decimales árabes, dígitos Rumi, dígitos Hanifi Rohingya, ... | ||
CS | Separador de números comunes | Débil | colon , coma , punto final , espacio sin descanso , ... | ||
NSM | Marca no espaciadora | Débil | Caracteres en categorías generales Marcar, sin espacios y Marcar, adjunto (Mn, Me) | ||
BN | Límite neutral | Débil | Ignorables predeterminados, no caracteres, caracteres de control distintos a los que se les dan explícitamente otros tipos | ||
B | Separador de párrafos | Neutral | separador de párrafos , funciones de nueva línea apropiadas, determinación de párrafos de protocolo de nivel superior | ||
S | Separador de segmentos | Neutral | Pestañas | ||
WS | Espacio en blanco | Neutral | espacio , espacio de la figura , separador de línea , alimentación de formulario , espacios de bloque de puntuación general (conjunto más pequeño que la lista de espacios en blanco Unicode ) | ||
EN | Otros neutrales | Neutral | Todos los demás personajes, incluidos carácter de reemplazo de objeto | ||
LRE | Incrustación de izquierda a derecha | Explícito | De izquierda a derecha | Solo personaje LRE | U + 202A EMPOTRADO DE IZQUIERDA A DERECHA (LRE) |
LRO | Anulación de izquierda a derecha | Explícito | De izquierda a derecha | Solo personaje LRO | ANULACIÓN DE IZQUIERDA A DERECHA U + 202D (LRO) |
RLE | Incrustación de derecha a izquierda | Explícito | De derecha a izquierda | Solo carácter RLE | U + 202B EMPOTRADO DE DERECHA A IZQUIERDA (RLE) |
RLO | Anulación de derecha a izquierda | Explícito | De derecha a izquierda | Solo carácter RLO | U + 202E ANULACIÓN DE DERECHA A IZQUIERDA (RLO) |
Formato direccional pop | Explícito | Solo carácter PDF | FORMATO DIRECCIONAL POP U + 202C (PDF) | ||
LRI | Aislar de izquierda a derecha | Explícito | De izquierda a derecha | Solo carácter LRI | U + 2066 AISLADO DE IZQUIERDA A DERECHA (LRI) |
RLI | Aislar de derecha a izquierda | Explícito | De derecha a izquierda | Solo carácter RLI | U + 2067 AISLADO DE DERECHA A IZQUIERDA (RLI) |
FSI | Primer aislamiento fuerte | Explícito | Solo carácter FSI | U + 2068 PRIMER AISLADO FUERTE (FSI) | |
PDI | Aislamiento direccional pop | Explícito | Solo carácter PDI | U + 2069 POP AISLADO DIRECCIONAL (PDI) | |
Notas
|
En situaciones normales, el algoritmo puede determinar la dirección de un texto mediante esta propiedad de carácter. Para controlar situaciones Bidi más complejas, por ejemplo, cuando un texto en inglés tiene una cita en hebreo, se agregan opciones adicionales a Unicode. Doce caracteres tienen la propiedad Bidi_Control = Sí : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM y RLO como se indica en la tabla. Estos son caracteres de control de formato invisibles, solo utilizados por el algoritmo y sin efecto fuera del formato bidireccional. [17] A pesar del nombre, son caracteres de formato, no de control, y tienen la categoría general "Otro, formato (Cf)" en la definición Unicode.
Básicamente, el algoritmo determina una secuencia de caracteres con el mismo tipo de dirección fuerte (R-to-L o L-to-R), teniendo en cuenta una anulación por los controles bidireccionales especiales. A las cadenas de números (tipos débiles) se les asigna una dirección de acuerdo con su entorno fuerte, al igual que los caracteres neutrales. Finalmente, los caracteres se muestran según la dirección de una cadena.
Dos propiedades de carácter son relevantes para determinar una imagen especular de un glifo en texto bidireccional: Bidi_Mirrored = Yes indica que el glifo debe reflejarse cuando se escribe R-to-L. La propiedad Bidi_Mirroring_Glyph = U + hhhh puede apuntar al personaje reflejado. Por ejemplo, los corchetes "()" se reflejan de esta manera. Dar forma a escrituras cursivas como el árabe y reflejar glifos que tienen una dirección no es parte del algoritmo.
Caja
El valor de caso es normativo en Unicode. Pertenece a aquellos guiones con letras mayúsculas (también conocidas como mayúsculas, mayúsculas) y minúsculas (también conocidas como minúsculas). La diferencia entre mayúsculas y minúsculas se produce en las escrituras Adlam, armenio, cherokee, copto, cirílico, deseret, glagolítico, griego, khutsuri y mkhedruli georgiano, latín, medefaidrin, húngaro antiguo, Osage y Warang Citi.
(superior, inferior, título, plegado, tanto simple como completo)
Valores y tipos numéricos
Decimal
Los caracteres se clasifican con un tipo numérico . [1] Los caracteres como fracciones, subíndices, superíndices, números romanos, numeradores de moneda, números encerrados en un círculo y dígitos específicos de la escritura son de tipo numérico. Tienen un valor numérico que puede ser decimal, incluido cero y negativos, o una fracción vulgar. Si no existe tal valor, como ocurre con la mayoría de los caracteres, el tipo numérico es "Ninguno".
Los caracteres que tienen un valor numérico se separan en tres grupos: decimal (De), dígito (Di) y numérico (Nu, es decir, todos los demás). "Decimal" significa que el carácter es un dígito decimal directo. Sólo los caracteres que forman parte de un rango codificado contiguo 0..9 tienen tipo numérico Decimal. Otros dígitos, como los superíndices, tienen Dígito de tipo numérico. Todos los caracteres numéricos como fracciones y números romanos terminan con el tipo "Numérico". El efecto deseado es que un analizador simple puede usar estos valores numéricos decimales, sin distraerse con, digamos, un superíndice numérico o una fracción. Setenta y tres ideogramas CJK que representan un número, incluidos los que se utilizan para la contabilidad, se escriben numéricos.
Por otro lado, los caracteres que podrían tener un valor numérico como segundo significado siguen marcados como tipo numérico "Ninguno" y no tienen valor numérico (""). Por ejemplo, se pueden usar letras latinas en la numeración de párrafos como "II.A.1.b", pero las letras "I", "A" y "b" no son numéricas (escriba "Ninguno") y no tienen valor numérico.
Tipo numérico [a] [b] ( propiedad de carácter Unicode ) | ||||
---|---|---|---|---|
Tipo numérico | Código | Tiene valor numérico | Ejemplo | Observaciones |
No numérico | None | No |
| Valor numérico = "NaN" |
Decimal | De | sí |
| Dígito recto (decimal- base ). Corresponde en ambos sentidos con Categoría general = Nd [a] |
Dígito | Di | sí |
| Decimal, pero en contexto tipográfico |
Numérico | Nu | sí |
| Valor numérico, pero no base decimal |
una. ^"Sección 4.6: Valor numérico" (PDF) . El estándar Unicode . Consorcio Unicode. Marzo de 2020. | ||||
B. ^"Tipos numéricos derivados de Unicode 13.0" . Base de datos de caracteres Unicode . Consorcio Unicode. 2019-09-08. |
Dígitos hexadecimales
Los caracteres hexadecimales son los de la serie con valores hexadecimales 0 ... 9ABCDEF (dieciséis caracteres, valor decimal 0-15). La propiedad de carácter Hex_Digit se establece en Sí cuando un personaje está en una de estas series:
Caracteres en Unicode marcados Hex_Digit=Yes [a] | |||
---|---|---|---|
0123456789ABCDEF | Latín básico, mayúsculas | También ASCII_Hex_Digit=Yes | |
0123456789abcdef | Latín básico, letras minúsculas | También ASCII_Hex_Digit=Yes | |
0123456789ABCDEF | Formas de ancho completo , mayúsculas | ||
0123456789abcdef | Formularios de ancho completo, letras minúsculas | ||
una. ^"Unicode 13.0 UCD: PropList.txt" . 2019-11-27 . Consultado el 12 de marzo de 2020 . |
Cuarenta y cuatro caracteres están marcados como Hex_Digit. Los del bloque Latín básico también están marcados como ASCII_Hex_Digit .
Unicode no tiene caracteres separados para valores hexadecimales. Una consecuencia es que cuando se utilizan caracteres regulares no es posible determinar si se pretende un valor hexadecimal, o incluso si se pretende un valor en absoluto. Eso debería determinarse en un nivel superior, por ejemplo, anteponiendo "0x" a un número hexadecimal o por contexto. La única característica es que Unicode puede notar que una secuencia puede ser o no un valor hexadecimal.
Cuadra
Un bloque es un rango contiguo de puntos de código con un nombre único. Se identifica por su primer y último punto de código. Los bloques no se superponen . Un bloque puede contener puntos de código que están reservados, no asignados, etc. Cada carácter que se asigna tiene un único valor de "nombre de bloque" de los 308 nombres asignados a partir de la versión Unicode 13.0 Los puntos de código no asignados fuera de un bloque existente, tienen el valor predeterminado "No_block".
Avión | Rango de bloque | Nombre del bloque | Puntos de código [a] | Caracteres asignados | Guiones [b] [c] [d] [e] [f] |
---|---|---|---|---|---|
0 BMP | U + 0000..U + 007F | Latín básico [g] | 128 | 128 | Latín (52 caracteres), Común (76 caracteres) |
0 BMP | U + 0080..U + 00FF | Suplemento Latin-1 [h] | 128 | 128 | Latín (64 caracteres), Común (64 caracteres) |
0 BMP | U + 0100..U + 017F | Latín extendido-A | 128 | 128 | latín |
0 BMP | U + 0180..U + 024F | Latín extendido-B | 208 | 208 | latín |
0 BMP | U + 0250..U + 02AF | Extensiones IPA | 96 | 96 | latín |
0 BMP | U + 02B0..U + 02FF | Letras modificadoras de espaciado | 80 | 80 | Bopomofo (2 caracteres), latín (14 caracteres), común (64 caracteres) |
0 BMP | U + 0300..U + 036F | Combinando marcas diacríticas | 112 | 112 | Heredado |
0 BMP | U + 0370..U + 03FF | Griego y copto | 144 | 135 | Copto (14 caracteres), Griego (117 caracteres), Común (4 caracteres) |
0 BMP | U + 0400..U + 04FF | cirílico | 256 | 256 | Cirílico (254 caracteres), Heredado (2 caracteres) |
0 BMP | U + 0500..U + 052F | Suplemento cirílico | 48 | 48 | cirílico |
0 BMP | U + 0530..U + 058F | armenio | 96 | 91 | armenio |
0 BMP | U + 0590..U + 05FF | hebreo | 112 | 88 | hebreo |
0 BMP | U + 0600..U + 06FF | Arábica | 256 | 255 | Árabe (237 caracteres), Común (6 caracteres), Heredado (12 caracteres) |
0 BMP | U + 0700..U + 074F | Siríaco | 80 | 77 | Siríaco |
0 BMP | U + 0750..U + 077F | Suplemento árabe | 48 | 48 | Arábica |
0 BMP | U + 0780..U + 07BF | Thaana | 64 | 50 | Thaana |
0 BMP | U + 07C0..U + 07FF | NKo | 64 | 62 | Nko |
0 BMP | U + 0800..U + 083F | samaritano | 64 | 61 | samaritano |
0 BMP | U + 0840..U + 085F | Mandaic | 32 | 29 | Mandaic |
0 BMP | U + 0860..U + 086F | Suplemento siríaco | dieciséis | 11 | Siríaco |
0 BMP | U + 08A0..U + 08FF | Árabe extendido-A | 96 | 84 | Árabe (83 caracteres), Común (1 carácter) |
0 BMP | U + 0900..U + 097F | Devanagari | 128 | 128 | Devanagari (122 caracteres), Común (2 caracteres), Heredado (4 caracteres) |
0 BMP | U + 0980..U + 09FF | bengalí | 128 | 96 | bengalí |
0 BMP | U + 0A00..U + 0A7F | Gurmukhi | 128 | 80 | Gurmukhi |
0 BMP | U + 0A80..U + 0AFF | Gujarati | 128 | 91 | Gujarati |
0 BMP | U + 0B00..U + 0B7F | Oriya | 128 | 91 | Oriya |
0 BMP | U + 0B80..U + 0BFF | Tamil | 128 | 72 | Tamil |
0 BMP | U + 0C00..U + 0C7F | Telugu | 128 | 98 | Telugu |
0 BMP | U + 0C80..U + 0CFF | Canarés | 128 | 89 | Canarés |
0 BMP | U + 0D00..U + 0D7F | Malayalam | 128 | 118 | Malayalam |
0 BMP | U + 0D80..U + 0DFF | Cingalés | 128 | 91 | Cingalés |
0 BMP | U + 0E00..U + 0E7F | tailandés | 128 | 87 | Tailandés (86 caracteres), Común (1 carácter) |
0 BMP | U + 0E80..U + 0EFF | Lao | 128 | 82 | Lao |
0 BMP | U + 0F00..U + 0FFF | Tibetano | 256 | 211 | Tibetano (207 caracteres), Común (4 caracteres) |
0 BMP | U + 1000..U + 109F | Myanmar | 160 | 160 | Myanmar |
0 BMP | U + 10A0..U + 10FF | georgiano | 96 | 88 | Georgiano (87 caracteres), Común (1 carácter) |
0 BMP | U + 1100..U + 11FF | Hangul Jamo | 256 | 256 | Hangul |
0 BMP | U + 1200..U + 137F | Etíope | 384 | 358 | Etíope |
0 BMP | U + 1380..U + 139F | Suplemento etíope | 32 | 26 | Etíope |
0 BMP | U + 13A0..U + 13FF | Cherokee | 96 | 92 | Cherokee |
0 BMP | U + 1400..U + 167F | Sílabas aborígenes canadienses unificadas | 640 | 640 | Aborigen canadiense |
0 BMP | U + 1680..U + 169F | Ogham | 32 | 29 | Ogham |
0 BMP | U + 16A0..U + 16FF | Rúnico | 96 | 89 | Rúnico (86 caracteres), Común (3 caracteres) |
0 BMP | U + 1700..U + 171F | Tagalo | 32 | 20 | Tagalo |
0 BMP | U + 1720..U + 173F | Hanunoo | 32 | 23 | Hanunoo (21 caracteres), Común (2 caracteres) |
0 BMP | U + 1740..U + 175F | Buhid | 32 | 20 | Buhid |
0 BMP | U + 1760..U + 177F | Tagbanwa | 32 | 18 | Tagbanwa |
0 BMP | U + 1780..U + 17FF | Jemer | 128 | 114 | Jemer |
0 BMP | U + 1800..U + 18AF | mongol | 176 | 157 | Mongol (154 caracteres), Común (3 caracteres) |
0 BMP | U + 18B0..U + 18FF | Extensión de la sílabas aborígenes canadienses unificadas | 80 | 70 | Aborigen canadiense |
0 BMP | U + 1900..U + 194F | Limbu | 80 | 68 | Limbu |
0 BMP | U + 1950..U + 197F | Tai Le | 48 | 35 | Tai Le |
0 BMP | U + 1980..U + 19DF | Nuevo Tai Lue | 96 | 83 | Nuevo Tai Lue |
0 BMP | U + 19E0..U + 19FF | Símbolos Khmer | 32 | 32 | Jemer |
0 BMP | U + 1A00..U + 1A1F | Buginés | 32 | 30 | Buginés |
0 BMP | U + 1A20..U + 1AAF | Tai Tham | 144 | 127 | Tai Tham |
0 BMP | U + 1AB0..U + 1AFF | Ampliación de la combinación de marcas diacríticas | 80 | 17 | Heredado |
0 BMP | U + 1B00..U + 1B7F | Balinés | 128 | 121 | Balinés |
0 BMP | U + 1B80..U + 1BBF | Sundanés | 64 | 64 | Sundanés |
0 BMP | U + 1BC0..U + 1BFF | Batak | 64 | 56 | Batak |
0 BMP | U + 1C00..U + 1C4F | Lepcha | 80 | 74 | Lepcha |
0 BMP | U + 1C50..U + 1C7F | Ol Chiki | 48 | 48 | Ol Chiki |
0 BMP | U + 1C80..U + 1C8F | Cirílico extendido-C | dieciséis | 9 | cirílico |
0 BMP | U + 1C90..U + 1CBF | Georgiano extendido | 48 | 46 | georgiano |
0 BMP | U + 1CC0..U + 1CCF | Suplemento Sundanés | dieciséis | 8 | Sundanés |
0 BMP | U + 1CD0..U + 1CFF | Extensiones védicas | 48 | 43 | Común (16 caracteres), Heredado (27 caracteres) |
0 BMP | U + 1D00..U + 1D7F | Extensiones fonéticas | 128 | 128 | Cirílico (2 caracteres), Griego (15 caracteres), Latín (111 caracteres) |
0 BMP | U + 1D80..U + 1DBF | Suplemento de extensiones fonéticas | 64 | 64 | Griego (1 carácter), Latín (63 caracteres) |
0 BMP | U + 1DC0..U + 1DFF | Suplemento de combinación de marcas diacríticas | 64 | 63 | Heredado |
0 BMP | U + 1E00..U + 1EFF | Latino extendido adicional | 256 | 256 | latín |
0 BMP | U + 1F00..U + 1FFF | Griego extendido | 256 | 233 | griego |
0 BMP | U + 2000..U + 206F | Puntuación general | 112 | 111 | Común (109 caracteres), Heredado (2 caracteres) |
0 BMP | U + 2070..U + 209F | Superíndices y subíndices | 48 | 42 | Latín (15 caracteres), Común (27 caracteres) |
0 BMP | U + 20A0..U + 20CF | Símbolos de moneda | 48 | 32 | Común |
0 BMP | U + 20D0..U + 20FF | Combinando marcas diacríticas para símbolos | 48 | 33 | Heredado |
0 BMP | U + 2100..U + 214F | Símbolos tipo letras | 80 | 80 | Griego (1 carácter), Latín (4 caracteres), Común (75 caracteres) |
0 BMP | U + 2150..U + 218F | Formularios numéricos | 64 | 60 | Latín (41 caracteres), Común (19 caracteres) |
0 BMP | U + 2190..U + 21FF | Flechas | 112 | 112 | Común |
0 BMP | U + 2200..U + 22FF | Operadores matemáticos | 256 | 256 | Común |
0 BMP | U + 2300..U + 23FF | Técnica miscelánea | 256 | 256 | Común |
0 BMP | U + 2400..U + 243F | Imágenes de control | 64 | 39 | Común |
0 BMP | U + 2440..U + 245F | Reconocimiento óptico de caracteres | 32 | 11 | Común |
0 BMP | U + 2460..U + 24FF | Alfanuméricos adjuntos | 160 | 160 | Común |
0 BMP | U + 2500..U + 257F | Dibujo de caja | 128 | 128 | Común |
0 BMP | U + 2580..U + 259F | Elementos de bloque | 32 | 32 | Común |
0 BMP | U + 25A0..U + 25FF | Formas geométricas | 96 | 96 | Común |
0 BMP | U + 2600..U + 26FF | Símbolos Misceláneos | 256 | 256 | Común |
0 BMP | U + 2700..U + 27BF | Dingbats | 192 | 192 | Común |
0 BMP | U + 27C0..U + 27EF | Símbolos matemáticos varios-A | 48 | 48 | Común |
0 BMP | U + 27F0..U + 27FF | Flechas suplementarias-A | dieciséis | dieciséis | Común |
0 BMP | U + 2800..U + 28FF | Patrones Braille | 256 | 256 | Braille |
0 BMP | U + 2900..U + 297F | Flechas suplementarias-B | 128 | 128 | Común |
0 BMP | U + 2980..U + 29FF | Símbolos matemáticos varios-B | 128 | 128 | Común |
0 BMP | U + 2A00..U + 2AFF | Operadores matemáticos suplementarios | 256 | 256 | Común |
0 BMP | U + 2B00..U + 2BFF | Símbolos y flechas varios | 256 | 253 | Común |
0 BMP | U + 2C00..U + 2C5F | Glagolítico | 96 | 94 | Glagolítico |
0 BMP | U + 2C60..U + 2C7F | Latín extendido-C | 32 | 32 | latín |
0 BMP | U + 2C80..U + 2CFF | copto | 128 | 123 | copto |
0 BMP | U + 2D00..U + 2D2F | Suplemento georgiano | 48 | 40 | georgiano |
0 BMP | U + 2D30..U + 2D7F | Tifinagh | 80 | 59 | Tifinagh |
0 BMP | U + 2D80..U + 2DDF | Etíope extendido | 96 | 79 | Etíope |
0 BMP | U + 2DE0..U + 2DFF | Cirílico extendido-A | 32 | 32 | cirílico |
0 BMP | U + 2E00..U + 2E7F | Puntuación suplementaria | 128 | 83 | Común |
0 BMP | U + 2E80..U + 2EFF | Suplemento de radicales CJK | 128 | 115 | Han |
0 BMP | U + 2F00..U + 2FDF | Radicales Kangxi | 224 | 214 | Han |
0 BMP | U + 2FF0..U + 2FFF | Caracteres de descripción ideográfica | dieciséis | 12 | Común |
0 BMP | U + 3000..U + 303F | Símbolos y puntuación de CJK | 64 | 64 | Han (15 caracteres), Hangul (2 caracteres), Común (43 caracteres), Heredado (4 caracteres) |
0 BMP | U + 3040..U + 309F | Hiragana | 96 | 93 | Hiragana (89 caracteres), Común (2 caracteres), Heredado (2 caracteres) |
0 BMP | U + 30A0..U + 30FF | Katakana | 96 | 96 | Katakana (93 caracteres), Común (3 caracteres) |
0 BMP | U + 3100..U + 312F | Bopomofo | 48 | 43 | Bopomofo |
0 BMP | U + 3130..U + 318F | Compatibilidad Hangul Jamo | 96 | 94 | Hangul |
0 BMP | U + 3190..U + 319F | Kanbun | dieciséis | dieciséis | Común |
0 BMP | U + 31A0..U + 31BF | Bopomofo extendido | 32 | 32 | Bopomofo |
0 BMP | U + 31C0..U + 31EF | Trazos de CJK | 48 | 36 | Común |
0 BMP | U + 31F0..U + 31FF | Extensiones fonéticas de Katakana | dieciséis | dieciséis | Katakana |
0 BMP | U + 3200..U + 32FF | Cartas y meses CJK adjuntos | 256 | 255 | Hangul (62 caracteres), Katakana (47 caracteres), Común (146 caracteres) |
0 BMP | U + 3300..U + 33FF | Compatibilidad CJK | 256 | 256 | Katakana (88 caracteres), Común (168 caracteres) |
0 BMP | U + 3400..U + 4DBF | Extensión A de ideogramas unificados de CJK | 6.592 | 6.592 | Han |
0 BMP | U + 4DC0..U + 4DFF | Símbolos del hexagrama de Yijing | 64 | 64 | Común |
0 BMP | U + 4E00..U + 9FFF | Ideogramas unificados de CJK | 20.992 | 20,989 | Han |
0 BMP | U + A000..U + A48F | Sílabas Yi | 1,168 | 1,165 | Yi |
0 BMP | U + A490..U + A4CF | Radicales Yi | 64 | 55 | Yi |
0 BMP | U + A4D0..U + A4FF | Lisu | 48 | 48 | Lisu |
0 BMP | U + A500..U + A63F | Vai | 320 | 300 | Vai |
0 BMP | U + A640..U + A69F | Cirílico extendido-B | 96 | 96 | cirílico |
0 BMP | U + A6A0..U + A6FF | Bamum | 96 | 88 | Bamum |
0 BMP | U + A700..U + A71F | Letras de tono modificador | 32 | 32 | Común |
0 BMP | U + A720..U + A7FF | Latín extendido-D | 224 | 180 | Latín (175 caracteres), Común (5 caracteres) |
0 BMP | U + A800..U + A82F | Syloti Nagri | 48 | 45 | Syloti Nagri |
0 BMP | U + A830..U + A83F | Formularios de números índicos comunes | dieciséis | 10 | Común |
0 BMP | U + A840..U + A87F | Phags-pa | 64 | 56 | Phags Pa |
0 BMP | U + A880..U + A8DF | Saurashtra | 96 | 82 | Saurashtra |
0 BMP | U + A8E0..U + A8FF | Devanagari extendido | 32 | 32 | Devanagari |
0 BMP | U + A900..U + A92F | Kayah Li | 48 | 48 | Kayah Li (47 caracteres), Común (1 carácter) |
0 BMP | U + A930..U + A95F | Rejang | 48 | 37 | Rejang |
0 BMP | U + A960..U + A97F | Hangul Jamo extendido-A | 32 | 29 | Hangul |
0 BMP | U + A980..U + A9DF | javanés | 96 | 91 | Javanés (90 caracteres), común (1 carácter) |
0 BMP | U + A9E0..U + A9FF | Myanmar extendido-B | 32 | 31 | Myanmar |
0 BMP | U + AA00..U + AA5F | Cham | 96 | 83 | Cham |
0 BMP | U + AA60..U + AA7F | Myanmar Extendido-A | 32 | 32 | Myanmar |
0 BMP | U + AA80..U + AADF | Tai Viet | 96 | 72 | Tai Viet |
0 BMP | U + AAE0..U + AAFF | Extensiones Meetei Mayek | 32 | 23 | Meetei Mayek |
0 BMP | U + AB00..U + AB2F | Etíope Extendido-A | 48 | 32 | Etíope |
0 BMP | U + AB30..U + AB6F | Latín extendido-E | 64 | 60 | Latín (56 caracteres), Griego (1 carácter), Común (3 caracteres) |
0 BMP | U + AB70..U + ABBF | Suplemento Cherokee | 80 | 80 | Cherokee |
0 BMP | U + ABC0..U + ABFF | Meetei Mayek | 64 | 56 | Meetei Mayek |
0 BMP | U + AC00..U + D7AF | Sílabas Hangul | 11.184 | 11,172 | Hangul |
0 BMP | U + D7B0..U + D7FF | Hangul Jamo extendido-B | 80 | 72 | Hangul |
0 BMP | U + D800..U + DB7F | Altos sustitutos | 896 | 0 | Desconocido |
0 BMP | U + DB80..U + DBFF | Sustitutos de alto uso privado | 128 | 0 | Desconocido |
0 BMP | U + DC00..U + DFFF | Sustitutos bajos | 1.024 | 0 | Desconocido |
0 BMP | U + E000..U + F8FF | Área de uso privado | 6.400 | 6.400 | Desconocido |
0 BMP | U + F900..U + FAFF | Ideogramas de compatibilidad CJK | 512 | 472 | Han |
0 BMP | U + FB00..U + FB4F | Formularios de presentación alfabéticos | 80 | 58 | Armenio (5 caracteres), hebreo (46 caracteres), latín (7 caracteres) |
0 BMP | U + FB50..U + FDFF | Formularios de presentación en árabe-A | 688 | 611 | Árabe (609 caracteres), Común (2 caracteres) |
0 BMP | U + FE00..U + FE0F | Selectores de variación | dieciséis | dieciséis | Heredado |
0 BMP | U + FE10..U + FE1F | Formas verticales | dieciséis | 10 | Común |
0 BMP | U + FE20..U + FE2F | Combinar medias marcas | dieciséis | dieciséis | Cirílico (2 caracteres), Heredado (14 caracteres) |
0 BMP | U + FE30..U + FE4F | Formularios de compatibilidad CJK | 32 | 32 | Común |
0 BMP | U + FE50..U + FE6F | Variantes de formato pequeño | 32 | 26 | Común |
0 BMP | U + FE70..U + FEFF | Formularios de presentación en árabe-B | 144 | 141 | Árabe (140 caracteres), Común (1 carácter) |
0 BMP | U + FF00..U + FFEF | Formularios de ancho medio y ancho completo | 240 | 225 | Hangul (52 caracteres), Katakana (55 caracteres), Latín (52 caracteres), Común (66 caracteres) |
0 BMP | U + FFF0..U + FFFF | Especiales | dieciséis | 5 | Común |
1 SMP | U + 10000..U + 1007F | Silabario lineal B | 128 | 88 | Lineal B |
1 SMP | U + 10080..U + 100FF | Ideogramas lineales B | 128 | 123 | Lineal B |
1 SMP | U + 10100..U + 1013F | Números del Egeo | 64 | 57 | Común |
1 SMP | U + 10140..U + 1018F | Números griegos antiguos | 80 | 79 | griego |
1 SMP | U + 10190..U + 101CF | Simbolos Antiguos | 64 | 14 | Griego (1 carácter), Común (13 caracteres) |
1 SMP | U + 101D0..U + 101FF | Disco de Phaistos | 48 | 46 | Común (45 caracteres), Heredado (1 carácter) |
1 SMP | U + 10280..U + 1029F | Licio | 32 | 29 | Licio |
1 SMP | U + 102A0..U + 102DF | Carian | 64 | 49 | Carian |
1 SMP | U + 102E0..U + 102FF | Números coptos de Epact | 32 | 28 | Común (27 caracteres), Heredado (1 carácter) |
1 SMP | U + 10300..U + 1032F | Cursiva antigua | 48 | 39 | Cursiva antigua |
1 SMP | U + 10330..U + 1034F | gótico | 32 | 27 | gótico |
1 SMP | U + 10350..U + 1037F | Viejo Permic | 48 | 43 | Viejo Permic |
1 SMP | U + 10380..U + 1039F | Ugarítico | 32 | 31 | Ugarítico |
1 SMP | U + 103A0..U + 103DF | Persa antiguo | 64 | 50 | Persa antiguo |
1 SMP | U + 10400..U + 1044F | Deseret | 80 | 80 | Deseret |
1 SMP | U + 10450..U + 1047F | Shavian | 48 | 48 | Shavian |
1 SMP | U + 10480..U + 104AF | Osmanya | 48 | 40 | Osmanya |
1 SMP | U + 104B0..U + 104FF | Osage | 80 | 72 | Osage |
1 SMP | U + 10500..U + 1052F | Elbasan | 48 | 40 | Elbasan |
1 SMP | U + 10530..U + 1056F | Albanés caucásico | 64 | 53 | Albanés caucásico |
1 SMP | U + 10600..U + 1077F | Lineal A | 384 | 341 | Lineal A |
1 SMP | U + 10800..U + 1083F | Silabario chipriota | 64 | 55 | Chipriota |
1 SMP | U + 10840..U + 1085F | Arameo imperial | 32 | 31 | Arameo imperial |
1 SMP | U + 10860..U + 1087F | Palmyrene | 32 | 32 | Palmyrene |
1 SMP | U + 10880..U + 108AF | Nabateo | 48 | 40 | Nabateo |
1 SMP | U + 108E0..U + 108FF | Hatran | 32 | 26 | Hatran |
1 SMP | U + 10900..U + 1091F | Fenicio | 32 | 29 | Fenicio |
1 SMP | U + 10920..U + 1093F | Lidio | 32 | 27 | Lidio |
1 SMP | U + 10980..U + 1099F | Jeroglíficos meroíticos | 32 | 32 | Jeroglíficos meroíticos |
1 SMP | U + 109A0..U + 109FF | Cursiva meroítica | 96 | 90 | Cursiva meroítica |
1 SMP | U + 10A00..U + 10A5F | Kharoshthi | 96 | 68 | Kharoshthi |
1 SMP | U + 10A60..U + 10A7F | Viejo árabe del sur | 32 | 32 | Viejo árabe del sur |
1 SMP | U + 10A80..U + 10A9F | Viejo árabe del norte | 32 | 32 | Viejo árabe del norte |
1 SMP | U + 10AC0..U + 10AFF | maniqueo | 64 | 51 | maniqueo |
1 SMP | U + 10B00..U + 10B3F | Avestan | 64 | 61 | Avestan |
1 SMP | U + 10B40..U + 10B5F | Parto inscripcional | 32 | 30 | Parto inscripcional |
1 SMP | U + 10B60..U + 10B7F | Pahlavi inscripcional | 32 | 27 | Pahlavi inscripcional |
1 SMP | U + 10B80..U + 10BAF | Salterio Pahlavi | 48 | 29 | Salterio Pahlavi |
1 SMP | U + 10C00..U + 10C4F | Viejo turco | 80 | 73 | Viejo turco |
1 SMP | U + 10C80..U + 10CFF | Húngaro antiguo | 128 | 108 | Húngaro antiguo |
1 SMP | U + 10D00..U + 10D3F | Hanifi Rohingya | 64 | 50 | Hanifi Rohingya |
1 SMP | U + 10E60..U + 10E7F | Símbolos numéricos de Rumi | 32 | 31 | Arábica |
1 SMP | U + 10E80..U + 10EBF | Yezidi | 64 | 47 | Yezidi |
1 SMP | U + 10F00..U + 10F2F | Viejo Sogdian | 48 | 40 | Viejo Sogdian |
1 SMP | U + 10F30..U + 10F6F | Sogdian | 64 | 42 | Sogdian |
1 SMP | U + 10FB0..U + 10FDF | Chorasmian | 48 | 28 | Chorasmian |
1 SMP | U + 10FE0..U + 10FFF | Elymaic | 32 | 23 | Elymaic |
1 SMP | U + 11000..U + 1107F | Brahmi | 128 | 109 | Brahmi |
1 SMP | U + 11080..U + 110CF | Kaithi | 80 | 67 | Kaithi |
1 SMP | U + 110D0..U + 110FF | Sora Sompeng | 48 | 35 | Sora Sompeng |
1 SMP | U + 11100..U + 1114F | Chakma | 80 | 71 | Chakma |
1 SMP | U + 11150..U + 1117F | Mahajani | 48 | 39 | Mahajani |
1 SMP | U + 11180..U + 111DF | Sharada | 96 | 96 | Sharada |
1 SMP | U + 111E0..U + 111FF | Números arcaicos cingaleses | 32 | 20 | Cingalés |
1 SMP | U + 11200..U + 1124F | Khojki | 80 | 62 | Khojki |
1 SMP | U + 11280..U + 112AF | Multani | 48 | 38 | Multani |
1 SMP | U + 112B0..U + 112FF | Khudawadi | 80 | 69 | Khudawadi |
1 SMP | U + 11300..U + 1137F | Grantha | 128 | 86 | Grantha (85 caracteres), Heredado (1 carácter) |
1 SMP | U + 11400..U + 1147F | Newa | 128 | 97 | Newa |
1 SMP | U + 11480..U + 114DF | Tirhuta | 96 | 82 | Tirhuta |
1 SMP | U + 11580..U + 115FF | Siddham | 128 | 92 | Siddham |
1 SMP | U + 11600..U + 1165F | Modi | 96 | 79 | Modi |
1 SMP | U + 11660..U + 1167F | Suplemento de Mongolia | 32 | 13 | mongol |
1 SMP | U + 11680..U + 116CF | Takri | 80 | 67 | Takri |
1 SMP | U + 11700..U + 1173F | Ahom | 64 | 58 | Ahom |
1 SMP | U + 11800..U + 1184F | Dogra | 80 | 60 | Dogra |
1 SMP | U + 118A0..U + 118FF | Warang Citi | 96 | 84 | Warang Citi |
1 SMP | U + 11900..U + 1195F | Buceo Akuru | 96 | 72 | Buceo Akuru |
1 SMP | U + 119A0..U + 119FF | Nandinagari | 96 | sesenta y cinco | Nandinagari |
1 SMP | U + 11A00..U + 11A4F | Plaza Zanabazar | 80 | 72 | Plaza Zanabazar |
1 SMP | U + 11A50..U + 11AAF | Soyombo | 96 | 83 | Soyombo |
1 SMP | U + 11AC0..U + 11AFF | Pau Cin Hau | 64 | 57 | Pau Cin Hau |
1 SMP | U + 11C00..U + 11C6F | Bhaiksuki | 112 | 97 | Bhaiksuki |
1 SMP | U + 11C70..U + 11CBF | Marchen | 80 | 68 | Marchen |
1 SMP | U + 11D00..U + 11D5F | Masaram Gondi | 96 | 75 | Masaram Gondi |
1 SMP | U + 11D60..U + 11DAF | Gunjala Gondi | 80 | 63 | Gunjala Gondi |
1 SMP | U + 11EE0..U + 11EFF | Makasar | 32 | 25 | Makasar |
1 SMP | U + 11FB0..U + 11FBF | Suplemento Lisu | dieciséis | 1 | Lisu |
1 SMP | U + 11FC0..U + 11FFF | Suplemento tamil | 64 | 51 | Tamil |
1 SMP | U + 12000..U + 123FF | Cuneiforme | 1.024 | 922 | Cuneiforme |
1 SMP | U + 12400..U + 1247F | Números cuneiformes y puntuación | 128 | 116 | Cuneiforme |
1 SMP | U + 12480..U + 1254F | Cuneiforme dinástico temprano | 208 | 196 | Cuneiforme |
1 SMP | U + 13000..U + 1342F | Jeroglíficos egipcios | 1.072 | 1.071 | Jeroglíficos egipcios |
1 SMP | U + 13430..U + 1343F | Controles de formato de jeroglíficos egipcios | dieciséis | 9 | Jeroglíficos egipcios |
1 SMP | U + 14400..U + 1467F | Jeroglíficos de Anatolia | 640 | 583 | Jeroglíficos de Anatolia |
1 SMP | U + 16800..U + 16A3F | Suplemento Bamum | 576 | 569 | Bamum |
1 SMP | U + 16A40..U + 16A6F | Mro | 48 | 43 | Mro |
1 SMP | U + 16AD0..U + 16AFF | Bassa Vah | 48 | 36 | Bassa Vah |
1 SMP | U + 16B00..U + 16B8F | Pahawh Hmong | 144 | 127 | Pahawh Hmong |
1 SMP | U + 16E40..U + 16E9F | Medefaidrina | 96 | 91 | Medefaidrina |
1 SMP | U + 16F00..U + 16F9F | Miao | 160 | 149 | Miao |
1 SMP | U + 16FE0..U + 16FFF | Símbolos ideográficos y puntuación | 32 | 7 | Han (2 caracteres), Khitan Small Script (1 carácter), Nushu (1 carácter), Tangut (1 carácter), Común (2 caracteres) |
1 SMP | U + 17000..U + 187FF | Tangut | 6.144 | 6.136 | Tangut |
1 SMP | U + 18800..U + 18AFF | Componentes Tangut | 768 | 768 | Tangut |
1 SMP | U + 18B00..U + 18CFF | Guión pequeño de Khitan | 512 | 470 | Letra pequeña de Khitan |
1 SMP | U + 18D00..U + 18D8F | Suplemento Tangut | 144 | 9 | Tangut |
1 SMP | U + 1B000..U + 1B0FF | Suplemento de Kana | 256 | 256 | Hiragana (255 caracteres), Katakana (1 carácter) |
1 SMP | U + 1B100..U + 1B12F | Kana extendido-A | 48 | 31 | Hiragana |
1 SMP | U + 1B130..U + 1B16F | Extensión pequeña de Kana | 64 | 7 | Hiragana (3 caracteres), Katakana (4 caracteres) |
1 SMP | U + 1B170..U + 1B2FF | Nushu | 400 | 396 | Nüshu |
1 SMP | U + 1BC00..U + 1BC9F | Duployan | 160 | 143 | Duployan |
1 SMP | U + 1BCA0..U + 1BCAF | Controles de formato de taquigrafía | dieciséis | 4 | Común |
1 SMP | U + 1D000..U + 1D0FF | Símbolos musicales bizantinos | 256 | 246 | Común |
1 SMP | U + 1D100..U + 1D1FF | Simbolos musicales | 256 | 231 | Común (209 caracteres), Heredado (22 caracteres) |
1 SMP | U + 1D200..U + 1D24F | Notación musical griega antigua | 80 | 70 | griego |
1 SMP | U + 1D2E0..U + 1D2FF | Numerales Mayas | 32 | 20 | Común |
1 SMP | U + 1D300..U + 1D35F | Símbolos de Tai Xuan Jing | 96 | 87 | Común |
1 SMP | U + 1D360..U + 1D37F | Contar números de varilla | 32 | 25 | Común |
1 SMP | U + 1D400..U + 1D7FF | Símbolos alfanuméricos matemáticos | 1.024 | 996 | Común |
1 SMP | U + 1D800..U + 1DAAF | Sutton SignEscritura | 688 | 672 | FirmarEscribir |
1 SMP | U + 1E000..U + 1E02F | Suplemento glagolítico | 48 | 38 | Glagolítico |
1 SMP | U + 1E100..U + 1E14F | Nyiakeng Puachue Hmong | 80 | 71 | Nyiakeng Puachue Hmong |
1 SMP | U + 1E2C0..U + 1E2FF | Wancho | 64 | 59 | Wancho |
1 SMP | U + 1E800..U + 1E8DF | Mende Kikakui | 224 | 213 | Mende Kikakui |
1 SMP | U + 1E900..U + 1E95F | Adlam | 96 | 88 | Adlam |
1 SMP | U + 1EC70..U + 1ECBF | Números indios de Siyaq | 80 | 68 | Común |
1 SMP | U + 1ED00..U + 1ED4F | Números otomanos Siyaq | 80 | 61 | Común |
1 SMP | U + 1EE00..U + 1EEFF | Símbolos alfabéticos matemáticos árabes | 256 | 143 | Arábica |
1 SMP | U + 1F000..U + 1F02F | Azulejos de Mahjong | 48 | 44 | Común |
1 SMP | U + 1F030..U + 1F09F | Azulejos de dominó | 112 | 100 | Común |
1 SMP | U + 1F0A0..U + 1F0FF | Jugando a las cartas | 96 | 82 | Común |
1 SMP | U + 1F100..U + 1F1FF | Suplemento alfanumérico adjunto | 256 | 200 | Común |
1 SMP | U + 1F200..U + 1F2FF | Suplemento ideográfico adjunto | 256 | 64 | Hiragana (1 carácter), Común (63 caracteres) |
1 SMP | U + 1F300..U + 1F5FF | Símbolos y pictogramas misceláneos | 768 | 768 | Común |
1 SMP | U + 1F600..U + 1F64F | Emoticonos | 80 | 80 | Común |
1 SMP | U + 1F650..U + 1F67F | Dingbats ornamentales | 48 | 48 | Común |
1 SMP | U + 1F680..U + 1F6FF | Símbolos de transporte y mapas | 128 | 114 | Común |
1 SMP | U + 1F700..U + 1F77F | Simbolos Alquimicos | 128 | 116 | Común |
1 SMP | U + 1F780..U + 1F7FF | Formas geométricas extendidas | 128 | 101 | Común |
1 SMP | U + 1F800..U + 1F8FF | Flechas suplementarias-C | 256 | 150 | Común |
1 SMP | U + 1F900..U + 1F9FF | Símbolos y pictogramas suplementarios | 256 | 254 | Común |
1 SMP | U + 1FA00..U + 1FA6F | Símbolos de ajedrez | 112 | 98 | Común |
1 SMP | U + 1FA70..U + 1FAFF | Símbolos y pictogramas extendidos-A | 144 | 57 | Común |
1 SMP | U + 1FB00..U + 1FBFF | Símbolos para la informática heredada | 256 | 212 | Común |
2 sorbos | U + 20000..U + 2A6DF | Extensión B de ideogramas unificados de CJK | 42,720 | 42,718 | Han |
2 sorbos | U + 2A700..U + 2B73F | Extensión C de ideogramas unificados de CJK | 4.160 | 4.149 | Han |
2 sorbos | U + 2B740..U + 2B81F | Extensión D de ideogramas unificados de CJK | 224 | 222 | Han |
2 sorbos | U + 2B820..U + 2CEAF | Extensión E de ideogramas unificados de CJK | 5.776 | 5.762 | Han |
2 sorbos | U + 2CEB0..U + 2EBEF | Extensión F de ideogramas unificados de CJK | 7.488 | 7.473 | Han |
2 sorbos | U + 2F800..U + 2FA1F | Suplemento de ideogramas de compatibilidad CJK | 544 | 542 | Han |
3 SUGERENCIA | U + 30000..U + 3134F | Extensión G de ideogramas unificados de CJK | 4.944 | 4.939 | Han |
14 SSP | U + E0000..U + E007F | Etiquetas | 128 | 97 | Común |
14 SSP | U + E0100..U + E01EF | Suplemento de selectores de variación | 240 | 240 | Heredado |
15 PUA-A | U + F0000..U + FFFFF | Área de uso privado complementario-A | 65,536 | 65,534 | Desconocido |
16 PUA-B | U + 100000..U + 10FFFF | Área de uso privado complementario-B | 65,536 | 65,534 | Desconocido |
|
Texto
Cada carácter asignado puede tener un valor único para su propiedad "Script", lo que significa a qué script pertenece. [18] El valor es un código de cuatro letras en el rango Aaaa-Zzzz, como está disponible en ISO 15924, que se asigna a un sistema de escritura . Aparte de describir el trasfondo y el uso de un script, Unicode no usa una conexión entre un script y los lenguajes que usan ese script. Entonces, "hebreo" se refiere a la escritura hebrea, no al idioma hebreo.
El código especial Zyyy para "Común" permite un solo valor para un carácter que se utiliza en varios scripts. El código Zinh "Escritura heredada", que se utiliza para combinar caracteres y algunos otros puntos de código de propósito especial, indica que un carácter "hereda" su identidad de secuencia de comandos del carácter con el que se combina. (Unicode usaba anteriormente el código privado Qaai para este propósito). El código Zzzz "Desconocido" se usa para todos los caracteres que no pertenecen a un script (es decir, el valor predeterminado), como símbolos y caracteres de formato. En general, los caracteres de un solo guión se pueden dispersar en varios bloques, como los caracteres latinos . Y también al revés: pueden estar presentes varios scripts en un solo bloque, por ejemplo, el bloque Letterlike Symbols contiene caracteres de los scripts latinos, griegos y comunes.
Cuando la secuencia de comandos es "" (en blanco), según Unicode, el carácter no pertenece a una secuencia de comandos. Esto se refiere a los símbolos, porque los códigos de secuencia de comandos ISO existentes "Zmth" (notación matemática), "Zsym" (símbolo) y "Zsye" (símbolo, variante emoji) no se utilizan en Unicode. La propiedad "Script" también está en blanco para los puntos de código que no son un carácter tipográfico, como controles, sustitutos y puntos de código de uso privado.
Si hay un nombre de alias de script específico en ISO 15924, se usa en el nombre del carácter: U + 0041 A AMÉRICA MAYÚSCULA A , yU + 05D0 א HEBREO letra alef .
ISO 15924 | Secuencia de comandos en Unicode [e] | ||||||
---|---|---|---|---|---|---|---|
Código | Nombre formal ISO | Direccionalidad | Alias Unicode [f] | Versión | Caracteres | Notas | Descripción |
| |||||||
Adlm | Adlam | secuencia de comandos de derecha a izquierda | Adlam | 9.0 | 88 | Capítulo 19.9 | |
Afak | Afaka | varía | - No en Unicode, se explora la propuesta [19] | ||||
Aghb | Albanés caucásico | de izquierda a derecha | Albanés caucásico | 7.0 | 53 | Antiguo / histórico | Capítulo 8.10 |
Ahom | Ahom, Tai Ahom | de izquierda a derecha | Ahom | 8.0 | 58 | Antiguo / histórico | Capítulo 15.15 |
árabe | Arábica | secuencia de comandos de derecha a izquierda | Arábica | 1.0 | 1,291 | Capítulo 9.2 | |
Aran | Árabe (variante Nastaliq) | mezclado | : variante tipográfica del árabe ( § árabe ) | ||||
Armi | Arameo imperial | secuencia de comandos de derecha a izquierda | Arameo imperial | 5.2 | 31 | Antiguo / histórico | Capítulo 10.4 |
Armn | armenio | de izquierda a derecha | armenio | 1.0 | 96 | Capítulo 7.6 | |
Avst | Avestan | secuencia de comandos de derecha a izquierda | Avestan | 5.2 | 61 | Antiguo / histórico | Capítulo 10.7 |
Bali | Balinés | de izquierda a derecha | Balinés | 5,0 | 121 | Capítulo 17.3 | |
Bamu | Bamum | de izquierda a derecha | Bamum | 5.2 | 657 | Capítulo 19.6 | |
Bajo | Bassa Vah | de izquierda a derecha | Bassa Vah | 7.0 | 36 | Antiguo / histórico | Capítulo 19.7 |
Batk | Batak | de izquierda a derecha | Batak | 6.0 | 56 | Capítulo 17.6 | |
Beng | Bengalí (bengalí) | de izquierda a derecha | bengalí | 1.0 | 96 | Capítulo 12.2 | |
Bhks | Bhaiksuki | de izquierda a derecha | Bhaiksuki | 9.0 | 97 | Antiguo / histórico | Capítulo 14.3 |
Blis | Blissymbols | varía | - No en Unicode, se explora la propuesta [19] | ||||
Bopo | Bopomofo | de izquierda a derecha | Bopomofo | 1.0 | 77 | Capítulo 18.3 | |
Brah | Brahmi | de izquierda a derecha | Brahmi | 6.0 | 109 | Antiguo / histórico | Capítulo 14,1 |
Brai | Braille | de izquierda a derecha | Braille | 3,0 | 256 | Capítulo 21.1 | |
Bugi | Buginés | de izquierda a derecha | Buginés | 4.1 | 30 | Capítulo 17.2 | |
Buhd | Buhid | de izquierda a derecha | Buhid | 3.2 | 20 | Capítulo 17.1 | |
Cakm | Chakma | de izquierda a derecha | Chakma | 6.1 | 71 | Capítulo 13.11 | |
Latas | Sílabas aborígenes canadienses unificadas | de izquierda a derecha | Aborigen canadiense | 3,0 | 710 | Capítulo 20.2 | |
Cari | Carian | script de izquierda a derecha, de derecha a izquierda | Carian | 5.1 | 49 | Antiguo / histórico | Capítulo 8.4 |
Cham | Cham | de izquierda a derecha | Cham | 5.1 | 83 | Capítulo 16.10 | |
Cher | Cherokee | de izquierda a derecha | Cherokee | 3,0 | 172 | Capítulo 20.1 | |
Chrs | Chorasmian | secuencia de comandos de derecha a izquierda , de arriba a abajo | Chorasmian | 13,0 | 28 | Antiguo / histórico | Capítulo 10.8 |
Cirt | Cirth | varía | : no en Unicode | ||||
copto | copto | de izquierda a derecha | copto | 1.0 | 137 | Antiguo / histórico, desunificado del griego en 4.1 | Capítulo 7.3 |
CPMN | Cypro-Minoan | de izquierda a derecha | : no en Unicode | ||||
Cprt | Silabario chipriota | secuencia de comandos de derecha a izquierda | Chipriota | 4.0 | 55 | Antiguo / histórico | Capítulo 8.3 |
Cyrl | cirílico | de izquierda a derecha | cirílico | 1.0 | 443 | Incluye variante tipográfica antiguo eslavo eclesiástico ( § Cyrs) | Capítulo 7.4 |
Cyrs | Cirílico (variante del antiguo eslavo eclesiástico) | varía | : variante tipográfica del cirílico ( § Cyrl ) | Antiguo / histórico | |||
Deva | Devanagari (Nagari) | de izquierda a derecha | Devanagari | 1.0 | 154 | Capítulo 12.1 | |
Diak | Buceo Akuru | de izquierda a derecha | Buceo Akuru | 13,0 | 72 | Antiguo / histórico | Capítulo 15.14 |
Dogr | Dogra | de izquierda a derecha | Dogra | 11,0 | 60 | Antiguo / histórico | Capítulo 15.17 |
Dsrt | Deseret (mormón) | de izquierda a derecha | Deseret | 3.1 | 80 | Capítulo 20.4 | |
Dupl | Taquigrafía Duployan, taquigrafía Duployan | de izquierda a derecha | Duployan | 7.0 | 143 | Capítulo 21.5 | |
Egyd | Demótico egipcio | mezclado | : no en Unicode | ||||
Egyh | Hierático egipcio | mezclado | : no en Unicode | ||||
Egipto | Jeroglíficos egipcios | de izquierda a derecha | Jeroglíficos egipcios | 5.2 | 1.080 | Antiguo / histórico | Capítulo 11.4 |
Elba | Elbasan | de izquierda a derecha | Elbasan | 7.0 | 40 | Antiguo / histórico | Capítulo 8.9 |
Elym | Elymaic | secuencia de comandos de derecha a izquierda | Elymaic | 12,0 | 23 | Antiguo / histórico | Capítulo 10.9 |
Ethi | Etíope (Geʻez) | de izquierda a derecha | Etíope | 3,0 | 495 | Capítulo 19.1 | |
Geok | Khutsuri (Asomtavruli y Nuskhuri) | de izquierda a derecha | georgiano | Unicode agrupa "Khutsori", "Asomtavruli" y "Nuskhuri" en "georgiano" ( § Geok ). También "Mkhedruli" y "Mtavruli" son "georgianos" ( § Geor ) | Capítulo 7.7 | ||
Geor | Georgiano (Mkhedruli y Mtavruli) | de izquierda a derecha | georgiano | 1.0 | 173 | En Unicode, también incluye a Geok (Nuskhuri) | Capítulo 7.7 |
Glag | Glagolítico | de izquierda a derecha | Glagolítico | 4.1 | 132 | Antiguo / histórico | Capítulo 7.5 |
Gong | Gunjala Gondi | de izquierda a derecha | Gunjala Gondi | 11,0 | 63 | Capítulo 13.15 | |
Gonm | Masaram Gondi | de izquierda a derecha | Masaram Gondi | 10.0 | 75 | Capítulo 13.14 | |
godo | gótico | de izquierda a derecha | gótico | 3.1 | 27 | Antiguo / histórico | Capítulo 8.8 |
Gran | Grantha | de izquierda a derecha | Grantha | 7.0 | 85 | Antiguo / histórico | Capítulo 15.13 |
Grek | griego | de izquierda a derecha | griego | 1.0 | 518 | Direccionalidad a veces como boustrophedon | Capítulo 7.2 |
Gujr | Gujarati | de izquierda a derecha | Gujarati | 1.0 | 91 | Capítulo 12.4 | |
Gurú | Gurmukhi | de izquierda a derecha | Gurmukhi | 1.0 | 80 | Capítulo 12.3 | |
Hanb | Han con Bopomofo (alias de Han + Bopomofo) | mezclado | - Ver § Hani , § Bopo | ||||
Colgar | Hangul (Hangŭl, Hangeul) | de izquierda a derecha, de arriba a abajo | Hangul | 1.0 | 11,739 | Sílabas hangul reubicadas en 2.0 | Capítulo 18.6 |
Hani | Han (Hanzi, Kanji, Hanja) | de arriba a abajo, columnas de derecha a izquierda (históricamente) | Han | 1.0 | 94,204 | Capítulo 18.1 | |
Hano | Hanunoo (Hanunóo) | de izquierda a derecha, de abajo hacia arriba | Hanunoo | 3.2 | 21 | Capítulo 17.1 | |
Hans | Han (variante simplificada) | varía | : subconjunto de Han (Hanzi, Kanji, Hanja) ( § Hani ) | ||||
Hant | Han (variante tradicional) | varía | - Subconjunto de § Hani | ||||
Hatr | Hatran | secuencia de comandos de derecha a izquierda | Hatran | 8.0 | 26 | Antiguo / histórico | Capítulo 10.12 |
Hebr | hebreo | secuencia de comandos de derecha a izquierda | hebreo | 1.0 | 134 | Capítulo 9.1 | |
Hira | Hiragana | de arriba a abajo, de izquierda a derecha | Hiragana | 1.0 | 379 | Capítulo 18.4 | |
Hluw | Jeroglíficos de Anatolia (Jeroglíficos Luwianos, Jeroglíficos hititas) | de izquierda a derecha | Jeroglíficos de Anatolia | 8.0 | 583 | Antiguo / histórico | Capítulo 11.6 |
Hmng | Pahawh Hmong | de izquierda a derecha | Pahawh Hmong | 7.0 | 127 | Capítulo 16.11 | |
Hmnp | Nyiakeng Puachue Hmong | de izquierda a derecha | Nyiakeng Puachue Hmong | 12,0 | 71 | Capítulo 16.12 | |
Hrkt | Silabarios japoneses (alias de Hiragana + Katakana) | de arriba a abajo, de izquierda a derecha | Katakana o Hiragana | Ver § Hira , § Kana | Capítulo 18.4 | ||
Colgado | Húngaro antiguo (rúnico húngaro) | secuencia de comandos de derecha a izquierda | Húngaro antiguo | 8.0 | 108 | Antiguo / histórico | Capítulo 8.7 |
Inds | Indo (Harappa) | mezclado | - No en Unicode, se explora la propuesta [19] | ||||
Ital | Cursiva antigua (etrusca, osca, etc.) | script de derecha a izquierda , de izquierda a derecha | Cursiva antigua | 3.1 | 39 | Antiguo / histórico | Capítulo 8.5 |
Jamo | Jamo (alias del subconjunto Jamo de Hangul) | varía | - Subconjunto de § Hang | ||||
Java | javanés | de izquierda a derecha | javanés | 5.2 | 90 | Capítulo 17.4 | |
Jpan | Japonés (alias de Han + Hiragana + Katakana) | varía | - Ver § Hani , § Hira y § Kana | ||||
Jurc | Jurchen | de izquierda a derecha | : no en Unicode | ||||
Kali | Kayah Li | de izquierda a derecha | Kayah Li | 5.1 | 47 | Capítulo 16.9 | |
Kana | Katakana | de arriba a abajo, de izquierda a derecha | Katakana | 1.0 | 304 | Capítulo 18.4 | |
Khar | Kharoshthi | secuencia de comandos de derecha a izquierda | Kharoshthi | 4.1 | 68 | Antiguo / histórico | Capítulo 14.2 |
Khmr | Jemer | de izquierda a derecha | Jemer | 3,0 | 146 | Capítulo 16.4 | |
Khoj | Khojki | de izquierda a derecha | Khojki | 7.0 | 62 | Antiguo / histórico | Capítulo 15.7 |
Kitl | Escritura grande de Khitan | de izquierda a derecha | : no en Unicode | ||||
Kits | Letra pequeña de Khitan | de arriba hacia abajo | Guión pequeño de Khitan | 13,0 | 471 | Antiguo / histórico | Capítulo 18.12 |
Knda | Canarés | de izquierda a derecha | Canarés | 1.0 | 89 | Capítulo 12.8 | |
Kore | Coreano (alias de Hangul + Han) | de izquierda a derecha | - Ver § Hani , § Hang | ||||
Kpel | Kpelle | de izquierda a derecha | - No en Unicode, se explora la propuesta [19] | ||||
Kthi | Kaithi | de izquierda a derecha | Kaithi | 5.2 | 67 | Antiguo / histórico | Capítulo 15.2 |
Lana | Tai Tham (Lanna) | de izquierda a derecha | Tai Tham | 5.2 | 127 | Capítulo 16.7 | |
Laoo | Lao | de izquierda a derecha | Lao | 1.0 | 82 | Capítulo 16.2 | |
Latf | Latín (variante de Fraktur) | varía | : variante tipográfica del latín ( § Latn ) | ||||
Latg | Latín (variante gaélica) | de izquierda a derecha | : variante tipográfica del latín ( § Latn ) | ||||
Latn | latín | de izquierda a derecha | latín | 1.0 | 1.374 | Ver también: escritura latina en Unicode | Capítulo 7.1 |
Leke | Leke | de izquierda a derecha | : no en Unicode | ||||
Lepc | Lepcha (Róng) | de izquierda a derecha | Lepcha | 5.1 | 74 | Capítulo 13.12 | |
Miembro | Limbu | de izquierda a derecha | Limbu | 4.0 | 68 | Capítulo 13.6 | |
Lina | Lineal A | de izquierda a derecha | Lineal A | 7.0 | 341 | Antiguo / histórico | Capítulo 8.1 |
Linb | Lineal B | de izquierda a derecha | Lineal B | 4.0 | 211 | Antiguo / histórico | Capítulo 8.2 |
Lisu | Lisu (Fraser) | de izquierda a derecha | Lisu | 5.2 | 49 | Capítulo 18.9 | |
Loma | Loma | de izquierda a derecha | - No en Unicode, se explora la propuesta [19] | ||||
Lyci | Licio | de izquierda a derecha | Licio | 5.1 | 29 | Antiguo / histórico | Capítulo 8.4 |
Lydi | Lidio | secuencia de comandos de derecha a izquierda | Lidio | 5.1 | 27 | Antiguo / histórico | Capítulo 8.4 |
Mahj | Mahajani | de izquierda a derecha | Mahajani | 7.0 | 39 | Antiguo / histórico | Capítulo 15.6 |
Maka | Makasar | de izquierda a derecha | Makasar | 11,0 | 25 | Antiguo / histórico | Capítulo 17.8 |
Mand | Mandaic, Mandaean | secuencia de comandos de derecha a izquierda | Mandaic | 6.0 | 29 | Capítulo 9.5 | |
Mani | maniqueo | secuencia de comandos de derecha a izquierda | maniqueo | 7.0 | 51 | Antiguo / histórico | Capítulo 10.5 |
Bagazo | Marchen | de izquierda a derecha | Marchen | 9.0 | 68 | Antiguo / histórico | Capítulo 14.5 |
maya | Jeroglíficos mayas | mezclado | : no en Unicode | ||||
Medf | Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ) | de izquierda a derecha, de izquierda a derecha | Medefaidrina | 11,0 | 91 | Capítulo 19.10 | |
Arreglar | Mende Kikakui | secuencia de comandos de derecha a izquierda | Mende Kikakui | 7.0 | 213 | Capítulo 19.8 | |
Merc | Cursiva meroítica | secuencia de comandos de derecha a izquierda | Cursiva meroítica | 6.1 | 90 | Antiguo / histórico | Capítulo 11.5 |
Mero | Jeroglíficos meroíticos | secuencia de comandos de derecha a izquierda | Jeroglíficos meroíticos | 6.1 | 32 | Antiguo / histórico | Capítulo 11.5 |
Mlym | Malayalam | de izquierda a derecha | Malayalam | 1.0 | 118 | Capítulo 12.9 | |
Modi | Modi, Moḍī | de izquierda a derecha | Modi | 7.0 | 79 | Antiguo / histórico | Capítulo 15.11 |
Mong | mongol | de arriba a abajo, de izquierda a derecha | mongol | 3,0 | 167 | Mong incluye guiones claros y manchúes | Capítulo 13.5 |
Luna | Luna (código lunar, escritura lunar, tipo lunar) | mezclado | - No en Unicode, se explora la propuesta [19] | ||||
Mroo | Mro, Mru | de izquierda a derecha | Mro | 7.0 | 43 | Capítulo 13.8 | |
Mtei | Meitei Mayek (Meithei, Meetei) | de izquierda a derecha | Meetei Mayek | 5.2 | 79 | Capítulo 13.7 | |
Mult | Multani | de izquierda a derecha | Multani | 8.0 | 38 | Antiguo / histórico | Capítulo 15.9 |
Mymr | Myanmar (birmano) | de izquierda a derecha | Myanmar | 3,0 | 223 | Capítulo 16.3 | |
Nand | Nandinagari | de izquierda a derecha | Nandinagari | 12,0 | sesenta y cinco | Antiguo / histórico | Capítulo 15.12 |
Narb | Antiguo árabe del norte (antiguo árabe del norte) | script de derecha a izquierda , script de derecha a izquierda | Viejo árabe del norte | 7.0 | 32 | Antiguo / histórico | Capítulo 10.1 |
Nbat | Nabateo | secuencia de comandos de derecha a izquierda | Nabateo | 7.0 | 40 | Antiguo / histórico | Capítulo 10.10 |
Newa | Newa, Newar, Newari, Nepāla lipi | de izquierda a derecha | Newa | 9.0 | 97 | Capítulo 13.3 | |
Nkdb | Naxi Dongba (na²¹ɕi³³ a³³ba²¹, Nakhi Tomba) | de izquierda a derecha | : no en Unicode | ||||
Nkgb | Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) | de izquierda a derecha | - No en Unicode, se explora la propuesta [19] | ||||
Nkoo | N'Ko | secuencia de comandos de derecha a izquierda | NKo | 5,0 | 62 | Capítulo 19.4 | |
Nshu | Nüshu | de arriba hacia abajo | Nushu | 10.0 | 397 | Capítulo 18.8 | |
Ogam | Ogham | de abajo hacia arriba, de izquierda a derecha | Ogham | 3,0 | 29 | Antiguo / histórico | Capítulo 8.12 |
Olck | Ol Chiki (Ol Cemet ', Ol, Santali) | de izquierda a derecha | Ol Chiki | 5.1 | 48 | Capítulo 13.10 | |
Orkh | Antiguo turco, Orkhon Runic | secuencia de comandos de derecha a izquierda | Viejo turco | 5.2 | 73 | Antiguo / histórico | Capítulo 14.8 |
Orya | Oriya (Odia) | de izquierda a derecha | Oriya | 1.0 | 91 | Capítulo 12.5 | |
Osge | Osage | de izquierda a derecha | Osage | 9.0 | 72 | Capítulo 20.3 | |
Osma | Osmanya | de izquierda a derecha | Osmanya | 4.0 | 40 | Capítulo 19.2 | |
Ougr | Viejo uigur | mezclado | : no en Unicode | ||||
Palma | Palmyrene | secuencia de comandos de derecha a izquierda | Palmyrene | 7.0 | 32 | Antiguo / histórico | Capítulo 10.11 |
Pauc | Pau Cin Hau | de izquierda a derecha | Pau Cin Hau | 7.0 | 57 | Capítulo 16.13 | |
Pcun | Proto-Cuneiforme | de izquierda a derecha | : no en Unicode | ||||
Pelm | Protoelamita | de izquierda a derecha | : no en Unicode | ||||
Permanente | Viejo Permic | de izquierda a derecha | Viejo Permic | 7.0 | 43 | Antiguo / histórico | Capítulo 8.11 |
Phag | Phags-pa | de arriba hacia abajo | Phags-pa | 5,0 | 56 | Antiguo / histórico | Capítulo 14.4 |
Phli | Pahlavi inscripcional | secuencia de comandos de derecha a izquierda | Pahlavi inscripcional | 5.2 | 27 | Antiguo / histórico | Capítulo 10.6 |
Phlp | Salterio Pahlavi | secuencia de comandos de derecha a izquierda | Salterio Pahlavi | 7.0 | 29 | Antiguo / histórico | Capítulo 10.6 |
Phlv | Libro Pahlavi | mezclado | : no en Unicode | ||||
Phnx | Fenicio | secuencia de comandos de derecha a izquierda | Fenicio | 5,0 | 29 | Antiguo / histórico [g] | Capítulo 10.3 |
Piqd | Klingon (KLI pIqaD) | de izquierda a derecha | - Rechazado para su inclusión en Unicode [20] [21] | ||||
Plrd | Miao (Pollard) | de izquierda a derecha | Miao | 6.1 | 149 | Capítulo 18.10 | |
Prti | Parto inscripcional | secuencia de comandos de derecha a izquierda | Parto inscripcional | 5.2 | 30 | Antiguo / histórico | Capítulo 10.6 |
Psin | Proto-Sinaítico | mezclado | : no en Unicode | ||||
Qaaa-Qabx | Reservado para uso privado (rango) | : no en Unicode | |||||
Ranj | Ranjana | de izquierda a derecha | : no en Unicode | ||||
Rjng | Rejang (Redjang, Kaganga) | de izquierda a derecha | Rejang | 5.1 | 37 | Capítulo 17.5 | |
Rohg | Hanifi Rohingya | secuencia de comandos de derecha a izquierda | Hanifi Rohingya | 11,0 | 50 | Capítulo 16.14 | |
Roro | Rongorongo | mezclado | - No en Unicode, se explora la propuesta [19] | ||||
Runr | Rúnico | de izquierda a derecha, boustrophedon | Rúnico | 3,0 | 86 | Antiguo / histórico | Capítulo 8,6 |
Samr | samaritano | secuencia de comandos de derecha a izquierda , de arriba a abajo | samaritano | 5.2 | 61 | Capítulo 9.4 | |
Sara | Sarati | mezclado | : no en Unicode | ||||
Sarb | Viejo árabe del sur | secuencia de comandos de derecha a izquierda | Viejo árabe del sur | 5.2 | 32 | Antiguo / histórico | Capítulo 10.2 |
Saur | Saurashtra | de izquierda a derecha | Saurashtra | 5.1 | 82 | Capítulo 13.13 | |
Sgnw | FirmarEscribir | de arriba hacia abajo | FirmarEscribir | 8.0 | 672 | Capítulo 21.6 | |
Shaw | Shavian (Shaw) | de izquierda a derecha | Shavian | 4.0 | 48 | Capítulo 8.13 | |
Shrd | Sharada, Śāradā | de izquierda a derecha | Sharada | 6.1 | 96 | Capítulo 15.3 | |
Shui | Shuishu | de izquierda a derecha | : no en Unicode | ||||
Sidd | Siddham, Siddhaṃ, Siddhamātṛkā | de izquierda a derecha | Siddham | 7.0 | 92 | Antiguo / histórico | Capítulo 15.5 |
Sind | Khudawadi, sindhi | de izquierda a derecha | Khudawadi | 7.0 | 69 | Capítulo 15.8 | |
Sinh | Cingalés | de izquierda a derecha | Cingalés | 3,0 | 111 | Capítulo 13.2 | |
Sogd | Sogdian | escritura horizontal y vertical en escrituras de Asia oriental , de arriba a abajo | Sogdian | 11,0 | 42 | Antiguo / histórico | Capítulo 14.10 |
Entonces ve | Viejo Sogdian | secuencia de comandos de derecha a izquierda | Viejo Sogdian | 11,0 | 40 | Antiguo / histórico | Capítulo 14.9 |
Sora | Sora Sompeng | de izquierda a derecha | Sora Sompeng | 6.1 | 35 | Capítulo 15.16 | |
Soyo | Soyombo | de izquierda a derecha | Soyombo | 10.0 | 83 | Antiguo / histórico | Capítulo 14.7 |
Sund | Sundanés | de izquierda a derecha | Sundanés | 5.1 | 72 | Capítulo 17.7 | |
Sylo | Syloti Nagri | de izquierda a derecha | Syloti Nagri | 4.1 | 45 | Antiguo / histórico | Capítulo 15.1 |
Syrc | Siríaco | secuencia de comandos de derecha a izquierda | Siríaco | 3,0 | 88 | Incluye variantes tipográficas Estrangelo ( § Syre ), Western ( § Syrj ) y Eastern ( § Syrn ) | Capítulo 9.3 |
Syre | Siríaco (variante de Estrangelo) | mezclado | - Variante tipográfica del siríaco ( § Syrc ) | ||||
Syrj | Siríaco (variante occidental) | mezclado | - Variante tipográfica del siríaco ( § Syrc ) | ||||
Syrn | Siríaco (variante oriental) | mezclado | - Variante tipográfica del siríaco ( § Syrc ) | ||||
Tagb | Tagbanwa | de izquierda a derecha | Tagbanwa | 3.2 | 18 | Capítulo 17.1 | |
Takr | Takri, Ṭākrī, Ṭāṅkrī | de izquierda a derecha | Takri | 6.1 | 67 | Capítulo 15.4 | |
Cuento | Tai Le | de izquierda a derecha | Tai Le | 4.0 | 35 | Capítulo 16.5 | |
Talu | Nuevo Tai Lue | de izquierda a derecha | Nuevo Tai Lue | 4.1 | 83 | Capítulo 16.6 | |
Taml | Tamil | de izquierda a derecha | Tamil | 1.0 | 123 | Capítulo 12.6 | |
Espiga | Tangut | de arriba a abajo, columnas de derecha a izquierda, de izquierda a derecha | Tangut | 9.0 | 6,914 | Antiguo / histórico | Capítulo 18.11 |
Tavt | Tai Viet | de izquierda a derecha | Tai Viet | 5.2 | 72 | Capítulo 16.8 | |
Telu | Telugu | de izquierda a derecha | Telugu | 1.0 | 98 | Capítulo 12.7 | |
Teng | Tengwar | de izquierda a derecha | : no en Unicode | ||||
Tfng | Tifinagh (bereber) | de izquierda a derecha | Tifinagh | 4.1 | 59 | Capítulo 19.3 | |
Tglg | Tagalo (Baybayin, Alibata) | de izquierda a derecha | Tagalo | 3.2 | 20 | Capítulo 17.1 | |
Thaa | Thaana | secuencia de comandos de derecha a izquierda | Thaana | 3,0 | 50 | Capítulo 13.1 | |
tailandés | tailandés | de izquierda a derecha | tailandés | 1.0 | 86 | Capítulo 16.1 | |
Tibt | Tibetano | de izquierda a derecha | Tibetano | 2.0 | 207 | Agregado en 1.0, eliminado en 1.1 y reintroducido en 2.0 | Capítulo 13.4 |
Tirh | Tirhuta | de izquierda a derecha | Tirhuta | 7.0 | 82 | Capítulo 15.10 | |
Tnsa | Tangsa | de izquierda a derecha | : no en Unicode [22] | ||||
Toto | Toto | de izquierda a derecha | : no en Unicode | ||||
Ugar | Ugarítico | de izquierda a derecha | Ugarítico | 4.0 | 31 | Antiguo / histórico | Capítulo 11.2 |
Vaii | Vai | de izquierda a derecha | Vai | 5.1 | 300 | Capítulo 19.5 | |
Visp | Discurso visible | de izquierda a derecha | : no en Unicode | ||||
Vith | Vithkuqi | de izquierda a derecha | : no en Unicode | ||||
Wara | Warang Citi (Varang Kshiti) | de izquierda a derecha | Warang Citi | 7.0 | 84 | Capítulo 13.9 | |
Wcho | Wancho | de izquierda a derecha | Wancho | 12,0 | 59 | Capítulo 13.16 | |
Wole | Woleai | mezclado | - No en Unicode, se explora la propuesta [19] | ||||
Xpeo | Persa antiguo | de izquierda a derecha | Persa antiguo | 4.1 | 50 | Antiguo / histórico | Capítulo 11.3 |
Xsux | Cuneiforme, sumerio-acadio | de izquierda a derecha | Cuneiforme | 5,0 | 1.234 | Antiguo / histórico | Capítulo 11.1 |
Yezi | Yezidi | secuencia de comandos de derecha a izquierda | Yezidi | 13,0 | 47 | Antiguo / histórico | Capítulo 9.6 |
Yiii | Yi | de izquierda a derecha | Yi | 3,0 | 1.220 | Capítulo 18.7 | |
Zanb | Plaza Zanabazar (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, escritura cuadrada horizontal) | de izquierda a derecha | Plaza Zanabazar | 10.0 | 72 | Antiguo / histórico | Capítulo 14.6 |
Zinh | Código para secuencia de comandos heredada | Heredado | 573 | ||||
Zmth | Notación matemática | : no es un 'script' en Unicode | |||||
Zsym | Simbolos | : no es un 'script' en Unicode | |||||
Zsye | Símbolos (variante emoji) | : no es un 'script' en Unicode | |||||
Zxxx | Código para documentos no escritos | : no es un 'script' en Unicode | |||||
Zyyy | Código para script indeterminado | Común | 8.087 | ||||
Zzzz | Código para secuencia de comandos no codificada | Desconocido | 970.188 | En Unicode: todos los demás puntos de código | |||
Notas
|
Propiedades de normalización
Descomposiciones, tipo de descomposición, clase de combinación canónica, exclusiones de composición y más.
Edad
La edad es la versión del estándar en la que se designó por primera vez el punto de código. El número de versión se abrevia a la numeración mayor.minor, aunque se utilizan números de versión más detallados: las versiones 4.0.0 y 4.0.1 se denominan ambas 4.0 como Edad. Dadas las versiones, la edad puede ser del rango: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0 , 12.0, 12.1 y 13.0. [24] Los valores largos de Edad comienzan con una V y usan un guión bajo en lugar de un punto: V1_1, por ejemplo. [2] Los puntos de código sin un valor de edad asignado específicamente tienen el valor "NA", con la forma larga "Sin asignar".
Obsoleto
Una vez que se ha definido un carácter, no se retirará ni cambiará en la definición de propiedades (punto de código, nombre). Pero puede declararse obsoleto : un carácter codificado cuyo uso se desaconseja enérgicamente . [25] A partir de la versión 10.0 de Unicode, quince caracteres están obsoletos:
- U + 0149 LETRA N MINÚSCULA LATINA PRECEDIDA POR APÓSTROFE: use la secuencia ʼ0020 006E (ʼ n) en su lugar
- U + 0673 LETRA ARABE ALEF CON HAMZA ONDULADA ABAJO: use la secuencia 0627 065F (اٟ) en su lugar
- U + 0F77 TIBETAN VOWEL SIGN VOCALIC RR: use la secuencia 0FB2 0F81 (ྲཱ ྀ) en su lugar
- U + 0F79 TIBETAN VOWEL SIGN VOCALIC LL: use la secuencia 0FB3 0F81 (ླཱ ྀ) en su lugar
- U + 17A3 KHMER VOCAL INDEPENDIENTE QAQ: use 17A2 KHMER LETRA QA (អ) en su lugar
- U + 17A4 KHMER VOCAL INDEPENDIENTE QAA: utilice la secuencia 17A2 17B6 (អា) en su lugar
- U + 206A INHIBE EL INTERCAMBIO SIMÉTRICO
- U + 206B ACTIVAR EL INTERCAMBIO SIMÉTRICO
- U + 206C INHIBE LA FORMA DE FORMA ÁRABE
- U + 206D ACTIVAR FORMATO ÁRABE
- FORMAS DE DÍGITOS NACIONALES U + 206E
- FORMAS DE DÍGITOS NOMINALES U + 206F
- U + 2329 SOPORTE DE ÁNGULO IZQUIERDO: use U + 3008 SOPORTE DE ÁNGULO IZQUIERDO (〈) en su lugar
- SOPORTE DE ÁNGULO DERECHO U + 232A: use el SOPORTE DE ÁNGULO DERECHO U + 3009 (〉) en su lugar
- ETIQUETA DE IDIOMA U + E0001
Los caracteres de formato U + 206A a U + 206F y U + E0001 no deben usarse en absoluto, pero para los otros caracteres obsoletos existen alternativas recomendadas, como se muestra arriba.
Límites
El estándar Unicode especifica las siguientes propiedades relacionadas con los límites:
- Clúster de grafemas
- Palabra
- Línea
- Oración
Referencias
- ^ a b c d e "El estándar Unicode, Capítulo 4: Propiedades de los caracteres" (PDF) . Unicode, Inc. Marzo de 2020 . Consultado el 15 de marzo de 2020 .
- ^ a b "Anexo # 44 del estándar Unicode: Base de datos de caracteres Unicode" . El estándar Unicode . 2017-06-14.
- ^ "UCD: Alias de nombres" . Base de datos de caracteres Unicode . Consorcio Unicode. 2019-03-08.
- ^ "Estándares de diseño de personajes - caracteres espaciales" . Estándares de diseño de personajes . Microsoft . 1998–1999. Archivado desde el original el 23 de agosto de 2000 . Consultado el 18 de mayo de 2009 .
- ^ The Unicode Standard 5.0, edición impresa, p.205
- ^ "Puntuación general" (PDF) . El estándar Unicode 5.1 . Unicode Inc . 1991-2008 . Consultado el 13 de mayo de 2009 .
- ^ Sargent, Murray III (29 de agosto de 2006). "Codificación de texto casi sin formato Unicode de matemáticas (versión 2)" . Nota técnica de Unicode # 28 . Unicode Inc . págs. 19-20 . Consultado el 19 de mayo de 2009 .
- ^ Gillam, Richard (2002). Unicode desmitificado: una guía práctica del programador sobre el estándar de codificación . Addison-Wesley. ISBN 0-201-70052-2.
- ^ a b Hickson, Ian . "12.5 Referencias de caracteres nombrados" . Estándar HTML . WHATWG .
- ^ Wolfram . "\ [NegativeThickSpace]" . Documentación de Wolfram Language .
- ^ Wolfram . "\ [NegativeMediumSpace]" . Documentación de Wolfram Language .
- ^ Wolfram . "\ [NegativeThinSpace]" . Documentación de Wolfram Language .
- ^ Wolfram . "\ [NegativeVeryThinSpace]" . Documentación de Wolfram Language .
- ^ Faltstrom, P., ed. (Agosto de 2010). "No ensamblador de ancho cero" . Los puntos de código Unicode y los nombres de dominio internacionalizados para aplicaciones (IDNA) . IETF . segundo. A.1. doi : 10.17487 / RFC5892 . RFC 5892 . Consultado el 4 de septiembre de 2019 .
- ^ Faltstrom, P., ed. (Agosto de 2010). "Ensamblador de ancho cero" . Los puntos de código Unicode y los nombres de dominio internacionalizados para aplicaciones (IDNA) . IETF . segundo. A.2. doi : 10.17487 / RFC5892 . RFC 5892 . Consultado el 4 de septiembre de 2019 .
- ^ "Anexo # 44 del estándar Unicode, base de datos de caracteres Unicode" .
- ^ a b "Anexo # 9 del estándar Unicode: Algoritmo bidireccional Unicode" . El estándar Unicode . 2017-05-14.
- ^ "Anexo # 24 del estándar Unicode: Propiedad del script Unicode" . El estándar Unicode . 2015-06-01.
- ^ a b c d e f g h yo "Propuesta de nuevos guiones" . Consorcio Unicode . 2018-05-25 . Consultado el 12 de septiembre de 2019 .
- ^ Michael Everson (18 de septiembre de 1997). "Propuesta para codificar Klingon en el Plano 1 de ISO / IEC 10646-2" .
- ^ El Consorcio Unicode (2001-08-14). "Acta aprobada de la reunión conjunta UTC 87 / L2 184" .
- ^ Morey, Stephen; Pandey, Anshuman (7 de enero de 2021). "Propuesta para agregar el Script Tangsa en el SMP de la UCS" (PDF) . Consorcio Unicode . L2 / L2021 / 21027 . Consultado el 19 de febrero de 2021 .
- ^ "Medio Oriente-II, escrituras antiguas" (PDF) . 13.0.0. The Unicode Consortiumtitle = Escrituras de Oriente Medio II . Consultado el 28 de enero de 2021 .
- ^ "UCD: Edad derivada" . Base de datos de caracteres Unicode . Consorcio Unicode. 2019-09-08.
- ^ "El estándar Unicode, Capítulo 3.4 Caracteres y codificación, D13: Carácter obsoleto" (PDF) . El estándar Unicode . Marzo de 2020.