En el estándar Unicode , un plano es un grupo continuo de 65.536 (2 16 ) puntos de código . Hay 17 planos, identificados por los números del 0 al 16, que se corresponden con los posibles valores 00-10 16 de las dos primeras posiciones en formato hexadecimal de seis posiciones (U + hh hhhh ). El plano 0 es el plano multilingüe básico (BMP), que contiene los caracteres más utilizados. Los planos superiores del 1 al 16 se denominan "planos suplementarios". [1] El último punto de código en Unicode es el último punto de código en el plano 16, U + 10FFFF. A partir de la versión 13.0 de Unicode, siete de los planos tienen asignados puntos de código (caracteres) y cinco tienen nombre.
El límite de 17 planos se debe a UTF-16 , que puede codificar 2 20 puntos de código (16 planos) como pares de palabras , más el BMP como una sola palabra. [2] UTF-8 fue diseñado con un límite mucho mayor de 2 31 (2,147,483,648) puntos de código (32,768 planos), y puede codificar 2 21 (2,097,152) puntos de código (32 planos) incluso bajo el límite actual de 4 bytes . [3]
Los 17 planos pueden acomodar 1,114,112 puntos de código. De estos, 2,048 son sustitutos (utilizados para hacer los pares en UTF-16), 66 no son caracteres y 137,468 están reservados para uso privado , dejando 974,530 para asignación pública.
Los planos se subdividen en bloques Unicode que, a diferencia de los planos, no tienen un tamaño fijo. Los 308 bloques definidos en Unicode 13.0 cubren el 26% del espacio de puntos de código posible y varían en tamaño desde un mínimo de 16 puntos de código (quince bloques) hasta un máximo de 65.536 puntos de código (Área de uso privado suplementario A y B, que constituyen la totalidad de los planos 15 y 16). Para uso futuro, los rangos de caracteres se han trazado tentativamente para la mayoría de los sistemas de escritura antiguos y actuales conocidos. [4]
Descripción general
Avión | Puntos de código asignados [nota 1] | Caracteres asignados [nota 2] |
---|---|---|
0 BMP | 65,472 | 55.503 |
1 SMP | 24,704 | 22,279 |
2 sorbos | 60,912 | 60,866 |
3 SUGERENCIA | 4.944 | 4.939 |
14 SSP | 368 | 337 |
15 SPUA-A | 65,536 | |
16 SPUA-B | 65,536 | |
Totales | 287,472 | 143,924 |
- ^ Puntos de código que se han asignado a un bloque Unicode .
- ^ El número total de caracteres gráficos, de formato y de control (es decir, excluyendo caracteres de uso privado, no caracteres y puntos de código sustitutos).
Plano multilingüe básico
El primer plano, plano 0 , el plano multilingüe básico ( BMP ) contiene caracteres para casi todos los idiomas modernos y una gran cantidad de símbolos . Un objetivo principal del BMP es apoyar la unificación de conjuntos de caracteres anteriores, así como caracteres para escritura . La mayoría de los puntos de código asignados en el BMP se utilizan para codificar caracteres chinos, japoneses y coreanos ( CJK ).
Los códigos High Surrogate ( U + D800 – U + DBFF ) y Low Surrogate ( U + DC00 – U + DFFF ) están reservados para codificar caracteres que no son BMP en UTF-16 mediante el uso de un par de códigos de 16 bits : un High Surrogate y un sustituto bajo. A un solo punto de código sustituto nunca se le asignará un carácter.
65.472 de los 65.536 puntos de código en este plano se han asignado a un bloque Unicode , dejando solo 64 puntos de código en rangos no asignados (48 puntos de código en 0870..089F y 16 puntos de código en 2FE0..2FEF).
A partir de Unicode 13.0[actualizar], el BMP comprende los siguientes 163 bloques:
- Latín básico (mitad inferior de ISO / IEC 8859-1 : ISO / IEC 646: 1991-IRV también conocido como ASCII ) (0000–007F)
- Suplemento Latin-1 (mitad superior de ISO / IEC 8859-1 ) (0080–00FF)
- Latín extendido-A (0100–017F)
- Latín extendido-B (0180–024F)
- Extensiones IPA (0250–02AF)
- Letras modificadoras de espaciado (02B0–02FF)
- Combinación de marcas diacríticas (0300–036F)
- Griego y copto (0370–03FF)
- Cirílico (0400–04FF)
- Suplemento cirílico (0500–052F)
- Armenio (0530–058F)
- Guiones arameos :
- Hebreo (0590–05FF)
- Árabe (0600–06FF)
- Siríaco (0700–074F)
- Suplemento árabe (0750–077F)
- Thaana (0780–07BF)
- N'Ko (07C0–07FF)
- Samaritano (0800–083F)
- Mandaic (0840-085F)
- Suplemento siríaco (0860–086F)
- Árabe ampliado-A (08A0–08FF)
- Escrituras brahmicas:
- Devanagari (09:00 a 07:00)
- Bengalí (0980–09FF)
- Gurmukhi (0A00–0A7F)
- Gujarati (0A80–0AFF)
- Oriya (0B00–0B7F)
- Tamil (0B80–0BFF)
- Telugu (0C00–0C7F)
- Canarés (0C80–0CFF)
- Malayalam (0D00–0D7F)
- Cingalés (0D80–0DFF)
- Tailandés (0E00–0E7F)
- Lao (0E80–0EFF)
- Tibetano (0F00–0FFF)
- Myanmar (1000–109 F)
- Georgiano (10A0–10FF)
- Hangul Jamo (1100-11FF)
- Etíope (1200-137F)
- Suplemento etíope (1380-139F)
- Cherokee (13A0-13FF)
- Sílabas aborígenes canadienses unificadas (1400-167F)
- Ogham (1680–169F)
- Rúnico (16A0–16FF)
- Guiones filipinos :
- Tagalo (1700-171F)
- Hanunoo (1720-173F)
- Buhid (1740-175F)
- Tagbanwa (1760–177F)
- Khmer (1780-17FF)
- Mongol (1800-18 AF)
- Extensión de la sílabas aborígenes canadienses unificadas (18B0–18FF)
- Limbu (1900-194F)
- Guiones de Tai :
- Tai Le (1950-197F)
- Nuevo Tai Lue (1980-19DF)
- Símbolos jemer (19E0-19FF)
- Buginés (1A00-1A1F)
- Tai Tham (1A20–1AAF)
- Combinación de marcas diacríticas ampliada (1AB0–1AFF)
- Balinés (1B00–1B7F)
- Sundanese (1B80-1BBF)
- Batak (1BC0–1BFF)
- Lepcha (1C00–1C4F)
- Ol Chiki (1C50–1C7F)
- Cirílico Extendido-C (1C80–1C8F)
- Georgiano extendido (1C90–1CBF)
- Suplemento sundanés (1CC0–1CCF)
- Extensiones védicas (1CD0–1CFF)
- Suplementos latinos:
- Extensiones fonéticas (1D00–1D7F)
- Suplemento de extensiones fonéticas (1D80–1DBF)
- Suplemento de combinación de marcas diacríticas (1DC0–1DFF)
- Latín extendido adicional (1E00–1EFF)
- Griego extendido (1F00–1FFF)
- Simbolos :
- Puntuación general (2000-206F)
- Superíndices y subíndices (2070–209F)
- Símbolos de moneda (20A0–20CF)
- Combinación de marcas diacríticas para símbolos (20D0–20FF)
- Símbolos similares a letras (2100-214F)
- Formularios numéricos (2150–218F)
- Flechas (2190–21FF)
- Operadores matemáticos (2200-22FF)
- Técnico misceláneo (2300-23FF)
- Imágenes de control (2400–243F)
- Reconocimiento óptico de caracteres (2440–245F)
- Alfanuméricos adjuntos (2460–24FF)
- Dibujo de caja (2500–257F)
- Elementos de bloque (2580-259F)
- Formas geométricas (25A0–25FF)
- Símbolos varios (2600–26FF)
- Dingbats (2700–27BF)
- Símbolos matemáticos varios-A (27C0–27EF)
- Flechas suplementarias-A (27F0–27FF)
- Patrones Braille (2800–28FF)
- Flechas suplementarias-B (2900–297F)
- Símbolos matemáticos varios-B (2980–29FF)
- Operadores matemáticos suplementarios (2A00–2AFF)
- Símbolos y flechas varios (2B00–2BFF)
- Glagolitic (2C00-2C5F)
- Latín C extendido (2C60–2C7F)
- Copto (2C80–2CFF)
- Suplemento georgiano (2D00–2D2F)
- Tifinagh (2D30–2D7F)
- Ethiopic Extended (2D80–2DDF)
- Cirílico extendido-A (2DE0–2DFF)
- Puntuación suplementaria (2E00–2E7F)
- Scripts y símbolos CJK :
- Suplemento de radicales CJK (2E80–2EFF)
- Radicales Kangxi (2F00–2FDF)
- Caracteres de descripción ideográfica (2FF0–2FFF)
- Símbolos y puntuación CJK (3000–303F)
- Hiragana (3040–309F)
- Katakana (30A0–30FF)
- Bopomofo (3100–312F)
- Compatibilidad con Hangul Jamo (3130–318F)
- Kanbun (3190–319F)
- Bopomofo extendido (31A0–31BF)
- Trazos CJK (31C0–31EF)
- Extensiones fonéticas de Katakana (31F0–31FF)
- Cartas y meses CJK adjuntos (3200–32FF)
- Compatibilidad CJK (3300–33FF)
- Extensión A de ideogramas unificados de CJK (3400–4DBF)
- Símbolos del hexagrama de Yijing (4DC0–4DFF)
- Ideogramas unificados de CJK (4E00–9FFF)
- Sílabas Yi (A000-A48F)
- Radicales Yi (A490 – A4CF)
- Lisu (A4D0 – A4FF)
- Vai (A500 – A63F)
- Cirílico extendido-B (A640 – A69F)
- Bamum (A6A0 – A6FF)
- Letras de tono modificador (A700 – A71F)
- Latín extendido-D (A720 – A7FF)
- Syloti Nagri (A800-A82F)
- Formularios de números índicos comunes (A830 – A83F)
- Phags-pa (A840 – A87F)
- Saurashtra (A880 – A8DF)
- Devanagari Extended (A8E0 – A8FF)
- Kayah Li (A900 – A92F)
- Rejang (A930 – A95F)
- Hangul Jamo Extended-A (A960 – A97F)
- Javanés (A980 – A9DF)
- Myanmar Extended-B (A9E0 – A9FF)
- Cham (AA00 – AA5F)
- Myanmar Extended-A (AA60 – AA7F)
- Tai Viet (AA80 – AADF)
- Extensiones Meetei Mayek (AAE0 – AAFF)
- Ethiopic Extended-A (AB00 – AB2F)
- Latín extendido-E (AB30 – AB6F)
- Suplemento Cherokee (AB70 – ABBF)
- Meetei Mayek (ABC0 – ABFF)
- Sílabas Hangul (AC00 – D7AF)
- Hangul Jamo Extended-B (D7B0 – D7FF)
- Sustitutos :
- Altos sustitutos (D800 – DB7F)
- Suplentes de alto uso privado (DB80 – DBFF)
- Suplentes bajos (DC00 – DFFF)
- Área de uso privado (E000 – F8FF)
- Ideogramas de compatibilidad CJK (F900 – FAFF)
- Formularios de presentación alfabéticos (FB00 – FB4F)
- Formularios de presentación en árabe-A (FB50 – FDFF)
- Selectores de variación (FE00 – FE0F)
- Formas verticales (FE10 – FE1F)
- Combinación de medias marcas (FE20 – FE2F)
- Formularios de compatibilidad CJK (FE30 – FE4F)
- Variantes de formato pequeño (FE50 – FE6F)
- Formularios de presentación en árabe B (FE70 – FEFF)
- Formularios de ancho medio y ancho completo (FF00 – FFEF)
- Especiales (FFF0 – FFFF)
Plano complementario multilingüe
El plano 1 , el plano suplementario multilingüe ( SMP ), contiene escrituras históricas (excepto ideográficas CJK) y símbolos y notación utilizados en ciertos campos. Las escrituras incluyen Linear B , jeroglíficos egipcios y escrituras cuneiformes . También incluye ortografías de la reforma inglesa como Shavian y Deseret , y algunos guiones modernos como Osage , Warang Citi y Adlam . Los símbolos y notaciones incluyen notación musical histórica y moderna; alfanuméricos matemáticos ; taquigrafía; Emoji y otros conjuntos pictográficos; y símbolos de juego para jugar a las cartas , Mah Jongg y dominó .
A partir de Unicode 13.0[actualizar], el SMP comprende los siguientes 134 bloques:
- Guiones griegos arcaicos y otros de izquierda a derecha:
- Silabario lineal B (10000–1007F)
- Ideogramas lineales B (10080–100FF)
- Números del Egeo (10100–1013F)
- Números griegos antiguos (10140–1018F)
- Símbolos antiguos (10190-101CF)
- Disco de Festos (101D0–101FF)
- Lycian (10280-1029F)
- Carian (102A0–102DF)
- Números coptos de Epact (102E0–102FF)
- Cursiva antigua (10300–1032F)
- Gótico (10330-1034F)
- Old Permic (10350-1037F)
- Ugarítico (10380-1039F)
- Persa antiguo (103A0–103DF)
- Deseret (10400–1044F)
- Shavian (10450-1047F)
- Osmanya (10480-104AF)
- Osage (104B0–104FF)
- Elbasan (10500-1052F)
- Albanés caucásico (10530-1056F)
- Lineal A (10600–1077F)
- Guiones de derecha a izquierda:
- Silabario chipriota (10800–1083F)
- Arameo imperial (10840-1085F)
- Palmyrene (10860–1087F)
- Nabateo (10880-108AF)
- Hatran (108E0–108FF)
- Fenicio (10900–1091F)
- Lidio (10920–1093F)
- Jeroglíficos meroíticos (10980-1099F)
- Cursiva meroítica (109A0–109FF)
- Kharoshthi (10A00–10A5F)
- Viejo sur de Arabia (10A60–10A7F)
- Antiguo árabe del norte (10A80–10A9F)
- Maniqueo (10AC0–10AFF)
- Avestan (10B00–10B3F)
- Parto inscripcional (10B40–10B5F)
- Pahlavi inscripcional (10B60–10B7F)
- Salterio Pahlavi (10B80–10BAF)
- Antiguo turco (10C00-10C4F)
- Húngaro antiguo (10C80–10CFF)
- Hanifi Rohingya (10D00–10D3F)
- Símbolos numéricos Rumi (10E60–10E7F)
- Yezidi (10E80–10EBF)
- Viejo Sogdian (10F00–10F2F)
- Sogdian (10F30–10F6F)
- Chorasmian (10FB0–10FDF)
- Elymaic (10FE0–10FFF)
- Escrituras brahmicas:
- Brahmi (11000-1107F)
- Kaithi (11080-110CF)
- Sora Sompeng (110D0–110FF)
- Chakma (11100-1114F)
- Mahajani (11150–1117F)
- Sharada (11180–111DF)
- Números arcaicos cingaleses (111E0–111FF)
- Khojki (11200–1124F)
- Multani (11280–112AF)
- Khudawadi (112B0–112FF)
- Grantha (11300-1137F)
- Newa (11400-1147F)
- Tirhuta (11480–114DF)
- Siddham (11580–115FF)
- Modi (11600–1165F)
- Suplemento de Mongolia (11660-1167F)
- Takri (11680-116CF)
- Ahom (11700-1173F)
- Dogra (11800-1184F)
- Warang Citi (118A0–118FF)
- Inmersiones en Akuru (11900–1195F)
- Nandinagari (119A0–119FF)
- Plaza Zanabazar (11A00-11A4F)
- Soyombo (11A50–11AAF)
- Pau Cin Hau (11AC0-11AFF)
- Bhaiksuki (11C00–11C6F)
- Marchen (11C70-11CBF)
- Masaram Gondi (11D00–11D5F)
- Gunjala Gondi (11D60-11DAF)
- Makasar (11EE0–11EFF)
- Suplemento Lisu (11FB0–11FBF)
- Suplemento Tamil (11FC0–11FFF)
- Cuneiforme (12000-123FF)
- Números cuneiformes y puntuación (12400-1247F)
- Cuneiforme dinástico temprano (12480-1254F)
- Jeroglíficos egipcios (13000-1342F)
- Controles de formato de jeroglíficos egipcios (13430-1343F)
- Jeroglíficos de Anatolia (14400-1467F)
- Suplemento Bamum (16800–16A3F)
- Mro (16A40–16A6F)
- Bassa Vah (16AD0–16AFF)
- Pahawh Hmong (16B00–16B8F)
- Medefaidrina (16E40–16E9F)
- Miao (16F00–16F9F)
- Símbolos ideográficos y puntuación (16FE0–16FFF)
- Tangut (17000-187FF)
- Componentes Tangut (18800–18AFF)
- Guión pequeño de Khitan (18B00–18CFF)
- Suplemento Tangut (18D00–18D8F)
- Suplemento de kana (1B000–1B0FF)
- Kana Extended-A (1B100–1B12F)
- Extensión pequeña de Kana (1B130–1B16F)
- Nushu (1B170-1B2FF)
- Duployan (1BC00–1BC9F)
- Controles de formato abreviado (1BCA0–1BCAF)
- Símbolos suplementarios:
- Notación musical :
- Símbolos musicales bizantinos (1D000–1D0FF)
- Símbolos musicales (1D100–1D1FF)
- Notación musical griega antigua (1D200–1D24F)
- Números mayas (1D2E0–1D2FF)
- Símbolos matemáticos :
- Símbolos Tai Xuan Jing (1D300–1D35F)
- Contar números de varilla (1D360–1D37F)
- Símbolos alfanuméricos matemáticos (1D400–1D7FF)
- Sutton SignWriting (1D800–1DAAF)
- Notación musical :
- Suplemento glagolítico (1E000–1E02F)
- Nyiakeng Puachue Hmong (1E100–1E14F)
- Wancho (1E2C0–1E2FF)
- Mende Kikakui (1E800–1E8DF)
- Adlam (1E900–1E95F)
- Números indios Siyaq (1EC70–1ECBF)
- Números otomanos Siyaq (1ED00–1ED4F)
- Símbolos alfabéticos matemáticos árabes (1EE00–1EEFF)
- Fichas y cartas de juego:
- Azulejos de Mahjong (1F000–1F02F)
- Azulejos Domino (1F030–1F09F)
- Jugando a las cartas (1F0A0–1F0FF)
- Suplemento alfanumérico adjunto (1F100–1F1FF)
- Suplemento ideográfico adjunto (1F200–1F2FF)
- Símbolos y pictogramas varios (1F300–1F5FF)
- Emoticonos (1F600–1F64F)
- Dingbats ornamentales (1F650–1F67F)
- Símbolos de transporte y mapas (1F680–1F6FF)
- Símbolos alquímicos (1F700–1F77F)
- Formas geométricas extendidas (1F780–1F7FF)
- Flechas suplementarias C (1F800–1F8FF)
- Símbolos y pictogramas suplementarios (1F900–1F9FF)
- Símbolos de ajedrez (1FA00–1FA6F)
- Símbolos y pictogramas ampliado-A (1FA70–1FAFF)
- Símbolos para informática heredada (1FB00–1FBFF)
Plano ideográfico suplementario
El plano 2 , el plano ideográfico suplementario ( SIP ), se utiliza para ideogramas CJK, en su mayoría ideogramas unificados CJK , que no se incluyeron en los estándares de codificación de caracteres anteriores.
A partir de Unicode 13.0[actualizar], el SIP comprende los siguientes seis bloques:
- Extensión B de ideogramas unificados de CJK (20000–2A6DF)
- Extensión C de ideogramas unificados de CJK (2A700–2B73F)
- Extensión D de ideogramas unificados de CJK (2B740–2B81F)
- Extensión E de ideogramas unificados de CJK (2B820–2CEAF)
- Extensión F de ideogramas unificados de CJK (2CEB0–2EBEF)
- Suplemento de ideogramas de compatibilidad CJK (2F800–2FA1F)
Plano ideográfico terciario
El plano 3 es el plano ideográfico terciario (TIP). La extensión G de ideogramas unificados de CJK se agregó al TIP en Unicode 13.0, lanzada en marzo de 2020. [5] También está asignada provisionalmente para el script Oracle Bone y el script Small Seal . [6]
A partir de Unicode 13.0[actualizar], el TIP comprende el siguiente bloque:
- Extensión de ideogramas unificados de CJK G (30000–3134F)
Aviones no asignados
Planos 4 a 13 (planos 4 a D en hexadecimal ): Aún no se han asignado caracteres a los Planos 4 a 13.
Avión complementario para fines especiales
Plano 14 ( E en hexadecimal), el plano complementario para fines especiales ( SSP ). que comprende los dos bloques siguientes a partir de Unicode 13.0[actualizar]:
- Etiquetas (E0000 – E007F)
- Suplemento de selectores de variación (E0100-E01EF): se utiliza para indicar glifos alternativos para los caracteres.
Aviones de área de uso privado
Los dos planos 15 y 16 (planos F y 10 en hexadecimal), se designan como " Áreas de Uso Privado ". Contienen bloques denominados Área A de Uso Privado Suplementario ( PUA-A ) y -B ( PUA-B ), que están disponibles para su uso por partes ajenas a la ISO y al Consorcio Unicode.
Referencias
- ^ Glosario del consorcio Unicode: planos complementarios
- ^ Consulte la Tabla 3.5 "Distribución de bits UTF-16" en el estándar Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
- ^ Consulte la Tabla 3.6 "Distribución de bits UTF-8" en el estándar Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
- ^ Hojas de ruta Unicode
- ^ Unicode, Inc. "Anuncio del estándar Unicode®, versión 13.0" .
- ^ "Nuevos personajes propuestos: el oleoducto" . www.unicode.org .