El bloque Basic Latin o C0 Controls y Basic Latin Unicode es el primer bloque del estándar Unicode , y el único bloque que está codificado en un byte en UTF-8 . El bloque contiene todas las letras y códigos de control de la codificación ASCII. Se extiende de U + 0000 a U + 007F, contiene 128 caracteres e incluye los controles C0 , ASCII puntuacion y símbolos , ASCII dígitos , tanto en el mayúsculas y minúsculas del alfabeto Inglés y un carácter de control .
Controles C0 y latín básico | |
---|---|
Distancia | U + 0000..U + 007F (128 puntos de código) |
Avión | BMP |
Guiones | Latín (52 caracteres) Común (76 caracteres) |
Alfabetos principales | Inglés francés alemán español vietnamita |
Conjuntos de símbolos | Números arábigos Puntuación |
Asignado | 128 puntos de código 33 Control o formato |
No usado | 0 puntos de código reservados |
Estándares de origen | ISO / IEC 8859 , ISO 646 |
Historial de versiones de Unicode | |
1.0.0 (1991) | 128 (+128) |
Nota : [1] [2] |
El bloque de latín básico se incluyó en su forma actual a partir de la versión 1.0.0 del estándar Unicode, sin adición ni alteración del repertorio de caracteres. [3] Su nombre de bloque en Unicode 1.0 era ASCII . [4]
Tabla de personajes
Código | Resultado | Descripción | Acrónimo |
---|---|---|---|
Controles C0 | |||
U + 0000 | Carácter nulo | NUL | |
U + 0001 | Inicio de rumbo | SOL | |
U + 0002 | Inicio del texto | STX | |
U + 0003 | Carácter de fin de texto | ETX | |
U + 0004 | Carácter de fin de transmisión | EOT | |
U + 0005 | Personaje de consulta | ENQ | |
U + 0006 | Reconocer el carácter | ACK | |
U + 0007 | Carácter de campana | BEL | |
U + 0008 | Retroceso | BS | |
U + 0009 | Pestaña horizontal | HT | |
U + 000A | Linea de alimentación | LF | |
U + 000B | Pestaña vertical | Vermont | |
U + 000C | Alimentación de formulario | FF | |
U + 000D | Retorno de carro | CR | |
U + 000E | Desplazar fuera | ENTONCES | |
U + 000F | Desplazar en | SI | |
U + 0010 | Escape de enlace de datos | DLE | |
U + 0011 | Control de dispositivo 1 | DC1 | |
U + 0012 | Control de dispositivo 2 | DC2 | |
U + 0013 | Control de dispositivo 3 | DC3 | |
U + 0014 | Control de dispositivo 4 | DC4 | |
U + 0015 | Carácter de reconocimiento negativo | NAK | |
U + 0016 | Inactivo sincrónico | SYN | |
U + 0017 | Fin del bloque de transmisión | ETB | |
U + 0018 | Cancelar personaje | LATA | |
U + 0019 | Fin del medio | EM | |
U + 001A | Carácter sustituto | SUB | |
U + 001B | Personaje de escape | ESC | |
U + 001C | Separador de archivos | FS | |
U + 001D | Separador de grupos | GS | |
U + 001E | Separador de registros | RS | |
U + 001F | Separador de unidades | nosotros | |
Símbolos y puntuación ASCII | |||
U + 0020 | Espacio | SP | |
U + 0021 | ! | Signo de exclamación | EXC ª |
U + 0022 | " | Comillas | QUO |
U + 0023 | # | Símbolo de número | |
U + 0024 | PS | Signo de dólar | |
U + 0025 | % | Signo de porcentaje | |
U + 0026 | Y | Ampersand | |
U + 0027 | ' | Apóstrofe | |
U + 0028 | ( | Paréntesis izquierdo | |
U + 0029 | ) | Paréntesis derecho | |
U + 002A | * | Asterisco | |
U + 002B | + | Signo de más | |
U + 002C | , | Coma | |
U + 002D | - | Guión-menos | |
U + 002E | . | El punto final o periodo | |
U + 002F | / | Solidus o barra | |
Dígitos ASCII | |||
U + 0030 | 0 | Dígito cero | |
U + 0031 | 1 | Dígito uno | |
U + 0032 | 2 | Dígito dos | |
U + 0033 | 3 | Dígito tres | |
U + 0034 | 4 | Dígito cuatro | |
U + 0035 | 5 | Dígito cinco | |
U + 0036 | 6 | Dígito seis | |
U + 0037 | 7 | Siete dígitos | |
U + 0038 | 8 | Dígito ocho | |
U + 0039 | 9 | Dígito nueve | |
Símbolos y puntuación ASCII | |||
U + 003A | : | Colon | |
U + 003B | ; | Punto y coma | |
U + 003C | < | Signo menor que | |
U + 003D | = | Signo igual | |
U + 003E | > | Signo mayor que | |
U + 003F | ? | Signo de interrogación | |
U + 0040 | @ | Al firmar o comercial en | |
Alfabeto latino en mayúsculas | |||
U + 0041 | A | Letra latina mayúscula A | |
U + 0042 | B | Letra latina mayúscula B | |
U + 0043 | C | Letra latina mayúscula C | |
U + 0044 | D | Letra latina mayúscula D | |
U + 0045 | mi | Letra latina mayúscula E | |
U + 0046 | F | Letra latina mayúscula F | |
U + 0047 | GRAMO | Letra latina mayúscula G | |
U + 0048 | H | Letra latina mayúscula H | |
U + 0049 | I | Letra latina mayúscula I | |
U + 004A | J | Letra latina mayúscula J | |
U + 004B | K | Letra latina mayúscula K | |
U + 004C | L | Letra latina mayúscula L | |
U + 004D | METRO | Letra latina mayúscula M | |
U + 004E | norte | Letra latina mayúscula N | |
U + 004F | O | Letra latina mayúscula O | |
U + 0050 | PAG | Letra latina mayúscula P | |
U + 0051 | Q | Letra latina mayúscula Q | |
U + 0052 | R | Letra latina mayúscula R | |
U + 0053 | S | Letra latina mayúscula S | |
U + 0054 | T | Letra latina mayúscula T | |
U + 0055 | U | Letra latina mayúscula U | |
U + 0056 | V | Letra latina mayúscula V | |
U + 0057 | W | Letra latina mayúscula W | |
U + 0058 | X | Letra latina mayúscula X | |
U + 0059 | Y | Letra latina mayúscula Y | |
U + 005A | Z | Letra latina mayúscula Z | |
Símbolos y puntuación ASCII | |||
U + 005B | [ | Soporte cuadrado izquierdo | |
U + 005C | \ | Barra invertida [A] | |
U + 005D | ] | Soporte cuadrado derecho | |
U + 005E | ^ | Acento circunflejo | |
U + 005F | _ | Línea baja | |
U + 0060 | ' | Acento grave | |
Alfabeto latino en minúsculas | |||
U + 0061 | a | Letra latina minúscula A | |
U + 0062 | B | Letra latina minúscula B | |
U + 0063 | C | Letra latina minúscula C | |
U + 0064 | D | Letra latina minúscula D | |
U + 0065 | mi | Letra latina minúscula E | |
U + 0066 | F | Letra latina minúscula F | |
U + 0067 | gramo | Letra latina minúscula G | |
U + 0068 | h | Letra latina minúscula H | |
U + 0069 | I | Letra latina minúscula I | |
U + 006A | j | Letra latina minúscula J | |
U + 006B | k | Letra latina minúscula K | |
U + 006C | l | Letra latina minúscula L | |
U + 006D | metro | Letra latina minúscula M | |
U + 006E | norte | Letra latina minúscula N | |
U + 006F | o | Letra latina minúscula O | |
U + 0070 | pag | Letra latina minúscula P | |
U + 0071 | q | Letra latina minúscula Q | |
U + 0072 | r | Letra latina minúscula R | |
U + 0073 | s | Letra latina minúscula S | |
U + 0074 | t | Letra latina minúscula T | |
U + 0075 | tu | Letra latina minúscula U | |
U + 0076 | v | Letra latina minúscula V | |
U + 0077 | w | Letra latina minúscula W | |
U + 0078 | X | Letra latina minúscula X | |
U + 0079 | y | Letra latina minúscula Y | |
U + 007A | z | Letra latina minúscula Z | |
Símbolos y puntuación ASCII | |||
U + 007B | { | Soporte rizado izquierdo | |
U + 007C | | | Barra vertical | |
U + 007D | } | Soporte rizado derecho | |
U + 007E | ~ | Tilde | |
Carácter de control | |||
U + 007F | Borrar | DEL |
- A La letra U + 005C (\) puede aparecer como un signo de Yen (¥) o Won (₩) en fuentes japonesas / coreanas confundiendo Unicode (especialmente UTF-8) con un conjunto de caracteres heredado que reemplazó la barra invertida con estos signos. [5]
Subtítulos
El bloque C0 Controls y Basic Latin contiene seis subtítulos. [6]
Controles C0
Los controles C0 , denominados códigos de control C0 ASCII en la versión 1.0, se heredan de ASCII y otros esquemas de codificación de 7 y 8 bits. Los nombres de alias para los controles C0 se toman de la norma ISO / IEC 6429: 1992 . [6]
Símbolos y puntuación ASCII
Este subtítulo se refiere a caracteres de puntuación estándar, operadores matemáticos simples y símbolos como el signo de dólar, el porcentaje, el signo comercial, el subrayado y la barra vertical. [6]
Dígitos ASCII
El subtítulo de dígitos ASCII contiene los caracteres numéricos europeos estándar del 1 al 9 y 0. [6]
Alfabeto latino en mayúsculas
El subtítulo del alfabeto latino en mayúsculas contiene el alfabeto latino sin acento estándar de 26 letras en mayúscula . [6]
Alfabeto latino en minúsculas
El subtítulo Alfabeto latino en minúsculas contiene el alfabeto latino estándar sin acento de 26 letras en minúscula . [6]
Carácter de control
El subtítulo Carácter de control contiene el carácter "Eliminar". [6]
Número de símbolos, letras y códigos de control
La siguiente tabla muestra el número de letras , símbolos y códigos de control en cada uno de los subtítulos en el bloque Controles C0 y Latín básico.
Tipo de subpartida | Numero de simbolos | Gama de personajes |
---|---|---|
Controles C0 | 32 códigos de control | U + 0000 hasta U + 001F |
Símbolos y puntuación ASCII | 33 signos de puntuación y símbolos | U + 0020 a U + 002F, U + 003A a U + 0040, U + 005B a U + 0060 y U + 007B a U + 007E |
Dígitos ASCII | 10 dígitos | U + 0030 hasta U + 0039 |
Alfabeto latino en mayúsculas | 26 letras latinas sin acento en mayúscula. | U + 0041 hasta U + 005A |
Alfabeto latino en minúsculas | 26 letras latinas sin acento en minúscula. | U + 0061 hasta U + 007A |
Carácter de control | 1 código de control que contiene el carácter "Eliminar". | U + 007F |
Cuadra
Controles C0 y latín básico [1] Cuadro de códigos oficial del Consorcio Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | mi | F | |
U + 000x | NUL | SOL | STX | ETX | EOT | ENQ | ACK | BEL | BS | HT | LF | Vermont | FF | CR | ENTONCES | SI |
U + 001x | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | LATA | EM | SUB | ESC | FS | GS | RS | nosotros |
U + 002x | SP | ! | " | # | PS | % | Y | ' | ( | ) | * | + | , | - | . | / |
U + 003x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
U + 004x | @ | A | B | C | D | mi | F | GRAMO | H | I | J | K | L | METRO | norte | O |
U + 005x | PAG | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
U + 006x | ' | a | B | C | D | mi | F | gramo | h | I | j | k | l | metro | norte | o |
U + 007x | pag | q | r | s | t | tu | v | w | X | y | z | { | | | } | ~ | DEL |
Notas
|
Variantes
Varios de los caracteres están definidos para representarse como una variante estandarizada si van seguidos de indicadores de variante.
Se define una variante para un cero con un trazo diagonal corto: U + 0030 DIGIT ZERO, U + FE00 VS1 (0︀). [7] [8]
Doce caracteres (#, * y los dígitos) pueden ir seguidos de U + FE0E VS15 o U + FE0F VS16 para crear variantes de emoji . [9] [10] [11] [12] Se keycap caracteres base, por ejemplo # ️⃣ (U + 0023 NÚMERO SIGN U + FE0F VS16 U + 20E3 COMBINAR tecla clave que encierra). La versión VS15 es "presentación de texto" mientras que la versión VS16 es "estilo emoji". [8]
U + | 0023 | 002A | 0030 | 0031 | 0032 | 0033 | 0034 | 0035 | 0036 | 0037 | 0038 | 0039 |
base | # | * | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
base + VS15 + tecla | # ︎⃣ | * ︎⃣ | 0︎⃣ | 1︎⃣ | 2︎⃣ | 3︎⃣ | 4︎⃣ | 5︎⃣ | 6︎⃣ | 7︎⃣ | 8︎⃣ | 9︎⃣ |
base + VS16 + tecla | # ️⃣ | * ️⃣ | 0️⃣ | 1️⃣ | 2️⃣ | 3️⃣ | 4️⃣ | 5️⃣ | 6️⃣ | 7️⃣ | 8️⃣ | 9️⃣ |
Historia
Los siguientes documentos relacionados con Unicode registran el propósito y el proceso de definir caracteres específicos en el bloque de latín básico:
Versión | Puntos finales del código [a] | Contar | ID de UTC | ID de L2 | ID de WG2 | Documento |
---|---|---|---|---|---|---|
1.0.0 | U + 0000..007F | 128 | (estar determinado) | |||
UTC / 1999-013 | Karlsson, Kent (27 de mayo de 1999), Tildes y descomposiciones de micro signos | |||||
L2 / 99-176R | Moore, Lisa (1999-11-04), "Micro Sign Case Mappings", Actas de la reunión conjunta UTC / L2 en Seattle, 8-10 de junio de 1999 | |||||
L2 / 04-145 | Starner, David (2004-04-30), C con ejemplos de caracteres de trazo del informe BAE 1884 (Dorsey) | |||||
L2 / 04-202 | Anderson, Deborah (2004-06-07), Slashed C Feedback | |||||
N3046 | Suignard, Michel (22/02/2006), Mejora de la definición formal de los personajes de control | |||||
N3103 (pdf , documento ) | Umamaheswaran, VS (2006-08-25), "M48.33", Actas no confirmadas de la reunión 48 del GT 2, Mountain View, CA, EE. UU.; 2006-04-24 / 27 | |||||
L2 / 11-043 | Freytag, Asmus; Karlsson, Kent (2011-02-02), Propuesta para corregir errores e inconsistencias en ciertas asignaciones de propiedad para letras con superíndice y subíndice | |||||
L2 / 11-160 | PRI # 181 Cambio de categoría general de doce caracteres , 2011-05-02 | |||||
L2 / 11-261R2 | Moore, Lisa (2011-08-16), "Consensus 128-C3", UTC # 128 / L2 # 225 Minutes , Acepte las recomendaciones de Ken Whistler en L2 / 11-281 sobre los alias de nombres para los caracteres de control con la adición de las abreviaturas BEL y NUL. | |||||
L2 / 11-438 [b] [c] | N4182 | Edberg, Peter (2011-12-22), Secuencias de variación de Emoji (Revisión de L2 / 11-429) | ||||
L2 / 15-107 | Moore, Lisa (2015-05-12), "Consensus 143-C5", UTC # 143 Minutos , agregue las 12 secuencias de teclas en emoji-data.txt como secuencias con nombre provisionales en Unicode 8.0. | |||||
L2 / 15-268 | Beeton, Barbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray (30-10-2015), propuesta para representar la variante cero recortada del conjunto vacío | |||||
L2 / 15-301 [d] [c] | Pournader, Roozbeh (2015-11-01), Una propuesta para 278 secuencias de variación estandarizadas para emoji | |||||
L2 / 15-254 | Moore, Lisa (2015-11-16), "B.12.1.2 Propuesta para representar la variante cero recortada del conjunto vacío", UTC # 145 Minutos | |||||
L2 / 17-294 | N4914 | Lunde, Ken (2017-08-14), propuesta para agregar una secuencia de variación estandarizada para U + FF10 FULLWIDTH DIGIT CERO | ||||
|
Ver también
- Escritura latina en Unicode
- Conjunto de caracteres
- ISO 8859-1
Referencias
- ^ "Base de datos de caracteres Unicode" . El estándar Unicode . Consultado el 9 de julio de 2016 .
- ^ "Versiones enumeradas del estándar Unicode" . El estándar Unicode . Consultado el 9 de julio de 2016 .
- ^ El estándar Unicode Versión 1.0, Volumen 1 . Addison-Wesley Publishing Company, Inc. 1990. ISBN 0-201-56788-1.
- ^ "3.8: Gráficos bloque por bloque" (PDF) . El estándar Unicode . versión 1.0. Consorcio Unicode .
- ^ Ordenando todo: ¿Cuándo una barra invertida no es una barra invertida?
- ^ a b c d e f g "Cuadros de código Unicode 6.2" (PDF) . El estándar Unicode . Consultado el 1 de abril de 2013 .
- ^ Beeton, Barbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray (30 de octubre de 2015). "L2 / 15-268: Propuesta para representar la variante cero recortada del conjunto vacío" (PDF) .
- ^ a b "Secuencias de variación UTS # 51 Emoji" . El Consorcio Unicode.
- ^ Edberg, Peter (22 de diciembre de 2011). "L2 / 11-438: Secuencias de variación de Emoji (Revisión de L2 / 11-429)" (PDF) .
- ^ Pournader, Roozbeh (1 de noviembre de 2015). "L2 / 15-301: Una propuesta para 278 secuencias de variación estandarizadas para emoji" (PDF) .
- ^ "UTR # 51: Unicode Emoji" . Consorcio Unicode. 2020-02-11.
- ^ "UCD: datos de Emoji para UTR # 51" . Consorcio Unicode. 2020-01-28.