El código de control C0 y C1 o los conjuntos de caracteres de control definen códigos de control para su uso en texto por sistemas informáticos que utilizan ASCII y derivados de ASCII. Los códigos representan información adicional sobre el texto, como la posición de un cursor, una instrucción para iniciar una nueva línea o un mensaje de que se ha recibido el texto.
Los códigos C0 son del rango 00 HEX –1F HEX y el conjunto C0 predeterminado se definió originalmente en ISO 646 ( ASCII ). Los códigos C1 son del rango 80 HEX –9F HEX y el conjunto C1 predeterminado se definió originalmente en ECMA-48 (armonizado posteriormente con ISO 6429). El sistema ISO / IEC 2022 de especificar caracteres de control y gráficos permite que otros conjuntos C0 y C1 estén disponibles para aplicaciones especializadas, pero rara vez se utilizan.
Controles C0
ASCII definió 32 caracteres de control, más uno adicional necesario para el carácter DEL todo-1 (necesario para perforar todos los agujeros en una cinta de papel y borrarlo).
Esta gran cantidad de códigos era deseable en ese momento, ya que los controles multibyte requerirían la implementación de una máquina de estado en el terminal, lo cual era muy difícil con los terminales electrónicos y mecánicos contemporáneos. Desde entonces, sólo algunos de los controles originales han mantenido su uso: el rango de "espacios en blanco" de BS, TAB, LF, VT, FF y CR; el código BEL; y ESC (pero, excepto en ISO-2022-JP , casi siempre como parte de un ESC, '[' representación CSI que inicia una secuencia de escape ANSI ). Otros no se utilizan o han adquirido significados diferentes, como que NUL es el terminador de cadena C.
Algunos protocolos de transmisión en serie, como ANPA-1312 , Kermit y XMODEM , hacen un uso extensivo de los caracteres de control SOH, STX, ETX, EOT, ACK, NAK y SYN con fines que se aproximan a sus definiciones originales.
Códigos de control ASCII básicos
Estos son los códigos de control ASCII estándar, originalmente definidos en ANSI X3.4 . Si utiliza el mecanismo de extensión ISO / IEC 2022 , se designan como el juego de caracteres de control C0 activo con la secuencia de octetos 0x1B 0x21 0x40
( ESC ! @
). [1]
Seq | dic | Maleficio | Abreviatura | Símbolo | Nombre | C | Descripción | ||
---|---|---|---|---|---|---|---|---|---|
^@ | 00 | 00 | NUL | ␀ | Nulo | \0 | Originalmente utilizado para permitir que se dejen espacios en la cinta de papel para las ediciones. Posteriormente se utiliza para rellenar después de un código que puede llevar algún tiempo a un terminal para procesar (por ejemplo, un retorno de carro o un salto de línea en un terminal de impresión). Ahora se usa a menudo como terminador de cadenas, especialmente en el lenguaje de programación C. | ||
^A | 01 | 01 | SOL | ␁ | Inicio de rumbo | En la transmisión de mensajes, delimita el inicio de un encabezado de mensaje. El formato de este encabezado puede definirse mediante un protocolo aplicable, como IPTC 7901 para la transmisión de texto periodístico, y normalmente lo termina STX. [2] En Hadoop , a menudo se utiliza como separador de campos. | |||
^B | 02 | 02 | STX | ␂ | Inicio del texto | Primer carácter del texto del mensaje y puede usarse para terminar el encabezado del mensaje. | |||
^C | 03 | 03 | ETX | ␃ | Fin del texto | En la transmisión de mensajes, delimita el final del texto principal de un mensaje. Puede ir seguido de "información posterior al texto" (es decir, un pie de página estructurado) definido por un protocolo aplicable [2] o por cualquier texto adicional, [3] seguido de EOT. [2] [3] En la entrada de teclado, a menudo se usa como un carácter de "interrupción" (Ctrl-C) para interrumpir o terminar un programa o proceso. | |||
^D | 04 | 04 | EOT | ␄ | Fin de transmisión | Delimita el final de un mensaje transmitido, que puede incluir un encabezado, texto del mensaje y pie de página posterior al texto, [2] o incluso varios textos y encabezados asociados. [3] También se puede utilizar para colocar terminales en espera. [3] A menudo se usa en Unix para indicar el final del archivo en una terminal. | |||
^E | 05 | 05 | ENQ | ␅ | Consulta | Señal destinada a desencadenar una respuesta en el extremo receptor, para ver si todavía está presente. | |||
^F | 06 | 06 | ACK | ␆ | Reconocer | Respuesta a una ENQ, o una indicación de la recepción exitosa de un mensaje. | |||
^G | 07 | 07 | BEL [a] | ␇ | Campana , alerta | \a | Originalmente utilizado para hacer sonar una campana en la terminal. Posteriormente se utiliza para emitir un pitido en sistemas que no tienen timbre físico. También puede activar y desactivar rápidamente el video inverso (una campana visual). | ||
^H | 08 | 08 | BS | ␈ | Retroceso | \b | Mueva el cursor una posición hacia la izquierda. Al ingresar, esto puede borrar el carácter a la izquierda del cursor. En la salida, donde en la tecnología informática temprana un carácter una vez impreso no se podía borrar, el retroceso se usaba a veces para generar caracteres acentuados en ASCII. Por ejemplo, à podría producirse utilizando la secuencia de tres caracteres a BS ` (o, utilizando los valores hexadecimales de los caracteres 0x61 0x08 0x60 ). Este uso ahora generalmente no es compatible (está prohibido, por ejemplo, en ISO / IEC 8859 ). [9] Para evitar ambigüedades entre los dos usos potenciales del retroceso, el código de control de caracteres de cancelación se convirtió en parte del conjunto de control C1 estándar. | ||
^I | 09 | 09 | HT | ␉ | Tabulación de caracteres, tabulación horizontal | \t | Posición hasta la siguiente parada de tabulación de carácter . | ||
^J | 10 | 0A | LF | ␊ | Linea de alimentación | \n | En máquinas de escribir , impresoras y algunos emuladores de terminal , mueve el cursor una fila hacia abajo sin afectar la posición de la columna. En Unix, se usa para marcar el final de la línea . En DOS , Windows y varios estándares de red, LF se usa después de CR como parte de la marca de final de línea. | ||
^K | 11 | 0B | Vermont | ␋ | Tabulación de líneas, tabulación vertical | \v | Coloque el formulario en la siguiente línea de tabulación. | ||
^L | 12 | 0C | FF | ␌ | Alimentación de formulario | \f | En impresoras, cargue la página siguiente. Se tratan como espacios en blanco en muchos lenguajes de programación y se pueden utilizar para separar divisiones lógicas en el código. En algunos emuladores de terminal, borra la pantalla. Todavía aparece en algunos archivos de texto sin formato comunes como un carácter de salto de página , como los RFC publicados por IETF . | ||
^M | 13 | 0D | CR | ␍ | Retorno de carro | \r | Originalmente utilizado para mover el cursor a la columna cero mientras permanece en la misma línea. En Mac OS clásico (anterior a Mac OS X ), así como en sistemas anteriores como Apple II y Commodore 64 , se utiliza para marcar el final de la línea . En DOS , Windows y varios estándares de red, se usa antes de LF como parte de la marca de final de línea. La tecla Intro o Retorno de un teclado enviará este carácter, pero un programa de terminal puede convertirlo a una secuencia de final de línea diferente. | ||
^N | 14 | 0E | ENTONCES | ␎ | Desplazar fuera | Cambie a un juego de caracteres alternativo. | |||
^O | 15 | 0F | SI | ␏ | Desplazar en | Vuelve al juego de caracteres normal después de Shift Out. | |||
^P | dieciséis | 10 | DLE | ␐ | Escape de enlace de datos | Causar que un número limitado de octetos contiguos se interpreten de alguna manera diferente, [10] por ejemplo como datos brutos (en contraposición a códigos de control o caracteres gráficos). Los detalles de esto dependen de la implementación. Existían estándares como (el ahora retirado) ECMA-37 para aplicaciones específicas del carácter Data Link Escape para acceder a funciones adicionales de control de transmisión. [11] El esquema de compresión estándar para Unicode sugiere reemplazar todos los bytes del rango C0 con DLE, seguido de ese byte más 0x40, si los datos de la SCSU deben transmitirse a través de un sistema que se confundiría con la reutilización de los bytes C0 por parte de la SCSU. [12] | |||
^Q | 17 | 11 | DC1 | ␑ | Control de dispositivo uno ( XON ) | Estos cuatro códigos de control están reservados para el control del dispositivo, y la interpretación depende del dispositivo al que están conectados. DC1 y DC2 estaban destinados principalmente a indicar la activación de un dispositivo, mientras que DC3 y DC4 estaban destinados principalmente a indicar pausar o apagar un dispositivo. DC1 y DC3 (conocidos también como XON y XOFF respectivamente en este uso) se originaron como las funciones de "iniciar y detener el lector de cinta de papel remoto" en las redes ASCII Telex . Este uso de la teleimpresora se convirtió en el estándar de facto para el control de flujo de software . [13] | |||
^R | 18 | 12 | DC2 | ␒ | Control de dispositivo dos | ||||
^S | 19 | 13 | DC3 | ␓ | Control de dispositivo tres ( XOFF ) | ||||
^T | 20 | 14 | DC4 | ␔ | Control de dispositivo cuatro | ||||
^U | 21 | 15 | NAK | ␕ | Reconocimiento negativo | Enviado por una estación como respuesta negativa a la estación con la que se ha establecido la conexión. En el protocolo de comunicación síncrona binaria, el NAK se usa para indicar que se detectó un error en el bloque recibido previamente y que el receptor está listo para aceptar la retransmisión de ese bloque. En los sistemas multipunto, el NAK se utiliza como la respuesta no preparada a una encuesta. | |||
^V | 22 | dieciséis | SYN | ␖ | Inactivo sincrónico | Se utiliza en sistemas de transmisión síncrona para proporcionar una señal a partir de la cual se puede lograr la corrección síncrona entre equipos terminales de datos, particularmente cuando no se está transmitiendo ningún otro carácter. | |||
^W | 23 | 17 | ETB | ␗ | Fin del bloque de transmisión | Indica el final de un bloque de transmisión de datos cuando los datos se dividen en dichos bloques para fines de transmisión. Si no está en uso para otro propósito, IPTC 7901 recomienda interpretar ETB como un carácter de final de párrafo. [2] | |||
^X | 24 | 18 | LATA | ␘ | Cancelar | Indica que los datos que lo preceden son erróneos o deben ignorarse. | |||
^Y | 25 | 19 | EM | ␙ | Fin de medio | Destinado como medio para indicar en papel o cintas magnéticas que se ha alcanzado el final de la parte utilizable de la cinta. También puede marcar el final de la parte utilizada del medio y no corresponde necesariamente al final físico del medio. [1] Si no está en uso para otro propósito, IPTC 7901 recomienda reutilizar EM como un espacio em para sangrar la primera línea de un párrafo [2] (ver también EMSP ). | |||
^Z | 26 | 1A | SUB | ␚ | Sustituir | Originalmente diseñado para usarse como un carácter de control de transmisión para indicar que se habían recibido caracteres ilegibles o inválidos. A menudo se ha utilizado para otros fines cuando la señalización de errores dentro de banda que proporciona no es necesaria, especialmente cuando se utilizan métodos robustos de detección y corrección de errores, o cuando se espera que los errores sean lo suficientemente raros como para hacer que se utilice el carácter para otros fines aconsejables. En DOS , Windows , CP / M y otros derivados de los sistemas operativos de Digital Equipment Corporation , se usa para indicar el final del archivo, tanto al escribir en el terminal, como a veces en archivos de texto almacenados en el disco. | |||
^[ | 27 | 1B | ESC | ␛ | Escapar | \e [B] | La tecla Esc del teclado hará que este carácter se envíe en la mayoría de los sistemas. Puede usarse en interfaces de usuario de software para salir de una pantalla, menú o modo, o en protocolos de control de dispositivos (por ejemplo, impresoras y terminales) para indicar que lo que sigue es una secuencia de comando especial en lugar de texto normal. En los sistemas basados en ISO / IEC 2022 , incluso si se utiliza otro conjunto de códigos de control C0, este octeto debe representar siempre el carácter de escape.
| ||
^\ | 28 | 1C | FS | ␜ | Separador de archivos | Se pueden utilizar como delimitadores para marcar campos de estructuras de datos. Si se usa para niveles jerárquicos, EE. UU. Es el nivel más bajo (dividiendo elementos de datos de texto sin formato), mientras que RS, GS y FS son de nivel creciente para dividir grupos compuestos por elementos del nivel inferior. El formato de información de Unix usa US, seguido de un formulario de alimentación opcional y un salto de línea, para marcar el comienzo de un nodo. [14] MARC 21 usa US como delimitador de subcampo, RS como terminador de campo y GS como terminador de registro. [15] En la edición actual de IPTC 7901 , si no se utilizan para otros fines, se recomienda el uso de EE. UU. Como separador de columnas en las tablas, FS como "Separador de campo central" en las tablas, y GS y RS respectivamente para marcar un espacio siguiente. o guion-menos como no romperse o soft respectivamente (en conjuntos de caracteres que no proporcionan caracteres explícitos NBSP y SHY). [2] El | |||
^] | 29 | 1D | GS | ␝ | Separador de grupos | ||||
^^ | 30 | 1E | RS | ␞ | Separador de registros | ||||
^_ | 31 | 1F | nosotros | ␟ | Separador de unidades | ||||
Aunque técnicamente no forman parte del rango de caracteres de control C0, los dos caracteres siguientes se definen en ISO / IEC 2022 como siempre disponibles independientemente de los conjuntos de caracteres de control y caracteres gráficos que se hayan registrado. Se puede pensar que tienen algunas características de los personajes de control. | |||||||||
32 | 20 | SP | ␠ | Espacio | El espacio es un personaje gráfico. Tiene una representación visual que consiste en la ausencia de un símbolo gráfico. Hace que la posición activa avance en una posición de carácter. En algunas aplicaciones, el espacio se puede considerar un "separador de palabras" de nivel más bajo para usarse con los caracteres separadores adyacentes. | ||||
^? | 127 | 7F | DEL | ␡ | Borrar | No es técnicamente parte del rango de caracteres de control C0, esto se usó originalmente para marcar caracteres eliminados en cinta de papel, ya que cualquier carácter podía cambiarse a todos haciendo agujeros en todas partes. En terminales compatibles con VT100 , este es el carácter generado por la tecla etiquetada ⌫, generalmente llamada retroceso en las máquinas modernas, y no corresponde a la tecla de eliminación de PC . |
Nombres de número de categoría
Varios de los códigos de control ASCII básicos se clasifican en unas pocas categorías y, a veces, se les dan nombres abreviados alternativos que consisten en esa categoría y un número: [1]
- Controles de transmisión: [1] TC 1 (SOH), TC 2 (STX), TC 3 (ETX), TC 4 (EOT), TC 5 (ENQ), TC 6 (ACK), TC 7 (DLE), TC 8 (NAK), TC 9 (SYN), TC 10 (ETB).
- Efectores de formato: [1] FE 0 (BS), FE 1 (HT), FE 2 (LF), FE 3 (VT), FE 4 (FF), FE 5 (CR).
- Controles del dispositivo: [1] DC 1 , DC 2 , DC 3 , DC 4 .
- Separadores de información: [1] IS 1 (EE. UU.), IS 2 (RS), IS 3 (GS), IS 4 (FS).
- Bloqueo de turnos: [17] LS 0 (SI), LS 1 (SO).
- Otros: NUL, BEL, CAN, EM, SUB, ESC.
ISO / IEC 2022 (ECMA-35) se refiere a los cambios de bloqueo C0 como LS0 y LS1 en entornos de 8 bits, y como SI y SO en entornos de 7 bits. [17]
La primera edición de 1963 de ASCII clasificada DLE como control de dispositivo, en lugar de control de transmisión, y le dio la abreviatura DC0 ("control de dispositivo reservado para escape de enlace de datos"). [18]
Los códigos efectores de formato (FE) definen y activan el formato (como los saltos de línea ) que afectan la forma en que se presentan y representan los caracteres gráficos, en lugar de controlar otras funciones de dispositivos de hardware o tener otros efectos secundarios. Los efectores de formato C0 están permitidos en ISO / IEC 6429 DCS , OSC , PM y Secuencias de APC . Los separadores de información y los efectores de formato C0 (menos BS ) son los únicos códigos de control C0 con semántica definida por el estándar Unicode, y la interpretación del resto de los controles C0 se deja a los protocolos de nivel superior. [19]
ISO / IEC 2022 (ECMA-35) requiere que si los conjuntos de códigos de control C0 incluyen los diez códigos de control de transmisión (TC) ASCII, deben estar codificados en sus ubicaciones ASCII. [20] También prohíbe que esos diez controles de transmisión se incluyan en un conjunto de códigos de control C1, [21] y prohíbe que los controles de transmisión además de esos diez se incluyan en un conjunto de control C0. [20]
Conjuntos de códigos de control C0 modificados
Aunque los conjuntos de códigos de control C0 generalmente conservan la mayoría de los códigos de control ASCII sin cambios, se registra un número que reemplaza ciertas funciones de control con alternativas. A continuación se muestra una selección de estos, excluidos los relacionados con Videotex .
Seq | dic | Maleficio | Reemplazado | En conjunto (s) de códigos | Abrev | Nombre | Descripción |
---|---|---|---|---|---|---|---|
^I | 09 | 09 | HT | NATS, [22] IPTC [23] | FO | Formateo | Se utiliza en datos tabulares para pasar a la siguiente posición de tabulación (conservando la semántica de "Tab" a este respecto), y en formatos estándar para indicar la siguiente fase. En cambio, la especificación IPTC actual recomienda usar controles ASCII C0 regulares y usar el Control de Estados Unidos como un salto de columna en tablas. [2] |
^K | 11 | 0B | Vermont | NATS, [22] IPTC [23] | ECD | Fin de instrucción | Delimita el final de una instrucción tipográfica destinada al dispositivo de composición. |
^L | 12 | 0C | FF | NATS, [22] IPTC [23] | SCD | Inicio de instrucción | Delimita el inicio de una instrucción tipográfica destinada al dispositivo de composición. |
^M | 13 | 0D | CR | NATS, [22] IPTC [23] | QL | Cuádruple izquierdo | Termina una línea, lo que indica que debe alinearse a la izquierda. En cambio, la especificación IPTC actual recomienda usar controles ASCII C0 regulares y representar esta función con la < CR LF secuencia. [2] |
^N | 14 | 0E | ENTONCES | NATS [22] | UR | Riel superior | Inicia una región de texto enfatizada. Utilizado en la transmisión de textos periodísticos escandinavos a partir de 1975; [22] Las recomendaciones del IPTC a partir de 1976 utilizaron FT2 y FT3 en su lugar (ver más abajo). [23] En cambio, la especificación IPTC actual recomienda usar controles ASCII C0 regulares y marcar esta función con el ^ carácter. [2] |
^O | 15 | 0F | SI | NATS [22] | LR | Riel inferior | Finaliza una región de texto enfatizada. Utilizado en la transmisión de textos periodísticos escandinavos a partir de 1975; [22] Las recomendaciones del IPTC a partir de 1976 utilizaron FT1 en su lugar (ver más abajo). [23] En cambio, la especificación IPTC actual recomienda usar controles ASCII C0 regulares y marcar esta función con el @ carácter. [2] |
^Q | 17 | 11 | DC1 | IPTC [23] | FT1 | Fuente uno | Cambia al tipo de letra normal, es decir, desactiva la negrita o la cursiva. |
^R | 18 | 12 | DC2 | IPTC [23] | FT2 | Fuente dos | Cambia al tipo de letra cursiva. |
^S | 19 | 13 | DC3 | IPTC [23] | FT3 | Fuente tres | Cambia al tipo de letra en negrita. |
^X | 24 | 18 | LATA | NATS, [22] IPTC [23] | KW | Matar palabra | Elimina la palabra anterior (elimina hasta el último espacio incluido, o vuelve al salto de línea anterior y lo excluye, lo que encuentre primero). Conserva la semántica "Cancelar" a este respecto, pero tiene una función más específica. |
^Y | 25 | 19 | EM | T.61 / T.51 , [24] Independiente [25] | SS2 | Turno único dos | Código de cambio sin bloqueo para G2 ; una representación C0 que permite representarlo con un byte en un entorno de 7 bits. |
^\ | 28 | 1C | FS | NATS, [22] IPTC, [23] Independiente [26] | SS, SS2 | Super turno o turno único dos | Código de cambio sin bloqueo . |
JIS C 6225 [27] | CEX | Extensión de control | Introduce una secuencia de control según lo especificado por el JIS C 6225 ahora retirado, designado JIS X 0207 en fuentes posteriores. [28] Estos incluían secuencias para controlar el comportamiento del texto vertical, superíndices y subíndices, [29] y para transmitir gráficos de caracteres personalizados . [28] | ||||
^] | 29 | 1D | GS | NATS, [22] IPTC [23] | Control de calidad | Centro cuádruple | Termina una línea, lo que indica que debe estar centrada. |
T.61 / T.51 [24] | SS3 | Turno único tres | Código de cambio sin bloqueo para G3 ; una representación C0 que permite representarlo con un byte en un entorno de 7 bits. | ||||
^^ | 30 | 1E | RS | NATS, [22] IPTC [23] | QR | Cuádruple derecho | Termina una línea, lo que indica que debe alinearse a la derecha. |
^_ | 31 | 1F | nosotros | NATS, [22] IPTC [23] | JY | Justificar | Termina una línea que debe justificarse. |
Otros conjuntos de códigos de control C0
El teletexto define un conjunto de códigos de control completamente diferente . En formatos donde no se requiere compatibilidad con los códigos de control C0 de ECMA-48, estos códigos de control a veces se asignan de forma transparente al rango de códigos de control Unicode C0 (U + 0000 a U + 001F). [30]
Controles C1
Paralelamente al desarrollo de la edición de 1972 de la norma ISO 646 , que revisó la norma para introducir el concepto de versiones nacionales del código además del ASCII de origen estadounidense, también se estaba trabajando con el propósito de definir mecanismos de extensión para ASCII. aplicable a entornos de 7 y 8 bits, que se publicarían como ECMA-35 e ISO 2022 . [31]
Estos mecanismos se diseñaron para que cualquier código de 8 bits conforme se pudiera convertir en un código de 7 bits correspondiente, y viceversa . [32] En un entorno de 7 bits, Shift Out ( SO ) el control cambiaría el significado de los 94 bytes a0x21
través0x7E
(es decir, los códigos gráficos, excluyendo el espacio) para invocar caracteres de un conjunto alternativo, y Shift In ( SI ) el control los volvería a cambiar. [33] En un entorno de 8 bits, en lugar de utilizar códigos de desplazamiento, el octavo bit se estableció en un byte que hace referencia al conjunto de caracteres gráficos adicionales. Esto significó quese utilizaronbytes0xA1
hasta0xFE
para los caracteres gráficos adicionales. Los caracteres de control C0, que no se veían afectados por el estado de desplazamiento de un código de 7 bits, debían representarse siempre en un código de 8 bits con el octavo bit sin establecer. [32] En consecuencia, los bytes no utilizados en el rango a0x80
través0x9F
podrían usarse para códigos de control adicionales, que en su lugar se representarían como a0x1B 0x40
través0x1B 0x5F
(aESC @
travésESC _
) en un código de 7 bits. [32] Estos códigos de control adicionales se conocen como códigos de control C1 . Para mantener la compatibilidad con la representación de 7 bits, el comportamiento de los bytes0xA0
y0xFF
se dejó originalmente sin definir. [34]
El primer conjunto de códigos de control C1 que se registró para su uso con ISO 2022 fue DIN 31626 , [35] un conjunto especializado para uso bibliográfico que se registró en 1979. [36] El conjunto de uso general ISO / IEC 6429 se registró en 1983, [37] aunque la especificación ECMA-48 en la que se basó se publicó por primera vez en 1976. [38]
Las ediciones posteriores de las normas alteraron las disposiciones hasta cierto punto. Por ejemplo, una nueva revisión de ECMA-35 e ISO 2022 en 1985 introdujo el concepto de un conjunto de caracteres gráficos de 96 códigos. [39] En un código de 8 bits, esto permitió que se utilizara todo el rango de 0xA0
a 0xFF
para caracteres gráficos. El uso de conjuntos de 96 códigos también significó que el significado de los bytes 0x20
y 0x7F
en el código de 7 bits correspondiente podría diferir de "Espacio" y "Eliminar", a menos que el código estuviera en el estado Shift In. [40] No fue posible utilizar conjuntos de 96 códigos para el conjunto G0 (Shift In). [39]
De acuerdo con esta estructura de código ISO 2022 revisada de 8 bits, ISO 8859 define conjuntos de caracteres que se codificarán sobre 0xA0 – FF, en combinación con los caracteres gráficos ASCII sobre 0x20–7E, y reserva los bytes fuera de estos rangos para usarlos como códigos no gráficos por otras especificaciones como ISO 6429. [41] Unicode hereda sus primeros 256 puntos de código de ISO 8859-1, por lo que también incorpora un rango reservado para un conjunto de códigos de control C1, aunque en su mayoría deja su función por definir por protocolos de nivel superior, con ISO 6429 sugerido como predeterminado. [19]
Códigos de control C1 para uso general
Estos son los códigos de control extendido más comunes y se definen en ISO / IEC 6429 , ECMA -48 y JIS X 0211 (anteriormente JIS C 6323). [42] Si se utiliza el mecanismo de extensión ISO / IEC 2022 , se designan como el conjunto de caracteres de control C1 activo con la secuencia 0x1B 0x22 0x43
( ESC " C
). [37] Aunque Unicode no requiere un conjunto de códigos de control C1 particular, dejando que su interpretación sea especificada por protocolos de nivel superior, y solo especifica un comportamiento para U + 0085, sugiere interpretar los códigos de control C1 como se especifica en ISO / IEC 6429 en ausencia de uso para otros fines. [19] También se enumeran en la tabla siguiente tres códigos de control que se enumeran junto con los códigos ISO / IEC 6429 en RFC 1345 , pero que no están realmente definidos por ISO / IEC 6429 ( PAD , HOP y SGC ). [5] [43]
Excepto por SS2 y SS3 entexto EUC-JP y NEL en texto transcodificado de EBCDIC , las formas de 8 bits de estos códigos casi nunca se utilizan. CSI , DCS y Los OSC se utilizan para controlar terminales de texto y emuladores de terminal , pero casi siempre mediante sus representaciones de códigos de escape de 7 bits. Susrepresentaciones de un solo byte que cumplen con ISO / IEC 2022 no son válidas en UTF-8 , y las codificaciones UTF-8 de sus puntos de código correspondientes tienen dos bytes de longitud como sus formas de código de escape (por ejemplo, CSI en U + 009B se codifica como bytes 0xC2, 0x9B en UTF-8), por lo que no hay ninguna ventaja en usarlos en lugar de la secuencia de escape de dos bytes equivalente. Cuando estos códigos aparecen en documentos modernos, páginas web, mensajes de correo electrónico, etc., generalmente están destinados a imprimir caracteres en esa posición en una codificación patentada como Windows-1252 o Mac OS Roman que usan los códigos C1 para proporcionar caracteres gráficos adicionales.
Los nombres oficiales en inglés de algunos códigos C1 se revisaron en la edición más reciente de la norma para códigos de control en general (ISO 6429: 1992 o ECMA-48: 1991) para que fueran neutrales con respecto a los caracteres gráficos utilizados con ellos, y no asumir que, como en la escritura latina, las líneas están escritas en una página de arriba a abajo y que los caracteres están escritos en una línea de izquierda a derecha. Las abreviaturas utilizadas no se cambiaron, ya que el estándar ya había especificado que permanecerían sin cambios cuando el estándar se traduzca a otros idiomas. Cuando se ha cambiado el nombre, el nombre original del que se derivó la abreviatura también se indica entre paréntesis en las tablas siguientes.
Esc + | dic | Maleficio | Acro | Nombre | Descripción [44] |
---|---|---|---|---|---|
@ | 128 | 80 | PAD [6] | Carácter de relleno | No forma parte de ISO / IEC 6429 (ECMA-48). En los primeros borradores de ISO 10646, se utilizó como parte de un mecanismo propuesto para codificar caracteres no ASCII. Este uso se eliminó en borradores posteriores. [5] [43] No obstante, se utiliza en la forma de longitud fija de dos bytes de uso interno del Código Unix Extendido (EUC) basado en ISO-2022 para caracteres de un solo byte de relleno a la izquierda en los conjuntos de códigos 1 y 3, mientras que NUL cumple la misma función para los conjuntos de códigos 0 y 2. Esto no se hace en el formato EUC "empaquetado" habitual. [45] |
A | 129 | 81 | HOP [6] | Preajuste de octeto alto | No forma parte de ISO / IEC 6429 (ECMA-48). En los primeros borradores de ISO 10646, se pretendía como un medio de introducir una secuencia de caracteres de múltiples bytes compatibles con ISO 2022 con el mismo primer byte sin repetir dicho primer byte, reduciendo así la longitud; este comportamiento nunca fue parte de una implementación estándar o publicada. No obstante, su nombre se mantuvo como Nombre de punto de código estándar RFC 1345 . [5] [43] |
B | 130 | 82 | HPB | Descanso permitido aquí | Sigue un carácter gráfico donde se permite un salto de línea. Aproximadamente equivalente a un guión suave, excepto que el medio para indicar un salto de línea no es necesariamente un guión. No forma parte de la primera edición de ISO / IEC 6429. [37] Véase también espacio de ancho cero . |
C | 131 | 83 | NBH | No hay descanso aquí | Sigue el carácter gráfico que no debe romperse. No forma parte de la primera edición de ISO / IEC 6429. [37] Véase también unión de palabras . |
D | 132 | 84 | INDIANA | Índice | Mueva la posición activa una línea hacia abajo para eliminar la ambigüedad sobre el significado de LF. En desuso en 1988 y retirado en 1992 de ISO / IEC 6429 (1986 y 1991 respectivamente para ECMA-48). |
mi | 133 | 85 | NEL | Proxima linea | Equivalente a CR + LF. Se utiliza para marcar el final de la línea en algunos mainframes de IBM. |
F | 134 | 86 | SSA | Inicio del área seleccionada | Utilizado por terminales orientados a bloques . |
GRAMO | 135 | 87 | ESA | Fin del área seleccionada | |
H | 136 | 88 | HTS | Conjunto de tabulación de caracteres Conjunto de tabulación horizontal | Hace que se establezca una parada de tabulación de caracteres en la posición activa. |
I | 137 | 89 | HTJ | Tabulación de caracteres con justificación Tabulación horizontal con justificación | Similar a la tabulación de caracteres, excepto que en lugar de colocar espacios o líneas después de los caracteres anteriores hasta que se alcance la siguiente tabulación, los espacios o líneas se colocan antes del campo activo de modo que el carácter gráfico anterior se coloque justo antes de la siguiente tabulación. |
J | 138 | 8A | VTS | Conjunto de tabulación de línea Conjunto de tabulación vertical | Hace que se establezca una parada de tabulación de línea en la posición activa. |
K | 139 | 8B | PLD | Línea parcial hacia adelante Línea parcial hacia abajo | Se utiliza para producir subíndices y superíndices en ISO / IEC 6429 , por ejemplo, en una impresora. Se usan subíndices mientras que se usan superíndices . PLD text PLU PLU text PLD |
L | 140 | 8C | PLU | Línea parcial hacia atrás parcial Line Up | |
METRO | 141 | 8D | Rhode Island | Índice inverso de alimentación de línea inversa | |
norte | 142 | 8E | SS2 | Cambio único 2 | El siguiente carácter invoca un carácter gráfico de los conjuntos gráficos G2 o G3, respectivamente. En sistemas que cumplen con ISO / IEC 4873 (ECMA-43), incluso si se usa un conjunto C1 diferente al predeterminado, estos dos octetos solo se pueden usar para este propósito. |
O | 143 | 8F | SS3 | Cambio único 3 | |
PAG | 144 | 90 | DCS | Cadena de control de dispositivo | Seguido de una cadena de caracteres imprimibles (0x20 a 0x7E) y efectores de formato (0x08 a 0x0D), terminados por ST (0x9C). Esto puede ser utilizado por secuencias de control de longitud variable para terminales de texto y emuladores de terminal, como consultas terminfo . [46] |
Q | 145 | 91 | PU1 | Uso privado 1 | Reservado para una función sin significado estandarizado para uso privado según sea necesario, sujeto al acuerdo previo del remitente y el destinatario de los datos. |
R | 146 | 92 | PU2 | Uso privado 2 | |
S | 147 | 93 | STS | Establecer estado de transmisión | |
T | 148 | 94 | CCH | Cancelar personaje | Retroceso destructivo, destinado a eliminar la ambigüedad sobre el significado de BS . |
U | 149 | 95 | MW | Mensaje en espera | |
V | 150 | 96 | SPA | Inicio del área protegida | Utilizado por terminales orientados a bloques . |
W | 151 | 97 | EPA | Fin del área protegida | |
X | 152 | 98 | llamada de socorro | Inicio de cadena | Seguido por una cadena de control terminada por ST (0x9C) que, a diferencia de los iniciados por DCS , OSC , PM o APC , puede contener cualquier carácter excepto SOS o ST. No forma parte de la primera edición de ISO / IEC 6429. [37] MARC 21 usa SOS y ST en registros en formato Unicode para marcar una cadena que debe ignorarse para fines de clasificación, mientras que los registros en formato MARC-8 usan NSB y NSE para el mismo propósito. [15] [47] |
Y | 153 | 99 | SGC [6] | Introductor de carácter gráfico único | No forma parte de ISO / IEC 6429. En los primeros borradores de ISO 10646, se utilizaba para codificar un solo carácter de varios bytes sin cambiar de un Modo HOP . En borradores posteriores, esta instalación se eliminó, no obstante, el nombre se mantuvo como un Nombre de punto de código estándar RFC 1345 . [5] [43] |
Z | 154 | 9A | SCI | Introductor de un solo carácter | Debe ir seguido de un único carácter imprimible (0x20 a 0x7E) o un efector de formato (0x08 a 0x0D). La intención era proporcionar un medio por el cual se pudiera definir una función de control o un carácter gráfico que estaría disponible independientemente de qué gráficos o conjuntos de control estuvieran en uso. Las definiciones de lo que invocaría el siguiente byte nunca se implementaron en un estándar internacional. No forma parte de la primera edición de ISO / IEC 6429. [37] |
[ | 155 | 9B | CSI | Introductor de secuencia de control | Se utiliza para introducir secuencias de control que toman parámetros. |
\ | 156 | 9C | S T | Terminador de cuerdas | Termina una cadena de control de longitud variable iniciada por DCS , SOS , OSC , PM o APC . |
] | 157 | 9D | OSC | Comando del sistema operativo | Seguido de una cadena de caracteres imprimibles (0x20 a 0x7E) y efectores de formato (0x08 a 0x0D), terminados por ST (0x9C). Estos tres códigos de control fueron diseñados para permitir la señalización dentro de banda de información de protocolo, pero rara vez se usan para ese propósito. Algunos emuladores de terminal , incluido xterm , admiten secuencias OSC para establecer el título de la ventana y reconfigurar la paleta de colores disponible. También pueden admitir la terminación de una secuencia OSC con BEL como alternativa no estándar al ST estándar. [48] En ocasiones, APC se utiliza para transmitir comandos de Kermit , aunque esto puede desactivarse o filtrarse por motivos de seguridad. [49] |
^ | 158 | 9E | PM | Mensaje de privacidad | |
_ | 159 | 9F | APC | Comando del programa de aplicación |
Códigos de control C1 para uso bibliográfico
El siguiente conjunto de códigos de control C1 alternativo se define para aplicaciones bibliográficas como los sistemas de bibliotecas . Se ocupa principalmente de la intercalación de cadenas y del marcado de campos bibliográficos. Ligeramente diferentes variantes se definen en la norma alemana DIN 31626 [36] (publicado en 1978 y desde entonces retirada) [50] y la ISO estándar ISO 6630 , [51] [52] el último de los cuales también ha sido adoptado en Alemania como DIN ISO 6630 . [53] En el cuadro que figura a continuación se indica dónde difieren, cuando proceda. MARC-8 utiliza la codificación de NSB y NSE de este conjunto, y agrega algunos efectores de formato adicionales en ubicaciones no utilizadas por la versión ISO; sin embargo, MARC 21 usa este conjunto de control solo en registros MARC-8, no en registros en formato Unicode. [15]
Si utiliza el mecanismo de extensión ISO / IEC 2022 , el conjunto DIN 31626 se designa como el conjunto de caracteres de control C1 activo con la secuencia 0x1B 0x22 0x45
( ESC " E
), [36] y el conjunto ISO 6630 / DIN ISO 6630 se designa con la secuencia 0x1B 0x22 0x42
( ESC " B
). [51] La expansión de 1985 del conjunto ISO 6630 también se puede especificar explícitamente utilizando la secuencia 0x1B 0x26 0x40 0x1B 0x22 0x42
( ESC & @ ESC " B
). [52]
Esc + | dic | Maleficio | Acro | Nombre | Descripción [36] [51] [52] |
---|---|---|---|---|---|
@…F | 128… 134 | 80… 86 | - | (reservado) | |
GRAMO | 135 | 87 | CUS | Primer plano para clasificar | (DIN 31626, ISO 6630) Declara que dos secuencias de caracteres sucesivas separadas por un espacio o separador deben tratarse como una palabra para fines de clasificación. |
H | 136 | 88 | NSB | Comienzan los caracteres que no se ordenan | (DIN 31626, ISO 6630, MARC 21) Marca el inicio de una secuencia de caracteres que se ignorarán a efectos de clasificación. MARC 21 usa este carácter en los registros MARC-8 , pero usa 0x98 ( SOS ) en registros Unicode con el mismo propósito. [15] [47] |
I | 137 | 89 | NSE | Final de caracteres no clasificados | (DIN 31626, ISO 6630, MARC 21) Marca el final de una secuencia de caracteres que debe ignorarse para fines de clasificación. MARC 21 usa este carácter en los registros MARC-8, pero usa 0x9C ( ST ) en registros Unicode con el mismo propósito. [15] [47] |
J | 138 | 8A | FIL | Carácter de relleno | (DIN 31626) Sustituye a un carácter alfanumérico obligatorio en un campo. |
K | 139 | 8B | TCI | Etiqueta en indicador de contexto | (DIN 31626) Dentro de un campo bibliográfico, se utiliza para referirse a datos en otro campo bibliográfico por su número de etiqueta. |
PLD | Línea parcial hacia abajo | (ISO 6630) No en la edición original de ISO 6630. [51] En la edición de 1985 de ISO 6630, [52] utilizado para Partial Line Down (ver PLD arriba). | |||
L | 140 | 8C | ICI | Número de identificación en el indicador de contexto | (DIN 31626) Dentro de un campo bibliográfico, se utiliza para referirse a datos en otro registro bibliográfico por su número de identificación. |
PLU | Alineación parcial | (ISO 6630) No en la edición original de ISO 6630. [51] En la edición de 1985 de ISO 6630, [52] utilizado para Partial Line Up (ver PLU arriba). | |||
METRO | 141 | 8D | OSC [c] | Control de silabificación [d] opcional | (DIN 31626) Marca un límite de sílaba en una palabra larga. Ver también guión suave . |
ZWJ | Carpintero | (MARC 21) En MARC-8, se usa para el ensamblador de ancho cero , mientras que U + 200D se usa en registros MARC en formato Unicode. [15] [47] | |||
norte | 142 | 8E | SS2 | Cambio único 2 | (DIN 31626) Código de cambio sin bloqueo, consulte SS2 anterior. |
ZWNJ | No afiliado | (MARC 21) En MARC-8, se usa para el no ensamblador de ancho cero , mientras que U + 200C se usa en registros MARC en formato Unicode. [15] [47] | |||
O | 143 | 8F | SS3 | Cambio único 3 | (DIN 31626) Código de cambio sin bloqueo, consulte SS3 arriba. |
PAG | 144 | 90 | - | (reservado) | |
Q | 145 | 91 | EAB | Comienzo de la anotación incrustada | (DIN 31626, ISO 6630) Marca el comienzo de una anotación de longitud variable que está incrustada dentro de un campo bibliográfico, en lugar de estar separada mediante la designación de contenido. |
R | 146 | 92 | EAE | Fin de anotación incrustada | (DIN 31626, ISO 6630) Marca el final de una anotación incrustada de longitud variable. |
S | 147 | 93 | ES B | Inicio de la especificación del artículo | (DIN 31626) Marca el comienzo de una cadena de información específica de alguna descripción, que no sea una palabra clave o una cadena de permutación. |
T | 148 | 94 | ISE | Final de la especificación del artículo | (DIN 31626) Marca el final de una cadena de información específica. |
U | 149 | 95 | HERMANO | Ordenación de la interpolación al comienzo | (ISO 6630) Marca el comienzo de una secuencia de caracteres que se utilizan únicamente con fines de clasificación. |
V | 150 | 96 | SIE | Ordenar el final de la interpolación | (ISO 6630) Marca el final de una secuencia de caracteres utilizados únicamente con fines de clasificación. |
W | 151 | 97 | SSB | Valor de clasificación secundario al comienzo | (ISO 6630) Marca el comienzo de una cadena con un valor de colación subordinado. |
X | 152 | 98 | SSE | Final del valor de clasificación secundario | (ISO 6630) Marca el final de una cadena con un valor de colación subordinado. |
Y | 153 | 99 | C ª | Indicador de carácter no estándar | (DIN 31626) Identifica un carácter no estándar siguiente. |
Z | 154 | 9A | - | (reservado) | |
[ | 155 | 9B | - | (reservado) | |
\ | 156 | 9C | KWB | Inicio de palabra clave | (DIN 31626, ISO 6630) Marca el inicio de una palabra clave dentro de un campo bibliográfico. |
] | 157 | 9D | KWE | Fin de palabra clave | (DIN 31626, ISO 6630) Marca el final de una palabra clave dentro de un campo bibliográfico. |
^ | 158 | 9E | PSB | Comienzo de la cadena de permutación | (DIN 31626, ISO 6630) Marca el inicio de una cadena que se permuta al frente del elemento cuando se generan referencias o índices . Terminado por PSE o al final del elemento. |
_ | 159 | 9F | PSE | Final de cadena de permutación | (DIN 31626, ISO 6630) Marca el extremo de una cuerda que se permuta al frente del elemento. |
Otros conjuntos de códigos de control C1
EBCDIC define 16 códigos de control adicionales, además de los presentes en ASCII. Cuando se asignan a Unicode o ISO 8859 , estos códigos se asignan a los caracteres de control C1 de una manera especificada por la Arquitectura de representación de datos de caracteres (CDRA) de IBM. [54] [55]
Aunque el mapeo predeterminado del control New Line (NL) corresponde a ISO / IEC 6429 NEL (0x85; aunque su mapeo a veces se intercambia con LF, siguiendo la convención de finalización de línea de UNIX), [54] el resto de los códigos de control no corresponden a ISO / IEC 6429. Por ejemplo, el control EBCDIC SPS (0x09, mapeado a 0x8D) y el control ECMA-48 Los PLU (0x8C) se utilizan para comenzar un superíndice o finalizar un subíndice, pero no se asignan entre sí. Por lo tanto, se puede considerar que EBCDIC con mapa ASCII extendido tiene su propio conjunto C1, aunque no está registrado en elregistro ISO-IR para su uso con ISO / IEC 2022 . [35]
Varios conjuntos de códigos de control C1 especializados están registrados para su uso por varios formatos videotex . [35]
Unicode
Unicode reserva 65 puntos de código en la categoría general "Cc" (Control) para compatibilidad con ISO / IEC 2022 . Los códigos de control en esta categoría cubren U + 0000 — U + 001F (controles C0), U + 007F (borrar) y U + 0080 — U + 009F (controles C1). Unicode solo especifica la semántica para U + 0009 — U + 000D, U + 001C — U + 001F y U + 0085. El resto de los códigos de control son transparentes para Unicode y sus significados se dejan a los protocolos de nivel superior. [19]
Unicode no tiene puntos de código de categoría "Cc" asignados distintos de los C0 y C1. Sin embargo, incluye caracteres efectores de formato adicionales además de los de los conjuntos de control C0 y C1, como marcas, incrustaciones, aislamientos y estallidos para formateo bidireccional explícito, y el ensamblador y no ensamblador de ancho cero para controlar el uso de ligaduras. Se les asigna la categoría general "Cf" (Formato) en lugar de "Cc".
Ver también
- Imágenes de control
- Código de escape ANSI
Notas al pie
- ^ El nombre BELL es asignado por Unicode alcarácter emoji no relacionado🔔 (U + 1F514). Si bien los caracteres de control C0 y C1 no fueron nombrados formalmente por el propio estándar Unicode en ese momento, esto chocó con el uso existente de BELL como el nombre de este carácter de control en el software siguiendo las versiones anteriores de UTS # 18 (el estándar Unicode Regular Expressions) , [4] por ejemplo, en Perl . [5] Unicode ahora acepta ALERT y BEL (pero no BELL) como alias formales para el carácter de control, [6] aunque la tabla de códigos todavía enumera BELL como el alias ISO 6429, [7] yse llama al punto de código de la imagen de control correspondienteSÍMBOLO DE CAMPANA. Posteriormente, Perl cambió a usar BELL para el emoji en la versión 5.18. [8]
- ^ La
\e
secuencia de escape'' no forma parte de ISO C ni de muchas otras especificaciones de idioma. Sin embargo, varios compiladores lo entienden, incluido GCC . - ^ No es lo mismo que el Comando del sistema operativo (OSC) en el conjunto de códigos ISO / IEC 6429 C1.
- ^ Deletreada "Syllabication [ sic ]" en el documento ISO-IR-040, junto con "syllabe" que se escribe "syllabe [ sic ]" en la descripción. Se presume que se trata de errores tipográficos.
Referencias
- ^ a b c d e f g ISO / TC 97 / SC 2 (1975). El conjunto de caracteres de control de la ISO 646 (PDF) . ITSCJ / IPSJ . ISO-IR-1.
- ^ a b c d e f g h yo j k IPTC (1995). El formato de mensaje recomendado por IPTC (PDF) (5ª ed.). IPTC TEC 7901.
- ^ a b c d "carácter de fin de transmisión (EOT)" . Estándar federal 1037C . 1996.
- ^ Williamson, Karl. "Re: PRI # 202: Extensiones de NameAliases.txt para Unicode 6.1.0" .
- ^ a b c d e Ken Whistler (20 de julio de 2011). "Alias de nombres formales para caracteres de control, L2 / 11-281" . Consorcio Unicode .
- ^ a b c d "Alias de nombres" . Base de datos de caracteres Unicode . Consorcio Unicode .
- ^ "Controles C0 y latín básico" (PDF) . Consorcio Unicode.
- ^ "nombres de caracteres" . Documentación de programación de Perl .
- ^ ISO / IEC JTC 1 / SC 2 ( 12 de febrero de 1998). Texto final de DIS 8859-10, Tecnología de la información - Conjuntos de caracteres gráficos codificados de un solo byte de 8 bits - Parte 10: Alfabeto latino No. 6 (PDF) . ISO / IEC FDIS 8859-10: 1998, JTC1 / SC2 N2992, WG3 N415.
- ^ "carácter de escape de enlace de datos (DLE)" . Estándar federal 1037C . 1996.
- ^ "Funciones de control de transmisión suplementarias (una extensión de los procedimientos de control de modo básico para sistemas de comunicación de datos)" . Asociación europea de fabricantes de ordenadores . 1972. ECMA-37.
- ^ Wolf, Misha; Whistler, Ken; Wicksteed, Charles; Davis, Mark; Freytag, Asmus; Scherer, Markus (6 de mayo de 2005). "10.1 Evitar valores de bytes de control" . Un esquema de compresión estándar para Unicode . Consorcio Unicode . UTS # 6.
- ^ "¿Cuál es el punto de Ctrl-S?" . Intercambio de pilas Unix y Linux . Consultado el 14 de febrero de 2019 .
- ^ Fox, Brian . "Añadiendo un nuevo nodo a Info" . Información: El sistema de documentación GNU en línea, controlado por menús . Proyecto GNU .
- ^ a b c d e f g "Códigos de función de control" . Especificaciones MARC 21 para estructura de registros, juegos de caracteres y medios de intercambio . Biblioteca del Congreso . 2007-12-04.
- ^ "Tipos incorporados § str.splitlines" . La biblioteca estándar de Python . Fundación de software Python .
- ^ a b ECMA (1994). "7.3: Invocación de elementos de código de juego de caracteres". Estructura del código de caracteres y técnicas de extensión (PDF) (Estándar ECMA) (6ª ed.). pag. 14. ECMA-35.
- ^ Asociación Estadounidense de Normas (1963). Código estándar americano para el intercambio de información: 4. Leyenda . pag. 6. ASA X3.4-1963.
- ^ a b c d Consorcio Unicode (2019). 23.1: Códigos de control (PDF) . El estándar Unicode (12.0.0 ed.). págs. 868–870. ISBN 978-1-936213-22-1.
- ^ a b ECMA (1994). "6.4.2: Conjuntos primarios de funciones de control codificadas". Estructura del código de caracteres y técnicas de extensión (PDF) (Estándar ECMA) (6ª ed.). pag. 11. ECMA-35.
- ^ ECMA (1994). "6.4.3: Conjuntos suplementarios de funciones de control codificadas". Estructura del código de caracteres y técnicas de extensión (PDF) (Estándar ECMA) (6ª ed.). pag. 11. ECMA-35.
- ^ a b c d e f g h yo j k l m Sveriges Standardiseringskommission (1975). Conjunto de control NATS para transmisión de texto de periódicos (PDF) . ITSCJ / IPSJ . ISO-IR-7.
- ^ a b c d e f g h yo j k l m n IPTC (1976). Conjunto de control para la transmisión de textos de periódicos (PDF) . ITSCJ / IPSJ . ISO-IR-26.
- ^ a b UIT (1985). Conjunto primario de funciones de control Teletex (PDF) . ITSCJ / IPSJ . ISO-IR-106.
- ^ Úřad pro normalizaci a měřeni (1987). El conjunto de caracteres de control de ISO 646, con EM reemplazado por SS2 (PDF) . ITSCJ / IPSJ . ISO-IR-140.
- ^ ISO / TC 97 / SC 2 (1977). El conjunto de caracteres de control de ISO 646, con IS4 reemplazado por Single Shift para G2 (SS2) (PDF) . ITSCJ / IPSJ . ISO-IR-36.
- ^ ISO / TC 97 / SC 2 (1982). El conjunto C0 de caracteres de control del estándar japonés JIS C 6225-1979 (PDF) . ITSCJ / IPSJ . ISO-IR-74.
- ^ a b ISO / TC97 / SC2 / WG6 . "Declaración de enlace con ISO / TC97 / SC2 / WG8 e ISO / TC97 / SC18 / WG8" (PDF) . ISO / TC97 / SC2 / WG6 N317.rev.
- ^ Printronix (2012). Manual de referencia del programador de OKI® (PDF) . pag. 26.
- ^ Ewell, Doug (16 de octubre de 2020). "Gráficos de mosaico separados por teletexto" . Archivo de lista de correo Unicode . Consorcio Unicode .
- ^ ECMA / TC 1 (1973). "Breve historia". Juego de caracteres codificados de entrada / salida de 7 bits (PDF) (4ª ed.). ECMA . ECMA-6: 1973.
- ^ a b c ECMA / TC 1 (1971). "8.2: Correspondencia entre el código de 7 bits y un código de 8 bits". Ampliación del juego de caracteres codificados de 7 bits (PDF) (1ª ed.). ECMA . págs. 21-24. ECMA-35: 1971.
- ^ ECMA / TC 1 (1973). "4.2: Caracteres de control específicos". Juego de caracteres codificados de entrada / salida de 7 bits (PDF) (4ª ed.). ECMA . pag. 16. ECMA-6: 1973.
- ^ ECMA / TC 1 (1974). "5: Notas sobre la tabla 1". Juego de caracteres codificados de 8 bits (PDF) (1ª ed.). ECMA . págs. 4-5. ECMA-43: 1974.
- ^ a b c ISO / IEC Registro Internacional de juegos de caracteres codificados para ser utilizado con las secuencias de escape (PDF) , ITSCJ / IPSJ , ISO-IR
- ^ a b c d DIN (15 de julio de 1979). Códigos de control adicionales para uso bibliográfico según la norma alemana DIN 31626 (PDF) . ITSCJ / IPSJ . ISO-IR-40.
- ^ a b c d e f ISO / TC97 / SC2 (1 de octubre de 1983 ). Conjunto de control C1 de ISO 6429: 1983 (PDF) . ITSCJ / IPSJ . ISO-IR-77.
- ^ ECMA / TC 1 (1979). "Breve historia". Funciones de control adicionales para dispositivos de E / S de imágenes de caracteres (PDF) (2ª ed.). ECMA . ECMA-48: 1979.
- ^ a b ECMA / TC 1 (1985). "5.3.8: Conjuntos de 96 caracteres gráficos". Técnicas de extensión de código (PDF) (4ª ed.). ECMA . págs. 17-18. ECMA-35: 1985.
- ^ ECMA / TC 1 (1985). "5.2.1: Uso de funciones de bloqueo-cambio". Técnicas de extensión de código (PDF) (4ª ed.). ECMA . págs. 9-10. ECMA-35: 1985.
- ^ ISO / IEC JTC 1 / SC 2 / WG 3 ( 12 de febrero de 1998). Texto final de DIS 8859-1, conjuntos de caracteres gráficos codificados de un solo byte de 8 bits — Parte 1: Alfabeto latino n.º 1 (PDF) . ISO / IEC FDIS 8859-1: 1998; JTC1 / SC2 / N2988; WG3 / N411.
Este conjunto de caracteres gráficos codificados puede considerarse como una versión de un código de 8 bits según ISO / IEC 2022 o ISO / IEC 4873 en el nivel 1. […] Las posiciones sombreadas en la tabla de códigos corresponden a combinaciones de bits que no representar personajes gráficos. Su uso está fuera del alcance de ISO / IEC 8859; se especifica en otras Normas Internacionales, por ejemplo ISO / IEC 6429.
- ^ "JIS X 02xx 符号" (en japonés).
- ^ a b c d Ken Whistler (5 de octubre de 2015). "Por qué nada desaparece" . Lista de correo Unicode .
- ^ ECMA (1991). Funciones de control para juegos de caracteres codificados . Estándar ECMA-48.
- ^ Lunde, Ken (2008). Procesamiento de información CJKV: Computación china, japonesa, coreana y vietnamita . O'Reilly. pag. 244. ISBN 9780596800925.
- ^ Moy, Edward; Gildea, Stephen; Dickey, Thomas. "Funciones de control de dispositivos" . Secuencias de control de XTerm .
- ^ a b c d e "Tabla de códigos en latín extendido (ANSEL)" . Especificaciones MARC 21 para estructura de registros, juegos de caracteres y medios de intercambio . Biblioteca del Congreso . 2007-12-05.
- ^ Moy, Edward; Gildea, Stephen; Dickey, Thomas. "Comandos del sistema operativo" . Secuencias de control de XTerm .
- ^ Frank da Cruz; Christine Gianone (1997). Utilizando C-Kermit . Prensa digital. pag. 278. ISBN 978-1-55558-164-0.
- ^ "Tratamiento de la información; caracteres de control bibliográfico" . Beuth: publicación de DIN. DIN 31626: 1978-12.
- ^ a b c d e ISO / TC 46 (1 de junio de 1983). Códigos de control adicionales para uso bibliográfico de acuerdo con la Norma Internacional ISO 6630 (PDF) . ITSCJ / IPSJ . ISO-IR-67.
- ^ a b c d e ISO / TC 46 (1 de febrero de 1986). Códigos de control adicionales para uso bibliográfico de acuerdo con la Norma Internacional ISO 6630 (PDF) . ITSCJ / IPSJ . ISO-IR-124.
- ^ "DIN ISO 6630 diciembre de 1997" . Tienda Online de Ediciones AFNOR .
- ^ a b Umamaheswaran, VS (8 de noviembre de 1999). "3.3 Paso 2: Conversión de bytes" . UTF-EBCDIC . Consorcio Unicode . Informe técnico Unicode n. ° 16.
Los 64 caracteres de control […], el carácter ASCII DELETE (U + 007F) […] se asignan respetando las convenciones EBCDIC, como se define en IBM Character Data Representation Architecture, CDRA, con una excepción: el emparejamiento de EBCDIC Line Feed y New Los caracteres de control de línea se intercambian de sus pares predeterminados de CDRA a los caracteres de control de salto de línea ISO / IEC 6429 (U + 000A) y de línea siguiente (U + 0085)
- ^ Steele, Shawn (24 de abril de 1996). cp037_IBMUSCanada a tabla Unicode . Consorcio Microsoft / Unicode .
- El estándar Unicode
- Controles C0 y latín básico
- Controles C1 y suplemento Latin-1
- Imágenes de control
- El estándar Unicode, versión 6.1.0, Capítulo 16: Áreas especiales y caracteres de formato
- Glosario de ATIS Telecom 2007
- De litteris regentibus C1 quaestiones septem o ¿Son legales los caracteres C1 en XHTML 1.0?
- Preguntas frecuentes del W3C I18N: HTML, XHTML, XML y códigos de control
- Registro internacional de juegos de caracteres codificados que se utilizarán con secuencias de escape