Cambiar JIS

Cambiar JIS
MIME / IANA	Shift_JIS
Alias	MS_Kanji ^[1]
Idioma (s)	Principalmente japonés , pero también admite inglés , ruso
Estándar	JIS X 0208: 1997 Apéndice 1
Clasificación	ISO 646 extendido , ^[a] codificación de ancho variable , codificación CJK
Se extiende	Formato JIS X 0201 de 8 bits
Transforma / Codifica	JIS X 0208
Sucesor	Shift_JIS-2004 (JIS) Windows-31J (web)
^ No en el sentido más estricto del término, ya que los bytes ASCII pueden aparecer como bytes de seguimiento.
v t mi

Shift JIS ( Shift Japanese Industrial Standards , también SJIS , nombre MIME Shift_JIS ) es una codificación de caracteres para el idioma japonés , desarrollada originalmente por una empresa japonesa llamada ASCII Corporation en conjunto con Microsoft y estandarizada como JIS X 0208 Apéndice 1 . En febrero de 2021 ^[actualizar], el 0,1% de todas las páginas web utilizaban Shift JIS, una disminución del 1,3% en julio de 2014. ^[2]

Shift JIS es la segunda codificación de caracteres más popular para sitios web japoneses, utilizada por el 6,3% de los sitios en el dominio .jp. UTF-8 es utilizado por el 92% de los sitios web japoneses. ^[3]^[4]

Descripción [ editar ]

Shift JIS se basa en juegos de caracteres definidos en la norma JIS normas JIS X 0201 : 1997 (para los caracteres de un byte ) y JIS X 0208 : 1997 (para los caracteres de doble byte ). Los bytes iniciales para los caracteres de doble byte se "desplazan" alrededor de los 64 caracteres katakana de medio ancho en el rango de un byte 0xA1 a 0xDF . Los caracteres de un solo byte 0 x 00 a 0x7F coinciden con el ASCII codificación, a excepción de un yen signo (U + 00A5) en 0x5C y un overline(U + 203E) en 0x7E en lugar de la barra invertida y la tilde del juego de caracteres ASCII, respectivamente. Los caracteres de un solo byte de 0xA1 a 0xDF se asignan a los caracteres katakana de ancho medio que se encuentran en JIS X 0201 .

HTML escrito en Shift JIS aún se puede interpretar hasta cierto punto cuando se etiqueta incorrectamente como ASCII, y cuando la etiqueta charset está en la parte superior del documento, ya que el inicio y el final importantes de las etiquetas y campos HTML, <,>, /, ", &,; están codificados por los mismos bytes individuales que en ASCII, y esos bytes no aparecerán en secuencias de dos bytes. Shift JIS se puede usar en cadenas literales en lenguajes de programación como C , pero algunas cosas deben En primer lugar, que el carácter de escape 0x5C, normalmente barra invertida , es el signo yen de ancho medio (¥) en Shift JIS. Si el programador es consciente de esto, sería posible usar (donde ハローワールド es Hello , mundoprintf("ハローワールド¥n");y ¥ n es una secuencia de escape), asumiendo que el sistema de E / S admite la salida Shift JIS . En segundo lugar, el byte 0x5C causará problemas cuando aparezca como segundo byte de un carácter de dos bytes, porque se interpretará como una secuencia de escape, lo que estropeará la interpretación, a menos que le siga otro 0x5C.

Shift JIS requiere un medio limpio de 8 bits para la transmisión. Es totalmente compatible con versiones anteriores de la codificación de un solo byte JIS X 0201 heredado , lo que significa que admite katakana de ancho medio y que cualquier cadena JIS X 0201 válida también es una cadena Shift JIS válida. Sin embargo, para caracteres de dos bytes, Shift JIS solo garantiza que el primer byte será el bit alto (0x80–0xFF); el valor del segundo byte puede ser alto o bajo. Aparición de valores de bytes 0x40–0x7E como segundos bytes de palabras de códigodificulta la detección confiable de Shift JIS, porque se utilizan los mismos códigos para los caracteres ASCII. Dado que el mismo valor de byte puede ser el primero o el segundo byte, las búsquedas de cadenas son difíciles, ya que las búsquedas simples pueden coincidir con el segundo byte de un carácter y el primer byte del siguiente, que no es un carácter real. Los algoritmos de búsqueda de cadenas deben estar hechos a medida para Shift JIS .

Por otro lado, el formato de 8 bits de la competencia EUC-JP , que no admite katakana de ancho medio de un solo byte, permite una conversión mucho más limpia y directa hacia y desde los puntos de código JIS X 0208 , ya que todos los bytes de conjuntos de bits altos son partes de un carácter de doble byte y todos los códigos del rango ASCII representan caracteres de un solo byte.

Unicode tampoco tiene algunas de las desventajas de Shift JIS. Unicode no tiene versiones ambiguas: una sola organización asigna nuevos caracteres a lugares no utilizados, mientras que las áreas de uso privado están claramente designadas, nunca se usarán para caracteres estándar y rara vez se necesitan debido a la naturaleza integral de Unicode. Para Shift JIS, las empresas trabajan en paralelo. Unicode codificado en UTF-8 es retrocompatible con ASCII también para 0x5C, y no tiene el problema de búsqueda de cadenas.

Para una secuencia JIS de doble byte , ^[5] la transformación a los bytes Shift JIS correspondientes es: ${\ Displaystyle j_ {1} j_ {2}}$ ${\ Displaystyle s_ {1} s_ {2}}$

s_{1}={\begin{cases}\left\lfloor {\frac {j_{1}+1}{2}}\right\rfloor +112&{\mbox{if }}33\leq j_{1}\leq 94\\\left\lfloor {\frac {j_{1}+1}{2}}\right\rfloor +176&{\mbox{if }}95\leq j_{1}\leq 126\end{cases}}

s_{2}={\begin{cases}j_{2}+31+\left\lfloor {\frac {j_{2}}{96}}\right\rfloor &{\mbox{if }}j_{1}{\mbox{ is odd }}\\j_{2}+126&{\mbox{if }}j_{1}{\mbox{ is even }}\end{cases}}

Varias versiones [ editar ]

Diagrama de Euler que compara repertorios de JIS X 0208 , JIS X 0212 , JIS X 0213 , Windows-31J , el repertorio estándar de Microsoft y Unicode

Relación entre las variantes Shift_JIS en la PC y las codificaciones relacionadas, incluidas las intersecciones y otros subconjuntos. Los nombres dados son descriptivos.

Existen muchas versiones diferentes de Shift JIS. Hay dos áreas de expansión:

En primer lugar, JIS X 0208 no llena todo el espacio 94 × 94 codificado para él en Shift JIS, por lo tanto, hay espacio para más caracteres aquí; estas son realmente extensiones de JIS X 0208 en lugar de Shift JIS en sí.

En segundo lugar, Shift JIS tiene más espacio de codificación que el necesario para JIS X 0201 y JIS X 0208 (ver § Mapa de bytes de Shift JIS a continuación), y este espacio puede y se usa para aún más caracteres.

Windows-932 / Windows-31J [ editar ]

La extensión más popular es la página de códigos de Windows 932 (un CCSID también utilizado para la extensión de IBM para Shift JIS ), que está registrada en IANA como "Windows-31J", ^{[1] por} separado de Shift JIS. Esto fue popularizado por Microsoft, aunque Microsoft mismo no reconoce el nombre de Windows-31J y en su lugar llama a esa variación "shift_jis". ^[6]^[7] La página de códigos 943 de IBM incluye los mismos códigos de doble byte que la página de códigos 932 de Microsoft, mientras que la página de códigos 932 de IBM incluye menos extensiones (excluyendo las que Microsoft incorpora de NEC) y conserva el orden de los caracteres de la edición de 1978 de JIS X 0208,en lugar de implementar los intercambios de variantes de personajesdel estándar de 1983. ^[8]

Windows-31J asigna 0x5C a U + 005C REVERSE SOLIDUS (la barra invertida ) y 0x7E a U + 007E TILDE , siguiendo US-ASCII . ^[9] Sin embargo, la mayoría de las fuentes localizadas en Windows muestran U + 005C como un signo de Yen para compatibilidad con JIS X 0201 . ^[10]^[11] Incluye varias extensiones, a saber, " caracteres especiales NEC (fila 13), selección NEC de extensiones IBM (filas 89 a 92) y extensiones IBM (filas 115 a 119)", ^[1] además de dejando algo de espacio de codificación a un lado para la definición del usuario final . ^[12]

La página de códigos de Windows 932 es la versión utilizada en el estándar de codificación W3C / WHATWG utilizado por HTML5 , que incluye las "extensiones anteriormente propietarias de IBM y NEC" de Windows-31J en su tabla para JIS X 0208, ^[13] y también trata la etiqueta "shift_jis" indistintamente con "windows-31j" con la intención de ser "compatible con el contenido implementado". ^[14]

MacJapanese [ editar ]

La versión de Shift-JIS que se originó en el Mac OS clásico (conocido como x-mac-japanese, página de códigos 10001 ^[6] o MacJapanese) asignó la tilde a 0x7E (siguiendo US-ASCII , no JIS X 0201 que asigna el overline aquí), pero el Yen firmar a 0x5C (como en JIS X 0201 y Shift JIS estándar ). También extendió JIS X 0201 asignando la barra invertida a 0x80 (correspondiente a 0x5C en US-ASCII), el espacio no divisible a 0xA0, el signo de derechos de autor a 0xFD, el símbolo de marca registradaa 0xFE y la elipsis horizontal de ancho medio a 0xFF. También agregó caracteres extendidos de doble byte; incluyendo 53 formas de presentación verticales en los Shift_JIS gama 0xEB41-0xED96, en 84 filas JIS abajo de sus formas canónicas, y 260 caracteres especiales en los Shift_JIS van 0x8540-0x886D. ^[15] Esta variante se introdujo en KanjiTalk versión 7. ^[16]

Sin embargo, ciertos tipos de letra de Mac OS usaban otras variantes. Sai Mincho y Chu Gothic usan una variante " PostScript " de MacJapanese, que incluía formas de presentación verticales adicionales y un conjunto diferente de caracteres especiales extendidos, basados en los caracteres especiales de NEC , algunos de los cuales solo estaban disponibles en las versiones de impresión de las fuentes. ^[15] Las versiones anteriores de Maru Gothic y Hon Mincho del Sistema 7.1 codificaron formas de presentación vertical en 10 (no 84) filas JIS por debajo de sus formas canónicas, y no incluían las extensiones de caracteres especiales, esto se cambió posteriormente. ^[15]^[17]La variante típica utilizada con KanjiTalk versión 6 colocó los formularios de presentación vertical 10 filas hacia abajo, y también usó el diseño de extensión NEC para la fila 13. ^[18]

Shift_JISx0213 y Shift_JIS-2004 [ editar ]

Shift_JIS-2004
Alias	Shift_JISx0213
Idioma (s)	Japonés , Ainu , Inglés , Ruso
Estándar	JIS X 0213
Se extiende	Shift_JIS (1997), JIS X 0201 (8 bits)
Transforma / Codifica	JIS X 0213
Precedido por	Shift_JIS (1997)
v t mi

El estándar JIS X 0213 más nuevo define una variante extendida de Shift_JIS denominada Shift_JISx0213 (en una versión anterior del estándar) o Shift_JIS-2004 . Es un superconjunto de Shift JIS estándar. ^[19]

Para representar las filas asignadas en ambos planos de JIS X 0213, Shift_JIS-2004 utiliza el siguiente método de mapeo de puntos de código. ^[20]

s_{1}={\begin{cases}\left\lfloor {\frac {k+257}{2}}\right\rfloor &{\mbox{if }}m=1{\mbox{ and }}1\leq k\leq 62\\\left\lfloor {\frac {k+385}{2}}\right\rfloor &{\mbox{if }}m=1{\mbox{ and }}63\leq k\leq 94\\\left\lfloor {\frac {k+479}{2}}\right\rfloor -\left\lfloor {\frac {k}{8}}\right\rfloor \times 3&{\mbox{if }}m=2{\mbox{ and }}k=1,3,4,5,8,12,13,14,15\\\left\lfloor {\frac {k+411}{2}}\right\rfloor &{\mbox{if }}m=2{\mbox{ and }}78\leq k\leq 94\end{cases}}

s_{2}={\begin{cases}t+63&{\mbox{if }}k{\mbox{ is odd and }}1\leq t\leq 63\\t+64&{\mbox{if }}k{\mbox{ is odd and }}64\leq t\leq 94\\t+158&{\mbox{if }}k{\mbox{ is even }}\end{cases}}

En lo anterior, es una secuencia Shift_JIS-2004 de dos bytes, es el número de plano (面, men , surface) (1 o 2), es el número de fila (区, ku , ward) (1-94) y es el número de celda (点, diez , punto) (1-94). Los ku y diez números son equivalentes a y respectivamente, donde es una secuencia JIS de dos bytes referencia a un plano dado. $s_{1}s_{2}$ $m$ $k$ $t$ $j_{1}-32$ $j_{2}-32$ $j_{1}j_{2}$

El mismo conjunto de caracteres puede ser representado por EUC-JIS-2004 , la contraparte basada en EUC-JP.

Algunas de las adiciones chocan con las extensiones populares de Shift JIS, incluida la página de códigos 932 de Windows que se usa en los estándares web (ver más arriba ). Por ejemplo, compare el plano 1, fila 89 en JIS X 0213 (comenzando 硃, 硎, 硏…) ^[21] con la fila 89 en la variante JIS X 0208 definida en los estándares web (comenzando con 纊, 褜, 鍈…). ^[22] Además, algunos de los caracteres se asignan a caracteres Unicode más allá del BMP.

Otras variantes [ editar ]

Los operadores de telefonía móvil japoneses utilizan el espacio con bytes iniciales 0xF5 a 0xF9 (más allá de la región utilizada para JIS X 0208) para pictografías que se utilizan en el correo electrónico . ^[23] KDDI va más allá y define cientos más en el espacio con los bytes iniciales 0xF3 y 0xF4. ^[24]

Más allá de esto, se han realizado numerosas variaciones menores en Shift JIS, con caracteres individuales alterados aquí y allá. La mayoría de estas extensiones y variantes no tienen registro IANA , por lo que existe un gran margen de confusión si se utilizan las extensiones.

Una variante es la que debe usarse si se desea codificar Shift JIS en cadenas de código fuente de C y lenguajes de programación similares. Esta variante duplica el byte 0x5C si aparece como segundo byte de un carácter de dos bytes, pero no si aparece como un solo carácter "¥" (ASCII: "\"), porque 0x5C es el comienzo de una secuencia de escape . La mejor manera de manejar esto es un editor especial que codifica Shift JIS de esta manera.

Cambiar mapa de bytes JIS [ editar ]

Como se define en JIS X 0208: 1997 [ editar ]

La tabla siguiente proporciona el significado detallado de cada byte en una secuencia codificada en Shift JIS estándar (conforme a JIS X 0208: 1997 ).

Primer byte
	0	1	2	3	4	5	6	7	8	9	A	B	C	D	mi	F
0	␀	␁	␂	␃	␄	␅	␆	␇	␈	␉	␊	␋	␌	␍	␎	␏
1	␐	␑	␒	␓	␔	␕	␖	␗	␘	␙	␚	␛	␜	␝	␞	␟
2	␠	!	"	#	PS	%	Y	'	(	)	*	+	,	-	.	/
3	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
4	@	A	B	C	D	mi	F	GRAMO	H	I	J	K	L	METRO	norte	O
5	PAG	Q	R	S	T	U	V	W	X	Y	Z	[	¥	]	^	_
6	'	a	B	C	D	mi	F	gramo	h	I	j	k	l	metro	norte	o
7	pag	q	r	s	t	tu	v	w	X	y	z	{	\|	}	‾	␡
8
9
A		｡	｢	｣	､	･	ｦ	ｧ	ｨ	ｩ	ｪ	ｫ	ｬ	ｭ	ｮ	ｯ
B	ｰ	ｱ	ｲ	ｳ	ｴ	ｵ	ｶ	ｷ	ｸ	ｹ	ｺ	ｻ	ｼ	ｽ	ｾ	ｿ
C	ﾀ	ﾁ	ﾂ	ﾃ	ﾄ	ﾅ	ﾆ	ﾇ	ﾈ	ﾉ	ﾊ	ﾋ	ﾌ	ﾍ	ﾎ	ﾏ
D	ﾐ	ﾑ	ﾒ	ﾓ	ﾔ	ﾕ	ﾖ	ﾗ	ﾘ	ﾙ	ﾚ	ﾛ	ﾜ	ﾝ	ﾞ	ﾟ
mi
F

Segundo byte
	0	1	2	3	4	5	6	7	8	9	A	B	C	D	mi	F
0
1
2
3
4
5
6
7
8
9
A
B
C
D
mi
F

	Carácter ASCII no imprimible
	Carácter ASCII inalterado
	Carácter ASCII modificado
	Katakana de ancho medio de un solo byte
	Primer byte de un carácter JIS X 0208 de doble byte
	No se utiliza como primer byte de un carácter JIS X 0208
	Segundo byte de un carácter JIS X 0208 de doble byte cuya primera mitad de la secuencia JIS era impar
	Segundo byte de un carácter JIS X 0208 de doble byte cuya primera mitad de la secuencia JIS era par
	No se utiliza como segundo byte de un carácter JIS X 0208

Con extensiones de proveedor o JIS X 0213 [ editar ]

Algunos de los bytes que no se utilizan para códigos de un solo byte o bytes iniciales en JIS X 0208: 1997 son utilizados por ciertas extensiones, lo que da como resultado el diseño que se detalla en el cuadro siguiente.

Primer byte
	0	1	2	3	4	5	6	7	8	9	A	B	C	D	mi	F
0	␀	␁	␂	␃	␄	␅	␆	␇	␈	␉	␊	␋	␌	␍	␎	␏
1	␐	␑	␒	␓	␔	␕	␖	␗	␘	␙	␚	␛	␜	␝	␞	␟
2	␠	!	"	#	PS	%	Y	'	(	)	*	+	,	-	.	/
3	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
4	@	A	B	C	D	mi	F	GRAMO	H	I	J	K	L	METRO	norte	O
5	PAG	Q	R	S	T	U	V	W	X	Y	Z	[	¥	]	^	_
6	'	a	B	C	D	mi	F	gramo	h	I	j	k	l	metro	norte	o
7	pag	q	r	s	t	tu	v	w	X	y	z	{	\|	}	‾	␡
8
9
A		｡	｢	｣	､	･	ｦ	ｧ	ｨ	ｩ	ｪ	ｫ	ｬ	ｭ	ｮ	ｯ
B	ｰ	ｱ	ｲ	ｳ	ｴ	ｵ	ｶ	ｷ	ｸ	ｹ	ｺ	ｻ	ｼ	ｽ	ｾ	ｿ
C	ﾀ	ﾁ	ﾂ	ﾃ	ﾄ	ﾅ	ﾆ	ﾇ	ﾈ	ﾉ	ﾊ	ﾋ	ﾌ	ﾍ	ﾎ	ﾏ
D	ﾐ	ﾑ	ﾒ	ﾓ	ﾔ	ﾕ	ﾖ	ﾗ	ﾘ	ﾙ	ﾚ	ﾛ	ﾜ	ﾝ	ﾞ	ﾟ
mi
F

Segundo byte
	0	1	2	3	4	5	6	7	8	9	A	B	C	D	mi	F
0
1
2
3
4
5
6
7
8
9
A
B
C
D
mi
F

	Carácter ASCII no imprimible
	Carácter ASCII inalterado
	Carácter ASCII modificado
	Katakana de ancho medio de un solo byte
	Primer byte de un carácter de doble byte, utilizado por JIS X 0208 (y por extensiones como JIS X 0213 plano 1)
	Primer byte de un carácter de doble byte, no asignado en JIS X 0208 pero utilizado por JIS X 0213 plano 1 o por extensiones de proveedor
	Primer byte de un carácter de doble byte más allá de JIS X 0208, utilizado para el plano 2 de JIS X 0213 o para extensiones no relacionadas
	No utilizado como primer byte, utilizado por algunas extensiones de un solo byte
	Segundo byte de un carácter de doble byte cuya primera mitad de la secuencia JIS era impar
	Segundo byte de un carácter de doble byte cuya primera mitad de la secuencia JIS era par
	No se utiliza como segundo byte de un carácter de doble byte

Ver también [ editar ]

Lengua japonesa y computadoras
Página de códigos de Microsoft 932
Mojibake
Cambiar el arte de JIS

Referencias [ editar ]

^ a b c "Juegos de caracteres" . IANA.
^ "Tendencias históricas en el uso de codificaciones de caracteres para sitios web, febrero de 2021" . w3techs.com . Consultado el 11 de febrero de 2021 .
^ "Distribución de codificaciones de caracteres entre sitios web que usan .jp" . w3techs.com . Consultado el 27 de abril de 2021 .
^ "Distribución de codificaciones de caracteres entre sitios web que usan japonés" . w3techs.com . Consultado el 27 de abril de 2021 .
^ j ₁ y j ₂ están cada uno en el rango de 33 (0x21) a 126 (0x7e) inclusive (es decir, valores de caracteres de 7 bits excluyendo los caracteres de control (0–31 (0x1f) y 127 (0x7f)) y espacio)
^ a b "Propiedad Encoding.WindowsCodePage - .NET Framework (versión actual)" . MSDN . Microsoft.
^ "Identificadores de página de códigos" . Centro de desarrollo de Windows . Microsoft.
^ "IBM-943 e IBM-932" . Centro de conocimiento de IBM . IBM.
^ "CP932.TXT" . Consorcio Unicode.
^ "3.1.1 Detalles de problemas" . Problemas y soluciones para Unicode y caracteres definidos por el usuario / proveedor . El Grupo Abierto de Japón. Archivado desde el original el 3 de febrero de 1999.
↑ Kaplan, Michael S. (17 de septiembre de 2005). "¿Cuándo una barra invertida no es una barra invertida?" .
↑ Kaplan, Michael S (26 de mayo de 2007). "La PUA fuera de Unicode" . Ordenarlo todo .
^ "5. Índices (§ Índice jis0208)" . Estándar de codificación . WHATWG.
^ "4.2. Nombres y etiquetas" . Estándar de codificación . WHATWG.
^ a b c "JAPANESE.TXT: Mapa (versión externa) de la codificación japonesa de Mac OS a Unicode 2.1 y posterior" . Apple Computer, Inc .; Consorcio Unicode.
↑ Lunde, Ken (21 de marzo de 2019). "Una breve historia de las ligaduras de nombres de época de Japón" . Blog de tipo CJK . Adobe Inc .
^ "Variantes de codificación para MacJapanese" . Documentación para desarrolladores de Apple . Manzana.
^ Lunde, Ken (2008). "Apéndice E: Estándares del juego de caracteres del proveedor" (PDF) . Procesamiento de información CJKV . O'Reilly Media . ISBN 9780596514471.
^ "Tablas de asignación de código JIS X 0213" . x0213.org.
^ "JIS X 0213 の代表的な符号化方式 § Shift_JIS-2004" (en japonés). Los números hexadecimales de la fuente se han convertido a decimales para su visualización.
^ Comité japonés de normas industriales (13 de abril de 2004). Juego de caracteres gráficos japoneses para el intercambio de información, plano 1 (PDF) . ITSCJ / IPSJ . ISO-IR -233.
^ "Visualización de índice jis0208" . Estándar de codificación . WHATWG.
^ "Emoji original de DoCoMo" . FileFormat.info.
^ "Emoji original de KDDI" . FileFormat.info.

Enlaces externos [ editar ]

Shift-JIS Kanji Table : una tabla de la parte no ASCII del conjunto de códigos
"Página de códigos de Windows 932" . Microsoft . 1 de mayo de 2005. Archivado desde el original el 7 de marzo de 2008. - Definición de Microsoft
Formas de Shift-JIS en ICU ( Componentes internacionales para Unicode )
- ibm-942 (sjis78)
- ibm-943 (contiene la asignación \ u00A5 ↔ \ x5C)
- Shift JIS (contiene el mapeo \ u005C ↔ \ x5C)

[2] No en el sentido más estricto del término, ya que los bytes ASCII pueden aparecer como bytes de seguimiento.

[iana31j-1] "Juegos de caracteres" . IANA.

[3] "Tendencias históricas en el uso de codificaciones de caracteres para sitios web, febrero de 2021" . w3techs.com . Consultado el 11 de febrero de 2021 .

[4] "Distribución de codificaciones de caracteres entre sitios web que usan .jp" . w3techs.com . Consultado el 27 de abril de 2021 .

[5] "Distribución de codificaciones de caracteres entre sitios web que usan japonés" . w3techs.com . Consultado el 27 de abril de 2021 .

[6] ₁ y j ₂ están cada uno en el rango de 33 (0x21) a 126 (0x7e) inclusive (es decir, valores de caracteres de 7 bits excluyendo los caracteres de control (0–31 (0x1f) y 127 (0x7f)) y espacio)

[msdnlabels-7] "Propiedad Encoding.WindowsCodePage - .NET Framework (versión actual)" . MSDN . Microsoft.

[8] "Identificadores de página de códigos" . Centro de desarrollo de Windows . Microsoft.

[ibm932v943-9] "IBM-943 e IBM-932" . Centro de conocimiento de IBM . IBM.

[10] "CP932.TXT" . Consorcio Unicode.

[11] "3.1.1 Detalles de problemas" . Problemas y soluciones para Unicode y caracteres definidos por el usuario / proveedor . El Grupo Abierto de Japón. Archivado desde el original el 3 de febrero de 1999.

[kaplan-12] Kaplan, Michael S. (17 de septiembre de 2005). "¿Cuándo una barra invertida no es una barra invertida?" .

[13] Kaplan, Michael S (26 de mayo de 2007). "La PUA fuera de Unicode" . Ordenarlo todo .

[14] "5. Índices (§ Índice jis0208)" . Estándar de codificación . WHATWG.

[15] "4.2. Nombres y etiquetas" . Estándar de codificación . WHATWG.

[macjapanese-16] "JAPANESE.TXT: Mapa (versión externa) de la codificación japonesa de Mac OS a Unicode 2.1 y posterior" . Apple Computer, Inc .; Consorcio Unicode.

[lundenec13-17] Lunde, Ken (21 de marzo de 2019). "Una breve historia de las ligaduras de nombres de época de Japón" . Blog de tipo CJK . Adobe Inc .

[18] "Variantes de codificación para MacJapanese" . Documentación para desarrolladores de Apple . Manzana.

[19] Lunde, Ken (2008). "Apéndice E: Estándares del juego de caracteres del proveedor" (PDF) . Procesamiento de información CJKV . O'Reilly Media . ISBN 9780596514471.

[x0213org-20] "Tablas de asignación de código JIS X 0213" . x0213.org.

[21] "JIS X 0213 の代表的な符号化方式 § Shift_JIS-2004" (en japonés). Los números hexadecimales de la fuente se han convertido a decimales para su visualización.

[22] Comité japonés de normas industriales (13 de abril de 2004). Juego de caracteres gráficos japoneses para el intercambio de información, plano 1 (PDF) . ITSCJ / IPSJ . ISO-IR -233.

[23] "Visualización de índice jis0208" . Estándar de codificación . WHATWG.

[24] "Emoji original de DoCoMo" . FileFormat.info.

[25] "Emoji original de KDDI" . FileFormat.info.

[1]

vtmiCodificaciones de caracteres
Telecomunicaciones tempranas	Código de telégrafo Aguja morse No latino Wabun / Kana chino cirílico coreano Baudot y Murray FIELDATA ASCII ISO / IEC 646 BCDIC 353 355 357 358 359 360 EBCDIC Teletex y videotex / teletexto ISO / IEC 6937 / ITU T.51 UIT T.61 UIT T.101 Teletexto del sistema mundial antecedentes conjuntos
ISO / IEC 8859	Partes aprobadas -1 (Europa occidental) -2 (Europa Central) -3 (maltés / esperanto) -4 (norte de Europa) -5 (cirílico) -6 (árabe) -7 (griego) -8 (hebreo) -9 (turco) -10 (nórdico) -11 (tailandés) -13 (Báltico) -14 (celta) -15 (Nueva Europa Occidental) -16 (rumano) Partes abandonadas -12 (Devanagari) Propuesto pero no aprobado ISO-IR-111 (KOI-8 cirílico) ISO-IR-197 (sámi) Proyecto francés / holandés / turco Adaptaciones ISO-IR-182 (galés) ISO-IR-200 (cirílico de Barents) ISO-IR-201 (cirílico Volga) CP922 (occidental y estonio) CP1124 (cirílico ucraniano)
Uso bibliográfico	MARC-8 ANSEL CCCII / EACC ISO 5426 / 5426-2 / 5.427 / 5.428 / 6.438 / 6,861 / 6,862 / 10585 /10586/10754 / 11.822 mil
Estándares nacionales	ArmSCII BraSCII CNS 11643 ELOT 927 GOST 10859 GB 2312 GB 12052 GB 18030 HKSCS ES 434 ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1284 LST 1564 LST 1590-1 LST 1590-2 LST 1590-3 LST 1590-4 PASCII RUSCII SI 960 TIS-620 TSCII VISCII VSCII YUSCII
ISO / IEC 2022	7 bits CN CN-EXT JP JP-EXT JP-1 JP-2 JP-3 KR ISO / IEC 4873 ISO / IEC 8859 ISO / IEC 10367 Código Unix extendido / EUC CN KR JP TW
Páginas de códigos de Mac OS ("scripts")	armenio Arábica Cirílico de Barents céltico CentEuro ChineseSimp / EUC-CN ChineseTrad / Big5 croata cirílico Devanagari / ISCII Dingbats Farsi (persa) gaélico georgiano griego Gujarati / ISCII Gurmukhi / ISCII hebreo Islandia Inuit Japonés / Shift JIS Teclado Coreano / EUC-KR Latín (Kermit) Maltés / esperanto Ogham / IS 434 romano rumano Sámi Símbolo Tailandés / TIS-620 turco Cirílico turco ucranio VT100
Páginas de códigos de DOS	100 111 112 113 151 152 161 162 163 164 165 166 210 220 301 437 449 489 620 667 668 707 708 709 710 711 714 715 720 721 737 768 770 771 772 773 774 775 776 777 778 790 850 851 852 853 854 855 / 872 856 857 858 859 860 861 862 863 864 865 866 / 808 867 868 869 874 / 1161 / 1162 876 877 878 881 882 883 884 885 891 895 896 897 898 899 900 903 904 906 907 909 910 911 926 927 928 929 932 934 936 938 941 942 943 944 946 947 948 949 950/1370 951 966 991 1034 1039 1040 1041 1042 1043 1044 1046 1086 1088 1092 1093 1098 1108 1109 1114 1115 1116 1117 1118 1119 1125 / 848 1126 1127 1131 / 849 1139 1167 1168 1300 1351 1361 1362 1363 1372 1373 1374 1375 1380 1381 1385 1386 1391 1392 1393 1394 3012 3021 3843 3844 3845 3846 3847 3848 30000 30001 30002 30003 30004 30005 30006 30007 30008 30009 30010 30011 30012 30013 30014 30015 30016 30017 30018 30019 30020 30021 30022 30023 30024 30025 30026 30027 30028 30029 30030 30031 30032 30033 30034 30039 30040 58152 58210 58335 59234 59829 60258 60853 61282 62306 CS Indic CSX Indic CSX + Indic CWI-2 Sistema de Irán Kamenický KOI8 Mazovia MIK
Páginas de códigos de IBM AIX	367 371 806 813 819 895 896 912 913 914 915 916 919 920 921 / 901 922 / 902 923 952 953 954 955 956 957 958 959 960 961 963 964 965 970 971 1004 1006 1008 1009 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1029 1036 1089 1111 1124 1129 / 1163 1133 1350 1382 1383
Páginas de códigos de IBM para codificaciones de otros proveedores	Apple Macintosh 1275 1280 1281 1282 1283 1284 1285 1286 Adobe 1038 1276 1277 DIC 1020 1021 1023 1090 1100 1101 1102 1103 1104 1105 1106 1107 1287 1288 HP 1050 1051 1052 1053 1054 1055 1056 1057 1058
Páginas de códigos de Windows	CER-GS 874 / 1.162 mil ( TIS-620 ) 932 / 943 ( JIS Shift ) 936 / 1 386 ( GBK ) 950 / 1.370 ( Big5 ) 949 / 1363 ( EUC-KR ) 1169 1174 Latín-8 extendido 1200 ( UTF-16LE ) 1201 ( UTF-16BE ) 1250 1251 1252 1253 1254 1255 1256 1257 1258 1261 1270 54936 (GB18030) armenio Cirílico + finlandés Cirílico + Francés Cirílico + Alemán Griego politónico 65001 ( UTF-8 )
Páginas de códigos de Microsoft para codificaciones de otros proveedores	Apple Macintosh 10000 10001 10002 10003 10004 10005 10006 10007 10008 10010 10017 10021 10029 10079 10081 10082
Páginas de códigos EBCDIC	37 390 391 392 393 394 395 435 829 834 835 837 839 881 882 883 884 885 886 887 888 889 890 931 933 / 1364 935 / 1388 937 / 1371 939 / 1399 1001 1003 1005 1007 1024 1027 1028 1030 1031 1032 1033 1037 1068 1071 1073 1074 1075 1076 1077 1078 1080 1082 1083 1085 1087 1091 1136 1150 1151 1152 1278 1279 1303 1364 1376 1377
Terminales DEC ( VTx )	Multinacional (MCS) Reemplazo nacional (NRCS) Franco canadiense suizo Español Reino Unido holandés finlandés francés Noruego y danés sueco Noruego y danés (alternativo) Griego de 8 bits Turco de 8 bits Hebreo de 7 bits Hebreo de 8 bits Gráficos especiales Técnico (TCS)
Plataforma específica	Bellota Estándar de Adobe Adobe Latin 1 CPC de Amstrad Apple I Manzana II Manzana III ATASCII Atari ST BICS Calculadoras casio Centros para el Control y la Prevención de Enfermedades Compucolor II CP / M + DEC RADIX 50 DEC MCS / NRCS DG Internacional ELWRO-Junior FIELDATA JOYA GEOS GSM 03.38 Extensión HP Roman HP Roman-8 HP Roman-9 HP FOCAL HP RPL IBM SQUOZE LICS LMBCS Acuario Mattel Minitel MSX NEC APC Siguiente OricSCII PCW PETSCII Sega SC-3000 Calculadoras afiladas Sharp MZ Sinclair QL Teletexto Calculadoras de TI TRS-80 Ventura Internacional Símbolo de Ventura WISCII XCCS ZX80 ZX81 Espectro ZX
Unicode / ISO / IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 ( UTF-16LE / UTF-16BE ) / UCS-2 UTF-32 ( UTF-32LE / UTF-32BE ) / UCS-4 UTF-EBCDIC GB 18030 BOCU-1 CESU-8 SCSU
Sistema de composición tipográfica TeX	corcho IL1 IL2 IL3 L7X LGR LY1 OML OMS OMX OT1 OT2 OT3 OT4 PL0 QX T2A T2B T2C DT2 T3 T4 T5 TS1 TS3 U X2
Páginas de códigos misceláneos	ABICOMP APL 293 310 (Escape gráfico) 351 (GDDM) 907 (OEM) ISO-IR-68 ARIB STD-B24 HZ IEC-P27-1 INIS 7 bits 8 bits cirílico ISO-IR-169 ISO 2033 Johab Mojikyō SEASCII Stanford / ITS TACE16 TRON UTF-5 UTF-6 WTF-8
Juegos de caracteres de control y no imprimibles	Morse prosigna Códigos de control C0 y C1 ISO / IEC 6429 / ANSI X3.64 / ECMA-48 / JIS X 0211 ISO 6630 DIN 31626 JIS X 0207 UIT T.101 C0 C1 Códigos de control EBCDIC Caracteres de control, formato y separador Unicode Caracteres de espacio en blanco
Temas relacionados	Página de código Página de códigos de Windows CCSID Codificaciones de caracteres en HTML Detección de juego de caracteres Unificación Han Hardware Mojibake
Conjuntos de caracteres