Formas de ancho medio y ancho completo

En la informática CJK (chino, japonés y coreano), los caracteres gráficos se clasifican tradicionalmente en ancho completo (en Taiwán y Hong Kong :全形; en CJK:全角) y ancho medio (en Taiwán y Hong Kong :半形; en CJK:半角) caracteres. Con fuentes de ancho fijo , un carácter de ancho medio ocupa la mitad del ancho de un carácter de ancho completo, de ahí el nombre.

Un símbolo del sistema ( cmd.exe ) con localización coreana, que muestra caracteres de ancho medio y ancho completo

Formularios de ancho medio y ancho completo también es el nombre de un bloque Unicode U + FF00 – FFEF, proporcionado para que las codificaciones más antiguas que contienen caracteres de ancho medio y ancho completo puedan traducirse sin pérdidas hacia / desde Unicode.

Razón fundamental

Los caracteres que aparecen tanto en JIS X 0201 (byte único) como en JIS X 0208 / JIS X 0213 (doble byte) tienen formato de ancho medio y ancho completo en Shift JIS .

En los días de la computación en modo texto , los caracteres occidentales normalmente se colocaban en una cuadrícula en la pantalla, a menudo 80 columnas por 24 o 25 líneas. Cada carácter se mostraba como una pequeña matriz de puntos , a menudo de unos 8 píxeles de ancho, y generalmente se usaba un SBCS (conjunto de caracteres de un solo byte) para codificar caracteres de idiomas occidentales.

Por una serie de razones prácticas y estéticas, los caracteres Han deben ser cuadrados, aproximadamente el doble de ancho que estos caracteres SBCS de ancho fijo. Como estos se codificaban típicamente en un DBCS (juego de caracteres de doble byte), esto también significaba que su ancho en la pantalla en una fuente de doble espacio era proporcional a su longitud de bytes. Algunos terminales y programas de edición no podían manejar caracteres de doble byte que comenzaban en columnas impares, solo pares (algunos ni siquiera podían poner caracteres de doble byte y de un byte en la misma línea). Entonces, los conjuntos DBCS generalmente incluían caracteres romanos y dígitos también, para usarlos junto con los caracteres CJK en la misma línea.

Por otro lado, la informática japonesa temprana usaba una página de códigos de un solo byte llamada JIS X 0201 para katakana . Estos se renderizarían con el mismo ancho que los otros caracteres de un solo byte, haciéndolos caracteres kana de medio ancho en lugar de kana proporcionados normalmente. Aunque el estándar JIS X 0201 en sí mismo no especificaba la visualización de medio ancho para katakana, esto se convirtió en la característica visualmente distintiva en Shift JIS entre el JIS X 0201 de un solo byte y el katakana JIS X 0208 de doble byte . Algunas páginas de códigos de IBM utilizaron un tratamiento similar para el jamo coreano , ^[1] basado en el código Hangul de N bytes y su traducción EBCDIC .

En Unicode

Para compatibilidad con conjuntos de caracteres existentes que contenían versiones de ancho medio y ancho completo del mismo carácter, Unicode asignó un solo bloque en U + FF00 – FFEF que contenía los caracteres de "ancho alternativo" necesarios. Esto incluye una versión de ancho completo de todos los caracteres ASCII y algunos signos de puntuación no ASCII como el signo Yen, versiones de ancho medio de katakana y hangul , y versiones de ancho medio de algunos otros símbolos como círculos. Solo se asignaron los caracteres necesarios para un viaje de ida y vuelta sin pérdidas a los conjuntos de caracteres existentes, en lugar de (por ejemplo) hacer una versión de ancho completo de cada carácter con acento latino.

Unicode asigna a cada punto de código una propiedad de "ancho de Asia oriental" . Puede ser: ^[2]

Propiedades de caracteres Unicode basadas en el ancho
Abreviatura	Nombre	Descripción
W	Amplio	Carácter naturalmente amplio, por ejemplo, Hiragana .
N / A	Estrecho	Carácter naturalmente estrecho, por ejemplo, alfabeto latino básico ISO .
F	Ancho completo	Amplia variante con normalización de compatibilidad para caracteres naturalmente estrechos, por ejemplo, escritura latina de ancho completo.
H	Medio ancho	Variante estrecha con normalización de compatibilidad a caracteres naturalmente amplios, p. Ej . Kana de ancho medio . Incluye U + 20A9 ( ₩ ) como excepción.
A	Ambiguo	Caracteres incluidos en códigos DBCS de Asia oriental pero también en códigos SBCS europeos, por ejemplo, alfabeto griego . En consecuencia, el comportamiento a doble espacio puede variar.
norte	Neutral	Caracteres que no aparecen en los códigos DBCS de Asia oriental, por ejemplo, Devanagari .

Los emuladores de terminal pueden usar esta propiedad para decidir si un personaje debe consumir una o dos "columnas" al calcular las pestañas y la posición del cursor.

En OpenType

OpenType tiene las etiquetas de características "fwid", "halt", "hwid" y "vhal" que se utilizan para proporcionar la forma de ancho completo o medio ancho de un carácter. ^{[ cita requerida ]}

Ver también

Unificación Han
Puntuación de Asia oriental
Tamaño em - formularios de ancho completo
Hangul Jamo (bloque Unicode)
Katakana (bloque Unicode)
Escritura latina en Unicode
Alfanuméricos adjuntos : secuencias de viñetas, algunas aparecen como de ancho completo (por ejemplo, ⒈, ⓵, ⑴, ⒜, ⓐ)

Referencias

^ "Demostración de UCI - Explorador de convertidor" . demo.icu-project.org . Consultado el 7 de mayo de 2018 .
^ Lunde, Ken (25 de enero de 2019). "Anexo N ° 11 del estándar Unicode®: ancho de Asia oriental" . Consorcio Unicode .

enlaces externos

Ancho de Asia Oriental Unicode Estándar Anexo # 11

[ibm933-1] "Demostración de UCI - Explorador de convertidor" . demo.icu-project.org . Consultado el 7 de mayo de 2018 .

[uax11-2] Lunde, Ken (25 de enero de 2019). "Anexo N ° 11 del estándar Unicode®: ancho de Asia oriental" . Consorcio Unicode .

[1]