De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

KS X 1001 , " Código para el intercambio de información (Hangul y Hanja) ", [a] [1] anteriormente llamado KS C 5601 , es un estándar de juego de caracteres codificado de Corea del Sur para representar caracteres hangul y hanja en una computadora.

KS X 1001 está codificada por el legado más común (pre- Unicode ) la codificación de caracteres para coreana , incluyendo EUC-KR y Microsoft Unified Código Hangul (UHC). Contiene sílabas Hangul coreanas , ideogramas CJK (Hanja), griego , cirílico , japonés ( Hiragana y Katakana ) y algunos otros caracteres.

KS X 1001 está organizado como una tabla de 94 × 94, siguiendo la estructura de palabras de código de 2 bytes en ISO 2022 y EUC . Por lo tanto, sus puntos de código son pares de números enteros 1–94. Sin embargo, algunas codificaciones (UHC y Johab ), además de proporcionar códigos para cada punto de código, proporcionan códigos adicionales para caracteres que de otro modo se pueden representar solo como secuencias de puntos de código.

Historia [ editar ]

Este estándar se conocía anteriormente como KS C 5601. Ha habido varias revisiones de este estándar. Por ejemplo, hubo revisiones en 1987, 1992, 1998 y 2002.

El conjunto de caracteres Wansung ( 완성 , Wanseong , 'precomposición') [1] de doble byte actual fue estandarizado por la tercera edición de KS C 5601, [2] que se publicó en 1986. [3] Es una ISO 2022 codificación compatible, normalmente utilizada en forma EUC , que asigna códigos de doble byte para no Hangul, Hangul jamo y las sílabas Hangul más comunes, en contraste con Johab ( 조합 , Johap , 'combinación') [1] que no es compatible con ISO 2022, pero asigna códigos de doble byte a todas las sílabas Hangul usando jamo moderno. [2]Wansung es técnicamente una codificación de longitud variable, que permite representar otras sílabas con secuencias de ocho bytes (utilizando el carácter jamo y Hangul Filler), pero esta característica no siempre se implementa. [4]

La primera edición de KS C 5601, publicada en 1974, [2] definía un conjunto de caracteres de 7 bits de longitud variable [2] que asignaba puntos de código de un solo byte a 51 [3] Hangul jamo básico , algo análogo a JIS C 6220 , en una codificación conocida como "Hangul de N bytes". [5] La segunda edición, publicada en 1982, conservó el juego de caracteres principal de la edición de 1974, pero definió dos juegos complementarios, incluida una versión de Johab. Ninguna edición fue adoptada tan ampliamente como se pretendía. [2]

Wansung se mantuvo sin cambios en las ediciones de 1987 y 1992. En la edición de 1992, se añadió material anexo adicional, [3] incluida la definición de la codificación Johab [6] en el anexo 3, y la codificación Hangul de N bytes más antigua en el anexo 4. [1] [5] Se publicó en respuesta al uso industrial de Johab como codificación que compite con Wansung, siendo utilizado en ese momento por Hangul Word Processor . Tras la introducción del código Hangul unificado por Microsoft en Windows 95 , y el procesador de textos Hangul abandonando Johab a favor de Unicode en 2000, Johab dejó de usarse comúnmente. [2]

Codificaciones [ editar ]

Varias codificaciones CJK , incluidas cuatro basadas en KS X 1001, compatibles con Mozilla Firefox a partir de 2004. (Esta compatibilidad se ha reducido en versiones posteriores para evitar ciertos ataques de secuencias de comandos entre sitios ).

Los esquemas de codificación de KS X 1001 incluyen EUC-KR (en variantes basadas en ASCII e ISO 646 -KR, la última de las cuales incluye un signo de moneda won ( ₩ ) en el byte 0x 5C en lugar de una barra invertida) e ISO-2022-KR , [7] así como ISO-2022-JP-2 (que también codifica JIS X 0208 y JIS X 0212). Todos estos tienen el inconveniente de que solo asignan códigos para las 2350 sílabas Hangul precompuestas que tienen sus propios puntos de código KS X 1001 (de un total de 11172, sin contar los que usan jamo obsoleto), y requieren que otros usen secuencias de composición de ocho bytes. que no son compatibles con algunas implementaciones parciales del estándar. [4]

La codificación Johab (estipulada en el anexo 3 de la versión de 1992 del estándar) y el superconjunto EUC-KR conocido como Unified Hangul Code (UHC, también llamado Windows-949) proporcionan códigos únicos para todas las 11172 sílabas Hangul. [7] [6] ISO-2022-KR y Johab rara vez se utilizan. Algunos sistemas operativos amplían este estándar de otras formas no uniformes, por ejemplo, las extensiones EUC-KR MacKorean en el Mac OS clásico e IBM-949 de IBM .

Relleno Hangul [ editar ]

El carácter Hangul Filler se utiliza para introducir secuencias de composición Hangul de ocho bytes [8] [9] y para sustituir un elemento ausente (normalmente un final vacío) en dicha secuencia. [9]

Unicode incluye el código Wansung Hangul Filler en el bloque Hangul Compatibility Jamo para la compatibilidad de ida y vuelta, pero usa su propio sistema (con sus propios caracteres de relleno utilizados de manera diferente) para componer Hangul. El sistema de composición KS X 1001 Hangul no se utiliza en Unicode y el relleno se representa simplemente como un espacio vacío; Las secuencias de composición de KS X 1001 que utilizan jamo moderno se pueden asignar a caracteres precompuestos en Unicode. [9] Esto no se suele hacer con el código Hangul unificado .

Para compatibilidad de ida y vuelta, Unicode también incluye el código Hangul de N-byte Hangul Filler por separado en el bloque de formularios de ancho medio y ancho completo , denominado "Rellenador de Hangul de medio ancho".

Código Hangul de N bytes [ editar ]

Este es el código Hangul de N bytes, [5] según lo especificado por KS C 5601-1974 y por el anexo 4 de KS C 5601-1992. La segunda mitad de la página de códigos 1040 de IBM [10] es un superconjunto de esto, asignando los caracteres ¢¬\~(aunque no £) a las mismas ubicaciones que en la página de códigos 1041 . El carácter 0x40 / 0xC0 es un Hangul Filler (ver arriba ), que se usa para combinar secuencias.

De manera similar a su contraparte japonesa JIS C 6220 (JIS X 0201), el código Hangul de N bytes podría usarse como una codificación de 7 bits, con asignaciones de caracteres en el rango de 0x 40 a 0x7C. [5] El siguiente cuadro muestra el código en un entorno de 8 bits con el bit alto establecido (es decir, sobre 0xC0 a 0xFC), como se usa, por ejemplo, en la página de códigos 1040.

Gráficos de código Wansung [ editar ]

A continuación se muestran los gráficos de códigos para KS X 1001 en diseño Wansung. Cuando se da un par de números hexadecimales, el menor se usa cuando se codifica sobre GL (0x21-0x7E), como en ISO-2022-KR cuando el conjunto coreano se ha cambiado a, y el mayor se usa en el caso más típico de estando codificado sobre GR (0xA1-0xFE), como en EUC-KR o UHC. Johab cambia la disposición para codificar todos los clústeres de 11172 Hangul por separado y en orden.

Conjuntos no precompuestos que no son de Hanja [ editar ]

Juego de caracteres 0x21 / 0xA1 (número de fila 1, caracteres especiales) [ editar ]

Este conjunto contiene puntuación y otros símbolos, excluyendo la puntuación presente en KS X 1003 (que se incluye en la fila 3). Las codificaciones que combinan KS X 1001 con ASCII de un solo byte pueden utilizar un mapeo Unicode alternativo al bloque de formularios de ancho medio y ancho completo para la barra invertida. El mapeo Unicode del guión de onda (guión de tilde) también difiere entre los proveedores, y puede ser U + 301C (favorecido por IBM y Apple) [12] [13] [14] o U + 223C (favorecido por Microsoft). [15] [16] Compare el manejo similar pero no idéntico del tablero de ondas JIS y el manejo de la tilde en la siguiente fila.

Excepto por la barra invertida, si se muestran dos asignaciones a continuación, Apple usa la primera y Microsoft usa la segunda. [14] [16]

  Letra  Número  Puntuación  Símbolo  Otro  Indefinido

Juego de caracteres 0x22 / 0xA2 (fila número 2, caracteres especiales) [ editar ]

Este conjunto contiene signos de puntuación y símbolos adicionales. De manera similar al carácter de tilde en la fila anterior, Apple y Microsoft utilizan diferentes mapeos para el carácter de tilde en esta fila (U + 02DC de Apple, FF5E de Microsoft), [14] [16] que se pretende que se muestre como una tilde en relieve, mientras que la tilde de la fila anterior está pensada para mostrarse en línea a la altura del guión. [17] El mapeo del punto encerrado en un círculo también es diferente. [14] [16]

El euro y el signo de marca registrada se añadieron en 1998, mientras que la marca postal (㉾) se añadió en 2002. [1]

Juego de caracteres 0x23 / 0xA3 (fila número 3, latín básico / ISO 646-KR) [ editar ]

Este conjunto corresponde a KS X 1003 (la variante ISO 646 para coreano, un conjunto similar a ASCII ), pero como códigos de dos bytes precedidos por 0x23 (o 0xA3 en formato GR-delegado (EUC)). Incluye el alfabeto inglés / alfabeto latino básico , números arábigos occidentales y puntuación.

Compare el conjunto romano de JIS X 0201 , que se diferencia por incluir un signo de Yen en lugar de un signo de Won . Contraste las terceras filas de KPS 9566 y de JIS X 0208 , que siguen el diseño ISO 646 pero solo incluyen letras y dígitos.

Las codificaciones como EUC-KR y UHC combinan KS X 1001 con ASCII de un solo byte o KS X 1003 y, por lo tanto, utilizan asignaciones Unicode alternativas al bloque de formularios de ancho medio y ancho completo para las representaciones de doble byte de estos caracteres.

Juego de caracteres 0x24 / 0xA4 (fila número 4, Hangul jamo) [ editar ]

Este conjunto incluye consonantes Hangul modernas, seguidas de vocales, ambas ordenadas por las costumbres de colación de Corea del Sur, seguidas de consonantes obsoletas. Cuando se usan individualmente, estos caracteres se asignan al bloque Jamo de compatibilidad con Hangul Unicode y no tienen una asignación uno a uno con los caracteres específicos de la posición en el bloque Hangul Jamo . Compare con la fila 4 del KPS 9566 de Corea del Norte . El carácter 04-52 es un Hangul Filler (ver arriba ), que se usa para combinar secuencias.

Juego de caracteres 0x25 / 0xA5 (fila número 5, números romanos y griego) [ editar ]

Este conjunto contiene números romanos y soporte básico para el alfabeto griego , sin signos diacríticos ni sigma final .

Contraste la fila 6 de KPS 9566 , que incluye los mismos caracteres pero en un diseño diferente.

Juego de caracteres 0x26 / 0xA6 (fila número 6, dibujo del cuadro) [ editar ]

Juego de caracteres 0x27 / 0xA7 (fila número 7, símbolos de unidad) [ editar ]

Juego de caracteres 0x28 / 0xA8 (fila número 8, latín extendido, rodeado, fracciones) [ editar ]

Juego de caracteres 0x29 / 0xA9 (fila número 9, latín extendido, rodeado, superíndice y subíndice) [ editar ]

Juego de caracteres 0x2A / 0xAA (fila número 10, Hiragana) [ editar ]

Este conjunto contiene Hiragana para escribir en japonés .

Compare la fila 10 de KPS 9566 , que usa el mismo diseño. Compare y contraste la fila 4 de JIS X 0208 , que también usa el mismo diseño, pero en una fila diferente.

Juego de caracteres 0x2B / 0xAB (fila número 11, Katakana) [ editar ]

Este conjunto contiene Katakana para escribir en japonés . Sin embargo, la marca de vocal larga japonesa , que se usa en el texto katakana y se incluye en la fila 1 de JIS X 0208 , no está incluida. [18]

Compare la fila 11 de KPS 9566 , que usa el mismo diseño. Compare y contraste la fila 5 de JIS X 0208 , que también usa el mismo diseño, pero en una fila diferente.

Juego de caracteres 0x2C / 0xAC (fila número 12, cirílico) [ editar ]

Este conjunto contiene el alfabeto ruso moderno y no es necesariamente suficiente para representar otras formas de la escritura cirílica .

Compare la fila 5 de KPS 9566 y la fila 7 de JIS X 0208 , que utilizan el mismo diseño (pero en una fila diferente).

Conjuntos de Hangul precompuestos (filas número 16 a 40) [ editar ]

Los puntos de código para Hangul precompuesto se incluyen en un bloque ordenado continuo entre los puntos de código 16-01 y 40-94 inclusive. No todos los posibles grupos de sílabas están incluidos en este rango. Compare los diferentes pedidos y disponibilidad en KPS 9566 .

Tenga en cuenta que las sílabas iniciales + vocal + final 뢨, 썅, 쏀, 쓩 y 쭁 están incluidas, pero sus contrapartes iniciales + vocales 뢔, 쌰, 쎼, 쓔 y 쬬 no lo están. Esto solía causar problemas al ingresar, porque los métodos de ingreso tienen que pasar primero por una sílaba inicial + vocal para ingresar una sílaba inicial + vocal + final (por ejemplo, ㅎ → 하 → 한).

Los que no se enumeran aquí pueden representarse utilizando secuencias de composición de ocho bytes. UHC asigna códigos en otros lugares a todos los demás clústeres de jamo moderno. Johab asigna códigos a todos los posibles grupos de jamo moderno.

  • Fila 16: 가 각 간 갇 갈 갉 갊 감 갑 값 갓 갔 강 갖 갗 같 갚 갛 개 객 갠 갤 갬 갭 갯 갰 갱 갸 갹 갼 걀 걋 걍 걔 걘 걜 거 걱 건 걷 걸 걺 검 것 겄 겅 겆 겉 겊 겋 게 겐 겔 겜 겝 겟 겠 겡 겨 격 겪 견 겯 결 겸 겹 겻 겼 경 곁 계 곈 곌 곕 곗 고 곡 곤 곧 골 곪 곬 곯 곰 곱 곳 공 곶 과 곽 관 괄 괆
  • Fila 17: 괌 괍 괏 광 괘 괜 괠 괩 괬 괭 괴 괵 괸 괼 굄 굅 굇 굉 교 굔 굘 굡 굣 구 국 군 굳 굴 굵 굶 굻 굼 굽 굿 궁 궂 궈 궉 권 궐 궜 궝 궤 궷 귁 귄 귈 귐 귑 귓 규 균 귤 그 극 근 귿 글 긁 금 급 긋 긍 긔 기 긱 긴 긷 길 긺 김 깁 깃 깅 깆 깊 까 깍 깎 깐 깔 깖 깜 깝 깟 깠 깡 깥 깨 깩 깬 깰 깸
  • Fila 18: 깹 깻 깼 깽 꺄 꺅 꺌 꺼 꺽 꺾 껀 껄 껌 껍 껏 껐 껑 께 껙 껜 껨 껫 껭 껴 껸 껼 꼇 꼈 꼍 꼐 꼬 꼭 꼰 꼲 꼴 꼼 꼽 꼿 꽁 꽂 꽃 꽈 꽉 꽐 꽝 꽤 꽥 꽹 꾀 꾄 꾈 꾐 꾑 꾕 꾜 꾸 꾹 꾼 꿀 꿇 꿈 꿉 꿋 꿍 꿎 꿔 꿜 꿨 꿩 꿰 꿱 꿴 꿸 뀀 뀁 뀄 뀌 뀐 뀔 뀜 뀝 뀨 끄 끅 끈 끊 끌 끎 끓 끔 끕 끗 끙
  • Fila 19: 끝 끼 끽 낀 낄 낌 낍 낏 낑 나 낙 낚 난 낟 날 낡 낢 남 납 낫 났 낭 낮 낯 낱 낳 내 낵 낸 낼 냄 냅 냇 냈 냉 냐 냑 냔 냘 냠 냥 너 넉 넋 널 넒 넓 넘 넙 넛 넜 넝 넣 네 넥 넨 넬 넴 넵 넷 넸 넹 녀 녁 년 녈 념 녑 녔 녕 녘 녜 녠 노 녹 논 놀 놂 놈 놉 놋 농 높 놓 놔 놘 놜 놨 뇌 뇐 뇔 뇜 뇝
  • Fila 20: 뇟 뇨 뇩 뇬 뇰 뇹 뇻 뇽 누 눅 눈 눋 눌 눔 눕 눗 눙 눠 눴 눼 뉘 뉜 뉠 뉨 뉩 뉴 뉵 뉼 늄 늅 늉 느 늑 는 늘 늙 늚 늠 늡 늣 능 늦 늪 늬 늴 니 닉 닌 닐 닒 님 닙 닛 닝 닢 다 닥 닦 단 닫 달 닭 닮 닯 닳 담 답 닷 닸 당 닺 닻 닿 대 댁 댄 댈 댐 댑 댓 댔 댕 댜 더 덕 덖 던 덛 덜 덞 덟 덤 덥
  • Fila 21: 덧 덩 덫 덮 데 덱 덴 델 뎀 뎁 뎃 뎄 뎅 뎌 뎐 뎔 뎠 뎡 뎨 뎬 도 독 돈 돋 돌 돎 돐 돔 돕 돗 동 돛 돝 돠 돤 돨 돼 됐 되 된 될 됨 됩 됫 두 둑 둔 둘 둠 둡 둣 둥 둬 뒀 뒈 뒝 뒤 뒨 뒬 뒵 뒷 뒹 듀 듄 듈 듐 듕 드 득 든 듣 들 듦 듬 듭 듯 등 듸 디 딕 딘 딛 딜 딤 딥 딧 딨 딩 딪 따 딱 딴 딸
  • Fila 22: 땀 땁 땃 땄 땅 땋 때 땍 땐 땔 땜 땝 땟 땠 땡 떠 떡 떤 떨 떪 떫 떰 떱 떳 떴 떵 떻 떼 떽 뗀 뗄 뗌 뗍 뗏 뗐 뗑 뗘 뗬 또 똑 똔 똘 똥 똴 뙈 뙤 뙨 뚜 뚝 뚠 뚤 뚫 뚬 뚱 뛔 뛰 뛴 뛸 뜀 뜁 뜅 뜨 뜩 뜬 뜯 뜰 뜸 뜹 뜻 띄 띈 띌 띔 띕 띠 띤 띨 띰 띱 띳 띵 라 락 란 랄 람 랍 랏 랐 랑 랒 랖 랗
  • Fila 23: 래 랙 랜 랠 램 랩 랫 랬 랭 랴 략 랸 럇 량 러 럭 런 럴 럼 럽 럿 렀 렁 렇 레 렉 렌 렐 렘 렙 렛 렝 려 력 련 렬 렴 렵 렷 렸 령 례 롄 롑 로 록 론 롤 롬 롭 롯 롱 롸 롼 뢍 뢨 뢰 뢴 뢸 룀 룁 룃 룅 료 룐 룔 룝 룟 룡 루 룩 룬 룰 룸 룹 룻 룽 뤄 뤘 뤠 뤼 뤽 륀 륄 륌 륏 륑 류 륙 륜 률 륨 륩
  • Fila 24: 륫 륭 르 륵 른 를 름 릅 릇 릉 릊 릍 릎 리 릭 린 릴 림 립 릿 링 마 막 만 많 맏 말 맑 맒 맘 맙 맛 망 맞 맡 맣 매 맥 맨 맬 맴 맵 맷 맸 맺 먀 먁 먈 먕 머 먹 먼 멀 멂 멈 멉 멋 멍 멎 멓 메 멕 멘 멜 멤 멥 멧 멨 멩 며 멱 면 멸 몃 몄 명 몇 몌 모 목 몫 몬 몰 몲 몸 몹 못 몽 뫄 뫈 뫘 뫙 뫼
  • Fila 25: 묀 묄 묍 묏 묑 묘 묜 묠 묩 묫 무 묵 묶 문 묻 물 묽 묾 뭄 뭅 뭇 뭉 뭍 뭏 뭐 뭔 뭘 뭡 뭣 뭬 뮈 뮌 뮐 뮤 뮨 뮬 뮴 뮷 므 믄 믈 믐 믓 미 민 믿 밀 밂 밈 밉 밋 밌 밍 및 밑 바 박 밖 밗 반 받 발 밝 밞 밟 밤 밥 밧 방 밭 배 백 밴 밸 뱀 뱁 뱃 뱄 뱅 뱉 뱌 뱍 뱐 뱝 버 벅 번 벋 벌 벎 범 법 벗
  • Fila 26: 벙 벚 베 벡 벤 벧 벨 벰 벱 벳 벴 벵 벼 벽 변 별 볍 볏 볐 병 볕 볘 볜 보 복 볶 본 볼 봄 봅 봇 봉 봐 봔 봤 봬 뵀 뵈 뵉 뵌 뵐 뵘 뵙 뵤 부 북 분 붇 불 붉 붊 붐 붑 붓 붕 붙 붚 붜 붤 붰 붸 뷔 뷕 뷘 뷜 뷩 뷰 뷴 뷸 븀 븃 븅 브 븍 븐 블 븜 븝 븟 비 빅 빈 빌 빎 빔 빕 빗 빙 빚 빛 빠 빡 빤
  • Fila 27: 빨 빪 빰 빱 빳 빴 빵 빻 빼 빽 뺀 뺄 뺌 뺍 뺏 뺐 뺑 뺘 뺙 뺨 뻐 뻑 뻔 뻗 뻘 뻠 뻣 뻤 뻥 뻬 뼁 뼈 뼉 뼘 뼙 뼛 뼜 뼝 뽀 뽁 뽄 뽈 뽐 뽑 뾔 뾰 뿅 뿌 뿍 뿐 뿔 뿜 뿟 뿡 쀼 쁑 쁘 쁜 쁠 쁨 쁩 삐 삑 삔 삘 삠 삡 삣 삥 사 삭 삯 산 삳 살 삵 삶 삼 삽 삿 샀 상 샅 새 색 샌 샐 샘 샙 샛 샜 생 샤
  • Fila 28: 샥 샨 샬 샴 샵 샷 샹 섀 섄 섈 섐 섕 서 석 섞 섟 선 섣 설 섦 섧 섬 섭 섯 섰 성 섶 세 섹 센 셀 셈 셉 셋 셌 셍 셔 셕 션 셜 셤 셥 셧 셨 셰 셴 셸 솅 소 속 솎 손 솔 솖 솜 솝 솟 송 솥 솨 솩 솬 솰 솽 쇄 쇈 쇌 쇔 쇗 쇘 쇠 쇤 쇨 쇰 쇱 쇳 쇼 쇽 숀 숄 숌 숍 숏 숑 수 숙 순 숟 술 숨 숩 숫 숭
  • Fila 29: 숯 숱 숲 숴 쉈 쉐 쉑 쉔 쉘 쉠 쉥 쉬 쉭 쉰 쉴 쉼 쉽 쉿 슁 슈 슉 슐 슘 슛 슝 스 슥 슨 슬 슭 슴 습 슷 승 시 식 신 싣 실 싫 심 십 싯 싱 싸 싹 싻 싼 쌀 쌈 쌉 쌌 쌍 쌓 쌔 쌕 쌘 쌜 쌤 쌥 쌨 쌩 썅 써 썩 썬 썰 썲 썸 썹 썼 썽 쎄 쎈 쎌 쏀 쏘 쏙 쏜 쏟 쏠 쏢 쏨 쏩 쏭 쏴 쏵 쏸 쐈 쐐 쐤 쐬 쐰
  • Fila 30: 쐴 쐼 쐽 쑈 쑤 쑥 쑨 쑬 쑴 쑵 쑹 쒀 쒔 쒜 쒸 쒼 쓩 쓰 쓱 쓴 쓸 쓺 쓿 씀 씁 씌 씐 씔 씜 씨 씩 씬 씰 씸 씹 씻 씽 아 악 안 앉 않 알 앍 앓 암 압 앗 았 앙 앝 앞 애 액 앤 앨 앰 앱 앳 앴 앵 야 약 얀 얄 얇 얌 얍 얏 양 얕 얗 얘 얜 얠 얩 어 억 언 얹 얻 얼 얽 얾 엄 업 없 엇 었 엉 엊 엌 엎
  • Fila 31: 에 엑 엔 엘 엠 엡 엣 엥 여 역 엮 연 열 엶 엷 염 엽 엾 엿 였 영 옅 옆 옇 예 옌 옐 옘 옙 옛 옜 오 옥 온 올 옭 옮 옰 옳 옴 옵 옷 옹 옻 왁 완 왈 왐 왑 왓 왔 왕 왜 왝 왠 왬 왯 왱 외 왹 왼 욀 욈 욉 욋 욍 요 욕 욘 욜 욤 욥 욧 용 우 욱 운 울 욹 욺 움 웁 웃 웅 워 웍 원 월 웜 웝 웠 웡 웨
  • Fila 32: 웩 웬 웰 웸 웹 웽 위 윅 윈 윌 윔 윕 윗 윙 유 육 윤 율 윰 윱 윳 융 윷 으 윽 은 을 읊 음 읍 읏 응 읒 읓 읔 읕 읖 읗 의 읜 읨 읫 이 이 읽 읾 잃 임 입 잇 있 잉 잊 잎 자 작 잔 잖 잗 잘 잚 잠 잡 잣 잤 장 잦 재 잭 잰 잴 잼 잽 잿 쟀 쟁 쟈 쟉 쟌 쟎 쟐 쟘 쟝 쟤 쟨 쟬 저 적 전 절 젊
  • Fila 33: 점 접 젓 정 젖 제 젝 젠 젤 젬 젭 젯 젱 져 젼 졀 졈 졉 졌 졍 졔 조 족 존 졸 졺 좀 좁 좃 종 좆 좇 좋 좌 좍 좔 좝 좟 좡 좨 좼 좽 죄 죈 죌 죕 죕 죗 죙 죠 죡 죤 죵 주 죽 준 줄 줅 줆 줌 줍 줏 중 줘 줬 줴 쥐 쥑 쥔 쥘 쥠 쥡 쥣 쥬 쥰 쥴 쥼 즈 즉 즌 즐 즘 즙 즛 증 지 직 진 짇 질 짊 짐 집 짓
  • Fila 34: 징 짖 짙 짚 짜 짝 짠 짢 짤 짧 짬 짭 짯 짰 짱 째 짹 짼 쨀 쨈 쨉 쨋 쨌 쨍 쨔 쨘 쨩 쩌 쩍 쩐 쩔 쩜 쩝 쩟 쩠 쩡 쩨 쩽 쪄 쪘 쪼 쪽 쫀 쫄 쫍 쫏 쫑 쫓 쫘 쫙 쫠 쫬 쫴 쬈 쬐 쬔 쬘 쬠 쬡 쭁 쭈 쭉 쭌 쭐 쭘 쭙 쭝 쭤 쭸 쭹 쮜 쮸 쯔 쯤 쯧 쯩 찌 찍 찐 찔 찜 찝 찡 찢 찧 차 착 찬 찮 찰 참 찹 찻
  • Fila 35: 찼 창 찾 채 책 챈 챌 챔 챕 챗 챘 챙 챠 챤 챦 챨 챰 챵 처 척 천 철 첨 첩 첫 첬 청 체 첵 첸 첼 쳄 쳅 쳇 쳉 쳐 쳔 쳤 쳬 쳰 촁 초 촉 촌 촘 촙 촛 총 촤 촨 촬 촹 최 쵠 쵤 쵬 쵭 쵯 쵱 쵸 춈 추 축 춘 출 춤 춥 춧 충 춰 췄 췌 췐 취 췬 췰 췸 췹 췻 췽 츄 츈 츌 츔 츙 츠 측 츤 츨 츰 츱 츳 층
  • Fila 36: 치 칙 친 칟 칠 칡 침 칩 칫 칭 카 칵 칸 칼 캄 캅 캇 캉 캐 캑 캔 캘 캠 캡 캣 캤 캥 캬 캭 컁 커 컥 컨 컫 컬 컴 컵 컷 컸 컹 케 켁 켄 켈 켑 켓 켕 켜 켠 켤 켬 켭 켯 켰 켱 켸 코 콕 콘 콜 콤 콥 콧 콩 콰 콱 콴 콸 쾀 쾅 쾌 쾡 쾨 쾰 쿄 쿠 쿡 쿤 쿨 쿰 쿱 쿳 쿵 쿼 퀀 퀄 퀑 퀘 퀭 퀴 퀵 퀸 퀼
  • Fila 37: 큄 큅 큇 큉 큐 큔 큘 큠 크 큭 큰 클 큼 큽 킁 키 킥 킨 킬 킴 킵 킷 킹 타 탁 탄 탈 탉 탐 탑 탓 탔 탕 태 택 탠 탤 탬 탭 탯 탰 탱 탸 턍 턱 턴 털 턺 텀 텁 텃 텄 텅 테 텍 텐 텔 템 텝 텟 텡 텨 텬 텼 톄 톈 토 톡 톤 톨 톰 톱 톳 통 톺 톼 퇀 퇘 퇴 퇸 툇 툉 툐 투 툭 툰 툴 툼 툽 툿 퉁 퉈 퉜
  • Fila 38: 퉤 튀 튁 튄 튈 튐 튑 튕 튜 튠 튤 튬 튱 트 특 튼 튿 틀 틂 틈 틉 틋 틔 틘 틜 틤 틥 티 틱 틴 틸 팀 팁 팃 팅 파 팍 팎 판 팔 팖 팜 팝 팟 팡 팥 패 팩 팬 팰 팸 팹 팻 팼 팽 퍄 퍅 퍼 퍽 펀 펄 펌 펍 펏 펐 펑 페 펙 펜 펠 펨 펩 펫 펭 펴 편 펼 폄 폅 폈 평 폐 폘 폡 폣 포 폭 폰 폴 폼 폽 폿 퐁
  • Fila 39: 퐈 퐝 푀 푄 표 푠 푤 푭 푯 푸 푹 푼 푿 풀 풂 품 풉 풋 풍 풔 풩 퓌 퓐 퓔 퓜 퓟 퓨 퓬 퓰 퓸 퓻 퓽 프 픈 플 픔 픕 픗 피 픽 핀 필 핌 핏 핑 하 학 한 할 핥 함 합 핫 항 해 핵 핸 핼 햄 햅 햇 했 행 햐 향 허 헉 헌 헐 헒 험 헙 헛 헝 헤 헥 헨 헬 헴 헵 헷 헹 혀 혁 현 혈 혐 협 혓 혔 형 혜 혠
  • Fila 40: 혤 혭 호 혹 혼 홀 홅 홈 홉 홋 홍 홑 화 확 환 활 홧 황 홰 홱 홴 횃 횅 회 획 횐 횔 횝 횟 횡 효 횬 횰 횹 횻 후 훅 훈 훌 훑 훔 훗 훙 훠 훨 훰 훵 훼 훽 휀 휄 휑 휘 휙 휜 휠 휨 휩 휫 휭 휴 휵 휸 휼 흄 흇 흉 흐 흑 흔 흖 흗 흘 흙 흠 흡 흣 흥 흩 희 흰 흴 흼 흽 힁 히 힉 힌 힐 힘 힙 힛 힝

Conjuntos de Hanja [ editar ]

Codificación Johab [ editar ]

Diagrama de codificación Johab según lo estipulado por KS X 1001

KS X 1001, desde 1992, también define una codificación alternativa conocida como Johab. Esto representa una sílaba hangul como la secuencia de tres valores de cinco bits, divididos en dos bytes de 8 bits , el bit más significativo primero. El bit más significativo del byte inicial siempre se establece (lo que permite la combinación con ASCII de un solo byte o KS X 1003 ). Esta codificación también se usa para el jamo moderno de la fila 4 de KS X 1001 , usando los valores de relleno para los otros componentes. La codificación Johab para hangul se muestra en la siguiente tabla. [19]

Johab codifica el resto de KS X 1001 utilizando bytes iniciales que no corresponden a un jamo inicial (0xE0–0xF9 para hanja y 0xD9–0xDE [20] para no hanja, excluyendo las sílabas hangul y jamo moderno), con bytes de seguimiento en el rangos 0x31–0x7E y 0x91–0xFE. [19] Estos códigos se asignan algorítmicamente a partir de los puntos de código KS X 1001 de los caracteres, [20] con dos filas KS X 1001 por byte principal (comparar y contrastar Shift JIS ).

Diseño de la variante Johab basada en EBCDIC cuando está en estado de doble byte

La codificación Johab basada en ASCII está numerada en la página de código 1361 de Microsoft. [21] También existen otras variantes de Johab, definidas por el proveedor; por ejemplo, IBM define uno para su uso como un conjunto Shift Out con EBCDIC . Esta variante usa shift in y shift out para cambiar entre una página EBCDIC de un solo byte y Johab, usa una codificación diferente para los caracteres no hangul (usa bytes iniciales 0x40–6C con un diseño diferente) y usa bytes iniciales 0xD4 – DD como una región definida por el usuario , pero usa el diseño de Johab para los caracteres hangul cuando está en estado de cambio de salida. [22] IBM numera la codificación Johab con estado basada en EBCDICLa página de códigos 1364 , [22] y también define un subconjunto de esa codificación, que incluye menos caracteres hangul pero en el mismo diseño, como la página de códigos 933 . [23]

Notas al pie [ editar ]

  1. ^ Coreano : 정보 교환 용 부호계 (한글 및 한자) , romanizado :  Jeongbo Gyohwan'yong Buhogye (Hangeul mich Hanja)
  2. ^ a b c d Si se usara este, daría como resultado un byte de seguimiento en el rango de códigos de control C0 .
  3. ^ a b c d Si se usara este, daría como resultado bytes de seguimiento en las filas 0x2_ y 0x3_ de ASCII. Johab no usa la fila 0x2_ para bytes de seguimiento, de manera similar a las codificaciones CJK heredadas más comunes (compare Shift JIS , GBK , Big5 ).

Referencias [ editar ]

  1. ↑ a b c d e Lunde, Ken (2009). "Capítulo 3: Estándares de juego de caracteres" . Procesamiento de información CJKV . pag. 143-148. ISBN 978-0596514471.
  2. ↑ a b c d e f Hwang, Jinsang (2005). La configuración social de los estándares de las TIC: un caso de controversia sobre los estándares de conjuntos de caracteres codificados a nivel nacional en Corea (PDF) . Universidad de Edimburgo.
  3. ↑ a b c Lunde, Ken (18 de diciembre de 1995). "2.4.6: Estándares obsoletos". CJK.INF Versión 1.9 .
  4. ^ a b Shin, Jungshik. "¿Qué son KS X 1001 (KS C 5601) y otros códigos Hangul?" . Preguntas frecuentes sobre Hangul e Internet en Corea .
  5. ↑ a b c d Lunde, Ken (18 de diciembre de 1995). "3.3.6: Hangul de N bytes". CJK.INF Versión 1.9 .
  6. ^ a b "INFORMACIÓN: Juegos de caracteres Hangul (coreano)" , Soporte de Microsoft, Microsoft
  7. ↑ a b Zsigri, Gyula (18 de junio de 2002). "KSC y UHC" .
  8. ^ Chang, Hye-Shik. "cpython / Modules / cjkcodecs / _codecs_kr.c (revisión d3faf43)" . Árbol de fuentes de cPython . Fundación de software Python.
  9. ↑ a b c Chung, Jaemin (30 de marzo de 2017). Propuesta de añadir una nota informativa a U + 3164 HANGUL FILLER (PDF) . Consorcio Unicode . UTC L2 / 17-081.
  10. ^ "Página de códigos 01040" (PDF) . IBM. Archivado desde el original (PDF) el 8 de julio de 2015.
  11. ^ "KSRI-87-37-IR: 항 을 ・ 한자 코드 표준화 에 관한 예 연구: Un estudio sobre la estandarización de los códigos Hangul y Hanja" (PDF) (en coreano). Ministerio de Ciencia y Tecnología . 1987. p. 68. Archivado desde el original (PDF) el 1 de marzo de 2019.
  12. ^ "ibm-1363_P110-1997 (byte principal A1)" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode.
  13. ^ "euc-kr (byte inicial A1)" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode.
  14. ^ a b c d "Mapa (versión externa) de la codificación coreana de Mac OS a Unicode 3.2 y posterior" . Manzana.
  15. ^ "windows-949-2000 (primer byte A1)" . Demostración de UCI - Explorador de convertidores . Componentes internacionales para Unicode.
  16. ^ a b c d "Byte principal A1-A2 (página de códigos 949)" . MSDN . Microsoft.
  17. ^ Oficina de normas de Corea (1 de octubre de 1988). Juego de caracteres gráficos coreanos para el intercambio de información (PDF) . ITSCJ / IPSJ . ISO-IR -149.
  18. ^ Lunde, Ken (2009). "Personajes aparentemente desaparecidos". Procesamiento de información CJKV: Computación china, japonesa, coreana y vietnamita (2ª ed.). Sebastopol, CA : O'Reilly . pag. 180. ISBN 978-0-596-51447-1.
  19. ↑ a b Lunde, Ken (2008). "Capítulo 4: Métodos de codificación (§ Codificación Johab — KS X 1001: 2004)". Procesamiento de información CJKV (2ª ed.). Sebastopol, California : O'Reilly Media . págs. 268-273. ISBN 978-0-596-51447-1.
  20. ↑ a b Shin, Jungshik (14 de octubre de 2011) [16 de agosto de 1999]. Tabla Johab a Unicode . Consorcio Unicode .
  21. ^ "Identificadores de página de códigos" . Centro de desarrollo de Windows . Microsoft.
  22. ^ a b "ibm-1364_P110-2007" . Componentes internacionales para Unicode . Consorcio Unicode .
  23. ^ "ibm-933_P110-1995" . Componentes internacionales para Unicode . Consorcio Unicode .

Enlaces externos [ editar ]

  • ¿Qué son KS X 1001 (KS C 5601) y otros códigos Hangul?
  • Implementación de la conversión de código CJKV entre configuraciones regionales por Ken Lunde
  • Tablas de mapeo Unicode para codificaciones Wansung y Johab:
    • Página de códigos de IBM 970 (formato Wansung, EUC-KR)
    • Página de códigos de Windows 949 (Código Hangul unificado / Wansung extendido)
    • Página de códigos de Windows 1361 (Johab, versión basada en ASCII)
    • Página de códigos de IBM 1364 (Johab, versión basada en EBCDIC)