De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En Unicode y UCS , un carácter de compatibilidad es un carácter que se codifica únicamente para mantener la convertibilidad de ida y vuelta con otros estándares, a menudo más antiguos. [1] Como dice el glosario Unicode:

Un carácter que no se habría codificado excepto por compatibilidad y convertibilidad de ida y vuelta con otros estándares [2]

Aunque la compatibilidad se usa en los nombres, no está marcada como una propiedad. Sin embargo, la definición es más complicada de lo que revela el glosario. Una de las propiedades otorgadas a los personajes por el consorcio Unicode es la descomposición de los personajes o la descomposición de la compatibilidad . Más de cinco mil caracteres tienen un mapeo de descomposición de compatibilidad ese carácter de compatibilidad con uno o más otros caracteres UCS. Al establecer la propiedad de descomposición de un carácter, Unicode establece ese carácter como un carácter de compatibilidad. Las razones de estas designaciones de compatibilidad son variadas y se comentan con más detalle a continuación. El término descomposicióna veces confunde porque la descomposición de un personaje puede, en algunos casos, ser un singleton. En estos casos, la descomposición de un carácter es simplemente otro carácter equivalente aproximadamente (pero no canónicamente) .

Tipos de caracteres y palabras clave de compatibilidad [ editar ]

La propiedad de descomposición de compatibilidad para los 5.402 caracteres de compatibilidad Unicode [ ¿cuándo? ] incluye una palabra clave que divide los caracteres de compatibilidad en 17 grupos lógicos. Los caracteres con una descomposición de compatibilidad pero sin una palabra clave se denominan caracteres descomponibles canónicos y esos caracteres no son caracteres de compatibilidad. Las palabras clave para caracteres descomponibles de compatibilidad incluyen: <inicial>, <medial>, <final>, <isolated>, <ancho>, <estrecho>, <pequeño>, <cuadrado>, <vertical>, <circulo>, <noBreak> , <fracción>, <sub>, <super> y <compat>. Estas palabras clave proporcionan alguna indicación de la relación entre el carácter de compatibilidad y su secuencia de caracteres de descomposición de compatibilidad. Los personajes de compatibilidad se dividen en tres categorías básicas:

  1. Caracteres correspondientes a múltiples formas de glifos alternativos y diacríticos precompuestos para admitir implementaciones de software y fuentes que no incluyen capacidades completas de diseño de texto Unicode.
  2. Caracteres incluidos de otros conjuntos de caracteres o agregados al UCS que constituyen texto enriquecido en lugar de los objetivos de texto sin formato de Unicode.
  3. Algunos otros caracteres que son semánticamente distintos, pero visualmente similares .

Debido a que estos caracteres semánticamente distintos pueden mostrarse con glifos similares a los glifos de otros caracteres, el software de procesamiento de texto debe tratar de abordar la posible confusión por el bien de los usuarios finales. Al comparar y clasificar (ordenar) cadenas de texto, las diferentes formas y variantes de caracteres de texto enriquecido no deben alterar los resultados del procesamiento de texto. Por ejemplo, los usuarios de software pueden confundirse al buscar en una página una letra latina mayúscula "I" y su aplicación de software no puede encontrar el número romano visualmente similar "Ⅰ".

Tipos de asignaciones de compatibilidad [ editar ]

Sustitución y composición de glifos [ editar ]

Algunos caracteres de compatibilidad son completamente prescindibles para el procesamiento de texto y el software de visualización que cumple con el estándar Unicode. Éstas incluyen:

Ligaduras
Las ligaduras como 'ffi' en la escritura latina a menudo se codificaban como un carácter separado en conjuntos de caracteres heredados. El enfoque de Unicode para las ligaduras es tratarlas como texto enriquecido y, si está activado, manejarlas mediante la sustitución de glifos.
Números romanos precompuestos
Por ejemplo, el número romano doce ('Ⅻ': U + 216B) se puede descomponer en un número romano diez ('Ⅹ': U + 2169) y dos números romanos ('Ⅰ': U + 2160).
Fracciones precompuestas
Esta descomposición tiene la palabra clave <fracción>. Un manipulador de texto totalmente conforme debe [3] mostrar la fracción vulgar ¼ (U + 00BC) de forma idéntica a la fracción compuesta 1⁄4 (número 1 con barra diagonal U + 2044 y número 4).
Glifos o formas contextuales
Estos surgen principalmente en la escritura árabe. Al utilizar fuentes con capacidades de sustitución de glifos como OpenType y TrueTypeGX , el software compatible con Unicode puede sustituir los glifos adecuados por el mismo carácter dependiendo de si ese carácter aparece al principio, al final, en medio de una palabra o de forma aislada. Esta sustitución de glifos también es necesaria para el diseño de texto vertical (de arriba a abajo) para algunos idiomas de Asia oriental. En este caso, los glifos deben sustituirse o sintetizarse por formas de glifos anchos, estrechos, pequeños y cuadrados. El software no conforme o el software que utiliza otros conjuntos de caracteres en su lugar utiliza varios caracteres separados para la misma letra según su posición, lo que complica aún más el procesamiento del texto.

Las propiedades de caracteres UCS, Unicode y los algoritmos Unicode proporcionan implementaciones de software con todo lo necesario para mostrar correctamente estos caracteres a partir de sus equivalentes de descomposición. Por lo tanto, estos caracteres de compatibilidad descomponibles se vuelven redundantes e innecesarios. Su existencia en el conjunto de caracteres requiere un procesamiento de texto adicional para garantizar que el texto se compare y coteje correctamente (consulte Normalización Unicode). Además, estos caracteres de compatibilidad no proporcionan semántica adicional o distinta. Estos caracteres tampoco proporcionan ninguna representación visualmente distinta siempre que el diseño del texto y las fuentes se ajusten a Unicode. Además, ninguno de estos caracteres es necesario para la convertibilidad de ida y vuelta a otros conjuntos de caracteres, ya que la transliteración puede asignar fácilmente caracteres descompuestos a contrapartes precompuestos en otro conjunto de caracteres. De manera similar, las formas contextuales, como una letra árabe final, se pueden asignar en función de su posición dentro de una palabra al carácter de forma de juego de caracteres heredado apropiado.

Para prescindir de estos caracteres de compatibilidad, el software de texto debe ajustarse a varios protocolos Unicode. El software debe poder:

  1. Redacte grafemas marcados con diacríticos a partir de caracteres de letras y una o más marcas diacríticas combinadas independientes.
  2. Sustituya (a discreción del autor o del lector) ligaduras y variantes de glifos contextuales.
  3. Distribuya el texto CJKV verticalmente (a discreción del autor o del lector), sustituyendo glifos por formas cuadradas pequeñas, verticales, estrechas y anchas, ya sea a partir de datos de fuentes o sintetizadas según sea necesario.
  4. Combine fracciones usando el carácter ' Fraction Slash ' (⁄ U + 2044) y cualquier otro carácter arbitrario.
  5. Combine una ' Combinación de superposición larga de Solidus ' (̸ U + 0338) con otros símbolos: por ejemplo, ∄ o ∄ para ∄ (U + 2203).

En conjunto, estos caracteres de compatibilidad incluidos para implementaciones Unicode incompletas suman un total de 3.779 de los 5.402 caracteres de compatibilidad designados. Estos incluyen todos los caracteres de compatibilidad marcados con las palabras clave <inicial>, <medial>, <final>, <isolated>, <fraction>, <wide>, <narrow>, <small>, <vertical>, <square> . También incluye casi todos los caracteres canónicos y la mayoría de los caracteres de compatibilidad de palabras clave <compat> (las excepciones incluyen los caracteres de palabra clave <compat> para caracteres alfanuméricos encerrados, ideogramas encerrados y aquellos discutidos en § Caracteres semánticamente distintos ).

Caracteres de compatibilidad de texto enriquecido [ editar ]

Muchos otros caracteres de compatibilidad constituyen lo que Unicode considera texto enriquecido y, por lo tanto, fuera de los objetivos de Unicode y UCS. En cierto sentido, incluso los caracteres de compatibilidad discutidos en la sección anterior (los que ayudan al software heredado a mostrar ligaduras y texto vertical) constituyen una forma de texto enriquecido, ya que los protocolos de texto enriquecido determinan si el texto se muestra de una forma u otra. Sin embargo, la opción de mostrar texto con o sin ligaduras o verticalmente frente a horizontalmente son texto enriquecido no semántico. Son simplemente diferencias de estilo. Esto contrasta con otros textos enriquecidos como cursiva, superíndices y subíndices, o marcadores de lista donde el estilo del texto enriquecido implica cierta semántica junto con él.

Para comparar, cotejar, manipular y almacenar texto sin formato, las variantes de texto enriquecido son semánticamente redundantes. Por ejemplo, usar un carácter de superíndice para el número 4 probablemente no se distinga de usar el carácter estándar para un número 4 y luego usar protocolos de texto enriquecido para convertirlo en superíndice. Por lo tanto, estos caracteres de texto enriquecido alternativos crean ambigüedad porque aparecen visualmente igual que los caracteres de texto sin formato con el formato de texto enriquecido aplicado. Estos caracteres de compatibilidad de texto enriquecido incluyen:

Símbolos alfanuméricos matemáticos
Estos símbolos son simplemente clones de los alfabetos latino y griego y dígitos decimales índico-árabe repetidos en 15 tipos de letra diferentes. Están pensados ​​como una paleta arbitraria para la notación matemática. Sin embargo, tienden a socavar la distinción entre codificar caracteres y codificar glifos visuales, así como los objetivos de Unicode de admitir solo caracteres de texto sin formato. Este estilo alternativo para una paleta de símbolos matemáticos podría crearse fácilmente a través de protocolos de texto enriquecido.
Alfanuméricos e ideogramas adjuntos (marcadores)
Estos son caracteres incluidos principalmente para marcadores de lista. No constituyen caracteres de texto sin formato. Además, el uso de otros protocolos de texto enriquecido es más apropiado, ya que el conjunto de alfanuméricos o ideogramas incluidos en el UCS es limitado.
Alfanuméricos e ideogramas circulados
También es probable que las formas encerradas en un círculo se utilicen como marcadores. Nuevamente, el uso de caracteres junto con protocolos de texto enriquecido para rodear cadenas de caracteres es más flexible.
Espacios y espacios sin interrupciones de diferentes anchos
Estos caracteres son simplemente variantes de texto enriquecido del espacio central (U + 0020) y el espacio sin interrupciones (U + 00A0). En su lugar, se deben utilizar otros protocolos de texto enriquecido, como los atributos de seguimiento, interletraje o espaciado de palabras.
Algunos caracteres en forma de subíndice y superíndice
Muchos de los caracteres de subíndice y superíndice son en realidad caracteres semánticamente distintos del Alfabeto Fonético Internacional y otros sistemas de escritura y no pertenecen realmente a la categoría de texto enriquecido. Sin embargo, otros simplemente constituyen formas de presentación de texto enriquecido de otros caracteres griegos, latinos y numéricos. Por lo tanto, estos caracteres de superíndice y subíndice de texto enriquecido pertenecen propiamente a esta categoría de caracteres de compatibilidad de texto enriquecido. La mayoría de ellos se encuentran en los bloques "Superíndices y subíndices" o "Latín básico".

Para todos estos caracteres de compatibilidad de texto enriquecido, la visualización de glifos suele ser distinta de sus caracteres de descomposición de compatibilidad (relacionados). Sin embargo, estos se consideran caracteres de compatibilidad y el consorcio Unicode no recomienda su uso porque no son caracteres de texto sin formato, que es lo que Unicode busca admitir con su UCS y protocolos asociados. El texto enriquecido debe manejarse a través de protocolos que no sean Unicode como HTML, CSS, RTF y otros protocolos similares.

Los caracteres de compatibilidad de texto enriquecido comprenden 1,451 [ cita requerida ] de los 5,402 caracteres de compatibilidad. Estos incluyen todos los caracteres de compatibilidad marcados con las palabras clave <circle> y <font> (excepto tres enumerados en la semánticamente distinta a continuación); 11 espacios variantes del <compat> y caracteres canónicos; y algunas de las palabras clave <superscript> y <subscript> del bloque "Superíndices y subíndices".

Caracteres semánticamente distintos [ editar ]

Muchos caracteres de compatibilidad son caracteres semánticamente distintos, aunque pueden compartir glifos de representación con otros caracteres. Es posible que algunos de estos caracteres se hayan incluido porque la mayoría de los otros conjuntos de caracteres se centraban en un guión o sistema de escritura. Entonces, por ejemplo, la ISO y otros conjuntos de caracteres latinos probablemente incluyeron un carácter para π (pi) ya que, cuando se enfoca principalmente en un sistema de escritura o secuencia de comandos, esos conjuntos de caracteres no habrían tenido caracteres para el símbolo matemático común π ;. Sin embargo, con Unicode, los matemáticos son libres de usar caracteres de cualquier escritura conocida en el mundo para reemplazar un conjunto matemático o una constante matemática. Hasta la fecha, Unicode solo ha agregado soporte semántico específico para algunas de estas constantes matemáticas (por ejemplo, la constante de Planck, U + 210E y la constante de Euler, U + 2107,ambos de los cuales Unicode considera caracteres de compatibilidad). Por lo tanto, Unicode designa varios símbolos matemáticos basados ​​en letras del griego y el hebreo como caracteres de compatibilidad. Éstas incluyen:

  • Símbolos basados ​​en letras hebreas (4): alef (ℵ U + 2135), bet (ℶ U + 2136), gimel (ℷ U + 2137) y dalet (ℸ U + 2138)
  • Símbolos basados ​​en letras griegas (7): beta (ϐ U + 03D0), theta (ϑ U + 03D1), phi (ϕ U + 03D5), pi (ϖ U + 03D6), kappa (ϰ U + 03F0), rho ( ϱ U + 03F1), theta mayúscula (ϴ U + 03F4)

Si bien estos caracteres de compatibilidad se distinguen de sus caracteres de descomposición de compatibilidad solo mediante la adición de la palabra "símbolo" a su nombre, representan significados distintos de larga data en las matemáticas escritas. Sin embargo, para todos los propósitos prácticos, comparten la misma semántica que su letra griega o hebrea equivalente de compatibilidad. Estos se pueden considerar caracteres semánticamente distinguibles en el límite, por lo que no se incluyen en el total.

Aunque no es la intención de Unicode codificar tales unidades de medida, el repertorio incluye seis (6) símbolos de este tipo que los autores no deben usar: en su lugar, deben usarse las descomposiciones de los caracteres.

  • Símbolos de unidad (6): Angstrom (Å U + 212B: use U + 00C5 en su lugar), Ohm (Ω, U + 2126: use U + 03A9 en su lugar), Kelvin (K U + 212A: use U + 004B en su lugar), Fahrenheit (℉ U + 2109: use U + 00B0 y U + 0046 en su lugar), Celsius (℃ U + 2103: use U + 00B0 y U + 0043 en su lugar), Micro Sign (µ U + 00B5: use U + 03BC en su lugar)

Unicode también designa otros veintidós (22) símbolos similares a letras como caracteres de compatibilidad.

  • Otros símbolos griegos basados ​​en letras (4): semilunar épsilon (ϵ U + 03F5), semilunar sigma (ϲ U + 03F2), semilunar sigma mayúscula (Ϲ U + 03F9), upsilon con gancho (ϒ U + 03D2)
  • Constantes matemáticas (3): constante de Euler ( ℇ U + 2107), constante de Planck (ℎ U + 210E), constante de Planck reducida (ℏ U + 210F),
  • Símbolos de moneda (2): signo de rupia (₨ U + 20A8), signo de rial (﷼ U + FDFC)
  • Puntuación (4): líder de un punto (U + 2024), espacio sin interrupciones (U + 00A0), guión sin interrupciones (U + 2011), delimitador de marcas tibetanas tsheg bstar (U + 0F0C)
  • Otros símbolos en forma de letras (10): fuente de información (ℹ U + 2139), relato de (℀ U + 2100), dirigido al sujeto (℁ U + 2101), cuidado de (℅ U + 2105), cada una ( ℆ U + 2106), número (№ U + 2116), señal de teléfono (℡ U + 2121), señal de fax (℻ U + 213B), marca comercial (™ U + 2122), marca de servicio (℠ U + 2120)

Además, varios guiones [ ¿cuál? ] utilizan posiciones de glifos como superíndices y subíndices para diferenciar la semántica. En estos casos, los subíndices y superíndices no son simplemente texto enriquecido, sino que constituyen un carácter distinto, similar a un híbrido entre un diacrítico y una letra [ ¿investigación original? ] - en el sistema de escritura (130 en total).

  • 112 caracteres que representan fonemas abstractos de alfabetos fonéticos como el Alfabeto Fonético Internacional utilizan tales glifos posicionales para representar diferencias semánticas (U + 1D2C - U + 1D6A, U + 1D78, U + 1D9B - U + 1DBF, U + 02B0 - U + 02B8 , U + 02E0 - U + 02E4)
  • 14 caracteres del bloque Kanbun (U + 3192 - U + 319F)
  • 1 carácter del guión de Tifinagh : Marca de labialización de letra modificadora de Tifinagh (ⵯ U + 2D6F)
  • 1 carácter de la escritura georgiana : Letra modificadora Georgian Nar (ჼ U + 10FC)
  • Indicadores ordinales masculinos ( U + 00BA ) y femeninos ( U + 00AA ) incluidos en el bloque del suplemento Latin-1 [ cita requerida ]

Finalmente, Unicode designa los números romanos como equivalencia de compatibilidad con las letras latinas que comparten los mismos glifos. [ cita requerida ]

  • Números romanos en mayúsculas (7): uno (Ⅰ U + 2160), cinco (Ⅴ U + 2164), diez (Ⅹ U + 2169), cincuenta (Ⅼ U + 216C), cien (One U + 216D), quinientos (Ⅾ U + 216E), mil (Ⅿ U + 216F)
  • y variantes de minúsculas (7): Uno (ⅰ U + 2170), Cinco (ⅴ U + 2174), Diez (ⅹ U + 2179), Cincuenta (ⅼ U + 217C), Cien (ⅽ U + 217D), Cinco Cien (ⅾ U + 217E) y mil (ⅿ U + 217F)
  • 18 números romanos precompuestos en mayúsculas y minúsculas (2–4, 6–9 y 11–12)

El número romano Mil en realidad tiene un tercer carácter que representa una tercera forma o glifo de la misma unidad semántica: Mil CD (ↀ U + 2180). A partir de este glifo, se puede ver dónde puede haber surgido la práctica de usar una M latina. Curiosamente, aunque Unicode unifica los números romanos de valor de signo con las muy diferentes [ cita requerida ] (aunque visualmente similares) letras latinas, los números de dígitos decimales del valor posicional árabe índico (posicional) se repiten 24 veces (un total de 240 puntos de código para 10 números) en todo el UCS sin ningún mapeo relacional o de descomposición entre ellos.

La presencia de estos 167 caracteres semánticamente distintos aunque visualmente similares (más los 11 símbolos basados ​​en letras hebreas y griegas en el límite y los 6 símbolos de unidades de medida) entre los caracteres descomponibles complica el tema de los caracteres de compatibilidad. El estándar Unicode desaconseja el uso de caracteres de compatibilidad por parte de los autores de contenido. Sin embargo, en ciertas áreas especializadas, estos personajes son importantes y bastante similares a otros personajes que no se han incluido entre los personajes de compatibilidad. Por ejemplo, en ciertos círculos académicos, el uso de números romanos a diferencia de las letras latinas que comparten los mismos glifos no sería diferente del uso de números cuneiformes o números griegos antiguos. El colapso de los caracteres de números romanos en caracteres de letras latinas elimina una distinción semántica.Existe una situación similar para los caracteres del alfabeto fonético que utilizan glifos colocados en subíndices o superíndices. En los círculos especializados que utilizan alfabetos fonéticos, los autores deberían poder hacerlo sin recurrir a protocolos de texto enriquecido. Como otro ejemplo, los caracteres de compatibilidad de la palabra clave 'círculo' se utilizan a menudo para describir el juego.Vaya . Sin embargo, estos usos de los caracteres de compatibilidad constituyen excepciones en las que el autor tiene una razón especial para utilizar los caracteres que de otro modo no se recomiendan.

Bloques de compatibilidad [ editar ]

Varios bloques de caracteres Unicode incluyen total o casi totalmente todos los caracteres de compatibilidad (U + F900 – U + FFEF excepto los nonchars). Los bloques de compatibilidad no contienen ninguno de los caracteres de compatibilidad semánticamente distintos con una sola excepción: el símbolo de moneda rial (﷼ U + FDFC) por lo que los caracteres descomponibles de compatibilidad en los bloques de compatibilidad caen sin ambigüedad en el conjunto de caracteres desaconsejados. Unicode recomienda a los autores que utilicen los equivalentes de descomposición de compatibilidad de texto sin formato y complementen esos caracteres con marcado de texto enriquecido. Este enfoque es mucho más flexible y abierto que usar el conjunto finito de alfanuméricos encerrados o encerrados en un círculo para dar solo un ejemplo.

Desafortunadamente, hay una pequeña cantidad de caracteres, incluso dentro de los bloques de compatibilidad, que en sí mismos no son caracteres de compatibilidad y, por lo tanto, pueden confundir a los autores. El bloque "Letras y meses CJK adjuntos" contiene un único carácter no compatible: el 'Símbolo estándar coreano' (㉿ U + 327F). Ese símbolo y otros 12 personajes se han incluido en los bloques por razones desconocidas. El bloque "Ideogramas de compatibilidad CJK" contiene estos ideogramas Han unificados no compatibles:

  1. (U + FA0E): 﨎
  2. (U + FA0F): 﨏
  3. (U + FA11): 﨑
  4. (U + FA13): 﨓
  5. (U + FA14): 﨔
  6. (U + FA1F): 﨟
  7. (U + FA21): 﨡
  8. (U + FA23): 﨣
  9. (U + FA24): 﨤
  10. (U + FA27): 﨧
  11. (U + FA28): 﨨
  12. (U + FA29): 﨩

Estos trece caracteres no son caracteres de compatibilidad y no se desaconseja su uso de ninguna manera. Sin embargo, U + 27EAF 𧺯, lo mismo que U + FA23 﨣, está codificado erróneamente en CJK Unified Ideographs Extension B. [4] En cualquier caso, un texto normalizado nunca debe contener tanto U + 27EAF 𧺯 como U + FA23 﨣; estos puntos de código representan el mismo carácter, codificado dos veces.

Varios otros personajes en estos bloques no tienen mapeo de compatibilidad, pero están claramente destinados a soporte heredado:

Formularios de presentación alfabéticos (1)

  1. Punto hebreo judeo-español Varika (U + FB1E): ﬞ. Esta es una variante de glifo de Hebrew Point Rafe (U + 05BF): ֿ, aunque Unicode no proporciona ningún mapeo de compatibilidad.

Formularios de presentación en árabe (4)

  1. "Paréntesis izquierdo adornado" (U + FD3E): ﴾. Una variante de glifo para U + 0029 ')'
  2. "Paréntesis derecho adornado" (U + FD3F):﴿. Una variante de glifo para U + 0028 '('
  3. "Ligadura Bismillah Ar-Rahman Ar-Raheem" ​​(U + FDFD): ﷽. Bismillah Ar-Rahman Ar-Raheem es una ligadura para Beh (U + 0628), Seen (U + 0633), Meem (U + 0645), Space (U + 0020), Alef (U + 0627), Lam (U + 0644), Lam (U + 0644), Je (U + 0647), Espacio (U + 0020), Alef (U + 0627), Lam (U + 0644), Reh (U + 0631), Hah (U + 062D ), Meem (U + 0645), Alef (U + 0627), Mediodía (U + 0646), Espacio (U + 0020), Alef (U + 0627), Lam (U + 0644), Reh (U + 0631) , Hah (U + 062D), Yeh (U + 064A), Meem (U + 0645), es decir بسم الله الرحمان الرحيم [5] (de manera similar, U + DFAE y U + FDFB código para otros dos ligaduras arábigos, de 21 y 9 caracteres respectivamente.)
  4. "Fragmento de cola árabe" (U + FE73): ﹳ para admitir sistemas de texto sin manejo de glifos contextuales

Formularios de compatibilidad de CJK (2 que están relacionados con el ideógrafo unificado de CJK: U + 4E36 丶)

  1. Punto sésamo (U + FE45): ﹅
  2. Punto de sésamo blanco (U + FE46): ﹆

Alfanuméricos adjuntos (21 variantes de texto enriquecido)

  1. 10 números en círculos negativos (0 y 11 a 20) (U + 24FF y U + 24EB a U + 24F4): ⓫ - ⓴
  2. 11 números en círculos dobles (0 a 10) (U + 24F5 a U + 24FE): ⓵ - ⓾

Normalización [ editar ]

La normalización es el proceso mediante el cual el software conforme a Unicode realiza primero la descomposición de la compatibilidad antes de realizar comparaciones o clasificar cadenas de texto. Esto es similar a otras operaciones necesarias cuando, por ejemplo, un usuario realiza una búsqueda insensible a mayúsculas o minúsculas dentro de algún texto. En tales casos, el software debe equiparar o ignorar caracteres que de otro modo no equipararía o ignoraría. Normalmente, la normalización se realiza sin alterar los datos de texto almacenados subyacentes (sin pérdidas). Sin embargo, algunos programas pueden realizar cambios permanentes en el texto que eliminen las diferencias de caracteres de compatibilidad canónicos o incluso no canónicos del almacenamiento de texto (con pérdida).

Referencias [ editar ]

  1. ^ "Capítulo 2.3: Caracteres de compatibilidad" (PDF) . El estándar Unicode 6.0.0 .
  2. ^ Glosario de Unicode del consorcio Unicode
  3. ^ El consorcio Unicode (2010). "El estándar Unicode, versión 6.0.0" (PDF) . Addison-Wesley Professional. pag. 212. ISBN  978-0321480910. CS1 maint: parámetro desalentado ( enlace )
  4. ^ IRGN 1218
  5. ^ Gráfico Unicode FB50-FDFF (PDF) .

Enlaces externos [ editar ]

  • Normalización (Proyecto de texto chino) : problemas de normalización Unicode en chino clásico, con una lista de puntos de código CJK normalizados