Computadoras y lengua vietnamita

El idioma vietnamita está escrito con un alfabeto latino con signos diacríticos, lo que requiere varias adaptaciones al escribir en el teléfono o en la computadora. Los sistemas basados en software son la forma más popular de escribir en vietnamita. El télex es el método de entrada más antiguo ideado para codificar el idioma vietnamita y, a menudo, se establece como predeterminado en los teclados virtuales de los teléfonos y dispositivos con pantalla táctil. Otros métodos de entrada también pueden incluir VNI y VIQR , que se adaptan más a las computadoras personales físicas de escritorio o portátiles.

El método de entrada VNI no debe confundirse con la página de códigos VNI.

Históricamente, el vietnamita también se escribió en chữ Nôm , que hoy en día se utiliza con fines ceremoniales y tradicionales, y permanece en el campo de los historiadores y filólogos .

Fuentes y codificaciones de caracteres

Alfabeto vietnamita

Es común que se coloquen dos signos diacríticos en una sola vocal vietnamita. Algunas fuentes apilan estos signos diacríticos, mientras que otras compensan la marca de tono.

Hay hasta 46 codificaciones de caracteres para representar el alfabeto vietnamita . ^[1] Unicode se ha convertido en la forma más popular para muchos de los sistemas de escritura del mundo, debido a su gran compatibilidad y soporte de software. Los diacríticos se pueden codificar como caracteres combinados o como caracteres precompuestos , que se encuentran dispersos entre los bloques Latin Extended-A , Latin Extended-B y Latin Extended Additional . El símbolo đồng vietnamita está codificado en el bloque Símbolos de moneda . Históricamente, el idioma vietnamita utilizó otros caracteres más allá del alfabeto moderno. La letra B del vietnamita medio con floritura (ꞗ) se incluye en el bloque Latin Extended-D . El ápice no está incluido en Unicode, pero U + 1DC4 ◌᷄ COMBINING MACRON-AGUTE puede servir como una aproximación aproximada.

Las primeras versiones de Unicode asignaron los caracteres U + 0340 ◌̀ COMBINACIÓN DE MARCA DE TONO GRAVE yU + 0341 ◌́ COMBINANDO MARCA DE TONO AGUDO con el propósito de colocar estas marcas al lado de un circunflejo, como es común en la tipografía vietnamita. Estos dos personajes han quedado obsoletos;U + 0301 ◌́ COMBINANDO ACENTO AGUDO yU + 0300 ◌̀ COMBINING GRAVE ACCENT ahora se utilizan independientemente de cualquier circunflejo presente. ^[2]

Para los sistemas que carecen de soporte para Unicode, se han diseñado decenas de páginas de códigos vietnamitas de 8 bits . ^[1] Los más utilizados fueron VISCII , VSCII (TCVN 5712: 1993), VNI , VPS y Windows-1258 . ^[3]^[4] Donde ASCII se requiere, por ejemplo cuando asegurar la legibilidad en texto sin formato de correo electrónico, cartas vietnamitas a menudo se codifican de acuerdo con vietnamita Citado-Readable (VIQR) o VSCII Mnemonic (VSCII-MNEM), ^[5] aunque el uso de cualquiera de los esquemas de ancho variable ha disminuido drásticamente tras la adopción de Unicode en la World Wide Web . Por ejemplo, la compatibilidad con todas las codificaciones de 8 bits mencionadas anteriormente, con la excepción de Windows-1258, se eliminó del software de Mozilla en 2014. ^[6]

Muchas fuentes vietnamitas destinadas a la autoedición están codificadas en VNI o TCVN3 ( VSCII ). ^[4] Estas fuentes se conocen como "fuentes ABC". ^[7] Los navegadores web populares carecen de soporte para codificaciones vietnamitas especiales, por lo que cualquier página web que use estas fuentes aparece como mojibake ininteligible en sistemas que no las tienen instaladas.

A la derecha, una í que conserva su título .

El vietnamita a menudo apila diacríticos, por lo que los diseñadores de tipografía deben tener cuidado de evitar que los diacríticos apilados choquen con letras o líneas adyacentes. Cuando se usa una marca de tono junto con otro diacrítico, desplazar la marca de tono hacia la derecha conserva la consistencia y evita ralentizar las sacadas . ^[8] En la señalización publicitaria y en letra cursiva , los signos diacríticos a menudo adoptan formas desconocidas para otros alfabetos latinos. Por ejemplo, la letra minúscula I conserva su título en ì , ỉ , ĩ e í . ^[9] Estos matices rara vez se tienen en cuenta en los entornos informáticos.

Enfoques

La escritura vietnamita requiere 134 letras adicionales (entre ambos casos) además de las 52 ya presentes en ASCII. ^[10] Esto excede los 128 caracteres adicionales disponibles en una codificación ASCII extendida convencional . Aunque esto se puede resolver utilizando una codificación de ancho variable (como lo hace UTF-8 ), otras codificaciones han utilizado una serie de enfoques para admitir el vietnamita sin hacerlo:

Reemplace al menos seis caracteres ASCII, seleccionados por ser poco comunes en vietnamita y / o por no ser invariantes en ISO 646 o DEC NRCS ^[10] (como en VNI para DOS ).
Elimine las letras mayúsculas que se utilizan con menos frecuencia, ^[10] o todas las letras mayúsculas con marcas de tono (como en VSCII-3 (TCVN3)). Estas letras todavía se pueden suministrar mediante fuentes en mayúsculas. ^[11]
Elimine las formas de la letra Y con marcas de tono, lo que requiere el uso de la letra I en esas circunstancias . Este enfoque fue rechazado por los diseñadores de VISCII sobre la base de que una codificación de caracteres no debería intentar resolver un problema de reforma ortográfica. ^[10]
Reemplace al menos seis caracteres de control C0 ^[10] (como en VISCII , VSCII-1 (TCVN1) y VPS ).
Utilice la combinación de caracteres, permitiendo que una vocal con acentos se represente completamente mediante una secuencia de caracteres (como en VNI , VSCII-2 (TCVN2), Windows-1258 y ANSEL ).

Chữ Nôm

El carácter nôm de phở . ^[12]

Unicode incluye más de 10,000 nôm caracteres como parte del repertorio Unicode de ideogramas unificados de CJK . De estos caracteres, 10082 se pueden encontrar en la CJK Unified Ideographs extensión B de bloque, mientras que el resto se distribuye entre los Ideographs CJK Unified , Unified CJK Ideographs extensión A , y unificadas CJK Ideographs extensión C bloques. Otros 1.028 caracteres, incluidos más de 400 caracteres específicos del idioma Tày , están codificados en el bloque E de extensión de ideogramas unificados de CJK . Los caracteres están tomados de los estándares vietnamitas TCVN 5773: 1993 y TCVN 6909: 2001 [¿error para TCVN 6056: 1995?], Así como de investigaciones del Instituto de Investigación Han-Nom y otros grupos. ^[13] Todos los caracteres en TCVN 5773: 1993 y aproximadamente el 95% de los caracteres en TCVN 6909: 2001 [¿error para TCVN 6056: 1995?] Tienen puntos de código correspondientes en Unicode 5.1, aunque TCVN 5773: 1993 mismo mapeó la mayoría de sus caracteres. al área de uso privado de Unicode. ^[14] Unicode 13.0 agregó dos caracteres diacríticos al bloque de símbolos ideográficos y puntuación que se usaban comúnmente para indicar caracteres prestados en chữ Nôm . ^[15]^[16]

Los dos más completos NOM fuentes son la Fundación de Preservación NOM vietnamita 's nom Na Tống Luz ^[17] y el desarrollado por la comunidad HAN NOM A / HAN NOM B , ^[18] los cuales colocan un gran número de caracteres no normalizados en el privado Áreas de uso .

La base de datos Unihan del Consorcio Unicode incluye lecturas vietnamitas de algunos caracteres, pero no distingue entre lecturas chino-vietnamitas y nôm .

Al igual que otros sistemas de escritura CJKV , chữ Nôm se escribe tradicionalmente verticalmente , de arriba a abajo y de derecha a izquierda.

Chữ Hán y chữ Nôm también se pueden anotar usando caracteres rubí , que es lo mismo que chữ quốc ngữ para vietnamita. ^[19]

Entrada de texto

Un teclado vietnamita puramente físico no sería práctico, debido a la gran cantidad de combinaciones de letras, diacríticos y diacríticos en el alfabeto, por ejemplo, á, à, ả, ã, ạ, â, ấ, etc. En cambio, la entrada vietnamita se basa en software de fórmulas: diseños de teclado basados en teclados virtuales o métodos de entrada (también conocidos como IME).

Diseños de teclado

Microsoft Windows incluye un diseño de teclado vietnamita basado en TCVN 6064: 1995.

Diseño de teclado de máquina de escribir vietnamita basado en AZERTY

Los diseños de teclado vietnamita se basan en teclas muertas para componer letras con diacríticos. La mayoría de los sistemas operativos de escritorio incluyen una distribución de teclado vietnamita similar a TCVN 6064: 1995 [ vi ] , un estándar nacional vietnamita. Anteriormente, las máquinas de escribir usaban un diseño vietnamita basado en AZERTY. ^[20]

Métodos de entrada

xvnkb, un IME compatible con el marco del método de entrada X en sistemas Unix, admite la salida en codificaciones de seis caracteres.

Los tres métodos de entrada vietnamitas más comunes son Telex , VNI y VIQR . El télex indica diacríticos usando letras que es poco probable que aparezcan al final de una palabra, mientras que VNI reutiliza las teclas numéricas o teclas de función y VIQR reutiliza varios signos de puntuación. Las convenciones de télex y VIQR se originaron en una era anterior de máquinas de télex y máquinas de escribir, respectivamente.

El soporte para estos métodos de entrada lo proporcionan los editores de métodos de entrada (IME), que se conocen en vietnamita como bộ gõ , literalmente "picoteadores" o "percusión" en términos más generales. Los IME pueden ser proporcionados por el sistema operativo, instalados como una aplicación de terceros, instalados como una extensión del navegador o proporcionados por un sitio web individual en forma de un script . Las aplicaciones comunes de terceros incluyen GoTiengViet, UniKey , VietKey, VPSKeys , WinVNKey y xvnkb. En sistemas operativos similares a Unix, los marcos IBus y SCIM son compatibles con el vietnamita. Los scripts de IME como AVIM, Mudim y VietTyping se pueden encontrar en la mayoría de los foros de mensajes vietnamitas , la Wikipedia vietnamita y otros sitios web de texto intensivo. El navegador web vietnamita Cốc Cốc viene con un método de entrada incorporado.

Los métodos de entrada permiten que las palabras se compongan en un orden más flexible que el que permite la distribución del teclado. Por ejemplo, para ingresar la palabra " viết " usando la distribución del teclado TCVN 6064: 1995, se debe escribir VI38T, en ese orden. Por el contrario, la mayoría de los IME permiten al usuario insertar signos diacríticos al final de la palabra: VIEETSen télex, VIET61en VNI o VIET^'en VIQR. Algunos IME incluso permiten introducir signos diacríticos antes de sus letras base. Dependiendo de la implementación de un IME, también es posible editar los signos diacríticos de una palabra existente sin volver a escribir la palabra.

Tomando prestada una característica común entre los métodos de entrada chinos , algunos IME vietnamitas permiten omitir los diacríticos por completo y, en su lugar, después de escribir las letras base, el usuario puede seleccionar la palabra acentuada de una lista de candidatos. Para proporcionar esta lista de autocompletar , es posible que el IME deba comunicarse con un servicio web . Algunos IME también utilizan listas de candidatos para permitir al usuario convertir texto del alfabeto vietnamita a chữ Nôm , porque no existe una correspondencia de uno a uno entre las palabras alfabéticas y los caracteres nôm .

Otras Consideraciones

El texto típico vietnamita contiene una alta proporción de palabras compuestas. Las palabras compuestas nunca se separan con guiones en el uso contemporáneo, por lo que los correctores ortográficos se limitan a comprobar sílabas individuales a menos que se consulte un modelo de lenguaje estadístico .

El vietnamita tiene reglas de ortografía rígidas y pocas excepciones, por lo que los motores de conversión de texto a voz pueden evitar las búsquedas en el diccionario, excepto cuando se encuentra con una palabra de préstamo extranjera. Los motores de TTS deben tener en cuenta los tonos , que son esenciales para el significado de cualquier palabra vietnamita, por ejemplo, má (madre) es una palabra diferente a mà (pero).

Ver también

Métodos de entrada chinos para computadoras
Idioma japonés y computadoras
Computadoras y idioma coreano

Referencias

^ a b Ngô Đình Học; Trần Tư Bình (21 de julio de 2014). "Manual expreso para WinVNKey" . WinVNKey . Consultado el 5 de octubre de 2014 .
^ "Combinación de marcas diacríticas" . Gráficos de códigos de caracteres Unicode 7.0 . Consorcio Unicode . 16 de junio de 2014 . Consultado el 5 de octubre de 2014 .
^ Ngo, Hoc Dinh; Tran, TuBinh. "5. ¿Por qué tener conversión de juego de caracteres vietnamita (juego de caracteres - codificación)?" . Algunas funciones especiales de WinVNKey .
^ a b "Chọn Font chữ, bảng mã để gõ tiếng Việt" . Bộ gõ tiếng Việt.Com (en vietnamita). MangVN. 2009. Archivado desde el original el 20 de noviembre de 2010.
^ Lunde, Ken (2009). Procesamiento de información CJKV (2ª ed.). O'Reilly Media . págs. 47–49. ISBN 978-0-596-51447-1 - a través de Google Books.
^ Sivonen, Henri (26 de septiembre de 2014). "Los cambios de codificación de caracteres en mc requieren acción cc" . mozilla.dev.apps.thunderbird .
^ Hoàng Tô; Nguyễn Quan Sơn; Nguyễn Sơn Tùng; Phan Quang Minh; Phạm Thúc Trương Lương; Nguyễn Quang Hiệp; Bùi Văn Kiên; Nguyễn Ích Vinh (20 de julio de 2014). Sử ký Tinh Vân: 20 năm sẻ chia và sáng tạo [ Historia de Tinhvan: 20 años de compartir y crear ] (en vietnamita). 1 . Grupo Tinhvan. pag. 37 - a través de Google Books.
^ Trương, Donny. "Desafíos de diseño" . Tipografía vietnamita . Consultado el 10 de abril de 2018 .
^ Ver, por ejemplo: "Viết Thư". Selecciones de lectura vietnamita (en vietnamita) (2 ed.). Escuela de Idiomas del Ejército . 1956. págs. 98-100.
^ a b c d e "2. Revisión de las convenciones vigentes". Informe de estandarización de codificación de caracteres vietnamita - Especificaciones de codificación de caracteres VISCII y VIQR 1.1 (informe técnico). Grupo Viet-Std. 1992. p. 10.
^ "Codificaciones de caracteres heredados Unicode y vietnamita" . Preguntas frecuentes sobre Unicode vietnamita . TCVN3 no es de doble byte, pero debido a la naturaleza de su codificación, las letras mayúsculas (vocales) se asignan a una fuente mayúscula separada que es similar a la normal en minúsculas.
^ Trần Văn Kiệm (2004). "phở" . Giúp đọc Nôm và Hán Việt (en vietnamita) (4ª ed.). [1]
^ Nguyễn Quang Hồng. "Giới thiệu Kho chữ Hán Nôm mã hoá" [Introducción al repertorio de caracteres codificados de Hán Nôm] (en vietnamita). Fundación Vietnamita de Preservación Nôm.
^ Lunde 2009 , págs. 152-153.
^ Collins, Lee; Ngô Thanh Nhàn (6 de noviembre de 2017). "Propuesta para codificar dos marcas de lectura alternativas vietnamitas" (PDF) .
^ "Nuevos personajes propuestos: el oleoducto" . Consorcio Unicode. 8 de mayo de 2019 . Consultado el 26 de mayo de 2019 .
^ "Nôm Font" . Fundación Vietnamita de Preservación Nôm . Consultado el 5 de octubre de 2014 .
^ Đỗ Quốc Bảo; Tô Minh Tâm; Thiền Viện Viên Chiếu (8 de diciembre de 2005). "Conjunto de fuentes UNICODE Han Nom" . Consultado el 5 de octubre de 2014 .
^ Lunde 2009 , p. 529.
^ Duncan, John William (2005-12-22), VietNamese Typewriter , consultado el 11 de julio de 2020

Otras lecturas

Lunde, Ken (2009). Procesamiento de información CJKV . Sebastopol, California: O'Reilly Media . ISBN 978-0-596-51447-1 - a través de Google Books.

enlaces externos

Informática en vietnamita: Progreso y desafíos - Presentación del Grupo internacional de usuarios de Macintosh 2005
Conversiones vietnamitas : herramienta en línea para recuperar el mojibake vietnamita

[WinVNKey_manual-1] Ngô Đình Học; Trần Tư Bình (21 de julio de 2014). "Manual expreso para WinVNKey" . WinVNKey . Consultado el 5 de octubre de 2014 .

[2] "Combinación de marcas diacríticas" . Gráficos de códigos de caracteres Unicode 7.0 . Consorcio Unicode . 16 de junio de 2014 . Consultado el 5 de octubre de 2014 .

[wvnk-3] Ngo, Hoc Dinh; Tran, TuBinh. "5. ¿Por qué tener conversión de juego de caracteres vietnamita (juego de caracteres - codificación)?" . Algunas funciones especiales de WinVNKey .

[BGTV_fonts-4] "Chọn Font chữ, bảng mã để gõ tiếng Việt" . Bộ gõ tiếng Việt.Com (en vietnamita). MangVN. 2009. Archivado desde el original el 20 de noviembre de 2010.

[Lunde-5] Lunde, Ken (2009). Procesamiento de información CJKV (2ª ed.). O'Reilly Media . págs. 47–49. ISBN 978-0-596-51447-1 - a través de Google Books.

[6] Sivonen, Henri (26 de septiembre de 2014). "Los cambios de codificación de caracteres en mc requieren acción cc" . mozilla.dev.apps.thunderbird .

[Hoang_To-7] Hoàng Tô; Nguyễn Quan Sơn; Nguyễn Sơn Tùng; Phan Quang Minh; Phạm Thúc Trương Lương; Nguyễn Quang Hiệp; Bùi Văn Kiên; Nguyễn Ích Vinh (20 de julio de 2014). Sử ký Tinh Vân: 20 năm sẻ chia và sáng tạo [ Historia de Tinhvan: 20 años de compartir y crear ] (en vietnamita). 1 . Grupo Tinhvan. pag. 37 - a través de Google Books.

[8] Trương, Donny. "Desafíos de diseño" . Tipografía vietnamita . Consultado el 10 de abril de 2018 .

[9] Ver, por ejemplo: "Viết Thư". Selecciones de lectura vietnamita (en vietnamita) (2 ed.). Escuela de Idiomas del Ejército . 1956. págs. 98-100.

[rep92-10] "2. Revisión de las convenciones vigentes". Informe de estandarización de codificación de caracteres vietnamita - Especificaciones de codificación de caracteres VISCII y VIQR 1.1 (informe técnico). Grupo Viet-Std. 1992. p. 10.

[11] "Codificaciones de caracteres heredados Unicode y vietnamita" . Preguntas frecuentes sobre Unicode vietnamita . TCVN3 no es de doble byte, pero debido a la naturaleza de su codificación, las letras mayúsculas (vocales) se asignan a una fuente mayúscula separada que es similar a la normal en minúsculas.

[Kiem-12] Trần Văn Kiệm (2004). "phở" . Giúp đọc Nôm và Hán Việt (en vietnamita) (4ª ed.). [1]

[VNPF_Hồng-13] Nguyễn Quang Hồng. "Giới thiệu Kho chữ Hán Nôm mã hoá" [Introducción al repertorio de caracteres codificados de Hán Nôm] (en vietnamita). Fundación Vietnamita de Preservación Nôm.

[FOOTNOTELunde2009152–153-14] Lunde 2009 , págs. 152-153.

[15] Collins, Lee; Ngô Thanh Nhàn (6 de noviembre de 2017). "Propuesta para codificar dos marcas de lectura alternativas vietnamitas" (PDF) .

[16] "Nuevos personajes propuestos: el oleoducto" . Consorcio Unicode. 8 de mayo de 2019 . Consultado el 26 de mayo de 2019 .

[17] "Nôm Font" . Fundación Vietnamita de Preservación Nôm . Consultado el 5 de octubre de 2014 .

[18] Đỗ Quốc Bảo; Tô Minh Tâm; Thiền Viện Viên Chiếu (8 de diciembre de 2005). "Conjunto de fuentes UNICODE Han Nom" . Consultado el 5 de octubre de 2014 .

[FOOTNOTELunde2009529-19] Lunde 2009 , p. 529.

[20] Duncan, John William (2005-12-22), VietNamese Typewriter , consultado el 11 de julio de 2020

[1]