Lenguaje de marcado


En el procesamiento de texto por computadora, un lenguaje de marcado son metadatos para anotar un documento (es decir, una página web), que se distingue visualmente de cómo el usuario normalmente ve el documento. [1] Se usa solo para formatear el texto, por lo tanto, cuando el documento se procesa para su visualización, el lenguaje de marcado no aparece. [2] La idea y la terminología evolucionaron a partir del "marcado" de los manuscritos en papel (es decir, las instrucciones de revisión de los editores), que tradicionalmente se escribe con un bolígrafo rojo o un lápiz azul en los manuscritos de los autores. [3]Dicho "marcado" generalmente incluye tanto correcciones de contenido (como ortografía, puntuación o movimiento de contenido) como también instrucciones tipográficas , como hacer un encabezado más grande o en negrita.

En los medios digitales , este "azul texto de la instrucción lápiz" fue reemplazado por etiquetas que idealmente indican cuáles son las partes del documento son , en lugar de los detalles de cómo podrían ser mostrados en alguna pantalla. Esto permite a los autores evitar formatear cada instancia del mismo tipo de cosas de forma redundante (y posiblemente inconsistente). También evita la especificación de fuentes y dimensiones que pueden no aplicarse a muchos usuarios (como aquellos con pantallas de diferentes tamaños, problemas de visión y software de lectura de pantalla).

Los primeros sistemas de marcado generalmente incluían instrucciones de composición, como lo hacen troff , TeX y LaTeX , mientras que Scribe y la mayoría de los sistemas de marcado modernos nombran componentes y luego procesan esos nombres para aplicar formato u otro procesamiento, como en el caso de XML .

Algunos lenguajes de marcado, como el HTML ampliamente utilizado , tienen semánticas de presentación predefinidas, lo que significa que su especificación prescribe algunos aspectos de cómo presentar los datos estructurados en medios particulares. HTML, como DocBook , Open eBook , JATS y muchos otros, es una aplicación específica de los metalenguajes de marcado SGML y XML . Es decir, SGML y XML permiten a los usuarios especificar esquemas particulares , que determinan qué elementos, atributos y otras características están permitidos y dónde.

Una característica extremadamente importante de la mayoría de los lenguajes de marcado es que permiten mezclar el marcado directamente en secuencias de texto. Esto sucede todo el tiempo en los documentos: algunas palabras en una oración deben enfatizarse o identificarse como un nombre propio, término definido u otro elemento especial. Esto es bastante diferente estructuralmente de las bases de datos tradicionales , donde por definición es imposible tener datos que estén (por ejemplo) dentro de un registro, pero no dentro de ningún campo. Asimismo, el marcado de los textos en lenguaje natural debe mantener el orden: no sería suficiente convertir cada párrafo de un libro en un registro de "párrafo", donde esos registros no mantienen el orden.

El marcado del sustantivo se deriva de la práctica de publicación tradicional llamada "marcado" de un manuscrito , [4] que implica agregar anotaciones manuscritas en forma de instrucciones simbólicas convencionales de la impresora , en los márgenes y el texto de un papel o un manuscrito impreso. .


Ejemplo de RecipeBook, un lenguaje sencillo basado en XML para crear recetas. El marcado se puede convertir a HTML , PDF y formato de texto enriquecido utilizando un lenguaje de programación o XSLT .