HTML semántico

HTML semántico es el uso de marcado HTML para reforzar la semántica , o significado, de la información en páginas web y aplicaciones web en lugar de simplemente definir su presentación o apariencia . El HTML semántico es procesado por navegadores web tradicionales , así como por muchos otros agentes de usuario . CSS se utiliza para sugerir su presentación a usuarios humanos.

HTML ha incluido marcado semántico desde sus inicios. ^[1] En un documento HTML, el autor puede, entre otras cosas, "comenzar con un título; agregar encabezados y párrafos; agregar énfasis al texto; agregar imágenes; agregar enlaces a otras páginas; [y] usar varios tipos de listas". ^[2]

Varias versiones del estándar HTML han incluido marcado de presentación como <font>(agregado en HTML 3.2; eliminado en HTML 4.0 Strict), <i>(todas las versiones) y <center>(agregado en HTML 3.2). También están los elementos span y div semánticamente neutrales . Desde finales de la década de 1990, cuando las hojas de estilo en cascada comenzaron a funcionar en la mayoría de los navegadores, se ha alentado a los autores web a evitar el uso de marcado HTML de presentación con miras a la separación de la presentación y el contenido . ^[3]

En 2001, Tim Berners-Lee participó en una discusión sobre la Web Semántica , donde se presentó que los 'agentes' de software inteligente podrían algún día rastrear automáticamente la Web y encontrar, filtrar y correlacionar hechos publicados previamente no relacionados para el beneficio de los usuarios finales. . ^[4] Dichos agentes no son comunes ni siquiera ahora, pero algunas de las ideas de la Web 2.0 , los mashups y los sitios web de comparación de precios pueden estar acercándose. La principal diferencia entre estos híbridos de aplicaciones web y los agentes semánticos de Berners-Lee radica en el hecho de que la agregación actualy la hibridación de la información generalmente la diseñan los desarrolladores web, que ya conocen las ubicaciones web y la semántica API de los datos específicos que desean mezclar, comparar y combinar.

Un tipo importante de agente web que rastrea y lee páginas web automáticamente, sin conocimiento previo de lo que podría encontrar, es el rastreador web o la araña del motor de búsqueda. Estos agentes de software dependen de la claridad semántica de las páginas web que encuentran, ya que utilizan diversas técnicas y algoritmos para leer e indexar millones de páginas web al día y proporcionar a los usuarios de la web funciones de búsqueda .

Para que las arañas de los motores de búsqueda puedan calificar la importancia de los fragmentos de texto que encuentran en los documentos HTML, y también para aquellos que crean mashups y otros híbridos, así como para agentes más automatizados a medida que se desarrollan, las estructuras semánticas que existen en HTML deben aplicarse amplia y uniformemente para resaltar el significado de la información publicada. ^[5]