La detección y notificación de cambios se refiere a la detección automática de cambios realizados en las páginas de la World Wide Web y la notificación a los usuarios interesados por correo electrónico u otros medios. [1] Mientras que los motores de búsqueda están diseñados para encontrar páginas web, los sistemas CDN están diseñados para monitorear los cambios en las páginas web. Antes de la detección y notificación de cambios, era necesario que los usuarios verificaran manualmente los cambios en la página web, ya sea volviendo a visitar los sitios web o buscando de nuevo periódicamente. La detección y notificación de cambios eficientes y efectivas se ve obstaculizada por el hecho de que la mayoría de los servidores no rastrean con precisión los cambios de contenido a través de los encabezados ETag o Last-Modified . Se puede encontrar un análisis completo sobre los sistemas CDN
Historia
En 1996, NetMind desarrolló la primera herramienta de detección y notificación de cambios, conocida como Mind-it, que funcionó durante seis años. Esto generó nuevos servicios como ChangeDetection (1999), ChangeDetect (2002), Google Alerts (2003) y Versionista (2007), que fue utilizado por la campaña presidencial de John McCain 2008 en la carrera por las elecciones presidenciales de Estados Unidos de 2008 . [2] Históricamente, el sondeo de cambios lo realizaba un servidor que enviaba notificaciones por correo electrónico o un programa de escritorio que alertaba al usuario de forma audible sobre un cambio. Las alertas de cambio también son posibles directamente en dispositivos móviles y mediante notificaciones push , webhooks y devoluciones de llamada HTTP para la integración de aplicaciones.
Las opciones de monitoreo varían según el servicio o producto y van desde el monitoreo de una sola página web a la vez hasta sitios web completos. Lo que realmente se monitorea también varía según el servicio o producto con las posibilidades de monitorear texto, enlaces, documentos, scripts, imágenes o capturas de pantalla.
Con la notable excepción de las solicitudes de patente de Google relacionadas con las alertas de Google , la actividad de propiedad intelectual por parte de los proveedores de detección y notificación de cambios es mínima. [3] Ningún proveedor ha aprovechado con éxito los derechos exclusivos para cambiar la tecnología de detección y notificación a través de patentes u otros medios legales. [ cita requerida ] Esto ha resultado en una superposición funcional significativa entre productos y servicios.
Enfoques arquitectónicos
Los servicios de notificación y detección de cambios se pueden clasificar según la arquitectura de software que utilizan. Se pueden distinguir dos enfoques principales:
Basado en servidor
Un servidor sondea el contenido, rastrea los cambios y registra los datos, enviando alertas en forma de notificaciones por correo electrónico, webhooks , RSS . Normalmente, el usuario administra un sitio web asociado con una configuración. Algunos servicios también tienen una aplicación de dispositivo móvil que se conecta a un servidor en la nube y proporciona alertas al dispositivo móvil.
Basado en el cliente
Una aplicación de cliente local con una interfaz gráfica de usuario sondea el contenido, rastrea los cambios y registra los datos.
Consideraciones
Algunas páginas web cambian con regularidad debido a la inclusión de anuncios o feeds en la página presentada. Esto puede desencadenar falsos positivos en la detección de cambios, ya que los usuarios a menudo solo están interesados en cambios en el contenido principal. Existen algunos enfoques para mitigar este problema.
- Cree una métrica de diferencia entre dos versiones de una página (calculada, por ejemplo, a partir del cambio en el tamaño total, cambios en el archivo HTML o cambios en el árbol DOM ) e ignore los cambios por debajo de algún umbral. El usuario puede establecer el umbral o estimarlo automáticamente comparando algunas versiones anteriores de la página.
- Extracción de contenido. Para sitios populares, o sitios que ejecutan software popular, el contenido puede separarse activamente de la basura seleccionando un subárbol del DOM, por ejemplo, usando XPath . Otro método típico es el uso de expresiones regulares para extraer solo el texto que le interesa al usuario.
Referencias
- ^ Mallawaarachchi, Vijini; Meegahapola, Lakmal; Alwis, Roshan; Heshan, Eranga; Meedeniya, Dulani; Jayarathna, Sampath (14 de mayo de 2020). Detección de cambios y notificación de páginas web: una encuesta . OCLC 1201518429 .
- ^ "¡A la Wayback Machine, Sherman!" . The Economist . Consultado el 9 de enero de 2019 .
- ^ "Creó Google Alerts. Ahora es un productor de almendras" . CNN . 4 de abril de 2016 . Consultado el 9 de septiembre de 2016 .
- Chakravarthy, S .; Hara, SCH (2006). "Automatización de la detección de cambios y notificación de páginas web (ponencia invitada)". XVII Congreso Internacional de Aplicaciones de Bases de Datos y Sistemas Expertos (DEXA'06) . pag. 465. doi : 10.1109 / DEXA.2006.34 . ISBN 0-7695-2641-1.
- Shobhna, Bansal; Chadhaury, Manoj (junio de 2013). "Una encuesta sobre el sistema de detección de cambios de página web utilizando diferentes enfoques" (PDF) . Revista Internacional de Ciencias de la Computación y Computación Móvil . IJCSMC. 2 (6): 294–299. ISSN 2320-088X . Consultado el 8 de septiembre de 2016 .
- Mallawaarachchi, Vijini; Meegahapola, Lakmal; Alwis, Roshan; Heshan, Eranga; Meedeniya, Dulani; Jayarathna, Sampath (enero de 2019). "Detección de cambios y notificación de páginas web: una encuesta". arXiv : 1901.02660 . Código bibliográfico : 2019arXiv190102660M . doi : 10.1145 / 3369876 . Cite journal requiere
|journal=
( ayuda )