Una frontera de rastreo es una estructura de datos que se utiliza para el almacenamiento de URL aptas para rastrear y admitir operaciones tales como agregar URL y seleccionar para rastreo. A veces, puede verse como una cola de prioridad . [1]
Descripción general
Una frontera de rastreo es uno de los componentes que conforman la arquitectura de un rastreador web. La frontera del rastreo contiene la lógica y las políticas que sigue un rastreador cuando visita sitios web. Esta actividad se conoce como rastreo .
Las políticas pueden incluir cosas tales como qué páginas se deben visitar a continuación, las prioridades de cada página en la que se buscará y la frecuencia con la que se visitará la página. [2] La eficiencia de la frontera del rastreo es especialmente importante ya que una de las características de la Web que hace que rastrear la Web sea un desafío; es que contiene un gran volumen de datos y cambia constantemente. [3] [4]
Arquitectura
La lista inicial de URL contenidas en la frontera del rastreador se conoce como semillas. El rastreador web preguntará constantemente a la frontera qué páginas visitar. A medida que el rastreador visita cada una de esas páginas, informará a la frontera con la respuesta de cada página. El rastreador también actualizará la frontera del rastreador con los nuevos hipervínculos contenidos en las páginas que ha visitado. Estos hipervínculos se agregan a la frontera y visitarán esas nuevas páginas web según las políticas de la frontera del rastreador. [3] [4] Este proceso continúa de forma recursiva hasta que se visitan todas las URL en la frontera de rastreo.
Las políticas que se utilizan para determinar qué páginas visitar se basan comúnmente en una puntuación. Esta puntuación se calcula normalmente a partir de varios atributos diferentes. Como la frescura de una página, la hora en que se actualizó la página y la relevancia del contenido con respecto a ciertos términos.
Componentes
API / Administrador de Frontier
Frontier Manager es el componente que utilizará el rastreador web para comunicarse con la frontera de rastreo. La API de frontera también se puede utilizar para comunicarse con la frontera de rastreo. [3]
Middlewares
Los middlewares de frontera se ubican entre el administrador y el backend. El propósito de los middlewares es administrar la comunicación entre la frontera y el backend. Los middlewares son una forma ideal de agregar o extender funcionalidad adicional simplemente conectando código adicional. [5]
Backend
El componente de backend contiene toda la lógica y las políticas que se utilizan en una búsqueda. La función del backend es identificar las páginas que se rastrearán. [5]
Implementaciones conocidas
- Frontera (rastreo web) es una implementación de frontera de rastreo de código abierto escrita exclusivamente en Python.
Referencias
- ^ Olston, Christopher; Najork, Marc. "Rastreo web" (PDF) . Fundamentos y tendencias en la recuperación de información .
- ^ Patil, Yugandhara; Patil, Sonal (2016). "Revisión de rastreadores web con especificación y funcionamiento" (PDF) . Revista Internacional de Investigación Avanzada en Ingeniería Informática y de la Comunicación . 5 : 4.
- ^ a b c "Documentación de crawlfrontier" (PDF) . 15 de abril de 2015.
- ^ a b Dhenakaran, SS; Sambanthan, K. Thirugnana (2011). "Web Crawler: una descripción general" (PDF) . Revista Internacional de Ciencias de la Computación y Comunicación . 2 : 3.
- ^ a b "Arquitectura Frontera" . 2017.