Un rastreador enfocado es un rastreador web que recopila páginas web que satisfacen alguna propiedad específica, priorizando cuidadosamente la frontera del rastreo y administrando el proceso de exploración de hipervínculos. [1] Algunos predicados pueden basarse en propiedades simples, deterministas y superficiales. Por ejemplo, la misión de un rastreador puede ser rastrear páginas solo del dominio .jp. Otros predicados pueden ser más suaves o comparativos, por ejemplo, "rastrear páginas sobre béisbol" o "rastrear páginas con un PageRank grande ". Una propiedad de página importante se refiere a temas, lo que lleva a "rastreadores de actualidad". Por ejemplo, se puede implementar un rastreador tópico para recopilar páginas sobre energía solar, gripe porcina o incluso conceptos más abstractos como controversia [2]minimizando al mismo tiempo los recursos gastados en buscar páginas sobre otros temas. La gestión de la frontera de rastreo puede no ser el único dispositivo utilizado por rastreadores enfocados; pueden utilizar un directorio web , un índice de texto web , vínculos de retroceso o cualquier otro artefacto web.
Un rastreador enfocado debe predecir la probabilidad de que una página no visitada sea relevante antes de descargarla. [3] Un posible predictor es el texto de anclaje de los enlaces; este fue el enfoque adoptado por Pinkerton [4] en un rastreador desarrollado en los primeros días de la Web. El rastreo tópico fue introducido por primera vez por Filippo Menczer [5] [6] Chakrabarti et al. acuñó el término "rastreador enfocado" y utilizó un clasificador de texto [7] para priorizar la frontera del rastreo. Andrew McCallum y sus coautores también utilizaron el aprendizaje por refuerzo [8] [9] para enfocar a los rastreadores. Diligenti y col. trazó el gráfico de contexto [10] que conduce a las páginas relevantes, y su contenido de texto, para entrenar a los clasificadores. Se ha utilizado una forma de aprendizaje reforzado en línea junto con características extraídas del árbol DOM y el texto de las páginas de enlace, para entrenar continuamente [11] a los clasificadores que guían el rastreo. En una revisión de algoritmos de rastreo tópicos, Menczer et al. [12] muestran que estas estrategias simples son muy efectivas para rastreos cortos, mientras que técnicas más sofisticadas como el aprendizaje por refuerzo y la adaptación evolutiva pueden dar el mejor rendimiento en rastreos más largos. Se ha demostrado que la información espacial es importante para clasificar documentos web. [13]
Otro tipo de rastreadores enfocados es el rastreador semántico, que hace uso de ontologías de dominio para representar mapas temáticos y vincular páginas web con conceptos ontológicos relevantes para fines de selección y categorización. [14] Además, las ontologías se pueden actualizar automáticamente en el proceso de rastreo. Dong y col. [15] introdujo un rastreador basado en el aprendizaje de ontologías que utiliza una máquina de vectores de soporte para actualizar el contenido de los conceptos ontológicos al rastrear páginas web.
Los rastreadores también se centran en las propiedades de la página distintas de los temas. Cho y col. [16] estudian una variedad de políticas de priorización de rastreo y sus efectos en la popularidad de enlaces de las páginas buscadas. Najork y Weiner [17] muestran que el rastreo de amplitud primero , a partir de páginas semilla populares, lleva a recopilar páginas de PageRank grandes al principio del rastreo. Eiron et al. [18] Meusel et al. Han introducido una especie de rastreador centrado en la semántica, que hace uso de la idea del aprendizaje por refuerzo . [19] utilizando algoritmos de clasificación basados en línea en combinación con una estrategia de selección basada en bandidos para rastrear páginas de manera eficiente con lenguajes de marcado como RDFa , Microformats y Microdata .
El rendimiento de un rastreador enfocado depende de la riqueza de los enlaces en el tema específico que se busca, y el rastreo enfocado generalmente se basa en un motor de búsqueda web general para proporcionar puntos de partida. Davison [20] presentó estudios sobre enlaces web y texto que explican por qué el rastreo enfocado tiene éxito en temas generales; Chakrabarti et al. presentaron estudios similares. [21] La selección de semillas puede ser importante para los rastreadores enfocados e influir significativamente en la eficiencia del rastreo. [22] Una estrategia de lista blanca es iniciar el rastreo de enfoque a partir de una lista de URL iniciales de alta calidad y limitar el alcance del rastreo a los dominios de estas URL. Estas semillas de alta calidad deben seleccionarse en función de una lista de URL candidatas acumuladas durante un período suficientemente largo de rastreo web general. La lista blanca debe actualizarse periódicamente después de su creación.
Referencias
- ^ Soumen Chakrabarti, Rastreo web enfocado , en la Enciclopedia de sistemas de bases de datos .
- ^ Temas controvertidos
- ^ Mejora del rendimiento de rastreadores web enfocados [1] , Sotiris Batsakis, Euripides GM Petrakis, Evangelos Milios, 2012-04-09
- ^ Pinkerton, B. (1994). Encontrar lo que la gente quiere: Experiencias con WebCrawler . En Actas de la Primera Conferencia World Wide Web, Ginebra, Suiza.
- ^ Menczer, F. (1997). ARACHNID: Agentes de recuperación adaptativa que eligen vecindarios heurísticos para el descubrimiento de información. Archivado el 21 de diciembre de 2012 en la Wayback Machine . En D. Fisher, ed., Proceedings of the 14th International Conference on Machine Learning (ICML97). Morgan Kaufmann.
- ^ Menczer, F. y Belew, RK (1998). Agentes de información adaptables en entornos textuales distribuidos Archivado el 21 de diciembre de 2012 en Wayback Machine . En K. Sycara y M. Wooldridge (eds.) Actas de la 2ª Conferencia Internacional sobre Agentes Autónomos (Agents '98). Prensa ACM.
- ^ Rastreo enfocado: un nuevo enfoque para el descubrimiento de recursos web de temas específicos , Soumen Chakrabarti, Martin van den Berg y Byron Dom, WWW 1999.
- ^ Un enfoque de aprendizaje automático para la creación de motores de búsqueda de dominios específicos , Andrew McCallum, Kamal Nigam, Jason Rennie y Kristie Seymore, IJCAI 1999.
- ^ Uso del aprendizaje por refuerzo para navegar la Web de manera eficiente , Jason Rennie y Andrew McCallum, ICML 1999.
- ^ Diligenti, M., Coetzee, F., Lawrence, S., Giles, CL y Gori, M. (2000). Rastreo enfocado usando gráficos de contexto. Archivado el 7 de marzo de 2008 en Wayback Machine . En Actas de la 26ª Conferencia Internacional sobre Bases de Datos Muy Grandes (VLDB), páginas 527-534, El Cairo, Egipto.
- ^ Rastreo enfocado acelerado a través de comentarios de relevancia en línea , Soumen Chakrabarti, Kunal Punera y Mallela Subramanyam, WWW 2002.
- ^ Menczer, F., Pant, G. y Srinivasan, P. (2004). Rastreadores web temáticos: evaluación de algoritmos adaptativos . ACM Trans. on Internet Technology 4 (4): 378–419.
- ^ Reconocimiento de áreas comunes en una página web utilizando información visual: una posible aplicación en la clasificación de una página , Milos Kovacevic, Michelangelo Diligenti, Marco Gori, Veljko Milutinovic, Data Mining, 2002. ICDM 2003.
- ^ Dong, H., Hussain, FK, Chang, E .: Estado del arte en rastreadores semánticos enfocados . Ciencia computacional y sus aplicaciones - ICCSA 2009. Springer-Verlag, Seúl, Corea (julio de 2009) págs. 910-924
- ^ Dong, H., Hussain, FK: SOF: un rastreador enfocado semi-supervisado basado en el aprendizaje de ontologías. Concurrencia y Computación: Práctica y Experiencia. 25 (12) (agosto de 2013) págs. 1623-1812
- ^ Junghoo Cho, Héctor García-Molina, Lawrence Página: rastreo eficiente a través de pedidos de URL . Redes de computadoras 30 (1-7): 161-172 (1998)
- ^ Marc Najork, Janet L. Wiener: El rastreo en amplitud primero produce páginas de alta calidad . WWW 2001: 114-118
- ^ Nadav Eiron, Kevin S. McCurley, John A. Tomlin: Clasificación de la frontera web . WWW 2004: 309-318.
- ^ Meusel R., Mika P., Blanco R. (2014). Rastreo enfocado para datos estructurados . Conferencia Internacional ACM sobre Gestión de la Información y el Conocimiento, páginas 1039-1048.
- ^ Brian D. Davison: Localidad de actualidad en la Web . SIGIR 2000: 272-279.
- ^ Soumen Chakrabarti, Mukul Joshi, Kunal Punera, David M. Pennock: La estructura de temas generales en la Web . WWW 2002: 251-262.
- ^ Jian Wu, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Prasenjit Mitra, Shuyi Zheng, C. Lee Giles, La evolución de una estrategia de rastreo para un motor de búsqueda de documentos académicos: listas blancas y listas negras , en las actas de la 3a Conferencia Anual de Ciencia Web de ACM Páginas 340-343, Evanston, IL, EE. UU., Junio de 2012.