La recuperación XML , o recuperación de información XML , es la recuperación basada en contenido de documentos estructurados con XML (eXtensible Markup Language). Como tal, se utiliza para calcular la relevancia de los documentos XML. [1]
Consultas
La mayoría de los enfoques de recuperación de XML lo hacen basándose en técnicas del área de recuperación de información (IR), por ejemplo, calculando la similitud entre una consulta que consta de palabras clave (términos de consulta) y el documento. Sin embargo, en XML-Retrieval, la consulta también puede contener sugerencias estructurales . Las llamadas consultas de "contenido y estructura" (CAS) permiten a los usuarios especificar qué estructura puede o debe tener el contenido solicitado.
Explotación de la estructura XML
Aprovechar la estructura de autodescripción de los documentos XML puede mejorar significativamente la búsqueda de documentos XML. Esto incluye el uso de consultas CAS, la ponderación de diferentes elementos XML de forma diferente y la recuperación focalizada de subdocumentos.
Clasificación
La clasificación en XML-Retrieval puede incorporar tanto la relevancia del contenido como la similitud estructural, que es la semejanza entre la estructura dada en la consulta y la estructura del documento. Además, las unidades de recuperación resultantes de una consulta XML no siempre pueden ser documentos completos, pero pueden ser elementos XML profundamente anidados, es decir, documentos dinámicos. El objetivo es encontrar la unidad de recuperación más pequeña que sea altamente relevante. La relevancia se puede definir de acuerdo con la noción de especificidad, que es la medida en que una unidad de recuperación se centra en el tema de la solicitud. [2]
Motores de búsqueda XML existentes
Se encuentra disponible una descripción general de dos enfoques potenciales. [3] [4] La Iniciativa para la Evaluación de la Recuperación de XML ( INEX ) fue fundada en 2002 y proporciona una plataforma para evaluar tales algoritmos . [2] Tres áreas diferentes influyen en la recuperación de XML: [5]
Lenguajes de consulta XML tradicionales
Los lenguajes de consulta como el estándar W3C XQuery [6] proporcionan consultas complejas, pero solo buscan coincidencias exactas. Por lo tanto, deben ampliarse para permitir una búsqueda vaga con cálculo de relevancia. La mayoría de los enfoques centrados en XML implican un conocimiento bastante exacto de los esquemas de los documentos . [7]
Bases de datos
Los sistemas de bases de datos clásicos han adoptado la posibilidad de almacenar datos semiestructurados [5] y han dado lugar al desarrollo de bases de datos XML . A menudo, son muy formales, se concentran más en la búsqueda que en la clasificación y son utilizados por usuarios experimentados capaces de formular consultas complejas.
Recuperación de información
Los modelos clásicos de recuperación de información, como el modelo de espacio vectorial, proporcionan una clasificación de relevancia, pero no incluyen la estructura del documento; solo se admiten consultas planas. Además, aplican un concepto de documento estático, por lo que las unidades de recuperación suelen ser documentos completos. [7] Pueden ampliarse para considerar la información estructural y la recuperación dinámica de documentos. Se encuentran disponibles ejemplos de enfoques que extienden los modelos del espacio vectorial: utilizan subárboles de documentos (términos de índice más estructura) como dimensiones del espacio vectorial. [8]
Conjuntos de datos XML centrados en datos
Para conjuntos de datos XML centrados en datos, el método de búsqueda de palabras clave único y distinto, a saber, XDMA [9] para bases de datos XML, está diseñado y desarrollado basándose en la indexación dual y la suma mutua.
Ver también
Referencias
- ^ Invierno, Judith; Drobnik, Oswald (9 de noviembre de 2007). "Una arquitectura para la recuperación de información XML en un entorno de igual a igual" (PDF) . ACM . Consultado el 10 de febrero de 2009 .
- ^ a b Malik, Saadia; Trotman, Andrew; Lalmas, Mounia; Fuhr, Norbert (2007). "Resumen de INEX 2006" (PDF) . Actas del Quinto Taller de la Iniciativa para la Evaluación de la Recuperación de XML . Archivado desde el original (PDF) el 16 de octubre de 2008 . Consultado el 10 de febrero de 2009 .
- ^ Amer-Yahia, Sihem; Lalmas, Mounia (2006). "Búsqueda XML: Idiomas, INEX y Scoring" (PDF) . SIGMOD Rec . 35 (4). doi : 10.1145 / 1228268.1228271 . S2CID 17300151 . Consultado el 10 de febrero de 2009 .[ enlace muerto ]
- ^ Pal, Sukomal (30 de junio de 2006). "Recuperación XML: una encuesta". Informe técnico, CVPR. CiteSeerX 10.1.1.109.5986 . Cite journal requiere
|journal=
( ayuda ) - ^ a b Fuhr, Norbert; Gövert, N .; Kazai, Gabriella; Lalmas, Mounia (2003). "INEX: Iniciativa para la Evaluación de la Recuperación de XML" (PDF) . Actas del primer taller INEX, Dagstuhl, Alemania, 2002 . Actas del taller ERCIM, Francia. Archivado desde el original (PDF) el 21 de noviembre de 2008 . Consultado el 10 de febrero de 2009 .
- ^ Boag, Scott; Chamberlin, Don; Fernández, Mary F .; Florescu, Daniela; Robie, Jonathan; Siméon, Jérôme (23 de enero de 2007). "XQuery 1.0: un lenguaje de consulta XML" . Recomendación del W3C . Consorcio World Wide Web . Consultado el 10 de febrero de 2009 .
- ^ a b Schlieder, Torsten; Meuss, Holger (2002). "Consulta y clasificación de documentos XML" . Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 53 (6): 489–503. doi : 10.1002 / asi.10060 . Archivado desde el original el 10 de junio de 2007 . Consultado el 10 de febrero de 2009 .
- ^ Liu, Shaorong; Zou, Qinghua; Chu, Wesley W. (2004). "Indexación y clasificación configurables para la recuperación de información XML" (PDF) . SIGIR'04 . ACM . Consultado el 10 de febrero de 2009 .
- ^ Selvaganesan, S .; Haw, Su-Cheng; Pronto, Lay-Ki (2014). "XDMA: un algoritmo de búsqueda de palabras clave basado en doble indexación y suma mutua para bases de datos XML". Revista Internacional de Ingeniería de Software e Ingeniería del Conocimiento . 24 (4): 591–615. doi : 10.1142 / s0218194014500223 .