El modelo de espacio vectorial generalizado es una generalización del modelo de espacio vectorial utilizado en la recuperación de información . Wong y col. [1] presentó un análisis de los problemas que crea el supuesto de ortogonalidad por pares del modelo de espacio vectorial (VSM). Desde aquí extendieron el VSM al modelo de espacio vectorial generalizado (GVSM).
Definiciones
GVSM introduce correlaciones de término a término, que desaprueban el supuesto de ortogonalidad por pares. Más específicamente, el factor consideró un nuevo espacio, donde cada vector de término t i se expresó como una combinación lineal de 2 n vectores m r donde r = 1 ... 2 n .
Para un documento d k y una consulta q, la función de similitud ahora se convierte en:
donde t i y t j ahora son vectores de un espacio bidimensional de 2 n .
Correlación de términos se puede implementar de varias formas. Por ejemplo, Wong et al. utiliza el término matriz de frecuencia de ocurrencia obtenida de la indexación automática como entrada a su algoritmo. El término ocurrencia y el resultado es el término correlación entre cualquier par de términos de índice.
Información semántica sobre GVSM
Hay al menos dos direcciones básicas para incorporar término a término, además de la concordancia exacta de palabras clave, en un modelo de recuperación:
- calcular correlaciones semánticas entre términos
- calcular estadísticas de co-ocurrencia de frecuencia de grandes corpora
Recientemente, Tsatsaronis [2] se centró en el primer enfoque.
Miden la relación semántica ( SR ) utilizando un diccionario de sinónimos ( O ) como WordNet . Considera la longitud de la ruta, capturada por la compacidad ( SCM ), y la profundidad de la ruta, capturada por la elaboración de ruta semántica ( SPE ). Ellos estiman el producto interior por:
donde s i y s j son sentidos de los términos t i y t j respectivamente, maximizando.
Sobre la base también del primer enfoque, Waitelonis et. Alabama. [3] han calculado la relación semántica de los recursos de datos abiertos vinculados , incluidos DBpedia , así como la taxonomía YAGO . De este modo, explotan las relaciones taxonómicas entre entidades semánticas en documentos y consultas después de la vinculación de entidades con nombre .
Referencias
- ^ Wong, SKM; Ziarko, Wojciech; Wong, Patrick CN (1985-06-05), "Modelo de espacios vectoriales generalizados en la recuperación de información", Actas de la octava conferencia internacional anual ACM SIGIR sobre investigación y desarrollo en la recuperación de información - SIGIR '85 , SIGIR ACM , págs. 18– 25, doi : 10.1145 / 253495.253506 , ISBN 0897911598
- ^ Tsatsaronis, George; Panagiotopoulou, Vicky (2009-04-02), Un modelo de espacio vectorial generalizado para la recuperación de texto basado en la relación semántica (PDF) , EACL ACM
- ^ Waitelonis, Jörg; Exeler, Claudia; Sack, Harald (2015-09-11), Linked Data habilitó el modelo de espacio vectorial generalizado para mejorar la recuperación de documentos (PDF) , ISWC 2015, CEUR-WS 1581