Análisis semántico explícito

En el procesamiento del lenguaje natural y la recuperación de información , el análisis semántico explícito ( ESA ) es una representación vectorial de texto (palabras individuales o documentos completos) que utiliza un corpus de documentos como base de conocimiento . Específicamente, en ESA, una palabra se representa como un vector de columna en la matriz tf-idf del corpus de texto y un documento (cadena de palabras) se representa como el centroide de los vectores que representan sus palabras. Normalmente, el corpus de texto es Wikipedia en inglés , aunque se han utilizado otros corpus, incluido el Open Directory Project . ^[1]

La ESA fue diseñada por Evgeniy Gabrilovich y Shaul Markovitch como un medio para mejorar la categorización del texto ^[2] y ha sido utilizada por este par de investigadores para calcular lo que ellos denominan " relación semántica " mediante la similitud de coseno entre los vectores antes mencionados, colectivamente interpretado como un espacio de "conceptos explícitamente definidos y descritos por humanos", donde los artículos de Wikipedia (o entradas de ODP, o títulos de documentos en el corpus de la base de conocimientos) se equiparan con conceptos. El nombre "análisis semántico explícito" contrasta con el análisis semántico latente(LSA), porque el uso de una base de conocimiento permite asignar etiquetas legibles por humanos a los conceptos que componen el espacio vectorial. ^[1]^[3]

Para realizar la variante básica de la ESA, se comienza con una colección de textos, digamos, todos los artículos de Wikipedia; Sea $N$ el número de documentos de la colección . Todos estos se convierten en " bolsas de palabras ", es decir, histogramas de frecuencia de términos, almacenados en un índice invertido . Usando este índice invertido, uno puede encontrar para cualquier palabra el conjunto de artículos de Wikipedia que contienen esta palabra; en el vocabulario de Egozi, Markovitch y Gabrilovitch, "cada palabra que aparece en el corpus de Wikipedia puede verse como desencadenante de cada uno de los conceptos a los que apunta en el índice invertido". ^[1]

La salida del índice invertido para una consulta de una sola palabra es una lista de documentos indexados (artículos de Wikipedia), a cada uno se le asigna una puntuación según la frecuencia con la que aparece la palabra en cuestión (ponderada por el número total de palabras en el documento). Matemáticamente, esta lista es un vector $N$ -dimensional de puntuaciones de documentos de Word, donde un documento que no contiene la palabra de consulta tiene una puntuación de cero. Para calcular la relación de dos palabras, se comparan los vectores (digamos uyv $)$ $calculando$ la similitud del coseno,

y esto da una estimación numérica de la relación semántica de las palabras. El esquema se amplía de palabras sueltas a textos de varias palabras simplemente sumando los vectores de todas las palabras del texto. ^[3]

La ESA, como plantearon originalmente Gabrilovich y Markovitch, opera bajo el supuesto de que la base de conocimiento contiene conceptos tópicamente ortogonales . Sin embargo, Anderka y Stein demostraron más tarde que la ESA también mejora el rendimiento de los sistemas de recuperación de información cuando no se basa en Wikipedia, sino en el corpus de artículos de noticias por cable de Reuters , que no satisface la propiedad de ortogonalidad; en sus experimentos, Anderka y Stein utilizaron historias de cable de noticias como "conceptos". ^[4] Para explicar esta observación, se han mostrado vínculos entre la ESA y el modelo espacial vectorial generalizado . ^[5]Gabrilovich y Markovitch respondieron a Anderka y Stein señalando que su resultado experimental se logró utilizando "una sola aplicación de ESA (similitud de texto)" y "solo una colección de prueba única, extremadamente pequeña y homogénea de 50 documentos de noticias". ^[1]