Modelo de espacio vectorial

El modelo de espacio vectorial o modelo de vector de término es un modelo algebraico para representar documentos de texto (y cualquier objeto, en general) como vectores de identificadores (como términos de índice). Se utiliza en el filtrado de información , la recuperación de información , la indexación y las clasificaciones de relevancia. Su primer uso fue en el Sistema de recuperación de información SMART .

Definiciones

Los documentos y las consultas se representan como vectores.

{\ Displaystyle d_ {j} = (w_ {1, j}, w_ {2, j}, \ dotsc, w_ {t, j})}

{\ Displaystyle q = (w_ {1, q}, w_ {2, q}, \ dotsc, w_ {n, q})}

Cada dimensión corresponde a un término separado. Si aparece un término en el documento, su valor en el vector es distinto de cero. Se han desarrollado varias formas diferentes de calcular estos valores, también conocidos como ponderaciones (de término). Uno de los esquemas más conocidos es la ponderación tf-idf (consulte el ejemplo a continuación).

La definición de término depende de la aplicación. Normalmente, los términos son palabras sueltas, palabras clave o frases más largas. Si se eligen palabras como términos, la dimensionalidad del vector es el número de palabras en el vocabulario (el número de palabras distintas que aparecen en el corpus ).

Las operaciones vectoriales se pueden utilizar para comparar documentos con consultas.

Aplicaciones

Las clasificaciones de relevancia de los documentos en una búsqueda de palabras clave se pueden calcular, utilizando los supuestos de la teoría de similitudes de documentos , comparando la desviación de ángulos entre cada vector de documento y el vector de consulta original donde la consulta se representa como un vector con la misma dimensión que los vectores que representar los otros documentos.

En la práctica, es más fácil calcular el coseno del ángulo entre los vectores, en lugar del ángulo en sí:

{\ Displaystyle \ cos {\ theta} = {\ frac {\ mathbf {d_ {2}} \ cdot \ mathbf {q}} {\ left \ | \ mathbf {d_ {2}} \ right \ | \ left \ | \ mathbf {q} \ right \ |}}}

¿Dónde está la intersección (es decir, el producto escalar ) del documento (d ₂ en la figura de la derecha) y los vectores de consulta (q en la figura), es la norma del vector d ₂ y es la norma del vector q. La norma de un vector se calcula como tal: ${\ Displaystyle \ mathbf {d_ {2}} \ cdot \ mathbf {q}}$ ${\ Displaystyle \ left \ | \ mathbf {d_ {2}} \ right \ |}$ ${\ Displaystyle \ left \ | \ mathbf {q} \ right \ |}$

{\ Displaystyle \ left \ | \ mathbf {q} \ right \ | = {\ sqrt {\ sum _ {i = 1} ^ {n} q_ {i} ^ {2}}}}

Usando el coseno, la similitud entre el documento d _j y la consulta q se puede calcular como:

{\ Displaystyle \ mathrm {cos} (d_ {j}, q) = {\ frac {\ mathbf {d_ {j}} \ cdot \ mathbf {q}} {\ left \ | \ mathbf {d_ {j}} \ right \ | \ left \ | \ mathbf {q} \ right \ |}} = {\ frac {\ sum _ {i = 1} ^ {N} w_ {i, j} w_ {i, q}} { {\ sqrt {\ sum _ {i = 1} ^ {N} w_ {i, j} ^ {2}}} {\ sqrt {\ sum _ {i = 1} ^ {N} w_ {i, q} ^ {2}}}}}}

Como todos los vectores considerados por este modelo son elementos no negativos, un valor de coseno de cero significa que la consulta y el vector del documento son ortogonales y no coinciden (es decir, el término de consulta no existe en el documento que se está considerando). Consulte la similitud de coseno para obtener más información.

Término frecuencia inversa ponderaciones de frecuencia de documentos

En el modelo de espacio vectorial clásico propuesto por Salton , Wong y Yang ^[1], los pesos específicos de términos en los vectores de documentos son productos de parámetros locales y globales. El modelo se conoce como modelo de frecuencia de documento de frecuencia inversa de término . El vector de peso para el documento d es , donde $\mathbf {v} _{d}=[w_{1,d},w_{2,d},\ldots ,w_{N,d}]^{T}$

w_{t,d}=\mathrm {tf} _{t,d}\cdot \log {\frac {|D|}{|\{d'\in D\,|\,t\in d'\}|}}

y

$\mathrm {tf} _{t,d}$ es la frecuencia de término del término t en el documento d (un parámetro local)
$\log {\frac {|D|}{|\{d'\in D\,|\,t\in d'\}|}}$ es la frecuencia inversa del documento (un parámetro global). es el número total de documentos en el conjunto de documentos; es el número de documentos que contienen el término t . $|D|$ $|\{d'\in D\,|\,t\in d'\}|$

Ventajas

El modelo de espacio vectorial tiene las siguientes ventajas sobre el modelo booleano estándar :

Modelo simple basado en álgebra lineal
Ponderaciones de término no binarias
Permite calcular un grado continuo de similitud entre consultas y documentos.
Permite clasificar los documentos según su posible relevancia
Permite la coincidencia parcial

La mayoría de estas ventajas son una consecuencia de la diferencia en la densidad de la representación de la colección de documentos entre los enfoques de frecuencia de documento booleano y de frecuencia inversa de términos. Cuando se utilizan pesos booleanos, cualquier documento se encuentra en un vértice en un hipercubo de n dimensiones . Por lo tanto, las posibles representaciones de documentos son y la distancia euclidiana máxima entre pares es $2^{n}$ ${\sqrt {n}}$ . A medida que se agregan documentos a la colección de documentos, la región definida por los vértices del hipercubo se vuelve más poblada y, por lo tanto, más densa. A diferencia de Boolean, cuando se agrega un documento utilizando ponderaciones de frecuencia de documento de frecuencia inversa de términos, las frecuencias de documento inversas de los términos en el nuevo documento disminuyen mientras que la de los términos restantes aumenta. En promedio, a medida que se agregan documentos, la región donde se encuentran los documentos se expande regulando la densidad de toda la representación de la colección. Este comportamiento modela la motivación original de Salton y sus colegas de que una colección de documentos representada en una región de baja densidad podría producir mejores resultados de recuperación.

Limitaciones

El modelo de espacio vectorial tiene las siguientes limitaciones:

Los documentos largos están mal representados porque tienen valores de similitud deficientes (un producto escalar pequeño y una dimensionalidad grande )
Las palabras clave de búsqueda deben coincidir exactamente con los términos del documento; las subcadenas de palabras pueden dar como resultado una " coincidencia falsa positiva "
Sensibilidad semántica; los documentos con un contexto similar pero un vocabulario de términos diferente no se asociarán, lo que resultará en una " coincidencia falsa negativa ".
El orden en el que aparecen los términos en el documento se pierde en la representación del espacio vectorial.
Supone teóricamente que los términos son estadísticamente independientes.
La ponderación es intuitiva pero no muy formal.

Sin embargo, muchas de estas dificultades pueden superarse mediante la integración de diversas herramientas, incluidas técnicas matemáticas como la descomposición de valores singulares y bases de datos léxicas como WordNet .

Modelos basados en y ampliando el modelo de espacio vectorial

Los modelos basados en el modelo de espacio vectorial y su extensión incluyen:

Modelo de espacio vectorial generalizado
Análisis semántico latente
Término
Clasificación de Rocchio
Indexación aleatoria

Software que implementa el modelo de espacio vectorial

Los siguientes paquetes de software pueden ser de interés para aquellos que deseen experimentar con modelos vectoriales e implementar servicios de búsqueda basados en ellos.

Software gratuito de código abierto

Apache Lucene . Apache Lucene es una biblioteca de motor de búsqueda de texto con todas las funciones y de alto rendimiento escrita íntegramente en Java.
Elasticsearch . Otro motor de búsqueda de texto de alto rendimiento y con todas las funciones que utiliza Lucene.
Gensim es un marco Python + NumPy para el modelado del espacio vectorial. Contiene algoritmos incrementales (eficientes en memoria) para la frecuencia de documentos de frecuencia inversa de términos , indexación semántica latente , proyecciones aleatorias y asignación de Dirichlet latente .
Weka . Weka es un paquete de minería de datos popular para Java que incluye los modelos WordVectors y Bag Of Words .
Word2vec . Word2vec utiliza espacios vectoriales para incrustaciones de palabras.

Otras lecturas

G. Salton (1962), " Algunos experimentos en la generación de asociaciones de palabras y documentos " Proceeding AFIPS '62 (Fall) Proceedings of the December 4–6, 1962, fall joint computer conference , páginas 234–250. (Artículo anterior de Salton usando la formalización de la matriz de documentos de término)
G. Salton , A. Wong y CS Yang (1975), " Un modelo de espacio vectorial para indexación automática " Comunicaciones del ACM , vol. 18, nr. 11, páginas 613–620. (Artículo en el que se presentó un modelo de espacio vectorial)
David Dubin (2004), The Most Influential Paper Gerard Salton Never Wrote (Explica la historia del Modelo de Espacio Vectorial y la inexistencia de una publicación frecuentemente citada)
Descripción del modelo de espacio vectorial
Descripción del modelo de espacio vectorial clásico por el Dr. E. García
Relación de la búsqueda en el espacio vectorial con la búsqueda "k-Vecino más cercano"

Ver también

Modelo de bolsa de palabras
Lista de campeones
Procesamiento de término compuesto
Espacio conceptual
Valores propios y vectores propios
Índice invertido
Búsqueda de vecino más cercano
Memoria distribuida escasa
w-tejas

Referencias

↑ G. Salton, A. Wong, CS Yang, A vector space model for automatic indexing , Communications of the ACM, v.18 n.11, p.613–620, noviembre de 1975

[1] G. Salton, A. Wong, CS Yang, A vector space model for automatic indexing , Communications of the ACM, v.18 n.11, p.613–620, noviembre de 1975

[1],