Modelo de espacio vectorial


De Wikipedia, la enciclopedia libre
  (Redirigido desde Vector Space Model )
Saltar a navegación Saltar a búsqueda

El modelo de espacio vectorial o modelo de vector de término es un modelo algebraico para representar documentos de texto (y cualquier objeto, en general) como vectores de identificadores (como términos de índice). Se utiliza en el filtrado de información , la recuperación de información , la indexación y las clasificaciones de relevancia. Su primer uso fue en el Sistema de recuperación de información SMART .

Definiciones

Los documentos y las consultas se representan como vectores.

Cada dimensión corresponde a un término separado. Si aparece un término en el documento, su valor en el vector es distinto de cero. Se han desarrollado varias formas diferentes de calcular estos valores, también conocidos como ponderaciones (de término). Uno de los esquemas más conocidos es la ponderación tf-idf (consulte el ejemplo a continuación).

La definición de término depende de la aplicación. Normalmente, los términos son palabras sueltas, palabras clave o frases más largas. Si se eligen palabras como términos, la dimensionalidad del vector es el número de palabras en el vocabulario (el número de palabras distintas que aparecen en el corpus ).

Las operaciones vectoriales se pueden utilizar para comparar documentos con consultas.

Aplicaciones

Modelo de espacio vectorial.jpg

Las clasificaciones de relevancia de los documentos en una búsqueda de palabras clave se pueden calcular, utilizando los supuestos de la teoría de similitudes de documentos , comparando la desviación de ángulos entre cada vector de documento y el vector de consulta original donde la consulta se representa como un vector con la misma dimensión que los vectores que representar los otros documentos.

En la práctica, es más fácil calcular el coseno del ángulo entre los vectores, en lugar del ángulo en sí:

¿Dónde está la intersección (es decir, el producto escalar ) del documento (d 2 en la figura de la derecha) y los vectores de consulta (q en la figura), es la norma del vector d 2 y es la norma del vector q. La norma de un vector se calcula como tal:

Usando el coseno, la similitud entre el documento d j y la consulta q se puede calcular como:

Como todos los vectores considerados por este modelo son elementos no negativos, un valor de coseno de cero significa que la consulta y el vector del documento son ortogonales y no coinciden (es decir, el término de consulta no existe en el documento que se está considerando). Consulte la similitud de coseno para obtener más información.

Término frecuencia inversa ponderaciones de frecuencia de documentos

En el modelo de espacio vectorial clásico propuesto por Salton , Wong y Yang [1], los pesos específicos de términos en los vectores de documentos son productos de parámetros locales y globales. El modelo se conoce como modelo de frecuencia de documento de frecuencia inversa de término . El vector de peso para el documento d es , donde

y

  • es la frecuencia de término del término t en el documento d (un parámetro local)
  • es la frecuencia inversa del documento (un parámetro global). es el número total de documentos en el conjunto de documentos; es el número de documentos que contienen el término t .

Ventajas

El modelo de espacio vectorial tiene las siguientes ventajas sobre el modelo booleano estándar :

  1. Modelo simple basado en álgebra lineal
  2. Ponderaciones de término no binarias
  3. Permite calcular un grado continuo de similitud entre consultas y documentos.
  4. Permite clasificar los documentos según su posible relevancia
  5. Permite la coincidencia parcial

La mayoría de estas ventajas son una consecuencia de la diferencia en la densidad de la representación de la colección de documentos entre los enfoques de frecuencia de documento booleano y de frecuencia inversa de términos. Cuando se utilizan pesos booleanos, cualquier documento se encuentra en un vértice en un hipercubo de n dimensiones . Por lo tanto, las posibles representaciones de documentos son y la distancia euclidiana máxima entre pares es. A medida que se agregan documentos a la colección de documentos, la región definida por los vértices del hipercubo se vuelve más poblada y, por lo tanto, más densa. A diferencia de Boolean, cuando se agrega un documento utilizando ponderaciones de frecuencia de documento de frecuencia inversa de términos, las frecuencias de documento inversas de los términos en el nuevo documento disminuyen mientras que la de los términos restantes aumenta. En promedio, a medida que se agregan documentos, la región donde se encuentran los documentos se expande regulando la densidad de toda la representación de la colección. Este comportamiento modela la motivación original de Salton y sus colegas de que una colección de documentos representada en una región de baja densidad podría producir mejores resultados de recuperación.

Limitaciones

El modelo de espacio vectorial tiene las siguientes limitaciones:

  1. Los documentos largos están mal representados porque tienen valores de similitud deficientes (un producto escalar pequeño y una dimensionalidad grande )
  2. Las palabras clave de búsqueda deben coincidir exactamente con los términos del documento; las subcadenas de palabras pueden dar como resultado una " coincidencia falsa positiva "
  3. Sensibilidad semántica; los documentos con un contexto similar pero un vocabulario de términos diferente no se asociarán, lo que resultará en una " coincidencia falsa negativa ".
  4. El orden en el que aparecen los términos en el documento se pierde en la representación del espacio vectorial.
  5. Supone teóricamente que los términos son estadísticamente independientes.
  6. La ponderación es intuitiva pero no muy formal.

Sin embargo, muchas de estas dificultades pueden superarse mediante la integración de diversas herramientas, incluidas técnicas matemáticas como la descomposición de valores singulares y bases de datos léxicas como WordNet .

Modelos basados ​​en y ampliando el modelo de espacio vectorial

Los modelos basados ​​en el modelo de espacio vectorial y su extensión incluyen:

  • Modelo de espacio vectorial generalizado
  • Análisis semántico latente
  • Término
  • Clasificación de Rocchio
  • Indexación aleatoria

Software que implementa el modelo de espacio vectorial

Los siguientes paquetes de software pueden ser de interés para aquellos que deseen experimentar con modelos vectoriales e implementar servicios de búsqueda basados ​​en ellos.

Software gratuito de código abierto

  • Apache Lucene . Apache Lucene es una biblioteca de motor de búsqueda de texto con todas las funciones y de alto rendimiento escrita íntegramente en Java.
  • Elasticsearch . Otro motor de búsqueda de texto de alto rendimiento y con todas las funciones que utiliza Lucene.
  • Gensim es un marco Python + NumPy para el modelado del espacio vectorial. Contiene algoritmos incrementales (eficientes en memoria) para la frecuencia de documentos de frecuencia inversa de términos , indexación semántica latente , proyecciones aleatorias y asignación de Dirichlet latente .
  • Weka . Weka es un paquete de minería de datos popular para Java que incluye los modelos WordVectors y Bag Of Words .
  • Word2vec . Word2vec utiliza espacios vectoriales para incrustaciones de palabras.

Otras lecturas

  • G. Salton (1962), " Algunos experimentos en la generación de asociaciones de palabras y documentos " Proceeding AFIPS '62 (Fall) Proceedings of the December 4–6, 1962, fall joint computer conference , páginas 234–250. (Artículo anterior de Salton usando la formalización de la matriz de documentos de término)
  • G. Salton , A. Wong y CS Yang (1975), " Un modelo de espacio vectorial para indexación automática " Comunicaciones del ACM , vol. 18, nr. 11, páginas 613–620. (Artículo en el que se presentó un modelo de espacio vectorial)
  • David Dubin (2004), The Most Influential Paper Gerard Salton Never Wrote (Explica la historia del Modelo de Espacio Vectorial y la inexistencia de una publicación frecuentemente citada)
  • Descripción del modelo de espacio vectorial
  • Descripción del modelo de espacio vectorial clásico por el Dr. E. García
  • Relación de la búsqueda en el espacio vectorial con la búsqueda "k-Vecino más cercano"

Ver también

  • Modelo de bolsa de palabras
  • Lista de campeones
  • Procesamiento de término compuesto
  • Espacio conceptual
  • Valores propios y vectores propios
  • Índice invertido
  • Búsqueda de vecino más cercano
  • Memoria distribuida escasa
  • w-tejas

Referencias

  1. G. Salton, A. Wong, CS Yang, A vector space model for automatic indexing , Communications of the ACM, v.18 n.11, p.613–620, noviembre de 1975
Obtenido de " https://en.wikipedia.org/w/index.php?title=Vector_space_model&oldid=1047003862 "