Modelo de bolsa de palabras

El modelo de bolsa de palabras es una representación simplificada utilizada en el procesamiento del lenguaje natural y la recuperación de información (IR). En este modelo, un texto (como una oración o un documento) se representa como la bolsa (multiconjunto) de sus palabras, sin tener en cuenta la gramática e incluso el orden de las palabras pero manteniendo la multiplicidad . El modelo de bolsa de palabras también se ha utilizado para la visión artificial . ^[1]

El modelo de bolsa de palabras se usa comúnmente en métodos de clasificación de documentos donde la (frecuencia de) ocurrencia de cada palabra se usa como una característica para entrenar un clasificador . ^[2]

Una referencia temprana a "bolsa de palabras" en un contexto lingüístico se puede encontrar en el artículo de 1954 de Zellig Harris sobre Estructura distribucional . ^[3]

Representando cada bolsa de palabras como un objeto JSON y atribuyéndolo a la variable JavaScript respectiva:

Cada clave es la palabra y cada valor es el número de ocurrencias de esa palabra en el documento de texto dado.

El orden de los elementos es libre, por lo que, por ejemplo {"too":1,"Mary":1,"movies":2,"John":1,"watch":1,"likes":2,"to":1}, también es equivalente a BoW1 . También es lo que esperamos de una representación de objetos JSON estricta .