Modelo de bolsa de palabras

El modelo de bolsa de palabras es una representación simplificadora que se utiliza en el procesamiento del lenguaje natural y la recuperación de información (IR). En este modelo, un texto (como una oración o un documento) se representa como la bolsa (multiset) de sus palabras, sin tener en cuenta la gramática e incluso el orden de las palabras, pero manteniendo la multiplicidad . El modelo de bolsa de palabras también se ha utilizado para la visión por computadora . ^[1]

El modelo de bolsa de palabras se usa comúnmente en métodos de clasificación de documentos donde la (frecuencia de) ocurrencia de cada palabra se usa como una característica para entrenar a un clasificador . ^[2]

Una referencia temprana a la "bolsa de palabras" en un contexto lingüístico se puede encontrar en el artículo de 1954 de Zellig Harris sobre Estructura de distribución . ^[3]

Representar cada bolsa de palabras como un objeto JSON y atribuir a la variable de JavaScript respectiva :

Cada clave es la palabra y cada valor es el número de apariciones de esa palabra en el documento de texto dado.

El orden de los elementos es libre, por lo que, por ejemplo, {"too":1,"Mary":1,"movies":2,"John":1,"watch":1,"likes":2,"to":1}también es equivalente a BoW1 . También es lo que esperamos de una estricta representación de objetos JSON .