Matriz documento-plazo

Una matriz documento-término es una matriz matemática que describe la frecuencia de términos que ocurren en una colección de documentos. En una matriz documento-término, las filas corresponden a los documentos de la colección y las columnas corresponden a los términos. Esta matriz es una instancia específica de una matriz de características de documento donde las "características" pueden referirse a otras propiedades de un documento además de los términos. ^[1] También es común encontrar la transposición, o matriz término-documento donde los documentos son las columnas y los términos son las filas. Son útiles en el campo del procesamiento del lenguaje natural y el análisis computacional de textos . ^[2]

Si bien el valor de las celdas es comúnmente el recuento sin procesar de un término dado, existen varios esquemas para ponderar los recuentos sin procesar, como normalización de filas (es decir, frecuencia / proporciones relativas) y tf-idf .

Los términos suelen ser palabras sueltas separadas por espacios en blanco o puntuación en ambos lados (también conocidos como unigramas). En tal caso, esto también se conoce como representación de "bolsa de palabras" porque se retiene el recuento de palabras individuales, pero no el orden de las palabras en el documento.

Al crear un conjunto de datos de términos que aparecen en un corpus de documentos , la matriz documento-término contiene filas correspondientes a los documentos y columnas correspondientes a los términos. Entonces, cada celda ij es el número de veces que aparece la palabra j en el documento i . Como tal, cada fila es un vector de recuentos de términos que representa el contenido del documento correspondiente a esa fila. Por ejemplo, si uno tiene los siguientes dos documentos (cortos):

que muestra qué documentos contienen qué términos y cuántas veces aparecen. Tenga en cuenta que, a diferencia de representar un documento como solo una lista de recuento de tokens, la matriz documento-término incluye todos los términos del corpus (es decir, el vocabulario del corpus), por lo que hay recuentos cero para los términos del corpus que no incluyen tampoco ocurren en un documento específico.

Como resultado de la distribución de los tokens según la ley de potencias en casi todos los corpus (ver la ley de Zipf ), es común ponderar los recuentos. Esto puede ser tan simple como dividir los conteos por el número total de tokens en un documento (llamado frecuencia relativa o proporciones), dividir por la frecuencia máxima en cada documento (llamado prop max) o tomar el registro de frecuencias (llamado conteo de registros) . Si uno desea ponderar las palabras más exclusivas de un documento individual en comparación con el corpus en su conjunto, es común usar tf-idf , que divide la frecuencia del término por la frecuencia del documento del término.