Una matriz documento-término es una matriz matemática que describe la frecuencia de términos que ocurren en una colección de documentos. En una matriz documento-término, las filas corresponden a los documentos de la colección y las columnas corresponden a los términos. Esta matriz es una instancia específica de una matriz de características de documento donde "características" pueden referirse a otras propiedades de un documento además de los términos. [1] También es común encontrar la transposición, o matriz de documento de término donde los documentos son las columnas y los términos son las filas. Son útiles en el campo del procesamiento del lenguaje natural y el análisis computacional de textos . [2]Si bien el valor de las celdas es comúnmente el recuento sin procesar de un término dado, existen varios esquemas para ponderar los recuentos sin procesar, como frecuencia / proporciones relativas y tf-idf .
Los términos suelen ser tokens individuales separados por espacios en blanco o puntuación a cada lado, o unigramas. En tal caso, esto también se conoce como representación de "bolsa de palabras" porque se retiene el recuento de palabras individuales, pero no el orden de las palabras en el documento.
Concepto general
Al crear un conjunto de datos de términos que aparecen en un corpus de documentos , la matriz documento-término contiene filas correspondientes a los documentos y columnas correspondientes a los términos. Entonces, cada celda ij es el número de veces que aparece la palabra j en el documento i . Como tal, cada fila es un vector de recuentos de términos que representa el contenido del documento correspondiente a esa fila. Por ejemplo, si uno tiene los siguientes dos documentos (cortos):
- D1 = "Me gustan las bases de datos"
- D2 = "No me gustan las bases de datos",
entonces la matriz documento-término sería:
I | como | disgusto | bases de datos | |
---|---|---|---|---|
D1 | 1 | 1 | 0 | 1 |
D2 | 1 | 0 | 1 | 1 |
que muestra qué documentos contienen qué términos y cuántas veces aparecen. Tenga en cuenta que, a diferencia de representar un documento como solo una lista de recuento de tokens, la matriz documento-término incluye todos los términos del corpus (es decir, el vocabulario del corpus), por lo que hay recuentos cero para los términos del corpus que no incluyen tampoco ocurren en un documento específico.
Como resultado de la distribución de las fichas según la ley de potencias en casi todos los corpus (consulte la ley de Zipf ), es común ponderar los recuentos. Esto puede ser tan simple como dividir los conteos por el número total de tokens en un documento (llamado frecuencia relativa o proporciones), dividir por la frecuencia máxima en cada documento (llamado prop max) o tomar el registro de frecuencias (llamado conteo de registros) . Si uno desea ponderar las palabras más exclusivas de un documento individual en comparación con el corpus en su conjunto, es común usar tf-idf , que divide la frecuencia del término por la frecuencia del documento del término.
Elección de términos
Un punto de vista de la matriz es que cada fila representa un documento. En el modelo semántico vectorial , que normalmente es el que se utiliza para calcular una matriz documento-término, el objetivo es representar el tema de un documento mediante la frecuencia de términos semánticamente significativos. Los términos son unidades semánticas de los documentos. A menudo se asume, para las lenguas indoeuropeas , que los sustantivos, verbos y adjetivos son las categorías más significativas , y que las palabras de esas categorías deben mantenerse como términos. Agregar colocación como términos mejora la calidad de los vectores, especialmente cuando se calculan similitudes entre documentos.
Aplicaciones
Mejorando los resultados de la búsqueda
El análisis semántico latente (LSA, que realiza la descomposición de valores singulares en la matriz documento-término) puede mejorar los resultados de la búsqueda al eliminar la ambigüedad de las palabras polisémicas y buscar sinónimos de la consulta. Sin embargo, buscando en el espacio continuo de alta dimensión es mucho más lenta que la búsqueda de la norma trie estructura de datos de los buscadores.
Encontrar temas
El análisis multivariado de la matriz documento-término puede revelar temas / temas del corpus. Específicamente, se puede utilizar el análisis semántico latente y la agrupación de datos , y más recientemente se ha encontrado que el análisis semántico latente probabilístico y la factorización de matrices no negativas funcionan bien para esta tarea.
Ver también
Implementaciones
Referencias
- ^ "Matriz de características de documento :: Tutoriales para quanteda" . tutorials.quanteda.io . Consultado el 2 de enero de 2021 .
- ^ "15 formas de crear una matriz de plazo de documento en R" . Dustin S. Stoltz . Consultado el 2 de enero de 2021 .