En la recuperación de información , tf-idf , TF * IDF o TFIDF , abreviatura de frecuencia de plazo-frecuencia inversa de documentos , es una estadística numérica que pretende reflejar la importancia de una palabra para un documento en una colección o corpus . [1] A menudo se utiliza como factor de ponderación en búsquedas de recuperación de información, minería de texto y modelado de usuarios . El valor tf-idf aumenta proporcionalmentea la cantidad de veces que una palabra aparece en el documento y se compensa con la cantidad de documentos en el corpus que contienen la palabra, lo que ayuda a ajustar el hecho de que algunas palabras aparecen con mayor frecuencia en general. tf – idf es uno de los esquemas de ponderación de términos más populares en la actualidad. Una encuesta realizada en 2015 mostró que el 83% de los sistemas de recomendación basados en texto en bibliotecas digitales utilizan tf-idf. [2]
Los motores de búsqueda suelen utilizar variaciones del esquema de ponderación tf-idf como una herramienta central para calificar y clasificar la relevancia de un documento dada una consulta de usuario . tf – idf se puede utilizar con éxito para el filtrado de palabras vacías en varios campos temáticos, incluido el resumen y la clasificación de texto .
Una de las funciones de clasificación más simples se calcula sumando tf-idf para cada término de consulta; muchas funciones de clasificación más sofisticadas son variantes de este modelo simple.
Motivaciones
Frecuencia de término
Supongamos que tenemos un conjunto de documentos de texto en inglés y deseamos clasificarlos según el documento que sea más relevante para la consulta, "la vaca marrón". Una forma sencilla de comenzar es eliminar los documentos que no contienen las tres palabras "el", "marrón" y "vaca", pero esto deja muchos documentos. Para distinguirlos aún más, podríamos contar el número de veces que ocurre cada término en cada documento; el número de veces que aparece un término en un documento se denomina frecuencia de término . Sin embargo, en el caso de que la longitud de los documentos varíe mucho, a menudo se realizan ajustes (consulte la definición a continuación). La primera forma de ponderación de términos se debe a Hans Peter Luhn (1957), que puede resumirse como: [3]
El peso de un término que aparece en un documento es simplemente proporcional a la frecuencia del término.
Frecuencia de documento inversa
Debido a que el término "el" es tan común, la frecuencia del término tenderá a enfatizar incorrectamente documentos que usen la palabra "el" con más frecuencia, sin dar suficiente peso a los términos más significativos "marrón" y "vaca". El término "el" no es una buena palabra clave para distinguir documentos y términos relevantes y no relevantes, a diferencia de las palabras menos comunes "marrón" y "vaca". Por lo tanto, se incorpora un factor de frecuencia de documento inverso que disminuye el peso de los términos que ocurren con mucha frecuencia en el conjunto de documentos y aumenta el peso de los términos que ocurren raramente.
Karen Spärck Jones (1972) concibió una interpretación estadística de la especificidad del término llamada Frecuencia de documento inversa (idf), que se convirtió en la piedra angular de la ponderación de los términos: [4]
La especificidad de un término se puede cuantificar en función inversa del número de documentos en los que aparece.
Definición
- El tf-idf es el producto de dos estadísticas, frecuencia de término y frecuencia de documento inversa . Hay varias formas de determinar los valores exactos de ambas estadísticas.
- Una fórmula que tiene como objetivo definir la importancia de una palabra clave o frase dentro de un documento o una página web.
esquema de ponderación | tf peso |
---|---|
binario | |
recuento crudo | |
frecuencia de término | |
normalización de registros | |
doble normalización 0.5 | |
doble normalización K |
Frecuencia de término
La frecuencia del término, tf ( t , d ) , es la frecuencia del término t ,
- ,
donde f t , d es el recuento bruto de un término en un documento, es decir, el número de veces que el término t aparece en el documento d . Hay varias otras formas de definir la frecuencia de los términos: [5] : 128
- el recuento bruto en sí mismo: tf ( t , d ) = f t , d
- "Frecuencias" booleanas : tf ( t , d ) = 1 si t ocurre en d y 0 en caso contrario;
- frecuencia de término ajustada a la longitud del documento: tf ( t , d ) = f t , d ÷ (número de palabras en d)
- frecuencia escalada logarítmicamente : tf ( t , d ) = log (1 + f t , d ) ; [6]
- frecuencia aumentada, para evitar un sesgo hacia documentos más largos, por ejemplo, frecuencia sin procesar dividida por la frecuencia sin procesar del término más frecuente en el documento:
Frecuencia de documento inversa
esquema de ponderación | peso idf) |
---|---|
unario | 1 |
frecuencia de documento inversa | |
frecuencia inversa del documento suave | |
frecuencia de documento inversa máx. | |
frecuencia probabilística inversa de documentos |
La frecuencia inversa del documento es una medida de cuánta información proporciona la palabra, es decir, si es común o rara en todos los documentos. Es la fracción inversa escalada logarítmicamente de los documentos que contienen la palabra (obtenida dividiendo el número total de documentos por el número de documentos que contienen el término, y luego tomando el logaritmo de ese cociente):
con
- : número total de documentos en el corpus
- : número de documentos donde el término aparece (es decir, ). Si el término no está en el corpus, esto dará lugar a una división por cero. Por lo tanto, es común ajustar el denominador a.
Frecuencia de término: frecuencia de documento inversa
Entonces tf – idf se calcula como
Un alto peso en tf-idf se alcanza por una frecuencia de término alta (en el documento dado) y una frecuencia de documento baja del término en toda la colección de documentos; por tanto, las ponderaciones tienden a filtrar términos comunes. Dado que la razón dentro de la función logarítmica de idf es siempre mayor o igual a 1, el valor de idf (y tf – idf) es mayor o igual que 0. A medida que aparece un término en más documentos, la razón dentro del logaritmo se aproxima a 1 , acercando idf y tf – idf a 0.
esquema de ponderación | peso del plazo del documento | peso del término de consulta |
---|---|---|
1 | ||
2 | ||
3 |
Justificación de idf
Idf fue introducido como "especificidad del término" por Karen Spärck Jones en un artículo de 1972. Aunque ha funcionado bien como heurística , sus fundamentos teóricos han sido problemáticos durante al menos tres décadas después, con muchos investigadores tratando de encontrar justificaciones teóricas de la información para ello. [7]
La propia explicación de Spärck Jones no proponía mucha teoría, aparte de una conexión con la ley de Zipf . [7] Se ha intentado poner a idf en una base probabilística , [8] estimando la probabilidad de que un documento dado d contenga un término t como la frecuencia relativa del documento,
para que podamos definir idf como
Es decir, la frecuencia de documento inversa es el logaritmo de la frecuencia de documento relativa "inversa".
Esta interpretación probabilística, a su vez, toma la misma forma que la de la autoinformación . Sin embargo, aplicar tales nociones teóricas de la información a problemas en la recuperación de información conduce a problemas al intentar definir los espacios de eventos apropiados para las distribuciones de probabilidad requeridas : no solo se deben tener en cuenta los documentos, sino también las consultas y los términos. [7]
Vínculo con la teoría de la información
La frecuencia de término y la frecuencia de documento inversa se pueden formular utilizando la teoría de la información ; ayuda a comprender por qué su producto tiene un significado en términos de contenido informativo conjunto de un documento. Un supuesto característico sobre la distribución es eso:
Este supuesto y sus implicaciones, según Aizawa: "representan la heurística que emplea tf-idf". [9]
Recuerde la expresión de la entropía condicional de un documento "elegido al azar" en el corpus condicionado al hecho de que contiene un término específico (y suponga que todos los documentos tienen la misma probabilidad de ser elegidos, y pequeños siendo r = probabilidades)):
En términos de notación, y son "variables aleatorias" correspondientes a dibujar respectivamente un documento o un término. Ahora recuerde la definición de información mutua y tenga en cuenta que se puede expresar como
El último paso es expandirse , la probabilidad incondicional de dibujar un término, con respecto a la elección (aleatoria) de un documento, para obtener:
Esta expresión muestra que la suma de las Tf – idf de todos los términos y documentos posibles recupera la información mutua entre documentos y plazo teniendo en cuenta todas las especificidades de su distribución conjunta. [9] Por tanto, cada Tf-idf lleva el "bit de información" adjunto a un par de documentos de término x.
Ejemplo de tf – idf
Suponga que tenemos tablas de recuento de términos de un corpus que consta de solo dos documentos, como se enumeran a la derecha.
Término | Recuento de términos |
---|---|
esto | 1 |
es | 1 |
otro | 2 |
ejemplo | 3 |
Término | Recuento de términos |
---|---|
esto | 1 |
es | 1 |
a | 2 |
muestra | 1 |
El cálculo de tf – idf para el término "esto" se realiza de la siguiente manera:
En su forma de frecuencia bruta, tf es solo la frecuencia de "esto" para cada documento. En cada documento, la palabra "esto" aparece una vez; pero como el documento 2 tiene más palabras, su frecuencia relativa es menor.
Un idf es constante por corpus y representa la proporción de documentos que incluyen la palabra "esto". En este caso, tenemos un corpus de dos documentos y todos incluyen la palabra "esto".
Entonces tf – idf es cero para la palabra "esto", lo que implica que la palabra no es muy informativa, ya que aparece en todos los documentos.
La palabra "ejemplo" es más interesante: aparece tres veces, pero solo en el segundo documento:
Finalmente,
(usando el logaritmo de base 10 ).
Más allá de los términos
La idea detrás de tf – idf también se aplica a entidades distintas de los términos. En 1998, el concepto de idf se aplicó a las citas. [10] Los autores argumentaron que "si una cita muy poco común es compartida por dos documentos, esto debería tener más peso que una cita hecha por un gran número de documentos". Además, tf-idf se aplicó a "palabras visuales" con el propósito de realizar la comparación de objetos en videos, [11] y oraciones completas. [12] Sin embargo, el concepto de tf – idf no resultó ser más efectivo en todos los casos que un esquema de tf simple (sin idf). Cuando se aplicó tf-idf a las citas, los investigadores no pudieron encontrar ninguna mejora con respecto a una ponderación de recuento de citas simple que no tenía un componente idf. [13]
Derivados
Varios esquemas de ponderación de términos se han derivado de tf-idf. Uno de ellos es TF – PDF (Término Frecuencia * Frecuencia de documento proporcional). [14] TF – PDF se introdujo en 2001 en el contexto de la identificación de temas emergentes en los medios. El componente PDF mide la diferencia de la frecuencia con la que aparece un término en diferentes dominios. Otro derivado es TF-IDuF. En TF – IDuF, [15] idf no se calcula en función del corpus de documentos que se va a buscar o recomendar. En cambio, idf se calcula sobre las colecciones de documentos personales de los usuarios. Los autores informan que TF-IDuF fue igualmente eficaz que tf-idf pero también podría aplicarse en situaciones en las que, por ejemplo, un sistema de modelado de usuarios no tiene acceso a un corpus de documentos global.
Ver también
- Incrustación de palabras
- Divergencia de Kullback-Leibler
- Asignación de Dirichlet latente
- Análisis semántico latente
- Información mutua
- Frase sustantiva
- Okapi BM25
- Rango de página
- Modelo de espacio vectorial
- El recuento de palabras
- Sistema de recuperación de información SMART
Referencias
- ^ Rajaraman, A .; Ullman, JD (2011). "Minería de datos" (PDF) . Minería de conjuntos de datos masivos . págs. 1-17. doi : 10.1017 / CBO9781139058452.002 . ISBN 978-1-139-05845-2.
- ^ Breitinger, Corinna; Gipp, Bela; Langer, Stefan (26 de julio de 2015). "Sistemas de recomendación de trabajos de investigación: una revisión de la literatura" . Revista Internacional de Bibliotecas Digitales . 17 (4): 305–338. doi : 10.1007 / s00799-015-0156-0 . ISSN 1432-5012 . S2CID 207035184 .
- ^ Luhn, Hans Peter (1957). "Un enfoque estadístico para la codificación mecanizada y la búsqueda de información literaria" (PDF) . IBM Journal of Research and Development . 1 (4): 309–317. doi : 10.1147 / rd.14.0309 . Consultado el 2 de marzo de 2015 .
También existe la probabilidad de que cuanto más frecuentemente ocurra una noción y una combinación de nociones, más importancia les conceda el autor como reflejo de la esencia de su idea general.
- ^ Spärck Jones, K. (1972). "Una interpretación estadística de la especificidad del término y su aplicación en la recuperación". Revista de documentación . 28 : 11-21. CiteSeerX 10.1.1.115.8343 . doi : 10.1108 / eb026526 .
- ^ Manning, CD; Raghavan, P .; Schutze, H. (2008). "Puntuación, ponderación de términos y modelo de espacio vectorial" (PDF) . Introducción a la recuperación de información . pag. 100. doi : 10.1017 / CBO9780511809071.007 . ISBN 978-0-511-80907-1.
- ^ "Estadísticas TFIDF | SAX-VSM" .
- ^ a b c Robertson, S. (2004). "Comprensión de la frecuencia inversa de los documentos: sobre argumentos teóricos para las FDI". Revista de documentación . 60 (5): 503–520. doi : 10.1108 / 00220410410560582 .
- ^ Consulte también Estimaciones de probabilidad en la práctica en Introducción a la recuperación de información .
- ^ a b Aizawa, Akiko (2003). "Una perspectiva teórica de la información de las medidas tf-idf". Tratamiento y Gestión de la Información . 39 (1): 45–65. doi : 10.1016 / S0306-4573 (02) 00021-3 .
- ^ Bollacker, Kurt D .; Lawrence, Steve; Giles, C. Lee (1 de enero de 1998). CiteSeer: un agente web autónomo para la recuperación e identificación automática de publicaciones interesantes . Actas de la Segunda Conferencia Internacional sobre Agentes Autónomos . AGENTES '98. págs. 116-123. doi : 10.1145 / 280765.280786 . ISBN 978-0-89791-983-8. S2CID 3526393 .
- ^ Sivic, Josef; Zisserman, Andrew (1 de enero de 2003). Video Google: un enfoque de recuperación de texto para la coincidencia de objetos en videos . Actas de la Novena Conferencia Internacional IEEE sobre Visión por Computador - Volumen 2 . ICCV '03. págs. 1470–. doi : 10.1109 / ICCV.2003.1238663 . ISBN 978-0-7695-1950-0. S2CID 14457153 .
- ^ Seki, Yohei. "Extracción de oraciones por tf / idf y ponderación de posición de artículos de periódicos" (PDF) . Instituto Nacional de Informática.
- ^ Beel, Joeran; Breitinger, Corinna (2017). "Evaluación del esquema de ponderación de citas de CC-IDF: ¿con qué eficacia se puede aplicar la 'frecuencia inversa de documentos' (IDF) a las referencias?" (PDF) . Actas de la 12ª Conferencia Internacional .
- ^ Khoo Khyou Bun; Bun, Khoo Khyou; Ishizuka, M. (2001). Sistema de seguimiento de temas emergentes . Actas del Tercer Taller Internacional sobre Cuestiones Avanzadas del Comercio Electrónico y los Sistemas de Información basados en la Web. WECWIS 2001 . pag. 2. CiteSeerX 10.1.1.16.7986 . doi : 10.1109 / wecwis.2001.933900 . ISBN 978-0-7695-1224-2. S2CID 1049263 .
- ^ Langer, Stefan; Gipp, Bela (2017). "TF-IDuF: un nuevo esquema de ponderación de términos para el modelado de usuarios basado en colecciones de documentos personales de los usuarios" (PDF) . IConference .
- Salton, G ; McGill, MJ (1986). Introducción a la recuperación de información moderna . McGraw-Hill . ISBN 978-0-07-054484-0.
- Salton, G .; Fox, EA; Wu, H. (1983). "Recuperación de información booleana ampliada". Comunicaciones de la ACM . 26 (11): 1022–1036. doi : 10.1145 / 182.358466 . hdl : 1813/6351 . S2CID 207180535 .
- Salton, G .; Buckley, C. (1988). "Enfoques de ponderación de términos en la recuperación automática de texto" (PDF) . Tratamiento y gestión de la información . 24 (5): 513–523. doi : 10.1016 / 0306-4573 (88) 90021-0 . hdl : 1813/6721 .
- Wu, HC; Luk, RWP; Wong, KF; Kwok, KL (2008). "Interpretación de ponderaciones de términos TF-IDF como toma de decisiones de relevancia" . Transacciones ACM sobre sistemas de información . 26 (3): 1. doi : 10.1145 / 1361684.1361686 . hdl : 10397/10130 . S2CID 18303048 .
Enlaces externos y lecturas sugeridas
- Gensim es una biblioteca de Python para el modelado de espacios vectoriales e incluye ponderación tf-idf.
- Anatomía de un motor de búsqueda
- tf-idf y definiciones relacionadas como se usan en Lucene
- TfidfTransformer en scikit-learn
- Text to Matrix Generator (TMG) Caja de herramientas de MATLAB que se puede utilizar para diversas tareas en minería de texto (TM) específicamente i) indexación, ii) recuperación, iii) reducción de dimensionalidad, iv) agrupamiento, v) clasificación. El paso de indexación ofrece al usuario la capacidad de aplicar métodos de ponderación locales y globales, incluido tf-idf.