En el procesamiento de lenguaje natural, un w-shingling es un conjunto de shingles únicos (por lo tanto, n-gramas ), cada uno de los cuales se compone de subsecuencias contiguas de tokens dentro de un documento , que luego se pueden usar para determinar la similitud entre los documentos . El símbolo w denota la cantidad de fichas en cada teja seleccionada o resuelta.
El documento, "una rosa es una rosa es una rosa", por lo tanto, se puede tokenizar al máximo de la siguiente manera:
- (una, rosa, es, una, rosa, es, una, rosa)
El conjunto de todas las secuencias contiguas de 4 tokens (por lo tanto, 4 = n , por lo tanto, 4 gramos ) es
- {(a, rosa, es, a), (rosa, es, a, rosa), (es, a, rosa, es), (a, rosa, es, a), (rosa, es, a, rosa) } Que luego se puede reducir, o al máximo, en este caso particular, a {(a, rosa, es, a), (rosa, es, a, rosa), (es, a, rosa, es)}.
Semejanza
Para un tamaño de teja dado, el grado en que dos documentos A y B se parecen entre sí puede expresarse como la relación de las magnitudes de la intersección y unión de sus tejas , o
donde | A | es el tamaño del conjunto A. La semejanza es un número en el rango [0,1], donde 1 indica que dos documentos son idénticos. Esta definición es idéntica al coeficiente de Jaccard que describe la similitud y diversidad de conjuntos de muestras.
Ver también
- Minería de conceptos (método alternativo para el cálculo de similitud de documentos con más complejidad computacional, pero donde la medida modela más de cerca la percepción humana de la similitud de documentos)
- N-gramo
- k-mer
- MinHash
- Hash rodante
- Huella dactilar de Rabin
- Modelo de espacio vectorial
- Modelo de bolsa de palabras
Referencias
- (Manber 1993) Búsqueda de archivos similares en un sistema de archivos grande . Todavía no utiliza el término "tejas".
- (Broder, Glassman, Manasse y Zweig 1997) Agrupación sintáctica de la Web . Nota técnica de SRC # 1997-015.
enlaces externos
- Manning, Christopher D .; Raghavan, Prabhakar; Schütze, Hinrich (7 de julio de 2008). "w-shingling" . Introducción a la recuperación de información . Prensa de la Universidad de Cambridge. ISBN 978-1-139-47210-4.