El procesamiento de términos compuestos, en la recuperación de información , es la comparación de resultados de búsqueda sobre la base de términos compuestos . Los términos compuestos se crean combinando dos o más términos simples; por ejemplo, "triple" es un término de una sola palabra, pero "bypass cardíaco triple" es un término compuesto.
El procesamiento de términos compuestos es un nuevo enfoque para un viejo problema: ¿cómo se puede mejorar la relevancia de los resultados de búsqueda mientras se mantiene la facilidad de uso? Con esta técnica, una búsqueda de tasas de supervivencia después de un bypass cardíaco triple en personas mayores localizará documentos sobre este tema, incluso si esta frase precisa no está contenida en ningún documento. Esto se puede realizar mediante una búsqueda de conceptos , que a su vez utiliza el procesamiento de términos compuestos. Esto extraerá los conceptos clave automáticamente (en este caso, "tasas de supervivencia", "bypass cardíaco triple" y "personas mayores") y utilizará estos conceptos para seleccionar los documentos más relevantes.
Técnicas
En agosto de 2003, Concept Searching Limited introdujo la idea de utilizar el procesamiento estadístico de términos compuestos. [1]
CLAMOR es un proyecto colaborativo europeo que tiene como objetivo encontrar una mejor manera de clasificar a la hora de recopilar y difundir información y estadísticas industriales. CLAMOR parece utilizar un enfoque lingüístico, en lugar de uno basado en modelos estadísticos . [2]
Historia
Las técnicas para la ponderación probabilística de términos de una sola palabra se remontan al menos a 1976 en la publicación histórica de Stephen E. Robertson y Karen Spärck Jones . [3] Robertson afirmó que la suposición de la independencia de las palabras no está justificada y existe como una cuestión de conveniencia matemática. Su objeción al término independencia no es una idea nueva, que se remonta al menos a 1964 cuando HH Williams afirmó que "[l] a suposición de la independencia de las palabras en un documento generalmente se hace como una cuestión de conveniencia matemática". [4]
En 2004, Anna Lynn Patterson presentó patentes sobre "búsquedas basadas en frases en un sistema de recuperación de información" [5] sobre las que Google posteriormente adquirió los derechos. [6]
Adaptabilidad
El procesamiento estadístico de términos compuestos es más adaptable que el proceso descrito por Patterson. Su proceso está dirigido a buscar en la World Wide Web, donde se puede utilizar un amplio conocimiento estadístico de búsquedas comunes para identificar frases candidatas. El procesamiento estadístico de términos compuestos es más adecuado para aplicaciones de búsqueda empresarial en las que no se dispone de ese conocimiento a priori .
El procesamiento estadístico de términos compuestos también es más adaptable que el enfoque lingüístico adoptado por el proyecto CLAMOR, que debe considerar las propiedades sintácticas de los términos (es decir, parte del discurso, género, número, etc.) y sus combinaciones. CLAMOR depende en gran medida del idioma, mientras que el enfoque estadístico es independiente del idioma.
Aplicaciones
El procesamiento de términos compuestos permite que las aplicaciones de recuperación de información, como los motores de búsqueda , realicen su comparación sobre la base de conceptos de varias palabras, en lugar de palabras individuales aisladas que pueden ser muy ambiguas.
Los primeros motores de búsqueda buscaban documentos que contenían las palabras ingresadas por el usuario en el cuadro de búsqueda. Estos se conocen como motores de búsqueda de palabras clave . Los motores de búsqueda booleanos añaden un grado de sofisticación al permitir que el usuario especifique requisitos adicionales. Por ejemplo, "Tiger NEAR Woods AND (golf OR golfing) NOT Volkswagen" utiliza los operadores "CERCA", "Y", "O" y "NO" para especificar que estas palabras deben cumplir con ciertos requisitos. Una búsqueda de frases es más sencilla de usar, pero requiere que la frase exacta especificada aparezca en los resultados.
Ver también
Referencias
- ^ "Pensamiento lateral en la recuperación de información" (PDF) . Tecnología y Gestión de la Información . 36 PARTE 4. Archivado desde el original (PDF) el 15/11/2017 . Consultado el 20 de junio de 2008 .La entrada del catálogo de British Library Direct se puede encontrar aquí: [1] Archivado el 10 de febrero de 2012 en la Wayback Machine.
- ^ [2] Proyecto CLAMOR de Estadísticas Nacionales
- ^ Robertson, SE ; Spärck Jones, K. (1976). "Ponderación por relevancia de los términos de búsqueda". Revista de la Sociedad Estadounidense de Ciencias de la Información . 27 (3): 129. doi : 10.1002 / asi.4630270302 .
- ^ WILLIAMS, JH (1965). "Resultados de la clasificación de documentos con múltiples funciones discriminantes" . Métodos de asociación estadística para la documentación mecanizada, Oficina Nacional de Normas . Washington: 217–224. Archivado desde el original el 17 de julio de 2011 . Consultado el 21 de mayo de 2015 .
- ^ US 20060031195
- ^ Google adquiere solicitudes de patente Cuil