Comprensión de consultas


La comprensión de consultas es el proceso de inferir la intención de un usuario del motor de búsqueda extrayendo el significado semántico de las palabras clave del buscador. [1] Los métodos de comprensión de consultas generalmente tienen lugar antes de que el motor de búsqueda recupere y clasifique los resultados. Está relacionado con el procesamiento del lenguaje natural, pero se centra específicamente en la comprensión de las consultas de búsqueda. La comprensión de consultas está en el corazón de tecnologías como Amazon Alexa , [2] Siri de Apple . [3] Asistente de Google , [4] Watson de IBM , [5] y Cortana de Microsoft . [6]

La tokenización es el proceso de dividir una cadena de texto en palabras u otros elementos significativos llamados tokens. Por lo general, la tokenización se produce a nivel de palabra. Sin embargo, a veces es difícil definir qué se entiende por "palabra". A menudo, un tokenizador se basa en heurísticas simples, como dividir la cadena en caracteres de puntuación y espacios en blanco . La tokenización es más desafiante en idiomas sin espacios entre palabras, como el chino y el japonés . La tokenización de texto en estos idiomas requiere el uso de algoritmos de segmentación de palabras . [7]

La corrección ortográfica es el proceso de detección y corrección automática de errores ortográficos en las consultas de búsqueda. La mayoría de los algoritmos de corrección ortográfica se basan en un modelo de lenguaje , que determina la probabilidad a priori de una consulta prevista, y un modelo de error (normalmente un modelo de canal ruidoso ), que determina la probabilidad de un error ortográfico particular, dada una consulta prevista. [8]

Muchos idiomas, pero no todos, flexionan las palabras para reflejar su papel en el enunciado en el que aparecen: una palabra como *cuidado* puede aparecer como, además de la forma base. como *cares*, *cared*, *caring*, y otros. Es probable que la variación entre varias formas de una palabra sea de poca importancia para el modelo de significado de grano relativamente grueso involucrado en un sistema de recuperación y, por esta razón, la tarea de fusionar las diversas formas de una palabra es una técnica potencialmente útil para aumentar el recuerdo de un sistema de recuperación. [9]

Los idiomas del mundo varían en la cantidad de variación morfológica que exhiben, y para algunos idiomas existen métodos simples para reducir una palabra en cuestión a su lema o forma de raíz o raíz . Para algunos otros lenguajes, esta operación implica un procesamiento de cadenas no trivial. Un sustantivo en inglés normalmente aparece en cuatro variantes: *cat* *cat's* *cats* *cats'* o *child* *child´s* *children* *child's*. Otros idiomas tienen más variación. El finlandés , por ejemplo, exhibe potencialmente alrededor de 5000 formas para un sustantivo, [10] y para muchos idiomas las formas flexivas no se limitan a los afijos sino que cambian el núcleo de la palabra misma.

Los algoritmos de lematización, también conocidos como lematizadores, suelen utilizar una colección de reglas simples para eliminar sufijos destinados a modelar las reglas de inflexión del lenguaje. [11]