La inferencia incierta fue descrita por primera vez por CJ van Rijsbergen [1] como una forma de definir formalmente una relación de consulta y documento en la recuperación de información . Esta formalización es una implicación lógica con una medida de incertidumbre adjunta.
Definiciones
Rijsbergen propone que la medida de incertidumbre de un documento d ante una consulta q sea la probabilidad de su implicación lógica, es decir:
La consulta de un usuario se puede interpretar como un conjunto de afirmaciones sobre el documento deseado. Es tarea del sistema inferir , dado un documento en particular, si las afirmaciones de la consulta son verdaderas. Si es así, se recupera el documento. En muchos casos, el contenido de los documentos no es suficiente para afirmar las consultas. Se necesita una base de conocimiento de hechos y reglas, pero algunos de ellos pueden ser inciertos porque puede haber una probabilidad asociada a su uso para inferencias. Por lo tanto, también podemos referirnos a esto como inferencia plausible . La plausibilidad de una inferenciaes una función de la plausibilidad de cada aserción de consulta. En lugar de recuperar un documento que coincida exactamente con la consulta, debemos clasificar los documentos en función de su plausibilidad con respecto a esa consulta. Desde d y q son ambos generados por los usuarios, que son propensos a errores; por lo tantoes incierto. Esto afectará la plausibilidad de una consulta determinada.
Al hacer esto, logra dos cosas:
- Separe los procesos de revisión de probabilidades de la lógica.
- Separar el tratamiento de relevancia del tratamiento de solicitudes
Los documentos multimedia , como imágenes o videos, tienen diferentes propiedades de inferencia para cada tipo de datos. También son diferentes de las propiedades de los documentos de texto. El marco de inferencia plausible nos permite medir y combinar las probabilidades provenientes de estas diferentes propiedades.
La inferencia incierta generaliza las nociones de lógica autoepistémica , donde los valores de verdad son conocidos o desconocidos, y cuando se conocen, son verdaderos o falsos.
Ejemplo
Si tenemos una consulta del formulario:
donde A, B y C son aserciones de consulta, entonces para un documento D queremos la probabilidad:
Si transformamos esto en la probabilidad condicional y si las afirmaciones de la consulta son independientes, podemos calcular la probabilidad general de la implicación como el producto de las probabilidades de las afirmaciones individuales.
Más trabajo
Croft y Krovetz [2] aplicaron una inferencia incierta a un sistema de recuperación de información para documentos de oficina que llamaron OFFICER . En los documentos de oficina, el supuesto de independencia es válido ya que la consulta se centrará en sus atributos individuales. Además de analizar el contenido de los documentos, también se puede consultar sobre el autor, el tamaño, el tema o la colección, por ejemplo. Idearon métodos para comparar documentos y atributos de consulta, inferir su plausibilidad y combinarlos en una calificación general para cada documento. Además de esa incertidumbre del contenido de los documentos y las consultas, también había que abordar.
Las redes lógicas probabilísticas son un sistema para realizar inferencias inciertas; Los valores nítidos de verdad verdadero / falso se reemplazan no solo por una probabilidad, sino también por un nivel de confianza, que indica la certeza de la probabilidad.
Las redes lógicas de Markov permiten realizar inferencias inciertas; las incertidumbres se calculan utilizando el principio de máxima entropía , de forma análoga a la forma en que las cadenas de Markov describen la incertidumbre de las máquinas de estados finitos .
Ver también
Referencias
- ^ CJ van Rijsbergen (1986), Una lógica no clásica para la recuperación de información (PDF) , The Computer Journal, págs. 481–485
- ^ WB Croft; R. Krovetz (1988), "Documentos de oficina de recuperación interactiva", Conferencia patrocinada por ACM SIGOIS e IEEECS TC-OA sobre sistemas de información de oficina - , págs. 228-235, doi : 10.1145 / 45410.45435 , ISBN 0897912616