descubrimiento de la verdad


El descubrimiento de la verdad (también conocido como búsqueda de la verdad ) es el proceso de elegir el valor verdadero real para un elemento de datos cuando diferentes fuentes de datos brindan información contradictoria.

Se han propuesto varios algoritmos para abordar este problema, que van desde métodos simples como la votación por mayoría hasta otros más complejos capaces de estimar la confiabilidad de las fuentes de datos . [1]

Los problemas de descubrimiento de la verdad se pueden dividir en dos subclases: verdad única y verdad múltiple. En el primer caso, solo se permite un valor verdadero para un elemento de datos (por ejemplo, cumpleaños de una persona, ciudad capital de un país). Mientras que en el segundo caso se permiten múltiples valores verdaderos (por ejemplo, elenco de una película, autores de un libro). [2] [3]

Por lo general, el descubrimiento de la verdad es el último paso de una canalización de integración de datos , cuando los esquemas de diferentes fuentes de datos se han unificado y se han detectado los registros que hacen referencia al mismo elemento de datos . [4]

La abundancia de datos disponibles en la web hace que cada vez sea más probable encontrar que diferentes fuentes proporcionen (parcial o completamente) valores diferentes para el mismo elemento de datos . Esto, junto con el hecho de que estamos aumentando nuestra confianza en los datos para derivar decisiones importantes, motiva la necesidad de desarrollar buenos algoritmos de descubrimiento de la verdad . [5]  

Muchos métodos actualmente disponibles se basan en una estrategia de votación para definir el verdadero valor de un elemento de datos . Sin embargo, estudios recientes han demostrado que, si nos basamos únicamente en la votación por mayoría , podríamos obtener resultados erróneos incluso en el 30% de los elementos de datos . [5]