En informática , los datos inciertos son datos que contienen ruido que hace que se desvíen de los valores correctos, previstos u originales. En la era del big data , la incertidumbre o la veracidad de los datos es una de las características definitorias de los datos. Los datos crecen constantemente en volumen, variedad, velocidad e incertidumbre (1 / veracidad). Los datos inciertos se encuentran en abundancia hoy en día en la web, en las redes de sensores, dentro de las empresas, tanto en sus fuentes estructuradas como no estructuradas. Por ejemplo, puede haber incertidumbre con respecto a la dirección de un cliente en un conjunto de datos de la empresa o las lecturas de temperatura capturadas por un sensor debido al envejecimiento del sensor. En 2012, IBM llamó a la gestión de datos inciertos a escala en suinforme de perspectivas de la tecnología global [1] que presenta un análisis completo que mira de tres a diez años hacia el futuro y busca identificar tecnologías significativas y disruptivas que cambiarán el mundo. Para tomar decisiones comerciales confiables basadas en datos del mundo real, los análisis deben necesariamente tener en cuenta muchos tipos diferentes de incertidumbre presentes en grandes cantidades de datos. Los análisis basados en datos inciertos tendrán un efecto en la calidad de las decisiones posteriores, por lo que el grado y los tipos de inexactitudes en estos datos inciertos no pueden ignorarse.
Se encuentran datos inciertos en el área de redes de sensores ; texto donde el texto ruidoso se encuentra en abundancia en las redes sociales, la web y dentro de las empresas donde los datos estructurados y no estructurados pueden ser antiguos, desactualizados o simplemente incorrectos; en modelado donde el modelo matemático puede ser sólo una aproximación del proceso real. Al representar tales datos en una base de datos , también es necesario estimar alguna indicación de la probabilidad de que los diversos valores sean correctos.
Hay tres modelos principales de datos inciertos en bases de datos. En la incertidumbre del atributo , cada atributo incierto en una tupla está sujeto a su propia distribución de probabilidad independiente . [2] Por ejemplo, si se toman lecturas de temperatura y velocidad del viento, cada una se describiría mediante su propia distribución de probabilidad, ya que conocer la lectura de una medición no proporcionaría información sobre la otra.
En la incertidumbre correlacionada , se pueden describir múltiples atributos mediante una distribución de probabilidad conjunta . [2] Por ejemplo, si se toman las lecturas de la posición de un objeto, y el x - y y coordenadas x almacenan, la probabilidad de diferentes valores puede depender de la distancia de las coordenadas grabados. Como la distancia depende de ambas coordenadas, puede ser apropiado utilizar una distribución conjunta para estas coordenadas, ya que no son independientes .
En la incertidumbre de la tupla , todos los atributos de una tupla están sujetos a una distribución de probabilidad conjunta. Esto cubre el caso de incertidumbre correlacionada, pero también incluye el caso en el que existe una probabilidad de que una tupla no pertenezca a la relación relevante, lo cual está indicado por todas las probabilidades que no suman una. [2] Por ejemplo, suponga que tenemos la siguiente tupla de una base de datos probabilística :
(a, 0,4) | (b, 0,5) |
Entonces, la tupla tiene un 10% de posibilidades de no existir en la base de datos.
Referencias
- ^ Global Technology Outlook (PDF) (Informe). 2012.
- ^ a b c Prabhakar, Sunil. "ORION: Gestión de datos (sensores) inciertos" (PDF) . Cite journal requiere
|journal=
( ayuda )
- Volk, Habich; Clemens Utzny, Ralf Dittmann, Wolfgang Lehner. "Agrupación basada en densidad basada en errores de valores de medición imprecisos". Séptima Conferencia Internacional IEEE sobre Talleres de Minería de Datos, 2007. Talleres ICDM 2007 . IEEE.CS1 maint: varios nombres: lista de autores ( enlace )
- Rosentahl, Volk; Martin Hahmann, Dirk Habich, Wolfgang Lehner. "Agrupación de datos inciertos con mundos posibles". Actas del primer taller sobre gestión y extracción de datos inciertos en conjunto con la 25a conferencia internacional sobre ingeniería de datos, 2009 . IEEE.CS1 maint: varios nombres: lista de autores ( enlace )