Espacios de datos

Los espacios de datos son una abstracción en la gestión de datos que tienen como objetivo superar algunos de los problemas encontrados en el sistema de integración de datos . El objetivo es reducir el esfuerzo requerido para configurar un sistema de integración de datos confiando en las técnicas existentes de generación de correspondencia y generación de mapas, y mejorar el sistema en forma de "pago por uso" tal como se usa. Los aspectos de la integración de datos que requieren mucha mano de obra se posponen hasta que sean absolutamente necesarios. ^[1]^[2]^[3]^[4]^[5]^[6]^[7]^[8]

Tradicionalmente, los sistemas de integración e intercambio de datos han tenido como objetivo ofrecer muchos de los supuestos servicios de los sistemas de espacio de datos. Los espacios de datos se pueden ver como el siguiente paso en la evolución de las arquitecturas de integración de datos, pero se diferencian de los sistemas de integración de datos actuales de la siguiente manera. Los sistemas de integración de datos requieren una integración semántica antes de que se pueda proporcionar cualquier servicio. Por lo tanto, aunque no existe un esquema único al que se ajusten todos los datos y los datos residan en una multitud de sistemas host, el sistema de integración de datos conoce las relaciones precisas entre los términos utilizados en cada esquema. Como resultado, se requiere un esfuerzo inicial significativo para configurar un sistema de integración de datos.

Los espacios de datos cambian el énfasis a un enfoque de coexistencia de datos que proporciona una funcionalidad básica sobre todas las fuentes de datos, independientemente de su grado de integración. Por ejemplo, una plataforma de soporte de DataSpace (DSSP) puede proporcionar búsqueda de palabras clave en todas sus fuentes de datos, similar a la proporcionada por los sistemas de búsqueda de escritorio existentes. Cuando se requieren operaciones más sofisticadas, como consultas de estilo relacional, minería de datos o monitoreo sobre ciertas fuentes, entonces se puede aplicar un esfuerzo adicional para integrar más estrechamente esas fuentes de manera incremental. De manera similar, en términos de garantías de bases de datos tradicionales, inicialmente un sistema de espacio de datos solo puede proporcionar garantías más débiles de consistencia y durabilidad. A medida que se desean garantías más sólidas, se puede hacer un mayor esfuerzo para hacer acuerdos entre los diversos propietarios de las fuentes de datos y abrir ciertas interfaces (por ejemplo, para protocolos de compromiso).

Los gráficos de datos juegan un papel importante en los sistemas de espacios de datos. Trabajan en un enfoque de modelado de datos basado en hechos (triples o "entidades de datos" compuesto por sujeto-predicado-objeto) ^[9] que admite las técnicas de "pago por uso" descritas anteriormente. Apoyan la coexistencia de datos y, por lo tanto, son una técnica ideal para la integración semántica . Las consultas y análisis de búsqueda y de estilo relacional pueden funcionar simultáneamente en gráficos de datos, que es otra propiedad importante de los espacios de datos.

Aplicaciones de espacios de datos

Manejo de información personal

El objetivo de la gestión de la información personal es ofrecer un fácil acceso y manipulación de toda la información en el escritorio de una persona, con posible extensión a dispositivos móviles, información personal en la Web o incluso toda la información a la que se accede durante la vida de una persona. Las herramientas de búsqueda de escritorio recientes son un primer paso importante para PIM, pero se limitan a consultas de palabras clave. Nuestros escritorios suelen contener algunos datos estructurados (por ejemplo, hojas de cálculo ) y existen asociaciones importantes entre elementos dispares en el escritorio. Por lo tanto, el siguiente paso para PIM es permitir que el usuario busque en el escritorio de formas más significativas. Por ejemplo, "busque la lista de estudiantes del tercer año que tomaron mi curso de base de datos el último trimestre" o "calcule el saldo total de mis cuentas bancarias". También nos gustaría buscar por asociación, por ejemplo, "encontrar el correo electrónico que John me envió el día que regresé de Hawái" o "recuperar los archivos de experimentos asociados con mi artículo SIGMOD de este año". Finalmente, nos gustaría consultar sobre las fuentes, por ejemplo, "encontrar todos los artículos en los que reconocí una subvención en particular", "encontrar todos los experimentos realizados por un estudiante en particular" o "encontrar todas las hojas de cálculo que tengan una columna de variación".

Los principios de los espacios de datos en juego en este ejemplo son que

una herramienta PIM debe permitir el acceso a toda la información en el escritorio, y no solo a un subconjunto elegido explícita o implícitamente, y
Si bien PIM a menudo implica la integración de datos de múltiples fuentes, no podemos asumir que los usuarios invertirán el tiempo para integrarlos. En cambio, la mayoría de las veces el sistema tendrá que proporcionar resultados con el mejor esfuerzo, y se crearán integraciones más estrictas solo en los casos en que los beneficios superen claramente la inversión.

Gestión de datos científicos

Considere un grupo de investigación científica que trabaje en observación y predicción ambiental, como el Sistema CORIE1. Pueden estar monitoreando un ecosistema costero a través de estaciones meteorológicas, sensores montados en la costa y en boyas e imágenes remotas. Además, podrían ejecutar modelos atmosféricos y de dinámica de fluidos que simulan condiciones pasadas, presentes y futuras cercanas. Los cálculos pueden requerir la importación de datos y resultados de modelos de otros grupos, como los caudales de los ríos y los pronósticos de circulación oceánica. Las observaciones y simulaciones son entradas a programas que generan una amplia gama de productos de datos, para su uso dentro del grupo y por otros: gráficos de comparación entre datos observados y simulados, imágenes de distribuciones de temperatura de superficie, animaciones de intrusión de agua salada en un estuario. Un grupo de este tipo puede acumular fácilmente millones de productos de datos en solo unos pocos años. Si bien puede ser que para cada archivo, alguien del grupo sepa dónde está y qué significa, es posible que ninguna persona sepa todas las existencias ni lo que significa cada archivo. A las personas que acceden a estos datos, particularmente desde fuera del grupo, les gustaría buscar un inventario maestro que tuviera atributos de archivo básicos, como período de tiempo cubierto, región geográfica, altura o profundidad, variable física (salinidad, temperatura, velocidad del viento), tipo de producto de datos (gráfico, diagrama de isolíneas, animación), pronóstico o retroactividad, etc. Una vez que se encuentran los productos de datos de interés, comprender el linaje es fundamental para poder analizar y comparar productos: ¿Qué versión de código se utilizó? ¿Qué cuadrícula de elementos finitos? ¿Cuánto tiempo duró el paso de tiempo de la simulación? ¿Qué conjunto de datos atmosféricos se utilizó como entrada?

Los grupos deberán federarse con otros grupos para crear espacios de datos científicos de alcance regional o nacional. Tendrán que exportar fácilmente sus datos en formatos científicos estándar y en granularidades (subarchivo o archivo múltiple) que no se corresponden necesariamente con las particiones que utilizan para almacenar los datos. Los usuarios del espacio de datos federado pueden querer ver colecciones de datos que atraviesan los grupos de la federación, como todas las observaciones y productos de datos relacionados con la velocidad del agua, o todos los datos relacionados con un determinado tramo de costa durante los últimos dos meses. Estas colecciones pueden requerir copias locales o índices adicionales para una búsqueda rápida.

Este escenario ilustra varios requisitos de espacio de datos, incluidos

un catálogo de todo el espacio de datos,
soporte para linaje de datos y
creando colecciones e índices sobre entidades que abarcan más de una fuente participante.

Ver también

Referencias

^ Belhajjame, K .; Paton, NW ; Embury, SM; Fernandes, AAA; Hedeler, C. (2013). "Mejora progresiva de los espacios de datos en función de los comentarios de los usuarios". Sistemas de información . 38 (5): 656. CiteSeerX 10.1.1.303.1957 . doi : 10.1016 / j.is.2013.01.006 .
^ Belhajjame, K .; Paton, NW ; Embury, SM; Fernandes, AAA; Hedeler, C. (2010). "Anotación basada en comentarios, selección y refinamiento de mapeos de esquemas para espacios de datos". Actas de la 13ª Conferencia Internacional sobre la ampliación de la tecnología de bases de datos - EDBT '10 . pag. 573. doi : 10.1145 / 1739041.1739110 . ISBN 9781605589459.
^ Talukdar, PP; Ives, ZG; Pereira, F. (2010). "Incorporación automática de nuevas fuentes en la integración de datos basada en búsquedas de palabras clave" . Actas de la conferencia internacional de 2010 sobre gestión de datos - SIGMOD '10 . pag. 387. doi : 10.1145 / 1,807,167.1807211 . ISBN 9781450300322.
^ Sarma, AD; Dong, X. (L .; Halevy, AY (2009). "Modelado de datos en plataformas de soporte de espacio de datos". Modelado conceptual: Fundamentos y aplicaciones . Notas de clase en Ciencias de la Computación. 5600. P. 122. doi : 10.1007 / 978-3 -642-02463-4_8 . ISBN 978-3-642-02462-7.
^ Dong, XL; Halevy, A .; Yu, C. (2008). "Integración de datos con incertidumbre". El diario VLDB . 18 (2): 469. CiteSeerX 10.1.1.176.3648 . doi : 10.1007 / s00778-008-0119-9 .
^ Howe, B .; Maier, D .; Rayner, N .; Rucker, J. (2008). "Cantera de espacios de datos: perfilado sin esquema de fuentes de información desconocidas". 2008 IEEE 24th International Conference on Data Engineering Workshop . pag. 270. doi : 10.1109 / ICDEW.2008.4498331 . ISBN 978-1-4244-2161-9.
^ Dong, X .; Halevy, A. (2007). "Indexación de espacios de datos". Actas de la conferencia internacional 2007 ACM SIGMOD sobre Gestión de datos - SIGMOD '07 . pag. 43. doi : 10.1145 / 1247480.1247487 . ISBN 9781595936868.
^ Franklin, M .; Halevy, A .; Maier, D. (2005). "De las bases de datos a los espacios de datos". Registro ACM SIGMOD . 34 (4): 27. doi : 10.1145 / 1107499.1107502 .
^ [1] ZDNet, Actian agrega el motor de análisis de gráficos de SPARQL City a su arsenal.

Otras lecturas

Partha Pratim Talukdar, Marie Jacob, Muhammad Salman Mehmood, Koby Crammer, Zachary G. Ives, Fernando Pereira, Sudipto Guha: Aprendiendo a crear consultas de integración de datos. PVLDB 1 (1): 785-796 (2008)
Michael J. Franklin, Alon Y. Halevy, David Maier: Un primer tutorial sobre espacios de datos . PVLDB 1 (2): 1516-1517 (2008)
Jens-Peter Dittrich, Marcos Antonio Vaz Salles: iDM: un modelo de datos unificado y versátil para la gestión del espacio de datos personal . VLDB 2006: 367-378.

enlaces externos

Espacios de datos por refinamiento

[1] Belhajjame, K .; Paton, NW ; Embury, SM; Fernandes, AAA; Hedeler, C. (2013). "Mejora progresiva de los espacios de datos en función de los comentarios de los usuarios". Sistemas de información . 38 (5): 656. CiteSeerX 10.1.1.303.1957 . doi : 10.1016 / j.is.2013.01.006 .

[2] Belhajjame, K .; Paton, NW ; Embury, SM; Fernandes, AAA; Hedeler, C. (2010). "Anotación basada en comentarios, selección y refinamiento de mapeos de esquemas para espacios de datos". Actas de la 13ª Conferencia Internacional sobre la ampliación de la tecnología de bases de datos - EDBT '10 . pag. 573. doi : 10.1145 / 1739041.1739110 . ISBN 9781605589459.

[3] Talukdar, PP; Ives, ZG; Pereira, F. (2010). "Incorporación automática de nuevas fuentes en la integración de datos basada en búsquedas de palabras clave" . Actas de la conferencia internacional de 2010 sobre gestión de datos - SIGMOD '10 . pag. 387. doi : 10.1145 / 1,807,167.1807211 . ISBN 9781450300322.

[4] Sarma, AD; Dong, X. (L .; Halevy, AY (2009). "Modelado de datos en plataformas de soporte de espacio de datos". Modelado conceptual: Fundamentos y aplicaciones . Notas de clase en Ciencias de la Computación. 5600. P. 122. doi : 10.1007 / 978-3 -642-02463-4_8 . ISBN 978-3-642-02462-7.

[5] Dong, XL; Halevy, A .; Yu, C. (2008). "Integración de datos con incertidumbre". El diario VLDB . 18 (2): 469. CiteSeerX 10.1.1.176.3648 . doi : 10.1007 / s00778-008-0119-9 .

[6] Howe, B .; Maier, D .; Rayner, N .; Rucker, J. (2008). "Cantera de espacios de datos: perfilado sin esquema de fuentes de información desconocidas". 2008 IEEE 24th International Conference on Data Engineering Workshop . pag. 270. doi : 10.1109 / ICDEW.2008.4498331 . ISBN 978-1-4244-2161-9.

[7] Dong, X .; Halevy, A. (2007). "Indexación de espacios de datos". Actas de la conferencia internacional 2007 ACM SIGMOD sobre Gestión de datos - SIGMOD '07 . pag. 43. doi : 10.1145 / 1247480.1247487 . ISBN 9781595936868.

[8] Franklin, M .; Halevy, A .; Maier, D. (2005). "De las bases de datos a los espacios de datos". Registro ACM SIGMOD . 34 (4): 27. doi : 10.1145 / 1107499.1107502 .

[9] [1] ZDNet, Actian agrega el motor de análisis de gráficos de SPARQL City a su arsenal.

[1]