La integración de datos web (WDI) es el proceso de agregar y administrar datos de diferentes sitios web en un flujo de trabajo único y homogéneo. Este proceso incluye acceso a datos, transformación, mapeo, aseguramiento de la calidad y fusión de datos. Los datos que se obtienen y estructuran de sitios web se denominan " datos web ". WDI es una extensión y especialización de la integración de datos que ve la web como una colección de bases de datos heterogéneas.
Las técnicas de integración de datos en el contexto de la web constituyen la base para que las empresas aprovechen los datos disponibles en el número cada vez mayor de sitios web de acceso público. [1] El gasto empresarial en esta área ascendió a alrededor de USD 2.500 millones en 2017 y se espera que para 2020 el mercado alcance casi USD 7.000 millones. [2]
Fuentes
La integración de datos web amplía y especializa la integración de datos para ver la web como una colección de vistas de bases de datos accesibles a través de protocolos web, que incluyen, entre otros: [3]
- Catálogos de datos abiertos
- Catálogos de datos gubernamentales
- Sitios y aplicaciones web
- UI ( web scraping )
- API
- La web semántica (SPARQL)
- Datos estructurados incrustados en HTML
- Tablas de datos HTML
- Hojas de cálculo
- Archivos PDF
- Enciclopedias en línea
Acceso y transformación de datos
WDI tiene desafíos técnicos diferentes a la integración de datos debido a que el acceso y la transformación de datos requeridos para que las fuentes de datos web sean a menudo datos no estructurados o semiestructurados sin un mecanismo de consulta estándar.
Calidad de los datos
Comprender la calidad y la veracidad de los datos es incluso más importante en WDI que en la integración de datos, ya que los datos generalmente son menos confiables implícitamente y de menor calidad que los que se recopilan de una fuente confiable. Hay intentos de intentar automatizar una calificación de confianza para los datos web. [4]
La calidad de los datos en la integración de datos generalmente puede suceder después del acceso y la transformación de los datos, pero en WDI es posible que sea necesario monitorear la calidad a medida que se recopilan los datos, debido tanto al tiempo como al costo de volver a recopilar los datos.
Aplicaciones
WDI tiene aplicación en muchos campos, incluida la bioinformática, [5] motores de búsqueda, [6] comparación de precios, [7] y búsqueda forense [8] análisis de datos, inteligencia empresarial, comercio electrónico, [9] atención médica, farmacéutica [10] y productos. desarrollo.
La mayoría de los motores de comparación de precios y los sistemas de recomendación utilizan datos generados por el usuario para crear recomendaciones para sus usuarios. Del mismo modo, los sistemas sanitarios utilizan los resultados de las competiciones realizadas en sitios web como Kaggle [11] para ver la precisión de los datos y crear productos centrados en el usuario. De hecho, IBM estima que WDI de mala calidad les cuesta a las empresas más de $ 3 billones [12] en ingresos cada año.
Referencias
- ^ "Integración de datos web IE 670" . www.uni-mannheim.de . 2019-01-24 . Consultado el 11 de febrero de 2019 .
- ^ "Opimas: El mercado de extracción de datos web" . Opimas: Comenzamos con un entendimiento . Consultado el 12 de febrero de 2019 .
- ^ "Introducción :: Integración de datos web" . www.webdataintegration.io . Consultado el 14 de febrero de 2019 .
- ^ Giménez-García, José M .; Thakkar, áspero; Zimmermann, Antoine (2016). "Evaluación de la confianza con PageRank en la Web de datos". En Sack, Harald; Rizzo, Giuseppe; Steinmetz, Nadine; Mladenić, Dunja; Auer, Sören; Lange, Christoph (eds.). La Web Semántica . Apuntes de conferencias en informática. 9989 . Springer International Publishing. págs. 293-307. doi : 10.1007 / 978-3-319-47602-5_45 . ISBN 9783319476025.
- ^ "Integración de datos web" . Grupo de bases de datos de Leipzig .
- ^ "Integración de datos a escala web: solo puede pagar por uso" . www.datascienceassn.org . Consultado el 12 de febrero de 2019 .
- ^ Siegel, Michael D .; Madnick, Stuart E .; Zhu, Hongwei (2008). "Habilitación de la comparación de precios global mediante la integración semántica de datos web" . Revista Internacional de Comercio Electrónico . 6 (4): 319. doi : 10.1504 / IJEB.2008.020672 . hdl : 1721,1 / 40084 . S2CID 7995576 . Consultado el 12 de febrero de 2019 .
- ^ "PwC compra Kusiri, start-up de detección de fraude con sede en Londres" . www.consultancy.uk . 2015-10-30 . Consultado el 12 de febrero de 2019 .
- ^ Osial, P .; Kauranen, K .; Ahmed, E. (abril de 2017). "Sistema de recomendación de smartphones mediante técnicas de integración de datos web" . 2017 IEEE 30th Canadian Conference on Electrical and Computer Engineering (CCECE) : 1–5. doi : 10.1109 / CCECE.2017.7946845 . ISBN 978-1-5090-5538-8.
- ^ "Cómo la integración de datos está renovando la salud y la industria farmacéutica" . Información de integración de datos . 2020-04-27 . Consultado el 4 de mayo de 2020 .
- ^ "Kaggle: su comunidad de ciencia de datos y aprendizaje automático" . www.kaggle.com . Consultado el 4 de mayo de 2020 .
- ^ Import.io. "Integración de datos web: revolucionando la forma de trabajar con datos web" . www.import.io . Consultado el 4 de mayo de 2020 .