La combinación de datos es un proceso mediante el cual los macrodatos de múltiples fuentes [1] se combinan en un único almacén de datos o conjunto de datos . [2] No se refiere simplemente a la combinación de diferentes formatos de archivo o fuentes de datos dispares, sino también a diferentes variedades de datos. [3] La combinación de datos permite a los analistas de negocios hacer frente a la expansión de datos que necesitan para tomar decisiones comerciales críticas basadas en inteligencia comercial de buena calidad . [4]
La combinación de datos se ha descrito como diferente de la integración de datos debido a los requisitos de los analistas de datos de fusionar fuentes muy rápidamente, demasiado rápido para cualquier intervención práctica de los científicos de datos . [5]
En representación de la creciente demanda de analistas para combinar fuentes de datos, varias empresas de software han experimentado un gran crecimiento y han recaudado millones de dólares, [6] con algunos de los primeros participantes en el mercado que ahora son empresas públicas. [7] Los ejemplos incluyen AWS , Alteryx , Microsoft Power Query, [8] e Incorta , [9] que permiten combinar datos de muchas fuentes de datos diferentes, por ejemplo, archivos de texto, bases de datos, XML, JSON y muchas otras formas de estructura y datos semiestructurados. [10] [11] [12] [13]
La combinación de datos es similar a ETL en muchos aspectos. Tanto ETL como la combinación de datos toman datos de varias fuentes y los combinan. Sin embargo, ETL se utiliza para fusionar y estructurar datos en una base de datos de destino, [14] a menudo un almacén de datos . La combinación de datos difiere ligeramente, ya que se trata de unir datos para un caso de uso específico en un momento específico. [15] Con algunos programas, los datos no se escriben en una base de datos, que es muy diferente a ETL. Por ejemplo, con Google Data Studio [16] y Tableau , la combinación de datos se produce en la capa de informes; no está escrito en ninguna parte, solo se muestra.
Combinación de datos en Tableau
En el software Tableau, la combinación de datos es una técnica para combinar datos de varias fuentes de datos en la visualización de datos . [17] Las fuentes de datos se almacenan por separado y solo se muestran juntas en un tablero , en la capa de informes. Este es uno de los conceptos clave que diferencia una combinación de datos de Tableau de otras definiciones de combinación de datos.
El otro diferenciador clave es la granularidad de la combinación de datos. Generalmente, cuando se combinan datos en un solo conjunto de datos, esto usaría una combinación de base de datos , que generalmente se uniría al nivel más granular, usando un campo de identificación cuando sea posible. [18] Una combinación de datos en Tableau debería ocurrir en el nivel mínimo granular. [19]
Combinación de datos en Google Data Studio
En Google Data Studio , las fuentes de datos se combinan uniendo los registros de una fuente de datos con los registros de hasta otras 4 fuentes de datos. Al igual que en Tableau, la combinación de datos solo ocurre en la capa de informes. Los datos combinados nunca se almacenan como una fuente de datos combinada separada. [20]
Desafíos con la combinación de datos
La pregunta de metadatos personalizados más común es: "¿Cómo se puede combinar este conjunto de datos con (unirse o unirse a) mis otros conjuntos de datos?" [21] Un estudio de Forrester Consulting de 2015 encontró que el 52 por ciento de las empresas combinan 50 o más fuentes de datos y el 12 por ciento combina más de 1000 fuentes. [22]
Ver también
Referencias
- ^ Alteryx Analytics lleva el poder de Big Data y predictivo al mercado
- ^ La combinación de datos es el proceso de combinar datos de múltiples fuentes en un conjunto de datos funcional
- ^ La guía definitiva para la combinación de datos
- ^ "Combinación de datos" . Trifacta.com . 24 de agosto de 2017.
- ^ ¿Qué es la combinación de datos y qué herramientas lo facilitan?
- ^ "Incorta recauda $ 30 millones Serie C para una solución de procesamiento de datos sin ETL" . TechCrunch . Consultado el 27 de febrero de 2021 .
- ^ "Alteryx anuncia el precio de la oferta pública inicial" . Alteryx . Consultado el 27 de febrero de 2021 .
- ^ Corporación, Microsoft. "Microsoft Power Query" . powerquery.microsoft.com . Consultado el 27 de febrero de 2021 .
- ^ "Software de análisis directo de datos | Incorta" . www.incorta.com . Consultado el 27 de febrero de 2021 .
- ^ "Fuentes de datos" . docs.incorta.com . Consultado el 27 de febrero de 2021 .
- ^ davidiseminger. "Dar forma y combinar datos de múltiples fuentes usando Power Query" . docs.microsoft.com . Consultado el 27 de febrero de 2021 .
- ^ "Fuentes de datos compatibles: Amazon QuickSight" . docs.aws.amazon.com . Consultado el 27 de febrero de 2021 .
- ^ "Fuentes de datos | Ayuda de Alteryx" . help.alteryx.com . Consultado el 27 de febrero de 2021 .
- ^ "Cómo funciona ETL" . Databricks (en alemán) . Consultado el 27 de febrero de 2021 .
- ^ "¿Qué es la combinación de datos y qué herramientas la facilitan?" . Asesoramiento sobre software . 2016-08-25 . Consultado el 27 de febrero de 2021 .
- ^ "Descripción general de Google Data Studio" . datastudio.google.com . Consultado el 27 de febrero de 2021 .
- ^ "Combine sus datos" . help.tableau.com . Consultado el 27 de febrero de 2021 .
- ^ "Explicación de las uniones SQL" . Explicación de las uniones SQL . Consultado el 27 de febrero de 2021 .
- ^ Soluciones TAR (2021-01-20). "Combinación de datos en Tableau" . Soluciones TAR . Consultado el 27 de febrero de 2021 .
- ^ "Acerca de la combinación de datos - Ayuda de Data Studio" . support.google.com . Consultado el 27 de febrero de 2021 .
- ^ Heer, Jeffrey; Hellerstein, Joseph; Kandel, Sean; Rattenbury, Tye (julio de 2017). Principios de la manipulación de datos . http://shop.oreilly.com/product/0636920045113.do : O'Reilly Media.Mantenimiento de CS1: ubicación ( enlace )
- ^ "Mashups de datos para análisis" . Pentaho .