Un lago de datos es un sistema o repositorio de los datos almacenados en su formato natural / prima, [1] por lo general los objetos manchas o archivos. Un lago de datos suele ser un único almacén de datos que incluye copias sin procesar de datos del sistema de origen, datos de sensores, datos sociales, etc. [2] y datos transformados que se utilizan para tareas como informes , visualización , análisis avanzado y aprendizaje automático . Un lago de datos puede incluir datos estructurados de bases de datos relacionales (filas y columnas), datos semiestructurados ( CSV , registros, XML , JSON ),datos no estructurados (correos electrónicos, documentos, PDF) y datos binarios (imágenes, audio , video). [3] Se puede establecer un lago de datos "en las instalaciones" (dentro de los centros de datos de una organización) o "en la nube" (utilizando servicios en la nube de proveedores como Amazon , Microsoft o Google ).
Un pantano de datos es un lago de datos deteriorado y no administrado que es inaccesible para los usuarios previstos o que proporciona poco valor. [4]
Fondo
James Dixon, entonces director de tecnología de Pentaho , acuñó el término [5] para contrastarlo con data mart , que es un depósito más pequeño de atributos interesantes derivados de datos sin procesar. [6] Al promover lagos de datos, argumentó que los mercados de datos tienen varios problemas inherentes, como el almacenamiento en silos de información . PricewaterhouseCoopers (PwC) dijo que los lagos de datos podrían "poner fin a los silos de datos". [7] En su estudio sobre lagos de datos, observaron que las empresas estaban "comenzando a extraer y colocar datos para análisis en un único repositorio basado en Hadoop". Hortonworks , Google , Oracle , Microsoft , Zaloni , Teradata , Impetus Technologies, Cloudera , MongoDB y Amazon ahora tienen ofertas de lago de datos. [8]
Ejemplos de
Muchas empresas utilizan servicios de almacenamiento en la nube como Google Cloud Storage y Amazon S3 o un sistema de archivos distribuido como Apache Hadoop . [9] Existe un interés académico gradual en el concepto de lagos de datos. Por ejemplo, Personal DataLake en la Universidad de Cardiff es un nuevo tipo de lago de datos que tiene como objetivo administrar grandes datos de usuarios individuales al proporcionar un punto único para recopilar, organizar y compartir datos personales. [10] Un lago de datos anterior (Hadoop 1.0) tenía capacidades limitadas con su procesamiento orientado a lotes ( MapReduce ) y era el único paradigma de procesamiento asociado con él. Interactuar con el lago de datos significaba que uno tenía que tener experiencia en Java con herramientas de reducción de mapas y de nivel superior como Apache Pig , Apache Spark y Apache Hive (que por sí mismas estaban orientadas a lotes).
Crítica
En junio de 2015, David Needle caracterizó los "llamados lagos de datos" como "una de las formas más controvertidas de gestionar big data ". [11] PwC también tuvo cuidado de señalar en su investigación que no todas las iniciativas de lago de datos tienen éxito. Citan a Sean Martin, director de tecnología de Cambridge Semantics ,
Vemos a los clientes creando cementerios de big data, volcando todo en el sistema de archivos distribuidos de Hadoop (HDFS) y esperando hacer algo con él en el futuro. Pero luego simplemente pierden la noción de lo que hay allí.
El principal desafío no es crear un lago de datos, sino aprovechar las oportunidades que presenta. [7]
Describen a las empresas que construyen lagos de datos exitosos a medida que maduran gradualmente su lago a medida que descubren qué datos y metadatos son importantes para la organización. Otra crítica es que el concepto es difuso y arbitrario. Se refiere a cualquier herramienta o práctica de gestión de datos que no se ajuste a la arquitectura tradicional de almacenamiento de datos . Se ha hecho referencia al lago de datos como una tecnología particular. El lago de datos se ha etiquetado como un depósito de datos sin procesar o un centro para la descarga de ETL . El lago de datos se ha definido como un centro central para el análisis de autoservicio. El concepto de lago de datos se ha sobrecargado de significados, lo que cuestiona la utilidad del término. [12]
Si bien las críticas a los lagos de datos están justificadas, en muchos casos son demasiado amplias y podrían aplicarse a cualquier esfuerzo tecnológico en general y proyectos de datos específicamente [ cita requerida ] . Por ejemplo, el término "almacén de datos" actualmente tiene la misma definición opaca y cambiante que un lago de datos. También se puede decir que tampoco todos los esfuerzos de almacenamiento de datos han tenido éxito. En respuesta a varias críticas, McKinsey señaló [13] que el lago de datos debe verse como un modelo de servicio para ofrecer valor comercial dentro de la empresa, no como un resultado tecnológico.
Ver también
- Lago de datos de Azure
Referencias
- ^ "La creciente importancia de la calidad de big data" . La mesa redonda de datos . Consultado el 1 de junio de 2020 .
- ^ "¿Qué es un lago de datos?" . aws.amazon.com . Consultado el 12 de octubre de 2020 .
- ^ Campbell, Chris. "Las cinco principales diferencias entre DataWarehouses y Data Lakes" . Blue-Granite.com . Consultado el 19 de mayo de 2017 .
- ^ Olavsrud, Thor. "3 claves para evitar que su lago de datos se convierta en un pantano de datos" . CIO . Consultado el 5 de julio de 2017 .
- ^ Woods, Dan (21 de julio de 2011). "Big data requiere una gran arquitectura" . Tech. Forbes .
- ^ Dixon, James (14 de octubre de 2010). "Pentaho, Hadoop y Data Lakes" . Blog de James Dixon . James . Consultado el 7 de noviembre de 2015 .
Si piensa en una despensa de datos como una reserva de agua embotellada, limpia, empaquetada y estructurada para un consumo fácil, el lago de datos es una gran masa de agua en un estado más natural. El contenido del lago de datos fluye desde una fuente para llenar el lago, y varios usuarios del lago pueden venir a examinar, sumergirse o tomar muestras.
- ^ a b Stein, Brian; Morrison, Alan (2014). Lagos de datos y la promesa de datos sin silos (PDF) (Informe). Previsión tecnológica: repensar la integración. PricewaterhouseCooper.
- ^ Weaver, Lance (10 de noviembre de 2016). "Por qué las empresas están saltando a los lagos de datos" . blog.equinox.com . Consultado el 19 de mayo de 2017 .
- ^ Tuulos, Ville (22 de septiembre de 2015). "Pipelines de datos a escala de petabytes con instancias de Docker, Luigi y Elastic Spot" .
- ^ Walker, Coral; Alrehamy, Hassan (2015). "Lago de datos personales con extracción de gravedad de datos". 2015 IEEE Quinta Conferencia Internacional sobre Big Data y Cloud Computing . págs. 160-167. doi : 10.1109 / BDCloud.2015.62 . ISBN 978-1-4673-7183-4. S2CID 18024161 .
- ^ Needle, David (10 de junio de 2015). "Cumbre de Hadoop: la negociación de Big Data requiere herramientas y técnicas novedosas" . Aplicaciones empresariales. eWeek . Consultado el 1 de noviembre de 2015 .
Walter Maguire, tecnólogo de campo en jefe de la Unidad de Negocios de Big Data de HP, discutió una de las formas más controvertidas de administrar big data, los llamados data lakes.
- ^ "¿Son las noticias falsas de Data Lakes?" . Sonra . 8 de agosto de 2017 . Consultado el 10 de agosto de 2017 .
- ^ "Una forma más inteligente de saltar a los lagos de datos" . McKinsey . El 1 de agosto de 2017.