Virtualización de datos

La virtualización de datos es un enfoque de la gestión de datos que permite que una aplicación recupere y manipule datos sin requerir detalles técnicos sobre los datos, como cómo se formatea en la fuente o dónde se encuentra físicamente, ^[1] y puede proporcionar un solo cliente vista (o vista única de cualquier otra entidad) de los datos generales. ^[2]

A diferencia del proceso tradicional de extracción, transformación y carga ("ETL"), los datos permanecen en su lugar y se proporciona acceso en tiempo real al sistema de origen de los datos. Esto reduce el riesgo de errores de datos, de que la carga de trabajo mueva datos que tal vez nunca se utilicen, y no intenta imponer un modelo de datos único sobre los datos (un ejemplo de datos heterogéneos es un sistema de base de datos federado ). La tecnología también admite la escritura de actualizaciones de datos de transacciones en los sistemas de origen. ^[3] Para resolver las diferencias en los formatos y la semántica de origen y consumidor, se utilizan varias técnicas de abstracción y transformación. Este concepto y software es un subconjunto de la integración de datos y se usa comúnmente dentro de la inteligencia empresarial., servicios de datos de arquitectura orientados a servicios, computación en la nube , búsqueda empresarial y gestión de datos maestros .

Virtualización de datos y almacenamiento de datos

Algunos entornos empresariales están llenos de fuentes de datos dispares, incluidos varios almacenes de datos , mercados de datos y / o lagos de datos , aunque un almacén de datos, si se implementa correctamente, debería ser único y una única fuente de verdad . La virtualización de datos puede unir datos de manera eficiente a través de almacenes de datos, mercados de datos y lagos de datos sin tener que crear una plataforma de datos físicos integrada completamente nueva. La infraestructura de datos existente puede seguir desempeñando sus funciones principales, mientras que la capa de virtualización de datos simplemente aprovecha los datos de esas fuentes. Este aspecto de la virtualización de datos lo hace complementario a todas las fuentes de datos existentes y aumenta la disponibilidad y el uso de los datos empresariales.

La virtualización de datos también puede considerarse una alternativa al ETL y el almacenamiento de datos, pero por consideraciones de rendimiento no se recomienda realmente para un almacén de datos muy grande. La virtualización de datos tiene como objetivo inherente producir información rápida y oportuna a partir de múltiples fuentes sin tener que embarcarse en un proyecto de datos importante con un amplio ETL y almacenamiento de datos. Sin embargo, la virtualización de datos puede ampliarse y adaptarse para satisfacer también los requisitos de almacenamiento de datos. Esto requerirá una comprensión de los requisitos de almacenamiento e historial de datos junto con la planificación y el diseño para incorporar el tipo correcto de virtualización de datos, integración y estrategias de almacenamiento, y optimizaciones de infraestructura / rendimiento (por ejemplo, transmisión, en memoria, almacenamiento híbrido).

Ejemplos de

Phone House, el nombre comercial de las operaciones europeas de la cadena minorista de telefonía móvil Carphone Warehouse, con sede en el Reino Unido, implementó la tecnología de virtualización de datos de Denodo entre los sistemas transaccionales de su subsidiaria española y los sistemas basados en la Web de los operadores móviles. ^[3]
Novartis implementó la herramienta de virtualización de datos de TIBCO para permitir a sus investigadores combinar rápidamente datos de fuentes internas y externas en un almacén de datos virtual con capacidad de búsqueda. ^[3]
Los datos primarios independientes del almacenamiento (desaparecidos, reencarnados como Hammer.space) eran una plataforma de virtualización de datos que permitía a las aplicaciones, servidores y clientes acceder de forma transparente a los datos mientras se migraban entre el almacenamiento en la nube pública, privada y conectada directamente a la red. . ^{[ cita requerida ]}
Los datos vinculados pueden usar un único nombre de fuente de datos ( DSN ) basado en hipervínculos para proporcionar una conexión a una capa de base de datos virtual que está conectada internamente a una variedad de fuentes de datos back-end usando ODBC , JDBC , OLE DB , ADO.NET , SOA servicios de estilo y / o patrones REST .
La virtualización de bases de datos puede utilizar un único DSN basado en ODBC para proporcionar una conexión a una capa de base de datos virtual similar.
Alluxio , un sistema de código abierto virtual de archivos distribuido (VDFS), iniciado en la Universidad de California, Berkeley 's AMPLab . El sistema extrae datos de varios sistemas de archivos y almacenes de objetos.

Funcionalidad

El software de virtualización de datos proporciona algunas o todas las siguientes capacidades:

Abstracción: abstrae los aspectos técnicos de los datos almacenados, como la ubicación, la estructura de almacenamiento, la API, el idioma de acceso y la tecnología de almacenamiento.
Acceso a datos virtualizados: conéctese a diferentes fuentes de datos y hágalas accesibles desde un punto de acceso de datos lógicos común.
Transformación: transformar, mejorar la calidad, reformatear, agregar, etc. datos de origen para uso del consumidor.
Federación de datos: combine conjuntos de resultados de varios sistemas de origen.
Entrega de datos: publique conjuntos de resultados como vistas y / o servicios de datos ejecutados por la aplicación cliente o los usuarios cuando así lo soliciten.

El software de virtualización de datos puede incluir funciones de desarrollo, operación y / o administración.

Beneficios incluidos:

Reducir el riesgo de errores en los datos ^{[ dudoso - discutir ]}
Reducir la carga de trabajo de los sistemas al no mover los datos ^{[ dudoso - discutir ]}
Aumente la velocidad de acceso a los datos en tiempo real.
Permite el procesamiento de consultas enviado a la fuente de datos en lugar de al nivel medio
La mayoría de los sistemas permiten la creación de autoservicio de bases de datos virtuales por parte de los usuarios finales con acceso a los sistemas de origen.
Incrementar la gobernanza y reducir el riesgo mediante el uso de políticas ^[4]
Reducir el almacenamiento de datos requerido ^[5]

Los inconvenientes incluyen:

Puede afectar el tiempo de respuesta de los sistemas operativos, sobre todo si no se ajustan a la escala necesaria para hacer frente a las consultas imprevistas de los usuarios o si no se ajustan desde el principio. ^[6]
No impone un modelo de datos heterogéneo, lo que significa que el usuario tiene que interpretar los datos, a menos que se combine con la Federación de datos y la comprensión empresarial de los datos ^[7]
Requiere un enfoque de gobernanza definido para evitar problemas presupuestarios con los servicios compartidos
No apto para grabar instantáneas históricas de datos. Un almacén de datos es mejor para esto ^[7]
La gestión de cambios "es una sobrecarga enorme, ya que cualquier cambio debe ser aceptado por todas las aplicaciones y los usuarios que comparten el mismo kit de virtualización" ^[7]
Los diseñadores siempre deben tener en cuenta las consideraciones de rendimiento.

Evite el uso (consulte: https://www.denodo.com ):

Para acceder a los sistemas de datos operativos (problemas de rendimiento e integridad operativa)
Para federar o centralizar todos los datos de la organización (problemas de seguridad y piratería)
Para construir un almacén de datos virtual muy grande (problemas de rendimiento)
Como proceso ETL (cuestiones de gobernanza y rendimiento)
Si solo tiene una o dos fuentes de datos para virtualizar

Historia

La integración de información empresarial (EII) (acuñada por primera vez por Metamatrix), ahora conocida como Red Hat JBoss Data Virtualization, y los sistemas de bases de datos federados son términos utilizados por algunos proveedores para describir un elemento central de la virtualización de datos: la capacidad de crear JOIN relacionales en un federado. VISTA.

Ver también

Integración de datos
Integración de información empresarial (EII)
Gestión de datos maestros
Federación de datos
Sistema desigual

Referencias

^ "¿Qué es la virtualización de datos?" , Margaret Rouse, TechTarget.com, consultado el 19 de agosto de 2013
^ Optimización de los datos del cliente
^ a b c "Virtualización de datos en aumento como alternativa ETL para la integración de datos" Gareth Morgan, Computer Weekly, consultado el 19 de agosto de 2013
^ "Acceso rápido a datos dispares en proyectos sin retrabajo" Informatica, consultado el 19 de agosto de 2013
^ Virtualización de datos: 6 mejores prácticas para ayudar a la empresa a 'conseguirlo' Joe McKendrick, ZDNet, 27 de octubre de 2011
^ | Los profesionales de TI revelan los beneficios y las desventajas del software de virtualización de datos " Mark Brunelli, SearchDataManagement, 11 de octubre de 2012
^ a b c "Los pros y los contras de la virtualización de datos" Loraine Lawson, BusinessEdge, 7 de octubre de 2011

Otras lecturas

Virtualización de datos: más allá de la integración de datos tradicional para lograr la agilidad empresarial, Judith R. Davis y Robert Eve
Virtualización de datos para sistemas de inteligencia empresarial: revolucionando la integración de datos para almacenes de datos, Rick van der Lans
Modelo y modelo de integración de datos: técnicas para una arquitectura escalable y sostenible, Anthony Giordano

[1] "¿Qué es la virtualización de datos?" , Margaret Rouse, TechTarget.com, consultado el 19 de agosto de 2013

[2] Optimización de los datos del cliente

[morgan-3] "Virtualización de datos en aumento como alternativa ETL para la integración de datos" Gareth Morgan, Computer Weekly, consultado el 19 de agosto de 2013

[4] "Acceso rápido a datos dispares en proyectos sin retrabajo" Informatica, consultado el 19 de agosto de 2013

[5] Virtualización de datos: 6 mejores prácticas para ayudar a la empresa a 'conseguirlo' Joe McKendrick, ZDNet, 27 de octubre de 2011

[6] | Los profesionales de TI revelan los beneficios y las desventajas del software de virtualización de datos " Mark Brunelli, SearchDataManagement, 11 de octubre de 2012

[lawson-7] "Los pros y los contras de la virtualización de datos" Loraine Lawson, BusinessEdge, 7 de octubre de 2011

[1]