En informática , el término dispositivo de almacenamiento de datos (DWA) fue acuñado por Foster Hinshaw [1] [2] para una arquitectura informática para almacenes de datos (DW) comercializada específicamente para el análisis y el descubrimiento de big data que es fácil de usar (no una pre configuración) y alto rendimiento para la carga de trabajo. Un DWA incluye un conjunto integrado de servidores, almacenamiento, sistemas operativos y bases de datos .
En marketing, el término evolucionó para incluir hardware y software preinstalados y optimizados previamente, así como sistemas similares de solo software [3] promocionados como fáciles de instalar en configuraciones de hardware específicas recomendadas o preconfigurados como un sistema completo. [4] [5] Estos son usos comerciales del término y no reflejan la definición técnica.
Un DWA está diseñado específicamente para análisis de big data de alto rendimiento y se entrega como un sistema empaquetado fácil de usar. Los dispositivos DW se comercializan para volúmenes de datos en el rango de terabytes a petabytes .
Tecnología
El dispositivo de almacenamiento de datos (DWA) tiene varias características que diferencian esa arquitectura de máquinas similares en un centro de datos , como un almacén de datos empresarial (EDW).
- Un DWA tiene una integración muy estrecha de sus componentes internos que están optimizados para operaciones "centradas en datos" en contraste con las operaciones "centradas en cómputo". Estos últimos tienden a enfatizar el número de CPU, núcleos y ancho de banda de la red.
- Un DWA es trivial de usar e instalar. A diferencia de una "preconfiguración" de componentes, un DWA tiene muy pocos conmutadores u opciones de configuración. La eliminación de tales opciones reduce significativamente los errores de configuración, la causa número uno de fallas en sistemas grandes.
- Un DWA está optimizado para análisis de macrodatos . Por el contrario, las arquitecturas anteriores (incluidas las paralelas) se centraban en que el "almacén de datos empresarial" fuera un repositorio de datos de uso general y el análisis de soporte como una tarea auxiliar.
La mayoría de los dispositivos DW utilizan arquitecturas de procesamiento masivo paralelo (MPP) para proporcionar un alto rendimiento de consultas y escalabilidad de la plataforma . Las arquitecturas MPP consisten en procesadores o servidores independientes que se ejecutan en paralelo. La mayoría de las arquitecturas MPP implementan una " arquitectura de nada compartido " donde cada servidor opera de manera autosuficiente y controla su propia memoria y disco. Los dispositivos DW distribuyen datos en unidades de almacenamiento de disco dedicadas conectadas a cada servidor del dispositivo. Esta distribución permite que los dispositivos DW resuelvan una consulta relacional escaneando datos en cada servidor en paralelo. El enfoque de dividir y conquistar ofrece un alto rendimiento y escala linealmente a medida que se agregan nuevos servidores a la arquitectura.
Historia
"Dispositivo de almacenamiento de datos" es un término acuñado por Foster Hinshaw, [1] [2] el fundador de Netezza . Al crear el primer dispositivo de almacenamiento de datos, Hinshaw y Netezza utilizaron los fundamentos desarrollados por el Modelo 204 , Teradata y otros, para ser pioneros en una nueva categoría para abordar la analítica del consumidor de manera eficiente al proporcionar un sistema de base de datos modular, escalable y fácil de administrar que cuesta eficaz.
Las arquitecturas de bases de datos MPP tienen un largo historial. Algunos consideran el producto inicial de Teradata como el primer aparato de DW, o el de Britton-Lee . [6] [7] Teradata adquirió Britton Lee - renombrado ShareBase - en junio de 1990. [8] Otros no están de acuerdo, considerando los electrodomésticos como una "tecnología disruptiva" para Teradata [9]
Otros proveedores, incluidos Tandem Computers y Sequent Computer Systems, también ofrecieron arquitecturas MPP en la década de 1980. Los componentes de cómputo de código abierto y de productos básicos ayudaron al resurgimiento de los dispositivos de almacenamiento de datos MPP. Los avances en la tecnología redujeron los costos y mejoraron el rendimiento en los dispositivos de almacenamiento, las CPU de varios núcleos y los componentes de red. Los productos RDBMS de código abierto , como Ingres y PostgreSQL , reducen los costos de licencia de software y permiten que los proveedores de dispositivos DW se concentren en la optimización en lugar de proporcionar la funcionalidad básica de la base de datos. Linux de código abierto se convirtió en un sistema operativo común para los dispositivos DW.
Otros proveedores de dispositivos DW utilizan hardware especializado y software avanzado, en lugar de arquitecturas MPP. [10] Netezza anunció un "dispositivo de datos" en 2003 y usó hardware especializado en arreglos de puertas programables en campo . [11] Kickfire siguió en 2008 con lo que llamaron un "chip sql" de flujo de datos . [12] [ cita requerida ]
En 2009 surgieron más dispositivos DW. IBM integró su almacén de InfoSphere (anteriormente DB2 Warehouse) con sus propios servidores y almacenamiento para crear IBM InfoSphere Balanced Warehouse . Netezza presentó su plataforma TwinFin basada en hardware básico de IBM. Otros proveedores de dispositivos DW también se han asociado con los principales proveedores de hardware. DATAllegro , antes de la adquisición por parte de Microsoft , se asoció con EMC Corporation y Dell e implementó Ingres de código abierto en Linux. Greenplum se asoció con Sun Microsystems e implementa la base de datos Greenplum (basada en PostgreSQL) en Solaris utilizando el sistema de archivos ZFS . HP Neoview utiliza HP NonStop SQL .
El mercado también ha visto la aparición de paquetes de almacenamiento de datos en los que los proveedores combinan su hardware y software de base de datos como una plataforma de almacenamiento de datos. La iniciativa Oracle Optimized Warehouse combina la base de datos Oracle con hardware de varios fabricantes de computadoras ( Dell , EMC , HP , IBM , SGI y Sun Microsystems ). Los almacenes optimizados de Oracle ofrecen configuraciones prevalidadas y el software de la base de datos viene preinstalado. En septiembre de 2008, Oracle comenzó a ofrecer una oferta de dispositivos más clásica, HP Oracle Database Machine, una plataforma de marca compartida y desarrollada conjuntamente que Oracle vendió y admitió y que HP incorporó configuraciones específicamente para Oracle. [13] [14] En septiembre de 2009, Oracle lanzó un sistema Exadata de segunda generación , basado en su hardware Sun Microsystems adquirido . [15]
Ver también
- Inteligencia empresarial (BI)
- Procesamiento de datos
- Mercado de datos
- Almacén de datos
Referencias
- ^ a b Infostor »Presentamos 'dispositivos de almacenamiento de datos'
- ^ a b TDWI »¡Llega otro dispositivo de almacenamiento de datos!
- ^ Blog Queries From Hell »¿Cuándo un dispositivo no es un dispositivo?
- ^ DBMS2 - Servicios del sistema de gestión de bases de datos »Archivo de blogs» Dispositivos de almacenamiento de datos: realidad y ficción
- ^ Omer Trajman, Alain Crolotte , David Steinhoff, Raghunath Nambiar , Meikel Poess : Las bases de datos no son tostadoras: un marco para comparar dispositivos de almacenamiento de datos
- ^ Kobielus, James (22 de abril de 2008). "Teradata Goes Appliance, oficialmente" . Archivado desde el original el 29 de septiembre de 2011 . Consultado el 14 de enero de 2011 .
Teradata estableció de manera efectiva el mercado de dispositivos DW hace un cuarto de siglo cuando lanzó la primera de una larga línea de soluciones preconfiguradas y preoptimizadas que combinan CPU, almacenamiento, software y base de datos para abordar los requisitos analíticos y de soporte de decisiones más exigentes.
- ^ "Máquinas de base de datos y dispositivos de almacenamiento de datos: los primeros días" . Investigación de Monash. 15 de septiembre de 2008 . Consultado el 15 de enero de 2011 .
Pero a todos los efectos prácticos, los dos primeros proveedores importantes de "máquinas de base de datos" fueron Britton-Lee y Teradata. Y dado que Britton-Lee finalmente se vendió a Teradata (después de un breve cambio de nombre a ShareBase), Teradata tiene derecho a cualquier gloria histórica acumulada por haber innovado en la categoría de dispositivos de administración de bases de datos.
- ^ Todos, Ann (6 de abril de 2007). "¿Funcionará un dispositivo de almacenamiento de datos para usted?" . Consultado el 14 de enero de 2011 .
DATAllegro tiene un sitio en Sears. Sears usa [el dispositivo] como interfaz de su almacén de Teradata para calcular agregados. Entonces, cuando quieren hacer rebanadas, cuántos vendimos en qué tiendas y de qué color, usan el electrodoméstico ... Creo que [los electrodomésticos] podrían ser una tecnología disruptiva para Teradata
- ^ [1]
- ^ "Netezza Performance Server (NPS ™) Serie 8000" . Página web del producto . Netezza. Archivado desde el original el 3 de febrero de 2004 . Consultado el 16 de agosto de 2013 .
- ^ "Copia archivada" . Archivado desde el original el 24 de mayo de 2009 . Consultado el 18 de julio de 2009 .Mantenimiento de CS1: copia archivada como título ( enlace )
- ^ Arquitecto de rendimiento de Oracle Kevin Clossen - Servidor de almacenamiento Oracle Exadata
- ^ "Oracle Exadata - ¿Cuál es el beneficio?" . Archivado desde el original el 20 de noviembre de 2008 . Consultado el 19 de noviembre de 2008 .
- ^ Alex Gorbachev (15 de septiembre de 2009). "Presentación de la máquina de base de datos OLTP Oracle y Exadata v2" . Blog . Pythian . Consultado el 16 de agosto de 2013 .
enlaces externos
- Dispositivos de almacenamiento de datos en Curlie
- DBMS2: posicionamiento de los dispositivos de almacenamiento de datos