Una base de datos muy grande (originalmente escrita con una base de datos muy grande ) o VLDB , [1] es una base de datos que contiene una gran cantidad de datos, tanto que puede requerir metodologías de arquitectura, administración, procesamiento y mantenimiento especializadas. [2] [3] [4] [5]
Definición
Los vagos adjetivos de muy y grande permiten una interpretación amplia y subjetiva, pero se han hecho intentos de definir una métrica y un umbral. Las primeras métricas eran el tamaño de la base de datos en forma canónica a través de la normalización de la base de datos o el tiempo para una operación completa de la base de datos como una copia de seguridad . Las mejoras tecnológicas han cambiado continuamente lo que se considera muy importante . [6] [7]
Una definición ha sugerido que una base de datos se ha convertido en un VLDB cuando es "demasiado grande para mantenerse dentro de la ventana de oportunidad ... el momento en que la base de datos está inactiva". [8]
Tamaños de una base de datos VLDB
No hay una cantidad absoluta de datos que se puedan citar. Por ejemplo, no se puede decir que cualquier base de datos con más de 1 TB de datos se considere un VLDB. Esta cantidad absoluta de datos ha variado a lo largo del tiempo a medida que los métodos de procesamiento, almacenamiento y respaldo informáticos se han vuelto más capaces de manejar grandes cantidades de datos. [5] Dicho esto, los problemas de VLDB pueden comenzar a aparecer cuando se acerca 1 TB, [8] [9] y es más probable que aparezcan cuando se superan los 30 TB aproximadamente. [10]
Desafíos de VLDB
Las áreas clave en las que un VLDB puede presentar desafíos incluyen la configuración, el almacenamiento, el rendimiento, el mantenimiento, la administración, la disponibilidad y los recursos del servidor. [11] : 11
Configuración
Es necesaria una configuración cuidadosa de las bases de datos que se encuentran en el ámbito de VLDB para aliviar o reducir los problemas planteados por las bases de datos de VLDB. [11] : 36–53 [12]
Administración
Las complejidades de administrar un VLDB pueden aumentar exponencialmente para el administrador de la base de datos a medida que aumenta el tamaño de la base de datos. [13]
Disponibilidad y mantenimiento
Cuando se trata de operaciones de VLDB relacionadas con el mantenimiento y la recuperación, como reorganizaciones de bases de datos y copias de archivos, que eran bastante prácticas en una base de datos que no era VLDB, una base de datos VLDB requiere una cantidad de tiempo y recursos muy significativa. [14] En particular, normalmente no es factible cumplir con un objetivo de tiempo de recuperación típico (RTO), el tiempo máximo esperado que se espera que una base de datos no esté disponible debido a una interrupción, mediante métodos que implican copiar archivos del disco u otros archivos de almacenamiento. [13] Para superar estos problemas, técnicas como la agrupación en clústeres, bases de datos clonadas / replicadas / en espera, instantáneas de archivos, instantáneas de almacenamiento o un administrador de copias de seguridad pueden ayudar a lograr el RTO y la disponibilidad, aunque los métodos individuales pueden tener limitaciones, advertencias, licencia e infraestructura. requisitos, mientras que algunos pueden correr el riesgo de pérdida de datos y no cumplir con el objetivo del punto de recuperación (RPO). [15] [16] [13] [17] [18] Para muchos sistemas, solo las soluciones geográficamente remotas pueden ser aceptables. [19]
Copia de seguridad y recuperación
La mejor práctica es que el respaldo y la recuperación se diseñen en términos de la disponibilidad general y la solución de continuidad del negocio. [20] [21]
Actuación
Dada la misma infraestructura, normalmente puede haber una disminución en el rendimiento, es decir, un aumento en el tiempo de respuesta a medida que aumenta el tamaño de la base de datos. Algunos accesos simplemente tendrán más datos para procesar (escanear) lo que llevará proporcionalmente más tiempo ( tiempo lineal ); mientras que los índices utilizados para acceder a los datos pueden crecer ligeramente en altura, requiriendo quizás un acceso de almacenamiento adicional para alcanzar los datos ( tiempo sublineal ). [22] Otros efectos pueden ser que el almacenamiento en caché se vuelva menos eficiente porque proporcionalmente se pueden almacenar menos datos en caché y mientras algunos índices como el B + automáticamente se mantienen bien con el crecimiento, otros, como una tabla hash, pueden necesitar ser reconstruidos.
Si un aumento en el tamaño de la base de datos hace que aumente el número de accesos de la base de datos, se pueden consumir más recursos del servidor y de la red, y aumentará el riesgo de contención . Algunas soluciones para recuperar el rendimiento incluyen la partición , la agrupación en clústeres , posiblemente con fragmentación o el uso de una máquina de base de datos . [23] : 390 [24]
Fraccionamiento
El particionamiento puede ayudar al desempeño de operaciones masivas en un VLDB incluyendo respaldo y recuperación., [25] movimientos masivos debido a la gestión del ciclo de vida de la información (ILM), [26] : 3 [27] : 105-118 reduciendo la contención [27] : 327–329 además de permitir la optimización de algunos procesos de consultas. [27] : 215–230
Almacenamiento
Para satisfacer las necesidades de un VLDB, el almacenamiento de la base de datos debe tener baja latencia y contención de acceso , alto rendimiento y alta disponibilidad .
Recursos del servidor
El tamaño cada vez mayor de un VLDB puede ejercer presión sobre los recursos del servidor y de la red y puede aparecer un cuello de botella que puede requerir una inversión en infraestructura para resolverlo. [13] [28]
Relación con big data
VLDB no es lo mismo que big data , sin embargo, el aspecto de almacenamiento de big data puede involucrar una base de datos VLDB. [2] Dicho esto, algunas de las soluciones de almacenamiento que admiten big data se diseñaron desde el principio para admitir grandes volúmenes de datos, por lo que los administradores de bases de datos pueden no encontrar problemas de VLDB que podrían encontrar versiones anteriores de RDBMS tradicionales . [29]
Ver también
- XLDB
Referencias
- ^ "Oracle Database Online Documentation 11g Release 1 (11.1) / Conceptos de base de datos de administración de base de datos" . oráculo . 18 Bases de datos muy grandes (VLDB) . Consultado el 3 de octubre de 2018 .
- ^ a b "Base de datos muy grande (VLDB)" . Technopedia . Archivado desde el original el 4 de julio de 2018 . Consultado el 3 de octubre de 2018 .
- ^ Gaines, RS y R. Gammill. Bases de datos muy grandes: un área de investigación emergente, documento de trabajo informal, RAND Corporation
- ^ Revista de procesamiento de datos . Compañía editorial norteamericana. 1964. p. 18,58.
- ^ a b Widlake, Marin (18 de septiembre de 2009). "¿Qué es un VLDB?" . mwidlake . Archivado desde el original el 6 de octubre de 2018 . Consultado el 7 de octubre de 2018 .
- ^ Sidley, Edgar H. (1 de abril de 1980). Enciclopedia de ciencia y tecnología de la computación: Volumen 14 - Sistemas de bases de datos muy grandes para fuentes de información de memoria cero y Markov . Prensa CRC. págs. 1-18. ISBN 9780824722142.
- ^ Gerritsen, Rob; Morgan, Howard; Zisman, Michael (junio de 1977). "¿En algunas métricas para bases de datos o qué es una base de datos muy grande?". Registro ACM SIGMOD . 9 (1): 50–74. doi : 10.1145 / 984382.984393 . ISSN 0163-5808 . S2CID 6359244 .
- ^ a b Rankins, Ray; Jensen, Paul; Bertucci, Paul (18 de diciembre de 2002). "21" . Microsoft SQL Server 2000 (2ª ed.). SAMS. ISBN 978-0672324673. Administración de bases de datos de SQL Server muy grandes.
- ^ "Oracle Database Release 18 - VLDB y guía de particionamiento" . Oracle . 1 Introducción a las bases de datos muy grandes. Archivado desde el original el 3 de octubre de 2018 . Consultado el 3 de octubre de 2018 .
- ^ "El problema de las bases de datos muy grandes: cómo realizar copias de seguridad y recuperar bases de datos de 30-100 TB" (PDF) . actifio. Archivado (PDF) desde el original el 19 de febrero de 2018.
- ^ a b Hussain, Syed Jaffer (2014). "Ajuste y aplicación de las mejores prácticas en bases de datos muy grandes (VLDB)" (PDF) . Sangam: AIOUG. Archivado (PDF) desde el original el 4 de octubre de 2018.
- ^ Chaves, Warner (7 de enero de 2015). "Los 10 elementos principales que debe hacer para su base de datos muy grande de SQL Server" . SQLTURBO . Archivado desde el original el 13 de diciembre de 2017 . Consultado el 5 de octubre de 2018 .
- ^ a b c d Furman, Dimitri (22 de enero de 2018). Rajesh Setlem; Mike Weiner; Xiaochen Wu (eds.). "SQL Server VLDB en Azure: tareas de DBA simplificadas" . MSDN . Archivado desde el original el 6 de octubre de 2018 . Consultado el 6 de octubre de 2018 .
- ^ "Requisitos especializados para servidores de almacenamiento de datos relacionales" . Sistemas de ladrillo rojo, Inc . 21 de junio de 1996. Archivado desde el original el 10 de octubre de 1997.
- ^ "Consideraciones de diseño de clústeres" . Crouchbase . Archivado desde el original el 17 de octubre de 2018 . Consultado el 17 de octubre de 2017 .
- ^ "Replicación entre centros de datos (XDCR)" . Crouchbase . Archivado desde el original el 17 de octubre de 2018 . Consultado el 17 de octubre de 2017 .
- ^ Chien, Tim. "Las instantáneas NO son copias de seguridad" . Red tecnológica de Oracle . Archivado desde el original el 7 de septiembre de 2018 . Consultado el 10 de octubre de 2018 .
- ^ "Usando un espejo dividido como imagen de respaldo" . Centro de conocimiento de IBM . Archivado desde el original el 9 de enero de 2018 . Consultado el 10 de octubre de 2018 .
- ^ "Capítulo 1 Alta disponibilidad y escalabilidad" . dev.mysql . Archivado desde el original el 15 de diciembre de 2016 . Consultado el 12 de octubre de 2018 .
- ^ Brooks, Charlotte; Leung, Clem; Mirza, Aslam; Neal, Curtis; Qiu, Yin Lei; Canta, John; Wong, Francis TH; Wright, Ian R (marzo de 2007). "Capítulo 1. Definición de tres segmentos de soluciones de negocio". Continuidad del negocio de IBM System Storage: Parte 2 Guía de soluciones . IBM Redbooks. ISBN 978-0738489728.
- ^ Akhtar, Ali Navid; Buchholtz, Jeff; Ryan, Michael; Setty, Kumar (2012). "Mejores prácticas de copia de seguridad y recuperación de bases de datos" . Archivado desde el original el 29 de junio de 2018 . Consultado el 12 de octubre de 2012 .
- ^ Tariq, Ovais (14 de julio de 2011). "Comprensión de los índices de árbol B + y cómo afectan al rendimiento" . ovaistariq.net . Archivado desde el original el 7 de febrero de 2018 . Consultado el 10 de octubre de 2018 .
- ^ Shrestha, Raju (2017). Alta disponibilidad y rendimiento de la base de datos en la nube: replicación maestro-esclavo tradicional versus soluciones modernas basadas en clústeres . VII Congreso Internacional de Computación y Servicios en la Nube. 1: MÁS CERCA. SCITEPRESS - Publicaciones de ciencia y tecnología, Lda. doi : 10.5220 / 0006294604130420 . ISBN 978-989-758-243-1. Archivado desde el original el 17 de octubre de 2018.
- ^ "Enciclopedia" . Definición de: máquina de base de datos. Archivado desde el original el 4 de julio de 2016 . Consultado el 10 de octubre de 2018 .
- ^ Burleson, Donald (26 de marzo de 2015). "Consejos de Oracle Backup VLDB" . Consultoría Burleson . Archivado desde el original el 30 de junio de 2017 . Consultado el 11 de octubre de 2016 .
- ^ "Particionamiento de Oracle en Oracle Database 12c Release 2 Extreme Data Management y Performance para cada sistema" (PDF) . Oracle . Marzo de 2017. Archivado (PDF) desde el original el 15 de diciembre de 2017 . Consultado el 17 de octubre de 2018 .
- ^ a b c Teske, Thomas (8 de febrero de 2018). Obtenga lo mejor de Oracle Partitioning: una guía práctica y una referencia (PDF) (Speech). Cern . Hermann Bär. 40-S2-C01 - Salle Curie (CERN): Oracle. Archivado (PDF) desde el original el 12 de octubre de 2018 . Consultado el 12 de octubre de 2018 .Mantenimiento de CS1: ubicación ( enlace )
- ^ Acero, Phil; Poggemeyer, Liza; Plett, Corey (1 de agosto de 2018). "Consideraciones sobre el rendimiento del hardware del servidor" . Centro de profesionales de TI de Microsoft . Archivado desde el original el 17 de octubre de 2018 . Consultado el 17 de octubre de 2018 .
- ^ Li, Yishan; Manoharan, Sathiamoorthy (2013). Una comparación de rendimiento de bases de datos SQL y NoSQL . 2013 IEEE Pacific Rim Conference sobre Comunicaciones, Computadoras y Procesamiento de Señales (PACRIM). IEEE. pag. 15. doi : 10.1109 / PACRIM.2013.6625441 . ISBN 978-1-4799-1501-9.