Una cuadrícula de datos es una arquitectura o conjunto de servicios que brinda a individuos o grupos de usuarios la capacidad de acceder, modificar y transferir cantidades extremadamente grandes de datos distribuidos geográficamente con fines de investigación. [1] Las cuadrículas de datos lo hacen posible a través de una gran cantidad de aplicaciones y servicios de middleware que reúnen datos y recursos de múltiples dominios administrativos y luego los presentan a los usuarios cuando lo solicitan. Los datos en una cuadrícula de datos se pueden ubicar en un solo sitio o en varios sitios donde cada sitio puede ser su propio dominio administrativo gobernado por un conjunto de restricciones de seguridad en cuanto a quién puede acceder a los datos.[2] Asimismo,se pueden distribuirmúltiples réplicas de los datos a lo largo de la cuadrícula fuera de su dominio administrativo original y las restricciones de seguridad impuestas a los datos originales para quién puede acceder a ellos deben aplicarse igualmente a las réplicas. [3] El middleware de cuadrícula de datos desarrollado específicamente es lo que maneja la integración entre los usuarios y los datos que solicitan controlando el acceso mientras lo hace disponible de la manera más eficiente posible. El diagrama adyacente muestra una vista de alto nivel de una cuadrícula de datos.
Middleware
Middleware proporciona todos los servicios y aplicaciones necesarios para la gestión eficiente de conjuntos de datos y archivos dentro de la cuadrícula de datos, al tiempo que proporciona a los usuarios un acceso rápido a los conjuntos de datos y archivos. [4] Hay una serie de conceptos y herramientas que deben estar disponibles para que una cuadrícula de datos sea operativamente viable. Sin embargo, al mismo tiempo, no todas las cuadrículas de datos requieren las mismas capacidades y servicios debido a las diferencias en los requisitos de acceso, la seguridad y la ubicación de los recursos en comparación con los usuarios. En cualquier caso, la mayoría de las cuadrículas de datos tendrán servicios de middleware similares que brinden un espacio de nombres universal , servicio de transporte de datos, servicio de acceso a datos, replicación de datos y servicio de administración de recursos. Cuando se toman en conjunto, son clave para las capacidades funcionales de las cuadrículas de datos.
Espacio de nombres universal
Dado que las fuentes de datos dentro de la cuadrícula de datos consistirán en datos de múltiples sistemas y redes separados que utilizan diferentes convenciones de nomenclatura de archivos , sería difícil para un usuario ubicar los datos dentro de la cuadrícula de datos y saber que recuperaron lo que necesitaban basándose únicamente en los datos físicos existentes. nombres de archivo (PFN). Un espacio de nombres universal o unificado permite crear nombres de archivos lógicos (LFN) a los que se puede hacer referencia dentro de la cuadrícula de datos que se asignan a PFN. [5] Cuando se solicita o consulta un LFN, todos los PFN coincidentes se devuelven para incluir posibles réplicas de los datos solicitados. El usuario final puede elegir entre los resultados devueltos la réplica más adecuada para usar. Este servicio generalmente se brinda como parte de un sistema de administración conocido como Storage Resource Broker (SRB). [6] La información sobre la ubicación de los archivos y las asignaciones entre los LFN y los PFN puede almacenarse en un catálogo de metadatos o réplicas. [7] El catálogo de réplicas contendría información sobre los LFN que se asignan a múltiples réplicas de PFN.
Servicio de transporte de datos
Otro servicio de middleware es el de proporcionar transporte o transferencia de datos. El transporte de datos abarcará múltiples funciones que no se limitan solo a la transferencia de bits, para incluir elementos tales como tolerancia a fallas y acceso a datos. [8] La tolerancia a fallas se puede lograr en una cuadrícula de datos proporcionando mecanismos que aseguren que la transferencia de datos se reanudará después de cada interrupción hasta que se reciban todos los datos solicitados. [9] Hay varios métodos posibles que podrían usarse para incluir comenzar la transmisión completa desde el comienzo de los datos hasta reanudar desde donde se interrumpió la transferencia. Como ejemplo, GridFTP proporciona tolerancia a fallas enviando datos desde el último byte reconocido sin iniciar la transferencia completa desde el principio.
El servicio de transporte de datos también proporciona acceso de bajo nivel y conexiones entre hosts para la transferencia de archivos. [10] El servicio de transporte de datos puede usar cualquier número de modos para implementar la transferencia para incluir la transferencia de datos paralela donde se usan dos o más flujos de datos en el mismo canal o transferencia de datos seccionados donde dos o más trenes acceden a diferentes bloques del archivo para transferencia simultánea para utilizar también las capacidades integradas subyacentes del hardware de red o protocolos desarrollados específicamente para admitir velocidades de transferencia más rápidas. [11] El servicio de transporte de datos puede incluir opcionalmente una función de superposición de red para facilitar el enrutamiento y la transferencia de datos, así como funciones de E / S de archivos que permiten a los usuarios ver archivos remotos como si fueran locales de su sistema. El servicio de transporte de datos oculta al usuario la complejidad del acceso y la transferencia entre los diferentes sistemas, por lo que aparece como una fuente de datos unificada.
Servicio de acceso a datos
Los servicios de acceso a datos trabajan de la mano con el servicio de transferencia de datos para proporcionar seguridad, controles de acceso y gestión de cualquier transferencia de datos dentro de la cuadrícula de datos. [12] Los servicios de seguridad proporcionan mecanismos para la autenticación de los usuarios para garantizar que estén debidamente identificados. Las formas comunes de seguridad para la autenticación pueden incluir el uso de contraseñas o Kerberos (protocolo) . Los servicios de autorización son los mecanismos que controlan a qué puede acceder el usuario después de ser identificado mediante autenticación. Las formas comunes de mecanismos de autorización pueden ser tan simples como los permisos de archivos. Sin embargo, la necesidad de un acceso controlado más estricto a los datos se realiza mediante listas de control de acceso (ACL), control de acceso basado en roles (RBAC) y controles de autorización basados en tareas (TBAC). [13] Estos tipos de controles se pueden utilizar para proporcionar acceso granular a archivos para incluir límites en los tiempos de acceso, duración del acceso a controles granulares que determinan en qué archivos se pueden leer o escribir. El último servicio de acceso a datos que podría estar presente para proteger la confidencialidad del transporte de datos es el cifrado. [14] La forma más común de cifrado para esta tarea ha sido el uso de SSL durante el transporte. Si bien todos estos servicios de acceso operan dentro de la cuadrícula de datos, los servicios de acceso dentro de los diversos dominios administrativos que albergan los conjuntos de datos seguirán vigentes para hacer cumplir las reglas de acceso. Los servicios de acceso a la red de datos deben estar en sintonía con los servicios de acceso a los dominios administrativos para que esto funcione.
Servicio de replicación de datos
Para satisfacer las necesidades de escalabilidad, acceso rápido y colaboración del usuario, la mayoría de las cuadrículas de datos admiten la replicación de conjuntos de datos en puntos dentro de la arquitectura de almacenamiento distribuido. [15] El uso de réplicas permite a varios usuarios un acceso más rápido a conjuntos de datos y la preservación del ancho de banda, ya que las réplicas a menudo se pueden colocar estratégicamente cerca o dentro de los sitios donde los usuarios las necesitan. Sin embargo, la replicación de conjuntos de datos y la creación de réplicas está limitada por la disponibilidad de almacenamiento dentro de los sitios y el ancho de banda entre sitios. La replicación y creación de conjuntos de datos de réplicas está controlada por un sistema de gestión de réplicas. El sistema de administración de réplicas determina las necesidades de réplicas del usuario en función de las solicitudes de entrada y las crea según la disponibilidad de almacenamiento y ancho de banda. [16] Luego, todas las réplicas se catalogan o agregan a un directorio basado en la cuadrícula de datos en cuanto a su ubicación para que los usuarios las consulten. Para realizar las tareas realizadas por el sistema de administración de réplicas, debe poder administrar la infraestructura de almacenamiento subyacente. El sistema de gestión de datos también garantizará que las actualizaciones oportunas de los cambios en las réplicas se propaguen a todos los nodos.
Estrategia de actualización de replicación
Hay varias formas en que el sistema de administración de réplicas puede manejar las actualizaciones de las réplicas. Las actualizaciones pueden diseñarse en torno a un modelo centralizado donde una única réplica maestra actualiza todas las demás, o un modelo descentralizado, donde todos los pares se actualizan entre sí. [17] La topología de la ubicación de los nodos también puede influir en las actualizaciones de las réplicas. Si se utiliza una topología de jerarquía, las actualizaciones fluirán en una estructura en forma de árbol a través de rutas específicas. En una topología plana, todo depende de las relaciones entre pares entre los nodos en cuanto a cómo se llevan a cabo las actualizaciones. En una topología híbrida que consta de topologías planas y de jerarquía, las actualizaciones pueden tener lugar a través de rutas específicas y entre pares.
Estrategia de ubicación de replicación
Hay varias formas en que el sistema de administración de réplicas puede manejar la creación y ubicación de réplicas para brindar un mejor servicio a la comunidad de usuarios. Si la arquitectura de almacenamiento admite la ubicación de réplicas con suficiente almacenamiento en el sitio, entonces se convierte en una cuestión de las necesidades de los usuarios que acceden a los conjuntos de datos y una estrategia para la ubicación de réplicas. [18] Se han propuesto y probado numerosas estrategias sobre cómo gestionar mejor la ubicación de réplicas de conjuntos de datos dentro de la cuadrícula de datos para cumplir con los requisitos del usuario. No existe una estrategia universal que se adapte mejor a todos los requisitos. Es una cuestión del tipo de cuadrícula de datos y los requisitos de acceso de la comunidad de usuarios lo que determinará la mejor estrategia a utilizar. Incluso se pueden crear réplicas en las que los archivos se cifran para mantener la confidencialidad, lo que sería útil en un proyecto de investigación que se ocupa de archivos médicos. [19] La siguiente sección contiene varias estrategias para la colocación de réplicas.
Replicación dinámica
La replicación dinámica es un enfoque para la ubicación de réplicas en función de la popularidad de los datos. [20] El método se ha diseñado en torno a un modelo de replicación jerárquica. El sistema de gestión de datos realiza un seguimiento del almacenamiento disponible en todos los nodos. También realiza un seguimiento de las solicitudes (visitas) que solicitan los clientes (usuarios) de un sitio. Cuando el número de accesos para un conjunto de datos específico excede el umbral de replicación, desencadena la creación de una réplica en el servidor que atiende directamente al cliente del usuario. Si el servidor de servicio directo conocido como padre no tiene suficiente espacio, entonces el padre del padre en la jerarquía es el objetivo para recibir una réplica y así sucesivamente en la cadena hasta que se agote. El algoritmo del sistema de gestión de datos también permite la eliminación dinámica de réplicas que tienen un valor de acceso nulo o un valor inferior a la frecuencia de los datos que se almacenarán para liberar espacio. Esto mejora el rendimiento del sistema en términos de tiempo de respuesta, número de réplicas y ayuda a equilibrar la carga en la cuadrícula de datos. Este método también puede usar algoritmos dinámicos que determinan si el costo de crear la réplica realmente vale las ganancias esperadas dada la ubicación. [21]
Replicación adaptativa
Este método de replicación, como el de la replicación dinámica, se ha diseñado en torno a un modelo de replicación jerárquico que se encuentra en la mayoría de las cuadrículas de datos. Funciona con un algoritmo similar al de la replicación dinámica, siendo las solicitudes de acceso a archivos un factor primordial para determinar qué archivos deben replicarse. Sin embargo, una diferencia clave es que el número y la frecuencia de las creaciones de réplicas se ajusta a un umbral dinámico que se calcula en función de las tasas de llegada de solicitudes de los clientes durante un período de tiempo. [22] Si el número de solicitudes en promedio supera el umbral anterior y muestra una tendencia al alza, y las tasas de utilización del almacenamiento indican la capacidad para crear más réplicas, se pueden crear más réplicas. Al igual que con la replicación dinámica, la eliminación de réplicas que tienen un umbral más bajo que no se crearon en el intervalo de replicación actual se puede eliminar para dejar espacio para las nuevas réplicas.
Al igual que los métodos de replicación adaptativos y dinámicos anteriores, la replicación de participación equitativa se basa en un modelo de replicación jerárquico. Además, al igual que los dos anteriores, la popularidad de los archivos juega un papel clave a la hora de determinar qué archivos se replicarán. La diferencia con este método es que la ubicación de las réplicas se basa en la carga de acceso y la carga de almacenamiento de los servidores candidatos. [ cita requerida ] Un servidor candidato puede tener suficiente espacio de almacenamiento, pero está dando servicio a muchos clientes para acceder a los archivos almacenados. La colocación de una réplica en este candidato podría degradar el rendimiento de todos los clientes que acceden a este servidor candidato. Por lo tanto, la ubicación de las réplicas con este método se realiza evaluando cada nodo candidato para la carga de acceso para encontrar un nodo adecuado para la ubicación de la réplica. Si todos los nodos candidatos tienen una clasificación equivalente para la carga de acceso, ninguno o menos acceso que el otro, se elegirá el nodo candidato con la carga de almacenamiento más baja para alojar las réplicas. Se utilizan métodos similares a los otros métodos de replicación descritos para eliminar las replicaciones no utilizadas o menos solicitadas si es necesario. Las réplicas que se eliminan pueden trasladarse a un nodo principal para su posterior reutilización en caso de que vuelvan a ser populares.
Otra replicación
Las tres estrategias de réplica anteriores son solo tres de las muchas posibles estrategias de réplica que se pueden utilizar para colocar réplicas dentro de la cuadrícula de datos donde mejorarán el rendimiento y el acceso. A continuación se muestran algunos otros que se han propuesto y probado junto con las estrategias de replicación descritas anteriormente. [23]
- Estático : utiliza un conjunto de réplicas fijas de nodos sin cambios dinámicos en los archivos que se replican.
- Mejor cliente : cada nodo registra el número de solicitudes por archivo recibidas durante un intervalo de tiempo preestablecido; si el número de solicitud excede el umbral establecido para un archivo, se crea una réplica en el mejor cliente, el que más solicitó el archivo; Las réplicas obsoletas se eliminan según otro algoritmo.
- En cascada : se utiliza en una estructura de nodo jerárquica donde las solicitudes por archivo recibidas durante un intervalo de tiempo preestablecido se comparan con un umbral. Si se excede el umbral, se crea una réplica en el primer nivel hacia abajo desde la raíz, si el umbral se excede nuevamente, se agrega una réplica al siguiente nivel hacia abajo y así sucesivamente como un efecto de cascada hasta que se coloca una réplica en el propio cliente.
- Caché simple : si el cliente solicita un archivo, se almacena como una copia en el cliente.
- Almacenamiento en caché y en cascada : combina dos estrategias de almacenamiento en caché y en cascada.
- Difusión rápida : también utilizada en una estructura de nodo jerárquica, esta estrategia completa automáticamente todos los nodos en la ruta del cliente que solicita un archivo.
Programación de tareas y asignación de recursos
Las características de los sistemas de cuadrícula de datos, como la gran escala y la heterogeneidad, requieren métodos específicos de programación de tareas y asignación de recursos. Para resolver el problema, la mayoría de los sistemas utilizan métodos clásicos extendidos de programación. [24] Otros invitan a métodos fundamentalmente diferentes basados en incentivos para nodos autónomos, como dinero virtual o reputación de un nodo. Otra especificidad de las cuadrículas de datos, la dinámica, consiste en el proceso continuo de conexión y desconexión de nodos y desequilibrio de carga local durante la ejecución de tareas. Eso puede hacer que los resultados de la asignación inicial de recursos para una tarea sean obsoletos o no óptimos. Como resultado, muchas de las cuadrículas de datos utilizan técnicas de adaptación del tiempo de ejecución que permiten que los sistemas se reflejen en los cambios dinámicos: equilibrar la carga, reemplazar los nodos desconectados, aprovechar las ganancias de los nodos recién conectados, recuperar la ejecución de una tarea después de fallas.
Sistema de gestión de recursos (RMS)
El sistema de gestión de recursos representa la funcionalidad básica de la cuadrícula de datos. Es el corazón del sistema que gestiona todas las acciones relacionadas con los recursos de almacenamiento. En algunas cuadrículas de datos, puede ser necesario crear una arquitectura RMS federada debido a las diferentes políticas administrativas y la diversidad de posibilidades que se encuentran dentro de la cuadrícula de datos en lugar de utilizar un único RMS. En tal caso, los RMS de la federación emplearán una arquitectura que permita la interoperabilidad basada en un conjunto acordado de protocolos para acciones relacionadas con los recursos de almacenamiento. [25]
Capacidades funcionales de RMS
- Cumplimiento de solicitudes de usuarios y aplicaciones de recursos de datos según el tipo de solicitud y las políticas; RMS podrá admitir múltiples políticas y múltiples solicitudes al mismo tiempo
- Programación, cronometraje y creación de réplicas
- Aplicación de políticas y seguridad dentro de los recursos de la cuadrícula de datos para incluir autenticación, autorización y acceso
- Apoyar los sistemas con diferentes políticas administrativas para interactuar mientras se preserva la autonomía del sitio.
- Apoyar la calidad de servicio (QoS) cuando se solicite si la función está disponible
- Hacer cumplir los requisitos de estabilidad y tolerancia a fallos del sistema
- Administrar recursos, es decir, almacenamiento en disco, ancho de banda de la red y cualquier otro recurso que interactúe directamente o como parte de la cuadrícula de datos.
- Administrar fideicomisos relacionados con los recursos en los dominios administrativos, algunos dominios pueden imponer restricciones adicionales sobre cómo participan, lo que requiere la adaptación del RMS o la federación.
- Admite adaptabilidad, extensibilidad y escalabilidad en relación con la cuadrícula de datos.
Topología
Las cuadrículas de datos se han diseñado teniendo en cuenta múltiples topologías para satisfacer las necesidades de la comunidad científica. A la derecha hay cuatro diagramas de varias topologías que se han utilizado en cuadrículas de datos. [26] Cada topología tiene un propósito específico en mente para saber dónde se utilizará mejor. Cada una de estas topologías se explica con más detalle a continuación.
La topología de federación es la opción elegida por las instituciones que desean compartir datos de sistemas ya existentes. Permite que cada institución controle sus datos. Cuando una institución con la debida autorización solicita datos de otra institución, depende de la institución que recibe la solicitud determinar si los datos irán a la institución solicitante. La federación puede estar débilmente integrada entre instituciones, estrechamente integrada o una combinación de ambas.
La topología monádica tiene un repositorio central en el que se alimentan todos los datos recopilados. Luego, el repositorio central responde a todas las consultas de datos. No hay réplicas en esta topología en comparación con otras. Solo se accede a los datos desde el repositorio central, que podría ser a través de un portal web. Un proyecto que utiliza esta topología de cuadrícula de datos es la Red para la simulación de ingeniería sísmica (NEES) en los Estados Unidos. [27] Esto funciona bien cuando todo el acceso a los datos es local o dentro de una sola región con conectividad de alta velocidad.
La topología jerárquica se presta a la colaboración en la que existe una única fuente de datos y es necesario distribuirla a múltiples ubicaciones en todo el mundo. Uno de esos proyectos que se beneficiará de esta topología sería el CERN que ejecuta el Gran Colisionador de Hadrones que genera enormes cantidades de datos. Estos datos se encuentran en una fuente y deben distribuirse en todo el mundo a las organizaciones que colaboran en el proyecto.
La topología híbrida es simplemente una configuración que contiene una arquitectura que consta de cualquier combinación de las topologías mencionadas anteriormente. Se utiliza principalmente en situaciones en las que los investigadores que trabajan en proyectos desean compartir sus resultados para futuras investigaciones al ponerlo a disposición para la colaboración.
Historia
La comunidad científica reconoció por primera vez la necesidad de cuadrículas de datos en relación con el modelado climático , donde los conjuntos de datos de tamaño terabyte y petabyte se estaban convirtiendo en la norma para el transporte entre sitios. [28] Los requisitos de investigación más recientes para las cuadrículas de datos han sido impulsados por el Gran Colisionador de Hadrones (LHC) en el CERN , el Observatorio de Ondas Gravitacionales del Interferómetro Láser (LIGO) y el Sloan Digital Sky Survey (SDSS) . Estos ejemplos de instrumentos científicos producen grandes cantidades de datos que necesitan ser accesibles para grandes grupos de investigadores dispersos geográficamente. [29] [30] Otros usos de las cuadrículas de datos involucran a gobiernos, hospitales, escuelas y empresas donde se están realizando esfuerzos para mejorar los servicios y reducir los costos proporcionando acceso a sistemas de datos dispersos y separados mediante el uso de cuadrículas de datos. [31]
Desde sus inicios, el concepto de una cuadrícula de datos para apoyar a la comunidad científica se pensó como una extensión especializada de la “cuadrícula” que, en sí misma, se concibió por primera vez como una forma de vincular supercomputadoras con metacomputadoras. [32] Sin embargo, eso fue de corta duración y la red evolucionó hasta significar la capacidad de conectar computadoras en cualquier lugar de la web para obtener acceso a los archivos y recursos deseados, similar a la forma en que se entrega la electricidad a través de una red simplemente conectando un dispositivo. . El dispositivo obtiene electricidad a través de su conexión y la conexión no se limita a una toma de corriente específica. A partir de esto, la cuadrícula de datos se propuso como una arquitectura integradora que sería capaz de entregar recursos para cálculos distribuidos. También podría dar servicio de numerosas a miles de consultas al mismo tiempo mientras entrega gigabytes a terabytes de datos para cada consulta. La cuadrícula de datos incluiría su propia infraestructura de administración capaz de administrar todos los aspectos del rendimiento y la operación de las cuadrículas de datos en múltiples redes de área amplia mientras trabaja dentro del marco existente conocido como la web. [33]
La cuadrícula de datos también se ha definido más recientemente en términos de usabilidad; qué debe poder hacer una cuadrícula de datos para que sea útil para la comunidad científica. Los defensores de esta teoría llegaron a varios criterios. [34] Uno, los usuarios deberían poder buscar y descubrir recursos aplicables dentro de la cuadrícula de datos entre sus numerosos conjuntos de datos. Dos, los usuarios deben poder ubicar los conjuntos de datos dentro de la cuadrícula de datos que sean más adecuados para sus necesidades entre numerosas réplicas. Tres, los usuarios deberían poder transferir y mover grandes conjuntos de datos entre puntos en un corto período de tiempo. Cuarto, la cuadrícula de datos debe proporcionar un medio para administrar múltiples copias de conjuntos de datos dentro de la cuadrícula de datos. Y finalmente, la cuadrícula de datos debe proporcionar seguridad con controles de acceso de usuarios dentro de la cuadrícula de datos, es decir, qué usuarios pueden acceder a qué datos.
La cuadrícula de datos es una tecnología en evolución que continúa cambiando y creciendo para satisfacer las necesidades de una comunidad en expansión. Uno de los primeros programas que comenzó a hacer realidad las cuadrículas de datos fue financiado por la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) en 1997 en la Universidad de Chicago . [35] Esta investigación generada por DARPA ha continuado en el camino hacia la creación de herramientas de código abierto que hacen posibles las cuadrículas de datos. A medida que surjan nuevos requisitos para las cuadrículas de datos , surgirán o se expandirán proyectos como Globus Toolkit para cubrir la brecha. Las cuadrículas de datos junto con la "cuadrícula" seguirán evolucionando.
Notas
- ^ Allcock, Bill; Chervenak, Ann; Foster, Ian; et al. Herramientas de cuadrícula de datos: habilitando la ciencia en grandes datos distribuidos
- ^ Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri. Una taxonomía de cuadrículas de datos para el intercambio de datos distribuidos: gestión y procesamiento p.37
- ^ Shorfuzzaman, Mohammad; Graham, Peter; Eskicioglu, Rasit. Colocación de réplicas adaptables en cuadrículas de datos jerárquicas. p.15
- ^ Padala, Pradeep. Una encuesta sobre el middleware de datos para sistemas Grid p.1
- ^ Padala, Pradeep. Una encuesta sobre el middleware de datos para sistemas Grid
- ^ Arcot, Rajasekar; Wan, Michael; Moore, Reagan; Schroeder, Wayne; Kremenek. Agente de recursos de almacenamiento: gestión de datos distribuidos en una cuadrícula
- ^ Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri. Una taxonomía de cuadrículas de datos para compartir datos distribuidos: gestión y procesamiento p.11
- ^ Coetzee, Serena. Modelo de referencia para un enfoque de cuadrícula de datos para abordar los datos en una IDE dinámica p.16
- ^ Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri. Una taxonomía de cuadrículas de datos para compartir datos distribuidos: gestión y procesamiento p.21
- ^ Allcock, Bill; Foster, Ian; Nefedova, Veronika; Chervenak, Ann; Deelman, Ewa; Kesselman, Carl. Acceso remoto de alto rendimiento a datos de simulación climática: un problema de desafío para las tecnologías de redes de datos.
- ^ Izmailov, Rauf; Ganguly, Samrat; Tu, Nan. Replicación rápida de archivos en paralelo en la cuadrícula de datos p.2
- ^ Raman, Vijayshankar; Narang, Inderpal; Crone, chris; Hass, Laura; Malaika, Susan. Servicios de acceso y procesamiento de datos en redes
- ^ Thomas, RK y Sandhu RS Controles de autorización basados en tareas (tbac): una familia de modelos para la gestión de autorizaciones activa y orientada a la empresa
- ^ Sreelatha, Malempati. Enfoque basado en cuadrículas para la confidencialidad de los datos. p.1
- ^ Chervenak, Ann; Schuler, Robert; Kesselman, Carl; Koranda, Scott; Moe, Brian. Replicación de datos de área amplia para colaboraciones científicas
- ^ Lamehamedi, Houda; Szymanski, Boleslaw; Shentu, Zujun; Deelman, Ewa. Estrategias de replicación de datos en entornos de red
- ^ Lamehamedi, Houda; Szymanski, Boleslaw; Shentu, Zujun; Deelman, Ewa. Estrategias de replicación de datos en entornos de red
- ^ Padala, Pradeep. Una encuesta sobre el middleware de datos para sistemas Grid
- ^ Kranthi, G. y Rekha, D. Shashi. Replicación de objetos de datos protegidos en cuadrícula de datos p.40
- ^ Belalem, Ghalem y Meroufel, Bakhta. Gestión y colocación de réplicas en una cuadrícula de datos jerárquica
- ^ Lamehamedi, Houda; Szymanski, Boleslaw; Shentu, Zujun; Deelman, Ewa. Estrategias de replicación de datos en entornos de red
- ^ Shorfuzzaman, Mohammad; Graham, Peter; Eskicioglu, Rasit. Colocación de réplicas adaptables en cuadrículas de datos jerárquicas
- ^ Ranganathan, Kavitha y Foster, Ian. Identificación de estrategias de replicación dinámica para una cuadrícula de datos de alto rendimiento
- ↑ Epimakhov, Igor; Hameurlain, Abdelkader; Dillon, Tharam; Morvan, Franck. Métodos de programación de recursos para la optimización de consultas en sistemas de cuadrícula de datos
- ^ Krauter, Klaus; Buyya, Rajkumar; Maheswaran, Muthucumaru. Una taxonomía y un estudio de los sistemas de gestión de recursos de la red para la computación distribuida.
- ^ Zhu, Lichun. Gestión de metadatos en la federación de bases de datos de grid
- ^ Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri. Una taxonomía de cuadrículas de datos para el intercambio de datos distribuidos: gestión y procesamiento p.16
- ^ Allcock, Bill; Foster, Ian; Nefedova, Veronika; Chervenak, Ann; Deelman, Ewa; Kesselman, Carl. Acceso remoto de alto rendimiento a datos de simulación climática: un problema de desafío para las tecnologías de redes de datos.
- ^ Allcock, Bill; Chervenak, Ann; Foster, Ian; et al. p.571
- ^ Tierney, Brian L. Cuadrículas de datos y problemas de rendimiento de la cuadrícula de datos. p.7
- ^ Thibodeau, P. Gobiernos planifican proyectos de cuadrícula de datos
- ^ Heingartner, douglas. La cuadrícula: la Internet de próxima generación
- ^ Heingartner, douglas. La cuadrícula: la Internet de próxima generación
- ^ Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri. Una taxonomía de cuadrículas de datos para el intercambio de datos distribuidos: gestión y procesamiento p.1
- ^ Globus. Acerca del kit de herramientas de Globus
Referencias
- Allcock, Bill; Chervenak, Ann; Foster, Ian; Kesselman, Carl; Livny, Miron (2005). "Herramientas de cuadrícula de datos: habilitando la ciencia en grandes datos distribuidos". Journal of Physics: Serie de conferencias . 16 (1): 571–575. Código bibliográfico : 2005JPhCS..16..571A . CiteSeerX 10.1.1.379.4325 . doi : 10.1088 / 1742-6596 / 16/1/079 .
- Allcock, Bill; Foster, Ian; Nefedova, Veronika l; Chervenak, Ann; Deelman, Ewa; Kesselman, Carl; Lee, Jason; Sim, Alex; Shoshani, Arie; Drach, Bob; Williams, Dean (2001). "Acceso remoto de alto rendimiento a datos de simulación climática: un problema de desafío para las tecnologías de redes de datos". Prensa ACM . CiteSeerX 10.1.1.64.6603 . Cite journal requiere
|journal=
( ayuda )
- Arcot, Rajasekar; Wan, Michael; Moore, Reagan; Schroeder, Wayne; Kremenek, George. "Agente de recursos de almacenamiento: gestión de datos distribuidos en una cuadrícula" . Archivado desde el original el 7 de mayo de 2006 . Consultado el 28 de abril de 2012 .
- Belalem, Ghalem; Meroufel, Bakhta (2011). "Gestión y colocación de réplicas en una cuadrícula de datos jerárquica" . Revista Internacional de Sistemas Distribuidos y Paralelos . 2 (6): 23–30. doi : 10.5121 / ijdps.2011.2603 . Consultado el 28 de abril de 2012 .
- Chervenak, A .; Foster, I .; Kesselman, C .; Salisbury, C .; Tuecke, S. (2001). "La cuadrícula de datos: hacia una arquitectura para la gestión distribuida y el análisis de grandes conjuntos de datos científicos" (PDF) . Revista de aplicaciones informáticas y de red . 23 (3): 187–200. CiteSeerX 10.1.1.32.6963 . doi : 10.1006 / jnca.2000.0110 . Consultado el 11 de abril de 2012 .
- Chervenak, Ann; Schuler, Robert; Kesselman, Carl; Koranda, Scott; Moe, Brian (14 de noviembre de 2005). "Réplica de datos de área amplia para colaboraciones científicas" (PDF) . IEEE . Consultado el 25 de abril de 2012 .
- Coetzee, Serena (2012). "Modelo de referencia para un enfoque de cuadrícula de datos para abordar los datos en una IDE dinámica" (PDF) . Geoinformática . 16 (1): 111-129. doi : 10.1007 / s10707-011-0129-4 . hdl : 2263/18263 . S2CID 19837152 . Consultado el 28 de abril de 2012 .[ enlace muerto permanente ]
- Epimakhov, Igor; Hameurlain, Abdelkader; Dillon, Tharam; Morvan, Franck (2011). "Métodos de programación de recursos para la optimización de consultas en sistemas de cuadrícula de datos". Avances en Bases de Datos y Sistemas de Información. 15a Conferencia Internacional, ADBIS 2011 . Viena, Austria: Springer Berlin Heidelberg. págs. 185-199. doi : 10.1007 / 978-3-642-23737-9_14 .
- Globus (2012). "Acerca del conjunto de herramientas de Globus" . Globus . Consultado el 27 de mayo de 2012 .
- Heingartner, Douglas (8 de marzo de 2001). "The Grid: Internet de próxima generación" . Cableado . Archivado desde el original el 4 de mayo de 2012 . Consultado el 13 de mayo de 2012 .
- Izmailov, Rauf; Ganguly, Samrat; Tu, Nan (2004). "Replicación rápida de archivos paralelos en cuadrícula de datos" (PDF) . Archivado desde el original (PDF) el 21 de abril de 2012 . Consultado el 10 de mayo de 2012 .
- Kranthi, G. Aruna; Rekha, D. Shashi (2012). "Replicación de objetos de datos protegidos en cuadrícula de datos" . Revista internacional de seguridad de redes y sus aplicaciones . 4 (1): 29–41. doi : 10.5121 / ijnsa.2012.4103 . ISSN 0975-2307 .
- Krauter, Klaus; Buyya, Rajkumar; Maheswaran, Muthucumaru (2002). "Una taxonomía y estudio de los sistemas de gestión de recursos de la red para la computación distribuida". Práctica y experiencia de software (SPE) . 32 (2): 135-164. CiteSeerX 10.1.1.38.2122 . doi : 10.1002 / spe.432 . S2CID 816774 .
- Lamehamedi, Houda; Szymanski, Boleslaw; Shentu, Zujun; Deelman, Ewa (2002). "Estrategias de replicación de datos en entornos grid". Quinta Conferencia Internacional sobre Algoritmos y Arquitecturas para Procesamiento en Paralelo (ICA3PP'02) . Prensa. págs. 378–383. CiteSeerX 10.1.1.11.5473 .
- Padala, Pradeep. "Una encuesta de middleware de datos para sistemas Grid". CiteSeerX 10.1.1.114.1901 . Cite journal requiere
|journal=
( ayuda )
- Raman, Vijayshankar; Narang, Inderpal; Crone, Chris; Hass, Laura; Malaika, Susan (9 de febrero de 2003). "Servicios de acceso y tratamiento de datos en redes" (PDF) . Consultado el 10 de mayo de 2012 .
- Ranganathan, Kavitha; Foster, Ian (2001). "Identificación de estrategias de replicación dinámica para una cuadrícula de datos de alto rendimiento". En Proc. del Taller Internacional de Computación Grid . págs. 75–86. CiteSeerX 10.1.1.20.6836 . doi : 10.1007 / 3-540-45644-9_8 .
- Shorfuzzaman, Mohammad; Graham, Peter; Eskicioglu, Rasit (2010). "Colocación de réplicas adaptables en cuadrículas de datos jerárquicas" . Journal of Physics: Serie de conferencias . 256 (1): 1–18. Código bibliográfico : 2010JPhCS.256a2020S . doi : 10.1088 / 1742-6596 / 256/1/012020 .
- Sreelatha, Malempati (2011). "Enfoque basado en cuadrículas para la confidencialidad de los datos". Revista internacional de aplicaciones informáticas . 25 (9): 1–5. Código bibliográfico : 2011IJCA ... 25i ... 1M . CiteSeerX 10.1.1.259.4326 . doi : 10.5120 / 3063-4186 . ISSN 0975-8887 .
- Thibodeau, P. (30 de mayo de 2005). "Los gobiernos planifican proyectos de cuadrícula de datos" . Computerworld . 39 (42): 14. ISSN 0010-4841 . Consultado el 28 de abril de 2012 .
- Thomas, RK; Sandhu, RS (1997). "Controles de autorización basados en tareas (tbac): una familia de modelos para la gestión de autorizaciones activa y orientada a la empresa" (PDF) . Consultado el 28 de abril de 2012 .
- Tierney, Brian L. (2000). "Cuadrículas de datos y problemas de rendimiento de la cuadrícula de datos" (PDF) . Consultado el 28 de abril de 2012 .
- Venugopal, Srikumar; Buyya, Rajkumar; Ramamohanarao, Kotagiri (2006). "Una taxonomía de cuadrículas de datos para el intercambio, la gestión y el procesamiento de datos distribuidos" (PDF) . Encuestas de computación ACM . 38 (1): 1–60. arXiv : cs / 0506034 . CiteSeerX 10.1.1.59.6924 . doi : 10.1145 / 1132952.1132955 . S2CID 1379579 . Consultado el 10 de abril de 2012 .
- Zhu, Lichun. "Gestión de metadatos en la federación de bases de datos grid" (PDF) . Consultado el 15 de mayo de 2012 .[ enlace muerto permanente ]
Otras lecturas
- Allcock, W. (abril de 2003). "Gridftp: extensiones de protocolo a ftp para el grid" (PDF) . Laboratorio Nacional Argonne . Consultado el 20 de abril de 2012 .
- Allcock, W .; Bresnahan, J .; Kettimuthu, R .; Link, M .; Dumitrescu, C .; Raicu, I .; Foster, I. (noviembre de 2005). "El servidor y el framework gridftp rayado de globus" (PDF) . Prensa ACM . Consultado el 20 de abril de 2012 .
- Foster, Ian; Kesselman, Carl; Tuecke, Steven (2001). "La anatomía de la red que permite organizaciones virtuales escalables" (PDF) . Revista internacional de aplicaciones informáticas de alto rendimiento . 15 (3): 200–222. arXiv : cs / 0103025 . Código Bibliográfico : 2001cs ........ 3025F . CiteSeerX 10.1.1.24.9069 . doi : 10.1177 / 109434200101500302 . S2CID 28969310 . Consultado el 10 de abril de 2012 .
- Foster, Ian; Kesselman, Carl; Nick, Jeffrey M .; Tuecke, Steven (22 de junio de 2002). "La fisiología de la red: una arquitectura de servicios de red abierta para la integración de sistemas distribuidos" . Archivado desde el original el 22 de marzo de 2008 . Consultado el 10 de mayo de 2012 .
- Hancock, B. (2009). "Una cuadrícula de datos simple usando el sistema operativo inferno". Biblioteca de alta tecnología . 27 (3): 382–392. doi : 10.1108 / 07378830910988513 .
- Hoschek, W .; McCance, G. (10 de octubre de 2001). "Middleware de base de datos relacional habilitado para Grid" (PDF) . Foro Global Grid . Archivado desde el original (PDF) el 28 de enero de 2006 . Consultado el 22 de abril de 2012 .
- Kunszt, Peter Z .; Guy, Leanne P. (7 de julio de 2002). "La arquitectura de servicios de red abierta y las redes de datos" (PDF) . Consultado el 10 de mayo de 2012 .
- Moore, Reagan W. "Evolución de los conceptos de la cuadrícula de datos" (PDF) . Archivado desde el original (PDF) el 12 de febrero de 2014 . Consultado el 10 de mayo de 2012 .
- Rajkumar, Kettimuthu; Allcock, William; Liming, Lee; Navarro, John-Paul; Foster, Ian (30 de marzo de 2007). "GridCopy mueve datos rápidamente en la cuadrícula" (PDF) . Simposio internacional de procesamiento paralelo y distribuido (IPDPS 2007) . Long Beach: IEEE Internacional. págs. 1–6 . Consultado el 29 de abril de 2012 .
- Thenmozhi, N .; Madheswaran, M. (2011). "Mecanismo de transferencia de datos basado en contenido para una transferencia de datos masiva eficiente en un entorno de computación en red" . Revista Internacional de Aplicaciones y Computación Grid . 2 (4): 49–62. doi : 10.5121 / ijgca.2011.2405 . ISSN 2229-3949 . Consultado el 28 de abril de 2012 .
- Tu, Manghui; Li, Peng; I-Ling, yenes; Thuraisingham, Bhavani; Khan, Latifur (2010). "Réplica segura de objetos de datos en cuadrícula de datos" (PDF) . Transacciones IEEE sobre computación segura y confiable . 7 (1): 50–64. doi : 10.1109 / tdsc.2008.19 . S2CID 8934783 . Consultado el 26 de abril de 2012 .[ enlace muerto permanente ]