Cuadrícula de datos

Una cuadrícula de datos es una arquitectura o conjunto de servicios que brinda a individuos o grupos de usuarios la capacidad de acceder, modificar y transferir cantidades extremadamente grandes de datos distribuidos geográficamente con fines de investigación. ^[1] Las cuadrículas de datos hacen esto posible a través de una gran cantidad de aplicaciones y servicios de software intermedio que reúnen datos y recursos de múltiples dominios administrativos y luego los presentan a los usuarios que los solicitan. Los datos en una cuadrícula de datos se pueden ubicar en un solo sitio o en varios sitios, donde cada sitio puede ser su propio dominio administrativo regido por un conjunto de restricciones de seguridad en cuanto a quién puede acceder a los datos.^[2] Del mismo modo, múltiples réplicas de los datos pueden distribuirse a lo largo de la red fuera de su dominio administrativo original y las restricciones de seguridad impuestas a los datos originales para quién puede acceder a ellos deben aplicarse igualmente a las réplicas. ^[3] El middleware de cuadrícula de datos desarrollado específicamente es lo que maneja la integración entre los usuarios y los datos que solicitan controlando el acceso y poniéndolos a disposición de la manera más eficiente posible. El diagrama adyacente muestra una vista de alto nivel de una cuadrícula de datos.

El middleware proporciona todos los servicios y aplicaciones necesarios para la gestión eficiente de conjuntos de datos y archivos dentro de la cuadrícula de datos, al mismo tiempo que proporciona a los usuarios un acceso rápido a los conjuntos de datos y archivos. ^[4] Hay una serie de conceptos y herramientas que deben estar disponibles para que una red de datos sea operativamente viable. Sin embargo, al mismo tiempo, no todas las redes de datos requieren las mismas capacidades y servicios debido a las diferencias en los requisitos de acceso, seguridad y ubicación de los recursos en comparación con los usuarios. En cualquier caso, la mayoría de las redes de datos tendrán servicios de middleware similares que proporcionan un espacio de nombres universal, servicio de transporte de datos, servicio de acceso a datos, replicación de datos y servicio de gestión de recursos. Cuando se toman en conjunto, son clave para las capacidades funcionales de las redes de datos.

Dado que las fuentes de datos dentro de la cuadrícula de datos consistirán en datos de múltiples sistemas y redes separados que usan diferentes convenciones de nomenclatura de archivos , sería difícil para un usuario ubicar datos dentro de la cuadrícula de datos y saber que recuperaron lo que necesitaban basándose únicamente en datos físicos existentes. nombres de archivo (PFN). Un espacio de nombres universal o unificado hace posible crear nombres de archivos lógicos (LFN) a los que se puede hacer referencia dentro de la cuadrícula de datos que se asignan a PFN. ^[5] Cuando se solicita o consulta un LFN, se devuelven todos los PFN coincidentes para incluir posibles réplicas de los datos solicitados. Luego, el usuario final puede elegir entre los resultados devueltos la réplica más apropiada para usar. Este servicio generalmente se proporciona como parte de un sistema de gestión conocido comoAgente de recursos de almacenamiento (SRB). ^[6] La información sobre las ubicaciones de los archivos y las asignaciones entre los LFN y los PFN se puede almacenar en un catálogo de metadatos o réplicas. ^[7] El catálogo de réplicas contendría información sobre los LFN que se asignan a varias réplicas de PFN.

Otro servicio de middleware es el de proporcionar transporte de datos o transferencia de datos. El transporte de datos abarcará múltiples funciones que no se limitan solo a la transferencia de bits, para incluir elementos tales como tolerancia a fallas y acceso a datos. ^[8] La tolerancia a fallas se puede lograr en una cuadrícula de datos al proporcionar mecanismos que garanticen que la transferencia de datos se reanudará después de cada interrupción hasta que se reciban todos los datos solicitados. ^[9] Existen múltiples métodos posibles que podrían usarse para incluir el inicio de toda la transmisión desde el comienzo de los datos hasta la reanudación desde donde se interrumpió la transferencia. Como ejemplo, GridFTP brinda tolerancia a fallas al enviar datos desde el último byte reconocido sin iniciar toda la transferencia desde el principio.

Esta es una vista simple de alto nivel de una cuadrícula de datos que representa el almacenamiento distribuido.