Archivo Darwin Core


De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

Darwin Core Archive (DwC-A) es un estándar de datos informáticos de biodiversidad que hace uso de los términos Darwin Core para producir un conjunto de datos único e independiente para la ocurrencia de especies, lista de verificación, evento de muestreo o datos de muestra de material. Esencialmente, es un conjunto de archivos de texto (CSV) con un descriptor simple (meta.xml) para informar a otros cómo están organizados sus archivos. El formato se define en las Pautas para el texto básico de Darwin. [1] Es el formato preferido para publicar datos en la red GBIF .

Darwin Core

El estándar Darwin Core [2] se ha utilizado para movilizar la gran mayoría de registros de observación y ocurrencia de muestras dentro de la red GBIF. [3] El estándar Darwin Core fue concebido originalmente para facilitar el descubrimiento, la recuperación y la integración de información sobre especímenes biológicos modernos, su ocurrencia espacio-temporal y su evidencia de apoyo almacenada en colecciones (físicas o digitales).

El Darwin Core hoy tiene un alcance más amplio. Su objetivo es proporcionar una referencia estándar estable para compartir información sobre diversidad biológica. Como glosario de términos, Darwin Core proporciona definiciones semánticas estables con el objetivo de ser reutilizable al máximo en una variedad de contextos. Esto significa que Darwin Core puede seguir utilizándose de la misma forma en que se ha utilizado históricamente, pero también puede servir como base para crear formatos de intercambio más complejos, sin dejar de garantizar la interoperabilidad a través de un conjunto común de términos.

Formato de archivo

La idea central de un archivo es que sus archivos de datos están ordenados lógicamente en forma de estrella, con un archivo de datos central rodeado por cualquier número de "extensiones". Cada registro de extensión (o 'fila de archivo de extensión') apunta a un registro en el archivo principal; De esta manera, pueden existir de cero a muchos registros de extensión para cada registro de núcleo, un método de transferencia de datos más eficiente en el espacio que la alternativa de incluir todos los datos dentro de una sola tabla que, de otro modo, podría contener muchas celdas vacías.

Los detalles sobre las extensiones recomendadas se pueden encontrar en sus respectivas subsecciones y se documentarán ampliamente en el registro de GBIF, que catalogará todas las extensiones disponibles.

Compartir conjuntos de datos completos en lugar de utilizar servicios web paginables como DiGIR y TAPIR permite una transferencia de datos mucho más simple y eficiente. Por ejemplo, recuperar 260.000 registros a través de TAPIR lleva alrededor de nueve horas, emitiendo 1.300 solicitudes http para transferir 500 MB de datos en formato XML. El mismo conjunto de datos exacto, codificado como DwC-A y comprimido, se convierte en un archivo de 3 MB. Por lo tanto, GBIF recomienda encarecidamente comprimir un archivo mediante ZIP o GZIP al generar un DwC-A.

Un archivo requiere identificadores estables para los registros centrales, pero no para las extensiones. Por lo tanto, para cualquier tipo de datos compartidos es necesario tener algún tipo de identificadores de registros locales. Es una buena práctica mantener, con los datos originales, identificadores que sean estables a lo largo del tiempo y que no se reutilicen después de que se elimine el registro. Si puede, proporcione identificadores únicos a nivel mundial en lugar de identificadores locales.

Descriptor de archivo

A completar.


Metadatos del conjunto de datos

Un archivo básico de Darwin debe contener un archivo que contenga metadatos que describan el conjunto de datos completo. El lenguaje de metadatos ecológicos (EML) es el formato más común para esto, pero también se utilizan archivos simples Dublin Core.

Referencias

enlaces externos