La conservación de datos es la organización e integración de datos recopilados de diversas fuentes. Implica la anotación, publicación y presentación de los datos de manera que el valor de los datos se mantenga a lo largo del tiempo y los datos permanezcan disponibles para su reutilización y conservación. La curación de datos incluye "todos los procesos necesarios para la creación, el mantenimiento y la gestión de datos controlados y basados en principios , junto con la capacidad de agregar valor a los datos". [1] En ciencia, la conservación de datos puede indicar el proceso de extracción de información importante de textos científicos, como artículos de investigación de expertos, para convertirla en un formato electrónico, como la entrada de una base de datos biológica . [2]
En la era moderna del big data , la conservación de datos se ha vuelto más prominente, particularmente para el software que procesa grandes volúmenes y sistemas de datos complejos. [3] El término también se utiliza en ocasiones históricas y las humanidades, [4] donde el aumento de datos culturales y académicos de proyectos de humanidades digitales requiere la experiencia y las prácticas analíticas de la curación de datos. [5] En términos generales, curación significa una variedad de actividades y procesos realizados para crear, administrar, mantener y validar un componente . [6] Específicamente, la conservación de datos es el intento de determinar qué información vale la pena guardar y por cuánto tiempo. [7]
Historia y practica
El usuario , en lugar de la propia base de datos, normalmente inicia la conservación de datos y mantiene los metadatos . [8] Según la Escuela de Graduados en Bibliotecología y Ciencias de la Información de la Universidad de Illinois , "la conservación de datos es la gestión activa y continua de los datos a través de su ciclo de vida de interés y utilidad para la erudición, la ciencia y la educación; las actividades de conservación permiten datos descubrimiento y recuperación, mantener la calidad, agregar valor y permitir la reutilización a lo largo del tiempo ". [9] El flujo de trabajo de conservación de datos es distinto de la gestión de la calidad de los datos , la protección de datos , la gestión del ciclo de vida y el movimiento de datos . [8]
Los datos del censo han estado disponibles en forma de tarjetas perforadas tabulados desde principios del siglo XX y han sido electrónicos desde la década de 1960. [10] El sitio web del Consorcio Interuniversitario de Investigación Política y Social (ICPSR) marca 1962 como la fecha de su primer Archivo de Datos de Encuestas. [11]
En un número de 1982 de la revista de Illinois, Library Trends , aparecieron profundos antecedentes sobre las bibliotecas de datos . [12] Para conocer los antecedentes históricos sobre el movimiento del archivo de datos, consulte "Necesidades de información científica social para datos numéricos: la evolución de la infraestructura internacional del archivo de datos". [13] El proceso de conservación exacto que se lleva a cabo dentro de cualquier organización depende del volumen de datos, cuánto ruido contienen los datos y qué significa el uso futuro esperado de los datos para su difusión. [3]
La crisis de los datos espaciales llevó a la creación en 1999 del modelo Open Archival Information System (OAIS) , [14] dirigido por el Comité Consultivo de Sistemas de Datos Espaciales (CCSDS) , que se formó en 1982. [15]
El término curación de datos se usa a veces en el contexto de bases de datos biológicas , donde la información biológica específica se obtiene primero de una variedad de artículos de investigación y luego se almacena dentro de una categoría específica de base de datos. Por ejemplo, la información sobre medicamentos antidepresivos se puede obtener de varias fuentes y, después de verificar si están disponibles como base de datos o no, se guardan en la categoría de antidepresivos de la base de datos de medicamentos. Las empresas también están utilizando la conservación de datos dentro de sus procesos operativos y estratégicos para garantizar la calidad y precisión de los datos. [16] [17]
En imágenes médicas , el término curación de datos se usa comúnmente para referirse a ajustes de datos de píxeles de imagen o metadatos de imagen en formatos de archivo de imágenes médicas como DICOM . La conservación de datos también se conoce como un paso de procesamiento que sigue a la adquisición de datos de imágenes en centros clínicos [ desambiguación necesaria ] . Como paso de procesamiento, la conservación de datos es un término general para una variedad de actividades que incluyen la gestión de datos , la creación, modificación, verificación, extracción, integración, estandarización, conversión, mantenimiento, garantía de calidad y validación de datos, así como la integridad de los datos . controles de trazabilidad y reproducibilidad . [18]
Proyectos y estudios
El proyecto de Paquetes de información de difusión (DIPS) para la reutilización de la información (DIPIR) está estudiando datos de investigación producidos y utilizados por científicos sociales cuantitativos, arqueólogos y zoólogos. El público objetivo son los investigadores que utilizan datos secundarios y los curadores digitales, los administradores de repositorios digitales, el personal del centro de datos y otros que recopilan, administran y almacenan información digital. [19]
El Protein Data Bank se estableció en 1971 en el Laboratorio Nacional de Brookhaven y se ha convertido en un proyecto global. [20] Una base de datos para datos estructurales tridimensionales de proteínas y otras moléculas biológicas grandes, el PDB contiene más de 120.000 estructuras, todas estandarizadas, validadas con datos experimentales y anotadas.
FlyBase , el depósito principal de datos genéticos y moleculares de la familia de insectos Drosophilidae , se remonta a 1992. FlyBase anota todo el genoma de Drosophila melanogaster . [21]
El Consorcio de Datos Lingüísticos es un depósito de datos para datos lingüísticos, que se remonta a 1992. [22]
El Sloan Digital Sky Survey comenzó a estudiar el cielo nocturno en 2000. [23] El científico informático Jim Gray , mientras trabajaba en la arquitectura de datos del SDSS, defendió la idea de la conservación de datos en las ciencias. [24]
DataNet fue un programa de investigación de la Oficina de Infraestructura Cibernética de la Fundación Nacional de Ciencias de EE. UU., Que financia proyectos de gestión de datos en las ciencias. [25] DataONE (Red de observación de datos para la Tierra) es uno de los proyectos financiados a través de DataNet , que ayuda a la comunidad científica ambiental a preservar y compartir datos. [26]
Ver también
- Biocurador
- Arqueología de datos
- Degradación de datos
- Gestión de formato de datos
- Preservación de datos
- Administración de datos
- Arreglo de datos
- Conservación digital : la conservación de documentos publicados, en lugar de datos sin procesar [7]
- Preservación digital
- Informacionista : una persona con amplia experiencia en la conservación de datos.
Referencias
- ^ Renée J. Miller , "Big Data Curation" en la 20ª Conferencia Internacional sobre Gestión de Datos (COMAD) 2014, Hyderabad, India, 17-19 de diciembre de 2014
- ^ Glosario bio creativo . Consultado el 3 de octubre de 2016.
- ^ a b Furht, Borko; Armando Escalante (2011). Manual de Computación Intensiva de Datos . Springer Science & Business Media. pag. 32. ISBN 9781461414155. Consultado el 2 de octubre de 2016 .
- ^ Sabharwal, Arjun (2015). La curaduría digital en las humanidades digitales: preservación y promoción de archivos y colecciones especiales . Editorial Chandos. pag. 60. ISBN 9780081001783. Consultado el 2 de octubre de 2016 .
- ^ "Introducción a la curación de datos de Humanidades" por Julia Flanders y Trevor Muñoz http://guide.dhcuration.org/intro/ . Ya no está disponible: archive.org
- ^ Glosario de Pilin . Ya no está disponible: archive.org
- ^ a b Borgman, C (2015). Big data, pocos datos, sin datos: beca en el mundo en red . Cambridge, Massachusetts: MIT Press. pp. 13 . ISBN 978-0-262-02856-1.
- ^ a b Chessell, Mandy; Nigel L Jones; Jay Limburn; David Radley; Kevin Shank (2015). Diseño y operación de un depósito de datos . IBM Redbooks. págs. 111-113. ISBN 9780837440668. Consultado el 2 de octubre de 2016 .
- ^ Cragin, Melissa; Heidorn, P. Bryan; Palmer, Carole L .; Smith, Linda C. (2007). "Un programa educativo sobre conservación de datos" . Conferencia de la Sección de Ciencia y Tecnología de ALA . Consultado el 7 de octubre de 2013 .
- ^ "Informe de preservación de la información digital (PDI)" (PDF) . 1996 . Consultado el 13 de marzo de 2018 .
- ^ "ICPSR: Historia" . www.icpsr.umich.edu . Consultado el 15 de marzo de 2018 .
- ^ Heim, Kathleen M. (editor), Library Trends 30 (3) Invierno de 1982: Bibliotecas de datos para las ciencias sociales. Escuela de Postgrado en Bibliotecología y Ciencias de la Información. Universidad de Illinois en Urbana-Champaign.
- ^ Kathleen M. Heim, "Necesidades de información científica social para datos numéricos: la evolución de la infraestructura de archivo de datos internacional". en Collection Management 9 (primavera de 1987): 1-53.
- ^ "El modelo de referencia OAIS" . 2015-12-09 . Consultado el 15 de marzo de 2018 .
- ^ "CCSDS.org - El Comité Consultivo de Sistemas de Datos Espaciales (CCSDS)" . public.ccsds.org . Consultado el 14 de marzo de 2018 .
- ^ E. Curry, A. Freitas y S. O'Riáin, "The Role of Community-Driven Data Curation for Enterprises", archivado el 23 de enero de 2012en Wayback Machine en la vinculación de datos empresariales, D. Wood, Ed. Boston, MA: Springer US, 2010, págs. 25-47. ISBN 978-1-4419-7664-2
- ^ A. Freitas, E. Curry, "Big Data Curation", archivado el 13 de septiembre de 2016 en Wayback Machine en New Horizons for a Data-Driven Economy, Springer (acceso abierto), 2015.
- ^ Díaz, Oliver; Kushibar, Kaisar; Osuala, Richard; Linardos, Akis; Garrucho, Lidia; Igual, Laura; Radeva, Petia; Prior, Fred; Gkontra, Polyxeni; Lekadir, Karim (2021). "Preparación de datos para inteligencia artificial en imágenes médicas: una guía completa para plataformas y herramientas de acceso abierto" . Revista europea de física médica . Consultado el 30 de abril de 2021 .
- ^ Proyecto de paquetes de información de difusión para la reutilización de la información (DIPIR) http://www.oclc.org/research/themes/user-studies/dipir.html
- ^ "RCSB PDB: Acerca del archivo PDB y el RCSB PDB" . Acerca de PDB Archive y RCSB PDB . Consultado el 15 de marzo de 2018 .
- ^ Gramates, LS; Marygold, SJ; dos Santos, G; Urbano, JM; Antonazzo, G; Matthews, BB; Rey, AJ; Tabone, CJ; Crosby, MA; Emmert, DB; Falls, K; Goodman, JL; Hu, Y; Ponting, L; Schroeder, AJ; Strelets, VB; Thurmond, J; Zhou, P; Consorcio FlyBase (2017). "lyBase a los 25: mirando al futuro" . Ácidos nucleicos Res . 45 (D1): D663 – D671. doi : 10.1093 / nar / gkw1016 . PMC 5210523 . PMID 27799470 .
- ^ "Acerca de LDC" . Consorcio de datos lingüísticos . Consultado el 15 de marzo de 2018 .
- ^ "Sloan Digital Sky Survey" . SDSS . Consultado el 15 de marzo de 2018 .
- ^ Palmer, Carole L .; Weber, Nicholas M .; Muñoz, Trevor; Renear, Allen H. (junio de 2013). "Fundamentos de la curación de datos: la pedagogía y la práctica del" trabajo con propósito "con datos de investigación". Diario de archivo . 3 . hdl : 2142/78099 .
- ^ "Resumen del programa de socios de la red de acceso y preservación de datos digitales sostenibles (DataNet)" . Fundación Nacional de Ciencia. 28 de septiembre de 2007 . Consultado el 15 de marzo de 2018 .
- ^ "¿Qué es DataONE?" . ¿Qué es DataONE? . Consultado el 15 de marzo de 2018 .
enlaces externos
- Curación de datos ecológicos y ambientales: DataONE
- Herramientas y servicios de gestión de datos que abarcan múltiples disciplinas científicas: DataConservancy