La calidad de los datos se refiere al estado de la información cualitativa o cuantitativa . Hay muchas definiciones de calidad de datos, pero los datos generalmente se consideran de alta calidad si son "aptos para [sus] usos previstos en operaciones , toma de decisiones y planificación ". [1] [2] Además, los datos se consideran de alta calidad si representan correctamente el constructo del mundo real al que se refieren. Además, aparte de estas definiciones, a medida que aumenta el número de fuentes de datos, la cuestión de la coherencia de los datos internosadquiere importancia, independientemente de su idoneidad para su uso con un fin externo particular. Las opiniones de las personas sobre la calidad de los datos a menudo pueden estar en desacuerdo, incluso cuando se discute el mismo conjunto de datos utilizados para el mismo propósito. Cuando este es el caso, la gobernanza de datos se utiliza para formar definiciones y estándares acordados para la calidad de los datos. En tales casos, la limpieza de datos , incluida la estandarización, puede ser necesaria para garantizar la calidad de los datos. [3]
Definiciones
Definir la calidad de los datos en una oración es difícil debido a los muchos contextos en los que se utilizan los datos, así como a las diferentes perspectivas entre los usuarios finales, los productores y los custodios de los datos. [4]
Desde la perspectiva del consumidor, la calidad de los datos es: [4]
- "datos aptos para el uso de los consumidores de datos"
- datos que "cumplen o superan las expectativas del consumidor"
- datos que "satisfacen los requisitos de su uso previsto"
Desde una perspectiva empresarial, la calidad de los datos es:
- datos que son "'aptos para su uso' en sus funciones operativas, de toma de decisiones y otras funciones previstas" o que exhiben "conformidad con los estándares 'que se han establecido, de modo que se logre la aptitud para el uso" [5]
- datos que "son aptos para los usos previstos en las operaciones, la toma de decisiones y la planificación" [6]
- "la capacidad de los datos para satisfacer los requisitos comerciales, de sistema y técnicos establecidos de una empresa" [7]
Desde una perspectiva basada en estándares, la calidad de los datos es:
- el "grado en el que un conjunto de características inherentes (dimensiones de calidad) de un objeto (datos) cumple los requisitos" [8] [4]
- "la utilidad, exactitud y corrección de los datos para su aplicación" [9]
Podría decirse que, en todos estos casos, la "calidad de los datos" es una comparación del estado real de un conjunto particular de datos con un estado deseado, y el estado deseado se denomina típicamente "apto para su uso", "según la especificación", " satisfaciendo las expectativas del consumidor "," libre de defectos "o" cumpliendo los requisitos ". Estas expectativas, especificaciones y requisitos suelen ser definidos por uno o más individuos o grupos, organizaciones de estándares, leyes y regulaciones, políticas comerciales o políticas de desarrollo de software. [4] Profundizando más, esas expectativas, especificaciones y requisitos se expresan en términos de características o dimensiones de los datos, tales como: [4] [5] [6] [7] [10]
- accesibilidad o disponibilidad
- exactitud o corrección
- comparabilidad
- integridad o exhaustividad
- consistencia, coherencia o claridad
- credibilidad, confiabilidad o reputación
- flexibilidad
- plausibilidad
- relevancia, pertinencia o utilidad
- puntualidad o latencia
- unicidad
- validez o razonabilidad
Una revisión sistemática del alcance de la literatura sugiere que las dimensiones de la calidad de los datos y los métodos con datos del mundo real no son consistentes en la literatura y, como resultado, las evaluaciones de la calidad son un desafío debido a la naturaleza compleja y heterogénea de estos datos. [10]
En 2021, el grupo de trabajo Data Quality de DAMA Netherlands ha llevado a cabo una investigación sobre las definiciones de las dimensiones de la calidad de los datos. Ha recopilado definiciones de diversas fuentes y las ha comparado entre sí. El grupo de trabajo también probó las definiciones con criterios derivados de una norma para conceptos y definiciones: ISO 704 . Los resultados son una lista de 60 dimensiones de la calidad de los datos y sus definiciones. [11]
Historia
Antes del auge del almacenamiento de datos informáticos de bajo costo , se usaban computadoras centrales masivas para mantener los datos de nombres y direcciones para los servicios de entrega. Esto fue para que el correo pudiera enrutarse correctamente a su destino. Los mainframes usaban reglas comerciales para corregir errores ortográficos y tipográficos comunes en los datos de nombres y direcciones, así como para rastrear a los clientes que se habían mudado, muerto, ido a prisión, casado, divorciado o experimentado otros eventos que cambiaron la vida. Las agencias gubernamentales comenzaron a poner los datos postales a disposición de algunas empresas de servicios para hacer referencias cruzadas de los datos de los clientes con el registro nacional de cambio de dirección (NCOA) . Esta tecnología ahorró a las grandes empresas millones de dólares en comparación con la corrección manual de los datos de los clientes. Las grandes empresas ahorraron en gastos de envío, ya que las facturas y los materiales de marketing directo llegaron al cliente previsto con mayor precisión. Inicialmente vendido como un servicio, la calidad de los datos se trasladó dentro de las paredes de las corporaciones, a medida que se hizo disponible una poderosa tecnología de servidor de bajo costo. [ cita requerida ]
Las empresas con énfasis en el marketing a menudo centran sus esfuerzos de calidad en la información del nombre y la dirección, pero la calidad de los datos es reconocida [¿ por quién? ] como una propiedad importante de todo tipo de datos. Los principios de la calidad de los datos se pueden aplicar a los datos de la cadena de suministro, los datos transaccionales y casi todas las demás categorías de datos que se encuentren. Por ejemplo, hacer que los datos de la cadena de suministro se ajusten a un cierto estándar tiene valor para una organización al: 1) evitar el exceso de existencias de existencias similares pero ligeramente diferentes; 2) evitar falsos desabastecimientos; 3) mejorar la comprensión de las compras de los proveedores para negociar descuentos por volumen; y 4) evitar los costos de logística en el almacenamiento y envío de piezas en una gran organización. [ cita requerida ]
Para las empresas con importantes esfuerzos de investigación, la calidad de los datos puede incluir el desarrollo de protocolos para métodos de investigación, la reducción de errores de medición , la verificación de límites de datos, la tabulación cruzada , el modelado y la detección de valores atípicos, la verificación de la integridad de los datos , etc. [ cita requerida ]
Descripción general
Hay varios marcos teóricos para comprender la calidad de los datos. Un enfoque teórico de sistemas influenciado por el pragmatismo estadounidense amplía la definición de calidad de datos para incluir la calidad de la información y enfatiza la inclusión de las dimensiones fundamentales de exactitud y precisión sobre la base de la teoría de la ciencia (Ivanov, 1972). Un marco, denominado "Datos con cero defectos" (Hansen, 1991) adapta los principios del control de procesos estadísticos a la calidad de los datos. Otro marco busca integrar la perspectiva del producto (conformidad con las especificaciones) y la perspectiva del servicio (satisfacer las expectativas de los consumidores) (Kahn et al. 2002). Otro marco se basa en la semiótica para evaluar la calidad de la forma, significado y uso de los datos (Price y Shanks, 2004). Un enfoque altamente teórico analiza la naturaleza ontológica de los sistemas de información para definir la calidad de los datos de manera rigurosa (Wand y Wang, 1996).
Una cantidad considerable de investigación sobre la calidad de los datos implica investigar y describir varias categorías de atributos (o dimensiones) deseables de los datos. Se han identificado casi 200 de estos términos y hay poco acuerdo sobre su naturaleza (¿son estos conceptos, objetivos o criterios?), Sus definiciones o medidas (Wang et al., 1993). Los ingenieros de software pueden reconocer esto como un problema similar a las " ilidades ".
El MIT cuenta con un Programa de Calidad de la Información (MITIQ), dirigido por el profesor Richard Wang, que produce un gran número de publicaciones y alberga una importante conferencia internacional en este campo (International Conference on Information Quality, ICIQ). Este programa surgió del trabajo realizado por Hansen en el marco de "Datos de cero defectos" (Hansen, 1991).
En la práctica, la calidad de los datos es una preocupación para los profesionales involucrados con una amplia gama de sistemas de información, que van desde el almacenamiento de datos y la inteligencia empresarial hasta la gestión de las relaciones con los clientes y la gestión de la cadena de suministro . Un estudio de la industria calculó el costo total para la economía estadounidense de los problemas de calidad de los datos en más de 600 mil millones de dólares por año (Eckerson, 2002). Los datos incorrectos, que incluyen información no válida y desactualizada, pueden provenir de diferentes fuentes de datos, a través de la entrada de datos o proyectos de conversión y migración de datos . [12]
En 2002, USPS y PricewaterhouseCoopers publicaron un informe que indica que el 23,6 por ciento de todo el correo enviado en los Estados Unidos tiene una dirección incorrecta. [13]
Una de las razones por las que los datos de contacto se vuelven obsoletos muy rápidamente en la base de datos promedio: más de 45 millones de estadounidenses cambian su dirección cada año. [14]
De hecho, el problema es tan preocupante que las empresas están comenzando a establecer un equipo de gobierno de datos cuya única función en la corporación es ser responsable de la calidad de los datos. En algunos [ ¿quién? ] organizaciones, esta función de gobernanza de datos se ha establecido como parte de una función de cumplimiento normativo más amplia: un reconocimiento de la importancia de la calidad de los datos / información para las organizaciones.
Los problemas con la calidad de los datos no solo surgen de datos incorrectos ; Los datos inconsistentes también son un problema. Eliminar los sistemas de sombra de datos y centralizar los datos en un almacén es una de las iniciativas que puede tomar una empresa para garantizar la coherencia de los datos.
Empresas, científicos e investigadores están comenzando a participar en las comunidades de conservación de datos para mejorar la calidad de sus datos comunes. [15]
El mercado está avanzando hacia la garantía de la calidad de los datos. Varios proveedores fabrican herramientas para analizar y reparar datos de baja calidad in situ , los proveedores de servicios pueden limpiar los datos por contrato y los consultores pueden asesorar sobre la reparación de procesos o sistemas para evitar problemas de calidad de los datos en primer lugar. La mayoría de las herramientas de calidad de datos ofrecen una serie de herramientas para mejorar los datos, que pueden incluir algunas o todas las siguientes:
- Elaboración de perfiles de datos : evaluación inicial de los datos para comprender su estado actual, que a menudo incluye distribuciones de valor.
- Estandarización de datos: un motor de reglas comerciales que garantiza que los datos se ajusten a los estándares.
- Codificación geográfica: para datos de nombre y dirección. Corrige los datos según los estándares geográficos de EE. UU. Y todo el mundo
- Coincidencia o vinculación : una forma de comparar datos para que se puedan alinear registros similares, pero ligeramente diferentes. El emparejamiento puede usar "lógica difusa" para encontrar duplicados en los datos. A menudo reconoce que "Bob" y "Bbo" pueden ser el mismo individuo. Podría ser capaz de gestionar el "hogar" o encontrar vínculos entre los cónyuges en la misma dirección, por ejemplo. Por último, a menudo puede crear un registro de "lo mejor de su clase", tomando los mejores componentes de múltiples fuentes de datos y construyendo un único superregistro.
- Supervisión: realizar un seguimiento de la calidad de los datos a lo largo del tiempo e informar de las variaciones en la calidad de los datos. El software también puede corregir automáticamente las variaciones en función de reglas comerciales predefinidas.
- Por lotes y en tiempo real: una vez que los datos se limpian inicialmente (por lotes), las empresas a menudo desean integrar los procesos en aplicaciones empresariales para mantenerlos limpios.
Hay varios autores conocidos y expertos que se autodenominan, siendo Larry English quizás el gurú más popular . Además, IQ International, la Asociación Internacional para la Calidad de la Información y los Datos, se estableció en 2004 para proporcionar un punto focal para profesionales e investigadores en este campo.
ISO 8000 es un estándar internacional de calidad de datos. [dieciséis]
Aseguramiento de la calidad de los datos
El aseguramiento de la calidad de los datos es el proceso de elaboración de perfiles de datos para descubrir inconsistencias y otras anomalías en los datos, así como realizar actividades de limpieza de datos [17] [18] (por ejemplo, eliminar valores atípicos , interpolación de datos faltantes) para mejorar la calidad de los datos.
Estas actividades se pueden realizar como parte del almacenamiento de datos o como parte de la administración de la base de datos de un software de aplicación existente . [19]
Control de calidad de datos
El control de calidad de los datos es el proceso de controlar el uso de datos para una aplicación o un proceso. Este proceso se realiza antes y después de un proceso de Garantía de calidad de los datos (QA), que consiste en el descubrimiento de la inconsistencia y corrección de los datos.
Antes:
- Restringe las entradas
Después del proceso de QA, se recopilan las siguientes estadísticas para guiar el proceso de Control de Calidad (QC):
- Severidad de la inconsistencia
- Incompletitud
- Precisión
- Precisión
- Falta / Desconocido
El proceso de control de calidad de datos utiliza la información del proceso de control de calidad para decidir utilizar los datos para el análisis o en una aplicación o proceso comercial. Ejemplo general: si un proceso de control de calidad de datos encuentra que los datos contienen demasiados errores o inconsistencias, entonces evita que los datos se utilicen para el proceso previsto, lo que podría causar una interrupción. Ejemplo específico: proporcionar mediciones no válidas de varios sensores a la función de piloto automático de una aeronave podría provocar su colisión. Por lo tanto, el establecimiento de un proceso de control de calidad proporciona protección contra el uso de datos. [ cita requerida ]
Uso óptimo de la calidad de los datos
La calidad de los datos (DQ) es un área de nicho necesaria para la integridad de la gestión de datos al cubrir las lagunas de los problemas de datos. Esta es una de las funciones clave que ayudan a la gobernanza de datos al monitorear los datos para encontrar excepciones no descubiertas por las operaciones de administración de datos actuales. Las comprobaciones de la calidad de los datos se pueden definir a nivel de atributo para tener un control total sobre sus pasos de corrección. [ cita requerida ]
Las verificaciones de DQ y las reglas comerciales pueden superponerse fácilmente si una organización no está atenta a su alcance de DQ. Los equipos comerciales deben comprender a fondo el alcance de la DQ para evitar superposiciones. Los controles de calidad de los datos son redundantes si la lógica empresarial cubre la misma funcionalidad y cumple el mismo propósito que DQ. El alcance de DQ de una organización debe definirse en la estrategia de DQ y estar bien implementado. Algunas verificaciones de la calidad de los datos pueden traducirse en reglas comerciales después de repetidos casos de excepciones en el pasado. [ cita requerida ]
A continuación, se muestran algunas áreas de los flujos de datos que pueden necesitar verificaciones de DQ perennes:
Se pueden realizar comprobaciones DQ de integridad y precisión en todos los datos en el punto de entrada para cada atributo obligatorio de cada sistema fuente. Se crean pocos valores de atributo mucho después de la creación inicial de la transacción; en tales casos, administrar estas verificaciones se vuelve complicado y debe hacerse inmediatamente después de que se cumplan el evento definido de la fuente de ese atributo y las demás condiciones del atributo central de la transacción.
Todos los datos que tienen atributos que se refieren a los datos de referencia en la organización pueden validarse contra el conjunto de valores válidos bien definidos de los datos de referencia para descubrir valores nuevos o discrepantes a través de la verificación DQ de validez . Los resultados se pueden utilizar para actualizar los datos de referencia administrados en la gestión de datos maestros (MDM) .
Todos los datos provenientes de un tercero a los equipos internos de la organización pueden someterse a una verificación de precisión (DQ) con los datos de terceros. Estos resultados de verificación de DQ son valiosos cuando se administran en datos que realizaron varios saltos después del punto de entrada de esos datos, pero antes de que los datos se autoricen o se almacenen para la inteligencia empresarial.
Todas las columnas de datos que se refieren a datos maestros pueden validarse para su verificación de coherencia . Una verificación de DQ administrada en los datos en el punto de entrada descubre nuevos datos para el proceso de MDM, pero una verificación de DQ administrada después del punto de entrada descubre la falla (no las excepciones) de consistencia.
A medida que los datos se transforman, se capturan varias marcas de tiempo y las posiciones de esas marcas de tiempo y se pueden comparar entre sí y su margen de maniobra para validar su valor, deterioro y significado operativo frente a un SLA (acuerdo de nivel de servicio) definido. Esta verificación de puntualidad DQ se puede utilizar para disminuir la tasa de deterioro del valor de los datos y optimizar las políticas de la línea de tiempo del movimiento de datos.
En una organización, la lógica compleja generalmente se segrega en una lógica más simple a través de múltiples procesos. Razonabilidad cheques DQ en tales lógica compleja rendimiento a un resultado lógico dentro de un rango específico de valores o interrelaciones estáticos (reglas de negocio agregados) pueden ser validados para descubrir complicados procesos de negocio pero cruciales y valores atípicos de los datos, su deriva de BAU (como de costumbre ) expectativas, y puede proporcionar posibles excepciones que eventualmente resulten en problemas de datos. Esta verificación puede ser una simple regla de agregación genérica englobada por una gran cantidad de datos o puede ser una lógica complicada en un grupo de atributos de una transacción perteneciente al negocio principal de la organización. Esta verificación de DQ requiere un alto grado de conocimiento y perspicacia empresarial. El descubrimiento de problemas de razonabilidad puede ayudar a los cambios de política y estrategia por parte del negocio, el gobierno de datos o ambos.
Las comprobaciones de conformidad y las comprobaciones de integridad no necesitan cubrir todas las necesidades comerciales, están estrictamente bajo el criterio de la arquitectura de la base de datos.
Hay muchos lugares en el movimiento de datos donde es posible que no se requieran verificaciones de DQ. Por ejemplo, la verificación DQ de la integridad y precisión de las columnas no nulas es redundante para los datos que se obtienen de la base de datos. De manera similar, los datos deben validarse por su precisión con respecto al momento en que los datos se unen en fuentes dispares. Sin embargo, esa es una regla comercial y no debería estar en el alcance de DQ. [ cita requerida ]
Lamentablemente, desde la perspectiva del desarrollo de software, la DQ a menudo se considera un requisito no funcional. Y como tal, los controles / procesos de calidad de datos clave no se tienen en cuenta en la solución de software final. Dentro de la atención médica, las tecnologías portátiles o las redes de área corporal generan grandes volúmenes de datos. [20] El nivel de detalle necesario para garantizar la calidad de los datos es extremadamente alto y, a menudo, se subestima. Esto también es cierto para la gran mayoría de aplicaciones de mHealth , EHR y otras soluciones de software relacionadas con la salud. Sin embargo, existen algunas herramientas de código abierto que examinan la calidad de los datos. [21] La razón principal de esto se debe al costo adicional que implica un mayor grado de rigor dentro de la arquitectura del software.
Seguridad y privacidad de los datos de salud
El uso de dispositivos móviles en salud, o mHealth, crea nuevos desafíos para la seguridad y privacidad de los datos de salud , de formas que afectan directamente la calidad de los datos. [2] La salud móvil es una estrategia cada vez más importante para la prestación de servicios de salud en países de ingresos bajos y medianos. [22] Los teléfonos móviles y las tabletas se utilizan para recopilar, informar y analizar datos casi en tiempo real. Sin embargo, estos dispositivos móviles también se usan comúnmente para actividades personales, lo que los hace más vulnerables a los riesgos de seguridad que podrían conducir a violaciones de datos. Sin las garantías de seguridad adecuadas, este uso personal podría poner en peligro la calidad, seguridad y confidencialidad de los datos de salud . [23]
Calidad de los datos en salud pública
La calidad de los datos se ha convertido en un foco importante de los programas de salud pública en los últimos años, especialmente a medida que aumenta la demanda de rendición de cuentas. [24] El trabajo hacia metas ambiciosas relacionadas con la lucha contra enfermedades como el SIDA, la tuberculosis y la malaria debe basarse en sistemas sólidos de seguimiento y evaluación que produzcan datos de calidad relacionados con la ejecución del programa. [25] Estos programas, y los auditores de programas, buscan cada vez más herramientas para estandarizar y agilizar el proceso de determinación de la calidad de los datos, [26] verificar la calidad de los datos notificados y evaluar los sistemas de gestión de datos y presentación de informes subyacentes para los indicadores. [27] Un ejemplo es la herramienta de revisión de la calidad de los datos de la OMS y MEASURE Evaluation [28] La OMS, el Fondo Mundial, GAVI y MEASURE Evaluation han colaborado para producir un enfoque armonizado para garantizar la calidad de los datos en diferentes enfermedades y programas. [29]
Calidad de datos abiertos
Hay una serie de trabajos científicos dedicados al análisis de la calidad de los datos en fuentes de datos abiertas , como Wikipedia , Wikidata , DBpedia y otras. En el caso de Wikipedia, el análisis de calidad puede referirse a todo el artículo [30]. El modelado de la calidad se lleva a cabo mediante varios métodos. Algunos de ellos utilizan algoritmos de aprendizaje automático , incluidos Random Forest , [31] Support Vector Machine , [32] y otros. Los métodos para evaluar la calidad de los datos en Wikidata, DBpedia y otras fuentes LOD difieren. [33]
Asociaciones profesionales
- IQ International: la Asociación Internacional para la Calidad de la Información y los Datos [34]
- IQ International es una asociación profesional sin fines de lucro, independiente de proveedores, formada en 2004, dedicada a desarrollar la profesión de la calidad de la información y los datos.
ECCMA (Asociación de gestión de códigos de comercio electrónico) [35]
La Asociación de Administración de Códigos de Comercio Electrónico (ECCMA) es una asociación internacional sin fines de lucro basada en miembros comprometida a mejorar la calidad de los datos a través de la implementación de estándares internacionales. ECCMA es el líder actual del proyecto para el desarrollo de ISO 8000 e ISO 22745, que son los estándares internacionales para la calidad de los datos y el intercambio de datos maestros de materiales y servicios, respectivamente.
ECCMA proporciona una plataforma para la colaboración entre expertos en la materia sobre la calidad de los datos y la gobernanza de los datos en todo el mundo para crear y mantener diccionarios estándar abiertos y globales que se utilizan para etiquetar información sin ambigüedades. La existencia de estos diccionarios de etiquetas permite que la información pase de un sistema informático a otro sin perder significado.
Ver también
- Validación de datos
- Vinculación de registros
- Calidad de la información
- Gestión de datos maestros
- Dato de governancia
- Normalización de la base de datos
- Visualización de datos
- Análisis de los datos
- Gestión de datos clínicos
Referencias
- ^ Redman, Thomas C. (30 de diciembre de 2013). Basado en datos: aproveche su activo comercial más importante . Harvard Business Press. ISBN 978-1-4221-6364-1.
- ^ a b Fadahunsi, Kayode Philip; Akinlua, James Tosin; O'Connor, Siobhan; Wark, Petra A; Gallagher, Joseph; Carroll, Christopher; Majeed, Azeem; O'Donoghue, John (marzo de 2019). "Protocolo para una revisión sistemática y síntesis cualitativa de marcos de calidad de la información en eSalud" . BMJ Open . 9 (3): e024722. doi : 10.1136 / bmjopen-2018-024722 . ISSN 2044-6055 . PMC 6429947 . PMID 30842114 .
- ^ Smallwood, RF (2014). Gobierno de la información: conceptos, estrategias y mejores prácticas . John Wiley e hijos. pag. 110. ISBN 9781118218303. Archivado desde el original el 30 de julio de 2020 . Consultado el 18 de abril de 2020 .
Tener un programa de gobierno de datos estandarizado significa limpiar datos corruptos o duplicados y proporcionar a los usuarios datos limpios y precisos como base para aplicaciones de software de línea de negocio y para análisis de soporte de decisiones en aplicaciones de inteligencia empresarial (BI).
- ^ a b c d e Fürber, C. (2015). "3. Calidad de los datos" . Gestión de la calidad de los datos con tecnologías semánticas . Saltador. págs. 20–55. ISBN 9783658122249. Archivado desde el original el 31 de julio de 2020 . Consultado el 18 de abril de 2020 .
- ^ a b Herzog, TN; Scheuren, FJ; Winkler, WE (2007). "Capítulo 2: ¿Qué es la calidad de los datos y por qué debería importarnos?" . Técnicas de vinculación de registros y calidad de datos . Springer Science & Business Media. págs. 7–15. ISBN 9780387695020. Archivado desde el original el 31 de julio de 2020 . Consultado el 18 de abril de 2020 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ a b Fleckenstein, M .; Becarios, L. (2018). "Capítulo 11: Calidad de los datos" . Estrategia de datos moderna . Saltador. págs. 101–120. ISBN 9783319689920. Archivado desde el original el 31 de julio de 2020 . Consultado el 18 de abril de 2020 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ a b Mahanti, R. (2019). "Capítulo 1: datos, calidad de los datos y costo de la mala calidad de los datos". Calidad de los datos: dimensiones, medición, estrategia, gestión y gobernanza . Prensa de calidad. págs. 5-6. ISBN 9780873899772. Archivado desde el original el 23 de noviembre de 2020 . Consultado el 18 de abril de 2020 .
- ^ Organización Internacional de Normalización (septiembre de 2015). "ISO 9000: 2015 (en) Sistemas de gestión de la calidad - Fundamentos y vocabulario" . Organización Internacional de Normalización. Archivado desde el original el 19 de mayo de 2020 . Consultado el 18 de abril de 2020 .
- ^ Subgrupo de Definiciones y Taxonomías del Grupo de Trabajo Público de Big Data del NIST (octubre de 2019). "Marco de interoperabilidad de Big Data NIST: volumen 4, seguridad y privacidad" (PDF) . Publicación especial NIST 1500-4r2 (3ª ed.). Instituto Nacional de Estándares y Tecnología. doi : 10.6028 / NIST.SP.1500-4r2 . Archivado (PDF) desde el original el 9 de mayo de 2020 . Consultado el 18 de abril de 2020 .
La validez se refiere a la utilidad, exactitud y corrección de los datos para su aplicación. Tradicionalmente, esto se ha denominado calidad de datos.
- ^ a b Bian, Jiang; Lyu, Tianchen; Loiacono, Alexander; Viramontes, Tonatiuh Mendoza; Lipori, Gloria; Guo, Yi; Wu, Yonghui; Prosperi, Mattia; George, Thomas J; Harle, Christopher A; Shenkman, Elizabeth A (9 de diciembre de 2020). "Evaluación de la práctica de la evaluación de la calidad de los datos en una red nacional de investigación de datos clínicos a través de una revisión sistemática del alcance en la era de los datos del mundo real" . Revista de la Asociación Estadounidense de Informática Médica . 27 (12): 1999-2010. doi : 10.1093 / jamia / ocaa245 . ISSN 1527-974X . PMC 7727392 . PMID 33166397 .
- ^ http://www.dama-nl.org/data_quality/
- ^ "Responsabilidad y apalancamiento: un caso para la calidad de los datos" . Gestión de la información. Agosto de 2006. Archivado desde el original el 27 de enero de 2011 . Consultado el 25 de junio de 2010 .
- ^ "Gestión de direcciones para pedidos por correo y retail" . Revista Direcciones. Archivado desde el original el 28 de abril de 2005 . Consultado el 25 de junio de 2010 .
- ^ "USPS | PostalPro" (PDF) . Archivado (PDF) desde el original el 15 de febrero de 2010 . Consultado el 25 de junio de 2010 .
- ^ E. Curry, A. Freitas y S. O'Riáin, "The Role of Community-Driven Data Curation for Enterprises" , Archivado el 23 de enero de 2012en Wayback Machine en la vinculación de datos empresariales , D. Wood, Ed. Boston, Mass .: Springer US, 2010, págs. 25-47.
- ^ "ISO / TS 8000-1: 2011 Calidad de los datos - Parte 1: Descripción general" . Organización Internacional de Normalización. Archivado desde el original el 21 de diciembre de 2016 . Consultado el 8 de diciembre de 2016 .
- ^ "¿Puede confiar en la calidad de sus datos?" . spotlessdata.com. Archivado desde el original el 11 de febrero de 2017.
- ^ "¿Qué es la limpieza de datos? - Experian Data Quality" . 13 de febrero de 2015. Archivado desde el original el 11 de febrero de 2017 . Consultado el 9 de febrero de 2017 .
- ^ "Lección 23 Tutorial de conceptos de calidad de datos - Almacenamiento de datos" . Vea la capacitación en video gratuita en línea. Archivado desde el original el 21 de diciembre de 2016 . Consultado el 8 de diciembre de 2016 .
- ^ O'Donoghue, John y John Herbert. "Gestión de datos en entornos de mHealth: sensores de pacientes, dispositivos móviles y bases de datos". Revista de calidad de la información y los datos ( JDIQ ) 4.1 (2012): 5.
- ^ Huser, Vojtech; DeFalco, Frank J; Schuemie, Martijn; Ryan, Patrick B; Shang, Ning; Vélez, Mark; Park, Rae Woong; Boyce, Richard D; Duke, Jon; Khare, Ritu; Utidjian, Levon; Bailey, Charles (30 de noviembre de 2016). "Evaluación multisitio de una herramienta de calidad de datos para conjuntos de datos clínicos a nivel de paciente" . eGEMs . 4 (1): 24. doi : 10.13063 / 2327-9214.1239 . PMC 5226382 . PMID 28154833 .
- ^ Evaluación de la MEDIDA. (2017) Mejora de la calidad de los datos en los sistemas móviles de información de salud basados en la comunidad: Directrices para el diseño y la implementación (tr-17-182). Chapel Hill, NC: MEASURE Evaluation, Universidad de Carolina del Norte. Obtenido de https://www.measureevaluation.org/resources/publications/tr-17-182 Archivado 2017-08-08 en Wayback Machine
- ^ Wambugu, S. y Villella, C. (2016). mHealth para sistemas de información de salud en países de ingresos bajos y medianos: desafíos y oportunidades en la calidad, privacidad y seguridad de los datos (tr-16-140). Chapel Hill, NC: MEASURE Evaluation, Universidad de Carolina del Norte. Obtenido de https://www.measureevaluation.org/resources/publications/tr-16-140 Archivado 2017-08-08 en Wayback Machine
- ^ Evaluación de la MEDIDA. (2016) Calidad de los datos para los sistemas de seguimiento y evaluación (fs-16-170). Chapel Hill, NC: MEASURE Evaluation, Universidad de Carolina del Norte. Obtenido de https://www.measureevaluation.org/resources/publications/fs-16-170-en Archivado 2017-08-08 en Wayback Machine
- ^ Evaluación de la MEDIDA. (2016). Sistemas de información en salud de rutina: un currículo de conceptos básicos y prácticas - Programa de estudios (sr-16-135a). Chapel Hill, NC: MEASURE Evaluation, Universidad de Carolina del Norte. Obtenido de https://www.measureevaluation.org/resources/publications/sr-16-135a Archivado 2017-08-08 en Wayback Machine
- ^ "Herramientas de aseguramiento de la calidad de los datos" . MEDIDA Evaluación . Archivado desde el original el 8 de agosto de 2017 . Consultado el 8 de agosto de 2017 .
- ^ "Módulo 4: Calidad de los datos del RHIS" . MEDIDA Evaluación . Archivado desde el original el 8 de agosto de 2017 . Consultado el 8 de agosto de 2017 .
- ^ MEDIDA Evaluación. "Calidad de los datos" . MEDIDA Evaluación . Archivado desde el original el 8 de agosto de 2017 . Consultado el 8 de agosto de 2017 .
- ^ La Organización Mundial de la Salud (OMS). (2009). Seguimiento y evaluación del fortalecimiento de los sistemas de salud . Ginebra, Suiza: OMS. Obtenido de http://www.who.int/healthinfo/HSS_MandE_framework_Nov_2009.pdf Archivado el 28 de agosto de 2017 en Wayback Machine.
- ^ Mesgari, Mostafa; Chitu, Okoli; Mehdi, Mohamad; Finn Årup, Nielsen; Lanamäki, Arto (2015). " " La suma de todo el conocimiento humano ": una revisión sistemática de la investigación académica sobre el contenido de Wikipedia" (PDF) . Revista de la Asociación de Ciencia y Tecnología de la Información . 66 (2): 219–245. doi : 10.1002 / asi.23172 . S2CID 218071987 . Archivado (PDF) desde el original el 10 de mayo de 2020 . Consultado el 21 de enero de 2020 .
- ^ Warncke-Wang, Morten; Cosley, Dan; Riedl, John (2013). Dime más: un modelo de calidad procesable para wikipedia . WikiSym '13 Actas del 9º Simposio Internacional sobre Colaboración Abierta . doi : 10.1145 / 2491055.2491063 . ISBN 9781450318525. S2CID 18523960 .
- ^ Hasan Dalip, Daniel; André Gonçalves, Marcos; Cristo, Marco; Calado, Pável (2009). "Evaluación automática de la calidad de los contenidos creados de forma colaborativa por comunidades web". Actas de la conferencia internacional conjunta de 2009 sobre bibliotecas digitales - JCDL '09 . pag. 295. doi : 10.1145 / 1555400.1555449 . ISBN 9781605583228. S2CID 14421291 .
- ^ Färber, Michael; Bartscherer, Frederic; Menne, Carsten; Rettinger, Achim (30 de noviembre de 2017). "Calidad de datos enlazados de DBpedia, Freebase, OpenCyc, Wikidata y YAGO" . Web semántica . 9 (1): 77–129. doi : 10.3233 / SW-170275 . Archivado desde el original el 22 de enero de 2018.
- ^ "IQ International - la Asociación Internacional para la Calidad de la Información y los Datos" . Sitio web de IQ International. Archivado desde el original el 10 de mayo de 2017 . Consultado el 5 de agosto de 2016 .
- ^ "Inicio" . ECCMA . Archivado desde el original el 19 de agosto de 2018 . Consultado el 3 de octubre de 2018 .
Otras lecturas
- Baškarada, S; Koronios, A (2014). "Un marco de factores críticos de éxito para la gestión de la calidad de la información". Gestión de sistemas de información . 31 (4): 1–20. doi : 10.1080 / 10580530.2014.958023 . S2CID 33018618 .
- Baamann, Katharina, "Aspectos de la calidad de los datos de la garantía de ingresos", artículo
- Eckerson, W. (2002) "Informe especial de almacenamiento de datos: calidad de los datos y el resultado final", artículo
- Ivanov, K. (1972) "Control de calidad de la información: sobre el concepto de precisión de la información en los bancos de datos y en los sistemas de información de gestión" . La Universidad de Estocolmo y el Real Instituto de Tecnología. Tesis doctoral.
- Hansen, M. (1991) Datos de cero defectos, MIT. Tesis de maestría [1]
- Kahn, B., Strong, D., Wang, R. (2002) "Parámetros de calidad de la información: rendimiento de productos y servicios", Communications of the ACM, abril de 2002. págs. 184-192. Artículo
- Price, R. y Shanks, G. (2004) Un marco de calidad de la información semiótica, Proc. Conferencia internacional de IFIP sobre sistemas de apoyo a las decisiones (DSS2004): apoyo a las decisiones en un mundo incierto y complejo, Prato. Artículo
- Redman, TC (2008) Basado en datos: cómo beneficiarse de nuestro activo comercial más importante
- Wand, Y. y Wang, R. (1996) "Anchoring Data Quality Dimensions in Ontological Foundations", Communications of the ACM, noviembre de 1996. págs. 86–95. Artículo
- Wang, R., Kon, H. & Madnick, S. (1993), Análisis y modelado de requisitos de calidad de datos, Novena Conferencia Internacional de Ingeniería de Datos, Viena, Austria. Artículo
- Fournel Michel, Accroitre la qualité et la valeur des données de vos clients, éditions Publibook, 2007. ISBN 978-2-7483-3847-8 .
- Daniel F., Casati F., Palpanas T., Chayka O., Cappiello C. (2008) "Habilitando Mejores Decisiones a través de Informes Sensibles a la Calidad", Congreso Internacional sobre Calidad de la Información (ICIQ), MIT. Artículo
- Jack E. Olson (2003), "Calidad de los datos: la dimensión de la precisión", Morgan Kaufmann Publishers
- Woodall P., Oberhofer M. y Borek A. (2014), "Una clasificación de métodos de evaluación y mejora de la calidad de los datos" . Revista Internacional de Calidad de la Información 3 (4), 298–321. doi: 10.1504 / ijiq.2014.068656 .
- Woodall, P., Borek, A. y Parlikad, A. (2013), "Evaluación de la calidad de los datos: el enfoque híbrido". Information & Management 50 (7), 369–382.
enlaces externos
- Curso de calidad de datos , del Global Health Learning Center