La edición de datos se define como el proceso que implica la revisión y el ajuste de los datos de encuestas recopilados . La edición de datos ayuda a definir pautas que reducirán el sesgo potencial y garantizarán estimaciones consistentes que conduzcan a un análisis claro del conjunto de datos mediante datos inconsistentes correctos utilizando los métodos que se encuentran más adelante en este artículo. [1] El propósito es controlar la calidad de los datos recopilados. [2] La edición de datos se puede realizar manualmente, con la ayuda de una computadora o una combinación de ambos. [3]
Métodos de edición
Los métodos de edición se refieren a una variedad de procedimientos y procesos utilizados para detectar y manejar errores en los datos. La edición de datos se utiliza con el objetivo de mejorar la calidad de los datos estadísticos producidos. Estas modificaciones pueden mejorar en gran medida la calidad de los análisis creados con el objetivo de detectar y corregir errores. Ejemplos de diferentes técnicas para la edición de datos como microedición, macroedición, edición selectiva, o las diferentes herramientas utilizadas para lograr ediciones de datos como la edición gráfica y la edición interactiva.
Edición interactiva
El término edición interactiva se usa comúnmente para la edición manual asistida por computadora moderna. La mayoría de las herramientas de edición de datos interactivas aplicadas en los Institutos Nacionales de Estadística (NSI) permiten verificar las ediciones especificadas durante o después de la entrada de datos y, si es necesario, corregir los datos erróneos de inmediato. Se pueden seguir varios enfoques para corregir datos erróneos:
- Vuelva a ponerse en contacto con el encuestado
- Compare los datos del encuestado con sus datos del año anterior
- Compare los datos del encuestado con los datos de encuestados similares
- Utilice el conocimiento de la materia del editor humano
La edición interactiva es una forma estándar de editar datos. Se puede utilizar para editar datos categóricos y continuos . [4] La edición interactiva reduce el marco de tiempo necesario para completar el proceso cíclico de revisión y ajuste. [5] La edición interactiva también requiere una comprensión del conjunto de datos y los posibles resultados que se obtendrían de un análisis de los datos.
Edición selectiva
La edición selectiva es un término general para varios métodos para identificar los errores influyentes [nota 1] y los valores atípicos . [nota 2] Las técnicas de edición selectiva tienen como objetivo aplicar la edición interactiva a un subconjunto bien elegido de los registros, de modo que el tiempo y los recursos limitados disponibles para la edición interactiva se asignen a aquellos registros en los que tiene el mayor efecto en la calidad de la versión final. estimaciones de cifras publicadas. En la edición selectiva, los datos se dividen en dos flujos:
- La corriente crítica
- La corriente no crítica
El flujo crítico consta de registros que tienen más probabilidades de contener errores influyentes. Estos registros críticos se editan de forma interactiva tradicional. Los registros del flujo no crítico que es poco probable que contengan errores influyentes no se editan de manera asistida por computadora. [6]
Técnicas de edición de datos
La edición de datos se puede realizar de muchas formas y depende principalmente del conjunto de datos que se está explorando. [7]
Validez e integridad de los datos
La validez de un conjunto de datos depende de la integridad de las respuestas proporcionadas por los encuestados. Un método de edición de datos es asegurarse de que todas las respuestas estén completas en los campos que requieren una respuesta numérica o no numérica. Vea el ejemplo a continuación.
Entrada de datos duplicados
Verificar que los datos sean únicos es un aspecto importante de la edición de datos para garantizar que todos los datos proporcionados se ingresaron solo una vez. Esto reduce la posibilidad de datos repetidos que podrían sesgar los informes de análisis . Vea el ejemplo a continuación.
Valores atípicos
Es común encontrar valores atípicos en conjuntos de datos que, como se describió anteriormente, son valores que no se ajustan bien a un modelo de datos. Estos valores extremos se pueden encontrar basándose en la distribución de puntos de datos de series de datos anteriores o series de datos paralelas para el mismo conjunto de datos. Los valores pueden considerarse erróneos y requieren un análisis adicional para verificar y determinar la validez de la respuesta. Vea el ejemplo a continuación.
Inconsistencias lógicas
La consistencia lógica es la presencia de relaciones lógicas e interdependencia entre las variables. Esta edición requiere una cierta comprensión del conjunto de datos y la capacidad de identificar errores en los datos basados en informes o información anteriores. Este tipo de edición de datos se utiliza para tener en cuenta las diferencias entre los campos de datos o las variables. Vea el ejemplo a continuación.
Edición de macros
Hay dos métodos de edición de macros: [6]
Método de agregación
Este método se sigue en casi todos los organismos de estadística antes de la publicación: verificar si las cifras que se van a publicar parece plausible. Esto se logra comparando cantidades en tablas de publicación con las mismas cantidades en publicaciones anteriores. Si se observa un valor inusual, se aplica un procedimiento de microedición a los registros y campos individuales que contribuyen a la cantidad sospechosa. [5]
Método de distribución
Los datos disponibles se utilizan para caracterizar la distribución de las variables . Luego, todos los valores individuales se comparan con la distribución. Los registros que contienen valores que podrían considerarse poco comunes (dada la distribución) son candidatos para una inspección adicional y posiblemente para su edición. [8]
Edición automática
En la edición automática, los registros son editados por una computadora sin intervención humana. [9] El conocimiento previo sobre los valores de una sola variable o una combinación de variables se puede formular como un conjunto de reglas de edición que especifican o restringen los valores admisibles.
Determinantes de la edición de datos
La edición de datos tiene sus limitaciones con la capacidad y los recursos de cualquier estudio dado. Estos determinantes pueden tener un impacto positivo o negativo en el análisis posterior del conjunto de datos. A continuación se muestran varios factores determinantes de la edición de datos. [7]
Recursos disponibles: [7]
- Tiempo asignado al proyecto
- Limitaciones de dinero y presupuesto
Software disponible: [7]
- Herramientas utilizadas para analizar los datos
- Herramientas disponibles para identificar errores en el conjunto de datos
- Disponibilidad inmediata de software en función de los objetivos y metas de los datos
Fuente de datos: [7]
- Limitaciones de los encuestados para responder de acuerdo con las expectativas
- Falta información de los encuestados que no está fácilmente disponible
- Los seguimientos son difíciles de mantener en grandes grupos de datos
Coordinación del procedimiento de edición de datos: [7]
- Puntos de vista subjetivos sobre el conjunto de datos
- Desacuerdos entre los objetivos generales de los datos
- Métodos utilizados para manejar la edición de datos.
Ver también
Notas
Referencias
- ^ "Página de inicio del Centro Nacional de Estadísticas de Educación (NCES), parte del Departamento de Educación de Estados Unidos" . nces.ed.gov . Consultado el 6 de diciembre de 2020 .
- ^ "UNECE" .
- ^ "Estadísticas: ¡Poder de los datos! Edición de datos" . www150.statcan.gc.ca .
- ^ Waal, Ton de et al. "Manual de edición e imputación de datos estadísticos". Publicación de Wiley, 2011, p.15.
- ^ a b "Página de inicio de la UNECE" . www.unece.org .
- ^ a b Waal, Ton de et al. "Manual de edición e imputación de datos estadísticos". Publicación de Wiley, 2011, p. 16.
- ^ a b c d e f SCAD. "SCAD" . SCAD . Consultado el 7 de diciembre de 2020 .
- ^ Belén, J. "Métodos de encuesta aplicados una perspectiva estadística". Publicación de Wiley, 2009, p.205.
- ^ Waal, Ton de et al. "Manual de edición e imputación de datos estadísticos". Publicación de Wiley