De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

La reducción de datos es la transformación de información digital numérica o alfabética derivada empírica o experimentalmente en una forma corregida, ordenada y simplificada. El propósito de la reducción de datos puede ser doble: reducir el número de registros de datos eliminando datos no válidos o generar datos resumidos y estadísticas en diferentes niveles de agregación para diversas aplicaciones. [1]

Cuando la información se deriva de las lecturas de los instrumentos, también puede haber una transformación de la forma analógica a la digital . Cuando los datos ya están en forma digital, la 'reducción' de los datos generalmente implica cierta edición, escalado , codificación , clasificación , cotejo y producción de resúmenes tabulares. Cuando las observaciones son discretas pero el fenómeno subyacente es continuo, a menudo es necesario suavizar e interpolar . La reducción de datos se lleva a cabo a menudo en presencia de errores de lectura o medición . Se necesita alguna idea de la naturaleza de estos errores antes de poder determinar el valor más probable.

Un ejemplo en astronomía es la reducción de datos en el satélite Kepler . Este satélite registra imágenes de 95 megapíxeles una vez cada seis segundos, generando docenas de megabytes de datos por segundo, que es órdenes de magnitudes más que el ancho de banda del enlace descendente de 550 KBps. La reducción de datos a bordo incluye la co-suma de los fotogramas sin procesar durante treinta minutos, reduciendo el ancho de banda en un factor de 300. Además, se preseleccionan objetivos interesantes y solo se procesan los píxeles relevantes, que es el 6% del total. Estos datos reducidos se envían luego a la Tierra, donde se procesan más.

También se han realizado investigaciones sobre el uso de la reducción de datos en dispositivos portátiles (inalámbricos) para aplicaciones de diagnóstico y monitoreo de la salud. Por ejemplo, en el contexto del diagnóstico de epilepsia , la reducción de datos se ha utilizado para aumentar la vida útil de la batería de un dispositivo EEG portátil seleccionando y transmitiendo únicamente datos de EEG que son relevantes para el diagnóstico y descartando la actividad de fondo. [2]

Tipos de reducción de datos [ editar ]

Reducción de dimensionalidad [ editar ]

Cuando aumenta la dimensionalidad, los datos se vuelven cada vez más escasos, mientras que la densidad y la distancia entre los puntos, fundamentales para el análisis de clústeres y valores atípicos, se vuelven menos significativas. La reducción de la dimensionalidad ayuda a reducir el ruido en los datos y permite una visualización más fácil, como en el ejemplo siguiente, donde los datos tridimensionales se transforman en 2 dimensiones para mostrar partes ocultas. Un método de reducción de dimensionalidad es la transformada de ondículas , en la que los datos se transforman para preservar la distancia relativa entre objetos a diferentes niveles de resolución, y se utiliza a menudo para la compresión de imágenes . [3]

Un ejemplo de reducción de dimensionalidad.

Reducción de numerosidad [ editar ]

Este método de reducción de datos reduce el volumen de datos al elegir formas alternativas más pequeñas de representación de datos. La reducción de la numerosidad se puede dividir en 2 grupos: métodos paramétricos y no paramétricos. Los métodos paramétricos (regresión, por ejemplo) asumen que los datos se ajustan a algún modelo, estiman los parámetros del modelo, almacenan solo los parámetros y descartan los datos. Un ejemplo de esto es en la imagen a continuación, donde el volumen de datos a procesar se reduce en base a criterios más específicos. Otro ejemplo sería un modelo log-lineal , obteniendo un valor en un punto en el espacio mD como el producto en los subespacios marginales apropiados. Los métodos no paramétricos no asumen modelos, algunos ejemplos son histogramas, agrupamiento, muestreo, etc. [4]

Un ejemplo de reducción de datos mediante la reducción de numerosidad

Prácticas recomendadas [ editar ]

Estas son técnicas comunes que se utilizan en la reducción de datos.

  • Ordene por algún aspecto del tamaño.
  • Diagonalización de la tabla , mediante la cual las filas y columnas de las tablas se reorganizan para que los patrones sean más fáciles de ver (consulte el diagrama).
  • Redondea drásticamente a uno, o como máximo a dos, dígitos efectivos (los dígitos efectivos son los que varían en esa parte de los datos).
  • Utilice promedios para proporcionar un enfoque visual y un resumen.
  • Utilice el diseño y el etiquetado para guiar el ojo.
  • Elimine el material gráfico , como imágenes y líneas.
  • Da un breve resumen verbal. [5]

Ver también [ editar ]

Referencias [ editar ]

  1. ^ "Manual de recopilación de datos de tiempo de viaje" (PDF) . Consultado el 6 de diciembre de 2020 .
  2. ^ Iranmanesh, S .; Rodríguez-Villegas, E. (2017). "Un chip de reducción de datos de base analógica de 950 nW para sistemas EEG portátiles en la epilepsia". Revista IEEE de circuitos de estado sólido . 52 (9): 2362–2373. doi : 10.1109 / JSSC.2017.2720636 . hdl : 10044/1/48764 .
  3. ^ Han, J .; Kamber, M .; Pei, J. (2011). "Minería de datos: conceptos y técnicas (3ª ed.)" (PDF) . Consultado el 6 de diciembre de 2020 .
  4. ^ Han, J .; Kamber, M .; Pei, J. (2011). "Minería de datos: conceptos y técnicas (3ª ed.)" (PDF) . Consultado el 6 de diciembre de 2020 .
  5. ^ http://business.nmsu.edu/~mhyman/M610_Articles/Ehrenberg_Marketing_Research_2001.pdf Datos, pero sin información: la presentación realmente lo es todo, o casi. Por Andrew Ehrenberg

Bibliografía [ editar ]

  • Ehrenberg, Andrew SC (1975, 1981), Reducción de datos, John Wiley, Chichester. Reimpreso en el Journal of Empirical Generalizations in Marketing Science, 2000, 5, 1-391
  • Ehrenberg, Andrew SC (1982) A Primer in Data Reduction: An Introductory Statistics Ehrenberg