Transformación de datos (estadísticas)


En estadística , la transformación de datos es la aplicación de una función matemática determinista a cada punto de un conjunto de datos , es decir, cada punto de datos z i se reemplaza con el valor transformado y i = f ( z i ), donde f es una función. Las transformaciones generalmente se aplican para que los datos parezcan cumplir más estrechamente con los supuestos de un procedimiento de inferencia estadística que se va a aplicar, o para mejorar la interpretabilidad o la apariencia de los gráficos .

Casi siempre, la función que se utiliza para transformar los datos es invertible y, por lo general, es continua . La transformación generalmente se aplica a una colección de medidas comparables. Por ejemplo, si estamos trabajando con datos sobre los ingresos de las personas en alguna unidad monetaria , lo común sería transformar el valor del ingreso de cada persona por la función logarítmica .

La orientación sobre cómo se deben transformar los datos, o si se debe aplicar una transformación, debe provenir del análisis estadístico particular que se realizará. Por ejemplo, una forma sencilla de construir un intervalo de confianza aproximado del 95 % para la media de la población es tomar la media de la muestra más o menos dos unidades de error estándar . Sin embargo, el factor constante 2 que se usa aquí es particular de la distribución normal y solo es aplicable si la media de la muestra varía aproximadamente normalmente. El teorema del límite central establece que, en muchas situaciones, la media de la muestra varía normalmente si el tamaño de la muestra es razonablemente grande. Sin embargo, si la población está sustancialmente sesgaday el tamaño de la muestra es como máximo moderado, la aproximación proporcionada por el teorema del límite central puede ser deficiente y el intervalo de confianza resultante probablemente tendrá una probabilidad de cobertura incorrecta . Por lo tanto, cuando hay evidencia de un sesgo sustancial en los datos, es común transformar los datos en una distribución simétrica [1] antes de construir un intervalo de confianza. Si lo desea, el intervalo de confianza se puede volver a transformar a la escala original usando la inversa de la transformación que se aplicó a los datos. [2] [3]

Los datos también se pueden transformar para que sean más fáciles de visualizar. Por ejemplo, supongamos que tenemos un diagrama de dispersión en el que los puntos son los países del mundo y los valores de los datos que se grafican son la superficie terrestre y la población de cada país. Si el gráfico se realiza utilizando datos no transformados (p. ej., kilómetros cuadrados para el área y el número de personas para la población), la mayoría de los países se trazarían en un grupo de puntos apretado en la esquina inferior izquierda del gráfico. Los pocos países con áreas y/o poblaciones muy grandes estarían dispersos alrededor de la mayor parte del área del gráfico. Simplemente cambiar la escala de las unidades (por ejemplo, a miles de kilómetros cuadrados oa millones de personas) no cambiará esto. Sin embargo, siguiendo logarítmicostransformaciones tanto de área como de población, los puntos se distribuirán más uniformemente en el gráfico.

Otra razón para aplicar la transformación de datos es mejorar la interpretabilidad, incluso si no se va a realizar ningún análisis o visualización estadística formal. Por ejemplo, supongamos que estamos comparando autos en términos de su economía de combustible. Estos datos generalmente se presentan como "kilómetros por litro" o "millas por galón". Sin embargo, si el objetivo es evaluar cuánto combustible adicional usaría una persona en un año al conducir un automóvil en comparación con otro, es más natural trabajar con los datos transformados aplicando la función recíproca , arrojando litros por kilómetro, o galones. por milla


Un diagrama de dispersión en el que las áreas de los estados soberanos y los territorios dependientes del mundo se trazan en el eje vertical frente a sus poblaciones en el eje horizontal. La gráfica superior utiliza datos sin procesar. En el gráfico inferior, tanto el área como los datos de población se han transformado utilizando la función logarítmica.