Transformación estabilizadora de varianza

En estadística aplicada , una transformación estabilizadora de varianza es una transformación de datos que se elige específicamente para simplificar las consideraciones en el análisis de datos exploratorios gráficos o para permitir la aplicación de técnicas de análisis de varianza o regresión simple . ^[1]

Descripción general

El objetivo detrás de la elección de una transformación estabilizadora de la varianza es encontrar una función simple ƒ para aplicar a los valores x en un conjunto de datos para crear nuevos valores $y = ƒ (x) de$ manera que la variabilidad de los valores y no esté relacionada con su valor medio. Por ejemplo, suponga que los valores x son realizaciones de diferentes distribuciones de Poisson : es decir, cada una de las distribuciones tiene diferentes valores medios μ . Entonces, debido a que para la distribución de Poisson la varianza es idéntica a la media, la varianza varía con la media. Sin embargo, si la simple transformación estabilizadora de la varianza

{\ Displaystyle y = {\ sqrt {x}} \,}

se aplica, la varianza muestral asociada con la observación será casi constante: consulte Transformada de Anscombe para obtener detalles y algunas transformaciones alternativas.

Si bien las transformaciones estabilizadoras de varianza son bien conocidas para ciertas familias de distribuciones paramétricas, como la distribución de Poisson y binomial , algunos tipos de análisis de datos proceden de manera más empírica: por ejemplo, buscando entre transformaciones de potencia para encontrar una transformación fija adecuada. Alternativamente, si el análisis de datos sugiere una forma funcional para la relación entre la varianza y la media, esto puede usarse para deducir una transformación estabilizadora de la varianza. ^[2] Por lo tanto, si, para una media μ ,

{\ Displaystyle \ operatorname {var} (X) = h (\ mu), \,}

una base adecuada para una transformación estabilizadora de la varianza sería

{\ Displaystyle y \ propto \ int ^ {x} {\ frac {1} {\ sqrt {h (\ mu)}}} \, d \ mu,}

donde la constante arbitraria de integración y un factor de escala arbitrario pueden elegirse por conveniencia.

Ejemplo: varianza relativa

Si $X$ es una variable aleatoria positiva y la varianza se da como $h (μ) = s 2 μ 2,$ entonces la desviación estándar es proporcional a la media, lo que se denomina error relativo fijo . En este caso, la transformación estabilizadora de la varianza es

{\ Displaystyle y = \ int ^ {x} {\ frac {d \ mu} {\ sqrt {s ^ {2} \ mu ^ {2}}}} = {\ frac {1} {s}} \ ln (x) \ propto \ log (x) \ ,.}

Es decir, la transformación estabilizadora de la varianza es la transformación logarítmica.

Ejemplo: varianza absoluta más relativa

Si la varianza se da como $h (μ) = σ 2 + s 2 μ 2,$ entonces la varianza está dominada por una varianza fija $σ 2$ cuando $| μ |$ es lo suficientemente pequeño y está dominado por la varianza relativa $s 2 μ 2$ cuando $| μ |$ es lo suficientemente grande. En este caso, la transformación estabilizadora de la varianza es

{\ Displaystyle y = \ int ^ {x} {\ frac {d \ mu} {\ sqrt {\ sigma ^ {2} + s ^ {2} \ mu ^ {2}}}} = {\ frac {1 } {s}} \ operatorname {asinh} {\ frac {x} {\ sigma / s}} \ propto \ operatorname {asinh} {\ frac {x} {\ lambda}} \ ,.}

Es decir, la transformación estabilizadora de la varianza es el seno hiperbólico inverso del valor escalado $x / λ$ para $λ = σ / s$ .

Relación con el método delta

Aquí, el método delta se presenta de manera aproximada, pero es suficiente para ver la relación con las transformaciones estabilizadoras de la varianza. Para ver un enfoque más formal, consulte el método delta .

Dejar ${\ Displaystyle X}$ ser una variable aleatoria, con ${\ Displaystyle E [X] = \ mu}$ y ${\ Displaystyle \ operatorname {Var} (X) = \ sigma ^ {2}}$ . Definir ${\ Displaystyle Y = g (X)}$ , dónde ${\ Displaystyle g}$ es una función regular. Una aproximación de Taylor de primer orden para ${\ Displaystyle Y = g (x)}$ es:

${\ Displaystyle Y = g (X) \ approx g (\ mu) + g '(\ mu) (X- \ mu)}$

De la ecuación anterior, obtenemos:

{\ Displaystyle E [Y] = g (\ mu)}

y

{\ Displaystyle \ operatorname {Var} [Y] = \ sigma ^ {2} g '(\ mu) ^ {2}}

Este método de aproximación se llama método delta.

Considere ahora una variable aleatoria ${\ Displaystyle X}$ tal que ${\ Displaystyle E [X] = \ mu}$ y ${\ Displaystyle \ operatorname {Var} [X] = h (\ mu)}$ . Nótese la relación entre la varianza y la media, que implica, por ejemplo, heterocedasticidad en un modelo lineal. Por tanto, el objetivo es encontrar una función ${\ Displaystyle g}$ tal que ${\ Displaystyle Y = g (X)}$ tiene una varianza independiente (al menos aproximadamente) de su expectativa.

Imponer la condición ${\ Displaystyle \ operatorname {Var} [Y] \ approx h (\ mu) g '(\ mu) ^ {2} = {\ text {constante}}}$ , esta igualdad implica la ecuación diferencial:

{\ Displaystyle {\ frac {dg} {d \ mu}} = {\ frac {C} {\ sqrt {h (\ mu)}}}}

Esta ecuación diferencial ordinaria tiene, por separación de variables, la siguiente solución:

{\ Displaystyle g (\ mu) = \ int {\ frac {C \, d \ mu} {\ sqrt {h (\ mu)}}}}

Esta última expresión apareció por primera vez en un artículo de MS Bartlett . ^[3]

Referencias

^ Everitt, BS (2002). El Diccionario de Estadística de Cambridge (2ª ed.). TAZA. ISBN 0-521-81099-X.
^ Dodge, Y. (2003). Diccionario de términos estadísticos de Oxford . OUP. ISBN 0-19-920613-9.
^ Bartlett, MS (1947). "El uso de transformaciones". Biometría . 3 : 39–52. doi : 10.2307 / 3001536 .

[1] Everitt, BS (2002). El Diccionario de Estadística de Cambridge (2ª ed.). TAZA. ISBN 0-521-81099-X.

[2] Dodge, Y. (2003). Diccionario de términos estadísticos de Oxford . OUP. ISBN 0-19-920613-9.

[3] Bartlett, MS (1947). "El uso de transformaciones". Biometría . 3 : 39–52. doi : 10.2307 / 3001536 .

[1]