Medidas de escala robustas

En estadística , una medida de escala robusta es una estadística robusta que cuantifica la dispersión estadística en un conjunto de datos numéricos . Las estadísticas más comunes son el rango intercuartílico (IQR) y la desviación absoluta mediana (MAD). Estos se contrastan con las medidas de escala convencionales, como la varianza de la muestra o la desviación estándar de la muestra , que no son robustas, lo que significa que están muy influenciadas por valores atípicos .

Estas estadísticas robustas se utilizan particularmente como estimadores de un parámetro de escala y tienen las ventajas de robustez y eficiencia superior en datos contaminados, a costa de una eficiencia inferior en datos limpios de distribuciones como la distribución normal. Para ilustrar la robustez, la desviación estándar se puede hacer arbitrariamente grande aumentando exactamente una observación (tiene un punto de ruptura de 0, ya que puede estar contaminada por un solo punto), un defecto que no es compartido por las estadísticas robustas.

IQR y MAD

Una de las medidas de escala robustas más comunes es el rango intercuartil (IQR), la diferencia entre el percentil 75 y el percentil 25 de una muestra; este es el 25% recortado gama , un ejemplo de un L-estimador . También se pueden utilizar otros rangos recortados, como el rango interdecil (rango recortado al 10%).

Otra medida de escala robusta y familiar es la desviación absoluta mediana (MAD), la mediana de los valores absolutos de las diferencias entre los valores de los datos y la mediana general del conjunto de datos; para una distribución gaussiana, MAD está relacionada con ${\ Displaystyle \ sigma}$ como ${\ Displaystyle \ sigma \ approx 1.4826 \ \ operatorname {MAD}}$ (la derivación se puede encontrar aquí ).

Estimacion

Se pueden utilizar medidas de escala robustas como estimadores de propiedades de la población, ya sea para la estimación de parámetros o como estimadores de su propio valor esperado .

Por ejemplo, estimadores robustos de escala se utilizan para estimar la varianza de la población o población de desviación estándar , en general, mediante la multiplicación por un factor de escala para que sea una imparcial estimador consistente ; ver parámetro de escala: estimación . Por ejemplo, dividir el IQR por 2 √ 2 erf ⁻¹ (1/2) (aproximadamente 1.349), lo convierte en un estimador consistente e insesgado para la desviación estándar de la población si los datos siguen una distribución normal .

En otras situaciones, tiene más sentido pensar en una medida de escala robusta como un estimador de su propio valor esperado , interpretado como una alternativa a la varianza de la población o la desviación estándar como una medida de escala. Por ejemplo, la MAD de una muestra de una distribución estándar de Cauchy es un estimador de la MAD de la población, que en este caso es 1, mientras que la varianza de la población no existe.

Eficiencia

Estos estimadores robustos suelen tener una eficiencia estadística inferior en comparación con los estimadores convencionales para los datos extraídos de una distribución sin valores atípicos (como una distribución normal), pero tienen una eficiencia superior para los datos extraídos de una distribución de mezcla o de una distribución de cola pesada , para los cuales no -No se deben utilizar medidas robustas como la desviación estándar.

Por ejemplo, para los datos extraídos de la distribución normal, la DMA es un 37% más eficiente que la desviación estándar de la muestra, mientras que el estimador Q _{n de} Rousseeuw-Croux es un 88% más eficiente que la desviación estándar de la muestra.

Diferencias absolutas por pares

Rousseeuw y Croux ^[1] proponen alternativas al MAD, motivados por dos debilidades del mismo:

Es ineficiente (37% de eficiencia) en distribuciones gaussianas .
calcula una estadística simétrica sobre una estimación de ubicación, por lo que no se ocupa de la asimetría .

Proponen dos estadísticos alternativos basados en diferencias por pares: S _n y Q _n , definidos como:

{\ Displaystyle {\ begin {alineado} S_ {n} &: = 1.1926 \, \ operatorname {med} _ {i} \ left (\ operatorname {med} _ {j} (\, \ left | x_ {i} -x_ {j} \ right | \,) \ right), \\ Q_ {n} &: = c_ {n} {\ text {primer cuartil de}} \ left (\ left | x_ {i} -x_ { j} \ right |: i

dónde ${\ Displaystyle c_ {n}}$ es una constante que depende de ${\ Displaystyle n}$ .

Estos se pueden calcular en tiempo O ( n log n ) y espacio O ( n ).

Ninguno de estos requiere una estimación de la ubicación , ya que se basan únicamente en las diferencias entre los valores. Ambos son más eficientes que el MAD bajo una distribución gaussiana: S _n es 58% eficiente, mientras que Q _n es 82% eficiente.

Para una muestra de una distribución normal, S _n es aproximadamente insesgado para la desviación estándar de la población incluso hasta tamaños de muestra muy modestos (<1% de sesgo para n = 10). Para una muestra grande de una distribución normal, 2.219144465985075864722 Q _n es aproximadamente insesgado para la desviación estándar de la población. Para muestras pequeñas o moderadas, el valor esperado de Q _n bajo una distribución normal depende marcadamente del tamaño de la muestra, por lo que se utilizan factores de corrección de muestra finita (obtenidos de una tabla o de simulaciones) para calibrar la escala de Q _n .

La midvarianza de dos pesos

Al igual que S _n y Q _n , la varianza media de dos pesos busca ser robusta sin sacrificar demasiada eficiencia. Se define como

{\ Displaystyle {\ frac {n \ sum _ {i = 1} ^ {n} (x_ {i} -Q) ^ {2} (1-u_ {i} ^ {2}) ^ {4} I ( | u_ {i} | <1)} {\ left (\ sum _ {i} (1-u_ {i} ^ {2}) (1-5u_ {i} ^ {2}) I (| u_ {i } | <1) \ right) ^ {2}}},}

donde I es la función indicadora , Q es la mediana muestral de X _i , y

{\ Displaystyle u_ {i} = {\ frac {x_ {i} -Q} {9 \ cdot {\ rm {MAD}}}}.}

Su raíz cuadrada es un estimador de escala robusto, ya que los puntos de datos se reducen a medida que aumenta su distancia a la mediana, y los puntos a más de 9 unidades MAD de la mediana no tienen ninguna influencia.

Extensiones

Mizera y Müller (2004) proponen un estimador robusto basado en profundidad para ubicación y escala simultáneamente. ^[2]

Ver también

Errores estándar consistentes con heterocedasticidad

Referencias

^ Rousseeuw, Peter J .; Croux, Christophe (diciembre de 1993), "Alternatives to the Median Absolute Deviation", Revista de la Asociación Estadounidense de Estadística, Asociación Estadounidense de Estadística, 88 (424): 1273-1283, doi : 10.2307 / 2291267 , JSTOR 2291267
^ Mizera, I .; Müller, CH (2004), "Location-scale depth", Journal of the American Statistical Association , 99 (468): 949–966, doi : 10.1198 / 016214504000001312.

[1] Rousseeuw, Peter J .; Croux, Christophe (diciembre de 1993), "Alternatives to the Median Absolute Deviation", Revista de la Asociación Estadounidense de Estadística, Asociación Estadounidense de Estadística, 88 (424): 1273-1283, doi : 10.2307 / 2291267 , JSTOR 2291267

[2] Mizera, I .; Müller, CH (2004), "Location-scale depth", Journal of the American Statistical Association , 99 (468): 949–966, doi : 10.1198 / 016214504000001312.

[1]