Estimador invariante

En estadística , el concepto de estimador invariante es un criterio que se puede utilizar para comparar las propiedades de diferentes estimadores para la misma cantidad. Es una forma de formalizar la idea de que un estimador debe tener ciertas cualidades intuitivamente atractivas. Estrictamente hablando, "invariante" significaría que las estimaciones mismas no se modifican cuando tanto las mediciones como los parámetros se transforman de manera compatible, pero el significado se ha ampliado para permitir que las estimaciones cambien de manera apropiada con tales transformaciones. ^[1] El término estimador equivariantese utiliza en contextos matemáticos formales que incluyen una descripción precisa de la relación de la forma en que el estimador cambia en respuesta a los cambios en el conjunto de datos y la parametrización: esto corresponde al uso de " equivariancia " en matemáticas más generales.

Ajustes generales

Fondo

En la inferencia estadística , existen varios enfoques de la teoría de la estimación que pueden usarse para decidir inmediatamente qué estimadores deben usarse de acuerdo con esos enfoques. Por ejemplo, las ideas de la inferencia bayesiana conducirían directamente a los estimadores bayesianos . De manera similar, la teoría de la inferencia estadística clásica a veces puede llevar a conclusiones sólidas sobre qué estimador debería usarse. Sin embargo, la utilidad de estas teorías depende de tener un modelo estadístico completamente prescrito y también puede depender de tener una función de pérdida relevante para determinar el estimador. Por lo tanto , se podría realizar un análisis bayesiano que conduzca a una distribución posterior de los parámetros relevantes, pero el uso de una función de utilidad o pérdida específica puede no estar claro. Las ideas de invariancia se pueden aplicar luego a la tarea de resumir la distribución posterior. En otros casos, los análisis estadísticos se llevan a cabo sin un modelo estadístico completamente definido o la teoría clásica de la inferencia estadística no se puede aplicar fácilmente porque la familia de modelos que se están considerando no son susceptibles de tal tratamiento. Además de estos casos en los que la teoría general no prescribe un estimador, el concepto de invarianza de un estimador se puede aplicar cuando se buscan estimadores de formas alternativas, ya sea por simplicidad de aplicación del estimador o para que el estimador sea robusto .

El concepto de invariancia se utiliza a veces por sí solo como una forma de elegir entre estimadores, pero esto no es necesariamente definitivo. Por ejemplo, un requisito de invarianza puede ser incompatible con el requisito de que el estimador sea sin sesgo en la media ; por otro lado, el criterio de sesgo de la mediana se define en términos de la distribución muestral del estimador y, por lo tanto, es invariante bajo muchas transformaciones.

Un uso del concepto de invariancia es cuando se propone una clase o familia de estimadores y se debe seleccionar una formulación particular entre ellos. Un procedimiento consiste en imponer propiedades de invariancia relevantes y luego encontrar la formulación dentro de esta clase que tenga las mejores propiedades, lo que lleva a lo que se denomina estimador invariante óptimo.

Algunas clases de estimadores invariantes

Hay varios tipos de transformaciones que se consideran útiles cuando se trabaja con estimadores invariantes. Cada uno da lugar a una clase de estimadores que son invariantes a esos tipos particulares de transformación.

Invarianza de cambio: teóricamente, las estimaciones de un parámetro de ubicación deben ser invariantes a cambios simples de los valores de los datos. Si todos los valores de los datos aumentan en una cantidad determinada, la estimación debería cambiar en la misma cantidad. Al considerar la estimación utilizando un promedio ponderado , este requisito de invarianza implica inmediatamente que las ponderaciones deben sumar uno. Si bien el mismo resultado a menudo se deriva de un requisito de insesgado, el uso de "invariancia" no requiere que exista un valor medio y no hace uso de ninguna distribución de probabilidad en absoluto.
Invarianza de escala: tenga en cuenta que este tema sobre la invariancia del parámetro de escala del estimador no debe confundirse con la invariancia de escala más general sobre el comportamiento de sistemas bajo propiedades agregadas (en física).
Invarianza de transformación de parámetros: aquí, la transformación se aplica solo a los parámetros. El concepto aquí es que esencialmente se debe hacer la misma inferencia a partir de datos y un modelo que involucre un parámetro θ como se haría a partir de los mismos datos si el modelo usara un parámetro φ, donde φ es una transformación uno a uno de θ, φ = h (θ). De acuerdo con este tipo de invariancia, los resultados de los estimadores invariantes de transformación también deben estar relacionados por φ = h (θ). Los estimadores de máxima verosimilitud tienen esta propiedad cuando la transformación es monótona . Aunque las propiedades asintóticas del estimador pueden ser invariantes, las propiedades de las muestras pequeñas pueden ser diferentes y es necesario derivar una distribución específica. ^[2]
Invarianza de permutación: cuando un conjunto de valores de datos puede ser representado por un modelo estadístico que son resultados de variables aleatorias independientes e idénticamente distribuidas , es razonable imponer el requisito de que cualquier estimador de cualquier propiedad de la distribución común debe ser invariante de permutación : específicamente que el estimador, considerado como una función del conjunto de valores de datos, no debería cambiar si los elementos de datos se intercambian dentro del conjunto de datos.

La combinación de invariancia de permutación e invariancia de ubicación para estimar un parámetro de ubicación a partir de un conjunto de datos independiente e idénticamente distribuido utilizando un promedio ponderado implica que las ponderaciones deben ser idénticas y sumar uno. Por supuesto, pueden ser preferibles otros estimadores que no sean un promedio ponderado.

Estimadores óptimos invariantes

Bajo esta configuración, se nos da un conjunto de medidas ${\ Displaystyle x}$ que contiene información sobre un parámetro desconocido ${\ Displaystyle \ theta}$ . Las medidas ${\ Displaystyle x}$ se modelan como una variable aleatoria vectorial que tiene una función de densidad de probabilidad ${\ Displaystyle f (x | \ theta)}$ que depende de un vector de parámetros ${\ Displaystyle \ theta}$ .

El problema es estimar ${\ Displaystyle \ theta}$ dado ${\ Displaystyle x}$ . La estimación, denotada por ${\ Displaystyle a}$ , es una función de las medidas y pertenece a un conjunto ${\ Displaystyle A}$ . La calidad del resultado está definida por una función de pérdida. ${\ Displaystyle L = L (a, \ theta)}$ que determina una función de riesgo ${\ Displaystyle R = R (a, \ theta) = E [L (a, \ theta) | \ theta]}$ . Los conjuntos de posibles valores de ${\ Displaystyle x}$ , ${\ Displaystyle \ theta}$ , y ${\ Displaystyle a}$ se denotan por ${\ Displaystyle X}$ , ${\ Displaystyle \ Theta}$ , y ${\ Displaystyle A}$ , respectivamente.

En clasificación

En la clasificación estadística , la regla que asigna una clase a un nuevo elemento de datos puede considerarse un tipo especial de estimador. Se pueden aplicar una serie de consideraciones de tipo invariante al formular conocimientos previos para el reconocimiento de patrones .

Entorno matemático

Definición

Un estimador invariante es un estimador que obedece las siguientes dos reglas: ^{[ cita requerida ]}

Principio de invariancia racional: la acción tomada en un problema de decisión no debe depender de la transformación de la medida utilizada.
Principio de invariancia: si dos problemas de decisión tienen la misma estructura formal (en términos de ${\ Displaystyle X}$ , ${\ Displaystyle \ Theta}$ , ${\ Displaystyle f (x | \ theta)}$ y ${\ Displaystyle L}$ ), entonces se debe utilizar la misma regla de decisión en cada problema.

Para definir formalmente un estimador invariante o equivariante, primero se necesitan algunas definiciones relacionadas con grupos de transformaciones. Dejar ${\ Displaystyle X}$ denotar el conjunto de posibles muestras de datos. Un grupo de transformaciones de ${\ Displaystyle X}$ , para ser denotado por ${\ Displaystyle G}$ , es un conjunto de (medible) 1: 1 y en transformaciones de ${\ Displaystyle X}$ en sí mismo, que cumple las siguientes condiciones:

Si ${\ Displaystyle g_ {1} \ in G}$ y ${\ Displaystyle g_ {2} \ in G}$ luego ${\ Displaystyle g_ {1} g_ {2} \ in G \,}$
Si ${\ Displaystyle g \ in G}$ luego ${\ displaystyle g ^ {- 1} \ in G}$ , dónde ${\ Displaystyle g ^ {- 1} (g (x)) = x \ ,.}$ (Es decir, cada transformación tiene una inversa dentro del grupo).
${\ Displaystyle e \ in G}$ (es decir, hay una transformación de identidad ${\ Displaystyle e (x) = x \,}$ )

Conjuntos de datos ${\ Displaystyle x_ {1}}$ y ${\ Displaystyle x_ {2}}$ en ${\ Displaystyle X}$ son equivalentes si ${\ Displaystyle x_ {1} = g (x_ {2})}$ para algunos ${\ Displaystyle g \ in G}$ . Todos los puntos equivalentes forman una clase de equivalencia . Tal clase de equivalencia se llama órbita (en ${\ Displaystyle X}$ ). La ${\ Displaystyle x_ {0}}$ orbita, ${\ Displaystyle X (x_ {0})}$ , es el set ${\ Displaystyle X (x_ {0}) = \ {g (x_ {0}): g \ in G \}}$ . Si ${\ Displaystyle X}$ consiste en una sola órbita entonces ${\ Displaystyle g}$ se dice que es transitivo.

Una familia de densidades ${\ Displaystyle F}$ se dice que es invariante en el grupo ${\ Displaystyle G}$ si, por cada ${\ Displaystyle g \ in G}$ y ${\ Displaystyle \ theta \ in \ Theta}$ existe un único ${\ Displaystyle \ theta ^ {*} \ in \ Theta}$ tal que ${\ Displaystyle Y = g (x)}$ tiene densidad ${\ Displaystyle f (y | \ theta ^ {*})}$ . ${\ Displaystyle \ theta ^ {*}}$ será denotado ${\ Displaystyle {\ bar {g}} (\ theta)}$ .

Si ${\ Displaystyle F}$ es invariante bajo el grupo ${\ Displaystyle G}$ entonces la función de pérdida ${\ Displaystyle L (\ theta, a)}$ se dice que es invariante bajo ${\ Displaystyle G}$ si por cada ${\ Displaystyle g \ in G}$ y ${\ Displaystyle a \ in A}$ existe un ${\ Displaystyle a ^ {*} \ in A}$ tal que ${\ Displaystyle L (\ theta, a) = L ({\ bar {g}} (\ theta), a ^ {*})}$ para todos ${\ Displaystyle \ theta \ in \ Theta}$ . El valor transformado ${\ Displaystyle a ^ {*}}$ será denotado por ${\ Displaystyle {\ tilde {g}} (a)}$ .

En lo anterior, ${\ Displaystyle {\ bar {G}} = \ {{\ bar {g}}: g \ in G \}}$ es un grupo de transformaciones de ${\ Displaystyle \ Theta}$ a sí mismo y ${\ Displaystyle {\ tilde {G}} = \ {{\ tilde {g}}: g \ en G \}}$ es un grupo de transformaciones de ${\ Displaystyle A}$ a sí mismo.

Un problema de estimación es invariante (equivariante) bajo ${\ Displaystyle G}$ si existen tres grupos ${\ Displaystyle G, {\ bar {G}}, {\ tilde {G}}}$ como se define arriba.

Para un problema de estimación que es invariante bajo ${\ Displaystyle G}$ , estimador ${\ Displaystyle \ delta (x)}$ es un estimador invariante bajo ${\ Displaystyle G}$ si por todos ${\ Displaystyle x \ in X}$ y ${\ Displaystyle g \ in G}$ ,

{\ Displaystyle \ delta (g (x)) = {\ tilde {g}} (\ delta (x)).}

Propiedades

La función de riesgo de un estimador invariante, ${\ Displaystyle \ delta}$ , es constante en las órbitas de ${\ Displaystyle \ Theta}$ . Equivalentemente ${\ Displaystyle R (\ theta, \ delta) = R ({\ bar {g}} (\ theta), \ delta)}$ para todos ${\ Displaystyle \ theta \ in \ Theta}$ y ${\ displaystyle {\ bar {g}} \ in {\ bar {G}}}$ .
La función de riesgo de un estimador invariante con transitivo ${\ Displaystyle {\ bar {g}}}$ es constante.

Para un problema dado, el estimador invariante con el riesgo más bajo se denomina "mejor estimador invariante". No siempre se puede lograr el mejor estimador invariante. Un caso especial para el que se puede lograr es el caso cuando ${\ Displaystyle {\ bar {g}}}$ es transitivo.

Ejemplo: parámetro de ubicación

Suponer ${\ Displaystyle \ theta}$ es un parámetro de ubicación si la densidad de ${\ Displaystyle X}$ es de la forma ${\ Displaystyle f (x- \ theta)}$ . Para ${\ Displaystyle \ Theta = A = \ mathbb {R} ^ {1}}$ y ${\ Displaystyle L = L (a- \ theta)}$ , el problema es invariante bajo ${\ Displaystyle g = {\ bar {g}} = {\ tilde {g}} = \ {g_ {c}: g_ {c} (x) = x + c, c \ in \ mathbb {R} \} }$ . El estimador invariante en este caso debe satisfacer

{\ Displaystyle \ delta (x + c) = \ delta (x) + c, {\ text {para todos}} c \ in \ mathbb {R},}

así es de la forma ${\ Displaystyle \ delta (x) = x + K}$ ( ${\ Displaystyle K \ in \ mathbb {R}}$ ). ${\ Displaystyle {\ bar {g}}}$ es transitivo en ${\ Displaystyle \ Theta}$ por lo que el riesgo no varía con ${\ Displaystyle \ theta}$ : es decir, ${\ Displaystyle R (\ theta, \ delta) = R (0, \ delta) = \ operatorname {E} [L (X + K) | \ theta = 0]}$ . El mejor estimador invariante es el que trae el riesgo ${\ Displaystyle R (\ theta, \ delta)}$ al mínimo.

En el caso de que L sea el error al cuadrado ${\ Displaystyle \ delta (x) = x- \ operatorname {E} [X | \ theta = 0].}$

Estimador de Pitman

El problema de la estimación es que ${\ Displaystyle X = (X_ {1}, \ dots, X_ {n})}$ tiene densidad ${\ Displaystyle f (x_ {1} - \ theta, \ dots, x_ {n} - \ theta)}$ , donde θ es un parámetro a estimar, y donde la función de pérdida es ${\ Displaystyle L (| a- \ theta |)}$ . Este problema es invariante con los siguientes grupos de transformación (aditivos):

{\ Displaystyle G = \ {g_ {c}: g_ {c} (x) = (x_ {1} + c, \ dots, x_ {n} + c), c \ in \ mathbb {R} ^ {1 } \},}

{\ Displaystyle {\ bar {G}} = \ {g_ {c}: g_ {c} (\ theta) = \ theta + c, c \ in \ mathbb {R} ^ {1} \},}

{\ Displaystyle {\ tilde {G}} = \ {g_ {c}: g_ {c} (a) = a + c, c \ in \ mathbb {R} ^ {1} \}.}

El mejor estimador invariante ${\ Displaystyle \ delta (x)}$ es el que minimiza

{\ Displaystyle {\ frac {\ int _ {- \ infty} ^ {\ infty} L (\ delta (x) - \ theta) f (x_ {1} - \ theta, \ dots, x_ {n} - \ theta) d \ theta} {\ int _ {- \ infty} ^ {\ infty} f (x_ {1} - \ theta, \ dots, x_ {n} - \ theta) d \ theta}},}

y este es el estimador de Pitman (1939).

Para el caso de pérdida por error al cuadrado, el resultado es

{\ Displaystyle \ delta (x) = {\ frac {\ int _ {- \ infty} ^ {\ infty} \ theta f (x_ {1} - \ theta, \ dots, x_ {n} - \ theta) d \ theta} {\ int _ {- \ infty} ^ {\ infty} f (x_ {1} - \ theta, \ dots, x_ {n} - \ theta) d \ theta}}.}

Si ${\ Displaystyle x \ sim N (\ theta 1_ {n}, I) \, \!}$ (es decir, una distribución normal multivariante con componentes de varianza unitaria independientes), entonces

{\ Displaystyle \ delta _ {pitman} = \ delta _ {ML} = {\ frac {\ sum {x_ {i}}} {n}}.}

Si ${\ Displaystyle x \ sim C (\ theta 1_ {n}, I \ sigma ^ {2}) \, \!}$ (componentes independientes que tienen una distribución de Cauchy con parámetro de escala σ ) entonces ${\ Displaystyle \ delta _ {pitman} \ neq \ delta _ {ML}}$ ,. Sin embargo, el resultado es

{\ Displaystyle \ delta _ {pitman} = \ sum _ {k = 1} ^ {n} {x_ {k} \ left [{\ frac {{\ text {Re}} \ {w_ {k} \}} {\ sum _ {m = 1} ^ {n} {{\ text {Re}} \ {w_ {k} \}}}} \ right]}, \ qquad n> 1,}

con

{\ Displaystyle w_ {k} = \ prod _ {j \ neq k} \ left [{\ frac {1} {(x_ {k} -x_ {j}) ^ {2} +4 \ sigma ^ {2} }} \ derecha] \ izquierda [1 - {\ frac {2 \ sigma} {(x_ {k} -x_ {j})}} i \ derecha].}

Referencias

↑ ver sección 5.2.1 en Gourieroux, C. y Monfort, A. (1995). Estadística y modelos econométricos, volumen 1. Cambridge University Press.
^ Gouriéroux y Monfort (1995)

Berger, James O. (1985). Teoría de la decisión estadística y análisis bayesiano (2ª ed.). Nueva York: Springer-Verlag. ISBN 0-387-96098-8. Señor 0804611 .^{[ página necesaria ]}
Freue, Gabriela V. Cohen (2007). "El estimador de Pitman del parámetro de ubicación de Cauchy". Revista de Planificación e Inferencia Estadística . 137 : 1900-1913. doi : 10.1016 / j.jspi.2006.05.002 .
Pitman, EJG (1939). "La estimación de la ubicación y los parámetros de escala de una población continua de cualquier forma". Biometrika . 30 (3/4): 391–421. doi : 10.1093 / biomet / 30.3-4.391 . JSTOR 2332656 .
Pitman, EJG (1939). "Pruebas de hipótesis sobre ubicación y parámetros de escala". Biometrika . 31 (1/2): 200–215. doi : 10.1093 / biomet / 31.1-2.200 . JSTOR 2334983 .

[1] ver sección 5.2.1 en Gourieroux, C. y Monfort, A. (1995). Estadística y modelos econométricos, volumen 1. Cambridge University Press.

[2] Gouriéroux y Monfort (1995)

[1]