Principio de los grupos de transformación

El principio de grupos de transformación es una regla para asignar probabilidades epistémicas en un problema de inferencia estadística. Fue sugerido por primera vez por Edwin T. Jaynes ^[1] y puede verse como una generalización del principio de indiferencia .

Esto puede verse como un método para crear probabilidades objetivas de ignorancia en el sentido de que dos personas que apliquen el principio y se enfrenten a la misma información asignarán las mismas probabilidades.

Motivación y descripción del método.

El método está motivado por el siguiente principio normativo o desideratum:

En dos problemas en los que tenemos la misma información previa, debemos asignar las mismas probabilidades previas

El método surge entonces de "transformar" un problema dado en uno equivalente. Este método tiene estrechas conexiones con la teoría de grupos y, en gran medida, se trata de encontrar simetría en un problema dado y luego explotar esta simetría para asignar probabilidades previas.

En problemas con variables discretas (por ejemplo, dados, cartas, datos categóricos) el principio se reduce al principio de indiferencia , ya que la "simetría" en el caso discreto es una permutación de las etiquetas, es decir, el grupo de permutación es el grupo de transformación relevante para este problema.

En problemas con variables continuas, este método generalmente se reduce a resolver una ecuación diferencial . Dado que las ecuaciones diferenciales no siempre conducen a soluciones únicas, no se puede garantizar que este método produzca una solución única. Sin embargo, en una gran clase de los tipos de parámetros más comunes, conduce a soluciones únicas (consulte los ejemplos a continuación).

Ejemplos de

Caso discreto: lanzamiento de monedas

Considere un problema en el que todo lo que le dicen es que hay una moneda y tiene una cara (H) y una cola (T). Denotar esta información por I . A continuación, se le pregunta "¿cuál es la probabilidad de que salgan caras?". Llame a este problema 1 y denote la probabilidad P (H | I) . Considere otra pregunta "¿Cuál es la probabilidad de Colas?". Llame a este problema 2 y denote esta probabilidad por P (T | I) .

Ahora, de la información que estaba realmente en la pregunta, no hay distinción entre cara y cruz. Todo el párrafo anterior podría reescribirse con "Cabezas" y "Colas" intercambiadas, y "H" y "T" intercambiadas, y el enunciado del problema no sería diferente. El uso del desiderátum exige entonces que

${\ Displaystyle P (H | I) = P (T | I)}$

Las probabilidades deben sumar 1, esto significa que

${\ displaystyle P (H | I) + P (T | I) = 1 \ rightarrow 2P (H | I) = 1 \ rightarrow P (H | I) = 0.5}$ .

Así tenemos una solución única. Este argumento fácilmente extensiones a N categorías, para dar el "plano" probabilidad anterior 1 / N . Esto proporciona un argumento basado en la coherencia para el principio de indiferencia, que dice lo siguiente: si alguien es realmente ignorante acerca de un conjunto discreto / contable de resultados aparte de su existencia potencial, pero no le asigna probabilidades previas iguales, entonces está asignando diferentes probabilidades cuando se les da la misma información .

Esto puede expresarse alternativamente como: una persona que no usa el principio de indiferencia para asignar probabilidades previas a variables discretas, o no las ignora o razona de manera inconsistente .

Caso continuo: parámetro de ubicación

Este es el ejemplo más sencillo de variables continuas. Se da indicando que uno es "ignorante" del parámetro de ubicación en un problema dado. La afirmación de que un parámetro es un "parámetro de ubicación" es que la distribución muestral o la probabilidad de una observación X depende de un parámetro ${\ Displaystyle \ mu}$ solo a través de la diferencia

${\ Displaystyle p (X | \ mu, I) = f (X- \ mu)}$

para alguna distribución normalizada, pero por lo demás arbitraria f (.) .

Tenga en cuenta que la información dada de que f (.) Es una distribución normalizada es un prerrequisito importante para obtener la conclusión final de un a priori uniforme; porque las distribuciones de probabilidad uniformes solo se pueden normalizar dado un dominio de entrada finito. En otras palabras, la suposición de que f (.) Está normalizada también requiere implícitamente que el parámetro de ubicación ${\ Displaystyle \ mu}$ no se extiende hasta el infinito en ninguna de sus dimensiones. De lo contrario, el uniforme previo no sería normalizable.

Los ejemplos de parámetros de ubicación incluyen el parámetro medio de una distribución normal con varianza conocida y el parámetro mediano de una distribución de Cauchy con rango intercuartil conocido.

Los dos "problemas equivalentes" en este caso, dado el conocimiento de la distribución muestral ${\ Displaystyle p (X | \ mu, I) = f (X- \ mu)}$ , pero ningún otro conocimiento sobre ${\ Displaystyle \ mu}$ , viene dado simplemente por un "desplazamiento" de igual magnitud en X y ${\ Displaystyle \ mu}$ . Esto se debe a la relación:

${\ Displaystyle f (X- \ mu) = f ([X + b] - [\ mu + b]) = f (X ^ {(1)} - \ mu ^ {(1)})}$

Así que simplemente "desplazar" todas las cantidades hacia arriba en algún número by resolver en el "espacio desplazado" y luego "cambiar" al original debería dar exactamente la misma respuesta que si acabáramos de trabajar en el espacio original. Haciendo la transformación de ${\ Displaystyle \ mu}$ a ${\ Displaystyle \ mu ^ {(1)}}$ tiene un jacobiano de simplemente 1, por lo que la probabilidad previa ${\ Displaystyle g (\ mu) = p (\ mu | I)}$ debe satisfacer la ecuación funcional:

${\ Displaystyle g (\ mu) = \ izquierda | {\ parcial \ mu ^ {(1)} \ sobre \ parcial \ mu} \ derecha | g (\ mu ^ {(1)}) = g (\ mu + B)}$

Y la única función que satisface esta ecuación es la "constante previa":

${\ Displaystyle p (\ mu | I) \ propto 1}$

Por lo tanto, el prior uniforme se justifica para expresar una ignorancia completa de una distribución previa normalizada en un parámetro de ubicación continuo y finito.

Caso continuo: parámetro de escala

Como en el argumento anterior, una declaración que ${\ Displaystyle \ sigma}$ es un parámetro de escala significa que la distribución muestral tiene la forma funcional:

${\ Displaystyle p (X | \ sigma, I) = {1 \ over \ sigma} f \ left ({X \ over \ sigma} \ right)}$

Donde, como antes, f (.) Es una función de densidad de probabilidad normalizada. El requisito de que las probabilidades sean finitas y positivas fuerza la condición ${\ Displaystyle \ sigma> 0}$ . Los ejemplos incluyen la desviación estándar de una distribución normal con media conocida o la distribución gamma . La "simetría" en este problema se encuentra al señalar que

${\ Displaystyle {X \ over \ sigma} = {Xa \ over \ sigma a}; a> 0}$

y ambientación ${\ Displaystyle X ^ {(1)} = Xa}$ y ${\ Displaystyle \ sigma ^ {(1)} = \ sigma a.}$ Pero, a diferencia del caso del parámetro de ubicación, el jacobiano de esta transformación en el espacio muestral y el espacio del parámetro es a , no 1. Por lo tanto, la probabilidad de muestreo cambia a:

${\ Displaystyle p (X ^ {(1)} | \ sigma, I) = {1 \ over a} \ cdot {1 \ over \ sigma} f \ left ({Xa \ over \ sigma a} \ right) = {1 \ over \ sigma ^ {(1)}} f \ left ({X ^ {(1)} \ over \ sigma ^ {(1)}} \ right)}$

Que es invariante (es decir, tiene la misma forma antes y después de la transformación), y la probabilidad previa cambia a:

${\ Displaystyle p (\ sigma | I) = {1 \ over a} p (\ sigma ^ {(1)} | I) = {1 \ over a} p \ left ({\ sigma \ over a} | I \derecho)}$

Que tiene la solución única (hasta una constante de proporcionalidad):

${\ Displaystyle p (\ sigma | I) \ propto {1 \ over \ sigma} \ rightarrow p (\ log (\ sigma) | I) \ propto 1}$

Cuál es el conocido anterior de Jeffreys para los parámetros de escala, que es "plano" en la escala logarítmica, aunque se deriva usando un argumento diferente al aquí, basado en la función de información de Fisher . El hecho de que estos dos métodos den los mismos resultados en este caso no lo implica en general.

Caso continuo: la paradoja de Bertrand

Edwin Jaynes utilizó este principio para dar una resolución a la paradoja de Bertrand ^[2] al afirmar su ignorancia sobre la posición exacta del círculo. Los detalles están disponibles en la referencia o en el enlace.

Discusión

Este argumento depende fundamentalmente de yo ; cambiar la información puede resultar en una asignación de probabilidad diferente. Es tan crucial como cambiar los axiomas en la lógica deductiva: pequeños cambios en la información pueden conducir a grandes cambios en las asignaciones de probabilidad permitidas por el "razonamiento consistente".

Para ilustrar, suponga que el ejemplo del lanzamiento de una moneda también establece como parte de la información que la moneda tiene un lado (S) (es decir, es una moneda real ). Denotar esta nueva información por N . El mismo argumento que usa "total ignorancia", o más precisamente, la información realmente descrita, da:

${\ Displaystyle P (H | I, N) = P (T | I, N) = P (S | I, N) = 1/3}$

Pero esto parece absurdo para la mayoría de la gente: la intuición nos dice que deberíamos tener P (S) muy cerca de cero. Esto se debe a que la intuición de la mayoría de la gente no ve la "simetría" entre una moneda que cae de lado en comparación con la que cae de cara. Nuestra intuición dice que las "etiquetas" particulares en realidad contienen alguna información sobre el problema. Se podría usar un argumento simple para hacer esto más formal matemáticamente (por ejemplo, la física del problema dificulta que una moneda lanzada caiga de lado): hacemos una distinción entre monedas "gruesas" y monedas "delgadas" (aquí el espesor se mide en relación con el diámetro de la moneda). Se podría suponer razonablemente que:

${\ displaystyle P (S | {\ text {moneda fina}}) \ neq P (S | {\ text {moneda gruesa}})}$

Tenga en cuenta que esta nueva información probablemente no rompería la simetría entre "caras" y "colas", por lo que la permutación aún se aplicaría al describir "problemas equivalentes", y requeriríamos:

${\ displaystyle P (T | {\ text {moneda fina}}) = P (H | {\ text {moneda fina}}) \ neq P (H | {\ text {moneda gruesa}}) = P (T | {\ text {moneda gruesa}})}$

Este es un buen ejemplo de cómo se puede utilizar el principio de los grupos de transformación para "dar cuerpo" a las opiniones personales. Toda la información utilizada en la derivación se indica explícitamente. Si una asignación de probabilidad anterior no "parece correcta" de acuerdo con lo que le dice su intuición, entonces debe haber alguna "información de fondo" que no se haya incluido en el problema. ^[3] Entonces es la tarea tratar de averiguar cuál es esa información. En cierto sentido, al combinar el método de transformación, los grupos con la intuición se pueden utilizar para "eliminar" las suposiciones reales que uno tiene. Esto lo convierte en una herramienta muy poderosa para la obtención previa.

Introducir el grosor de la moneda como variable es permisible porque su existencia estaba implícita (por ser una moneda real) pero su valor no estaba especificado en el problema. Introducir un "parámetro de molestia" y luego hacer que la respuesta sea invariante a este parámetro es una técnica muy útil para resolver problemas supuestamente "mal planteados" como la paradoja de Bertrand. Algunos han llamado a esto "la estrategia bien planteada". ^[4]

El verdadero poder de este principio radica en su aplicación a parámetros continuos, donde la noción de "total ignorancia" no está tan bien definida como en el caso discreto. Sin embargo, si se aplica con límites infinitos, a menudo da distribuciones previas inadecuadas . Tenga en cuenta que el caso discreto para un conjunto infinito numerable, como (0,1,2, ...) también produce un anterior discreto inadecuado. Para la mayoría de los casos en los que la probabilidad es lo suficientemente "elevada", esto no presenta ningún problema. Sin embargo, para estar absolutamente seguro de evitar resultados incoherentes y paradojas, la distribución previa debe abordarse mediante un proceso de limitación bien definido y de buen comportamiento. Uno de esos procesos es el uso de una secuencia de a priori con rango creciente, como ${\ Displaystyle f (M) = {I (M \ in [-b, b]) \ over 2b}}$ donde el limite ${\ displaystyle b \ rightarrow \ infty}$ debe tomarse al final del cálculo, es decir, después de la normalización de la distribución posterior. Lo que efectivamente está haciendo es asegurarse de que uno está tomando el límite de la proporción, y no la proporción de dos límites. Consulte Límite de una función # Propiedades para obtener detalles sobre los límites y por qué este orden de operaciones es importante.

Si el límite de la relación no existe o diverge, entonces esto da un posterior inadecuado (es decir, un posterior que no se integra a uno). Esto indica que los datos son tan poco informativos sobre los parámetros que la probabilidad previa de valores arbitrariamente grandes sigue siendo importante en la respuesta final. En cierto sentido, un posterior inadecuado significa que la información contenida en los datos no ha "descartado" valores arbitrariamente grandes. Mirando los antecedentes impropios de esta manera, parece tener algún sentido que los previos de "completa ignorancia" deberían ser impropios, porque la información utilizada para derivarlos es tan escasa que no puede descartar valores absurdos por sí sola. Desde un estado de completo desconocimiento, solo los datos o alguna otra forma de información adicional pueden descartar tales absurdos.

Notas

^ http://bayes.wustl.edu/etj/articles/prior.pdf
^ http://bayes.wustl.edu/etj/articles/well.pdf
^ http://bayes.wustl.edu/etj/articles/cmonkeys.pdf
^ Shackel, Nicholas (2007). "Paradoja de Bertrand y el principio de indiferencia" (PDF) . Filosofía de la ciencia . 74 (2): 150. doi : 10.1086 / 519028 . JSTOR 519028 .

Referencias

Edwin Thompson Jaynes. Teoría de la probabilidad: la lógica de la ciencia . Cambridge University Press, 2003. ISBN 0-521-59271-2 .

[1] ttp://bayes.wustl.edu/etj/articles/prior.pdf

[2] ttp://bayes.wustl.edu/etj/articles/well.pdf

[3] ttp://bayes.wustl.edu/etj/articles/cmonkeys.pdf

[4] Shackel, Nicholas (2007). "Paradoja de Bertrand y el principio de indiferencia" (PDF) . Filosofía de la ciencia . 74 (2): 150. doi : 10.1086 / 519028 . JSTOR 519028 .

[1]