Principio de verosimilitud

En estadística , el principio de verosimilitud es la proposición de que, dado un modelo estadístico , toda la evidencia en una muestra relevante para los parámetros del modelo está contenida en la función de verosimilitud .

Una función de verosimilitud surge de una función de densidad de probabilidad considerada como una función de su argumento de parametrización distributiva. Por ejemplo, considere un modelo que da la función de densidad de probabilidad ƒ _X ( x | θ ) de la variable aleatoria observable X como una función de un parámetro θ . Entonces, para un valor específico x de X , la función ${\ Displaystyle {\ mathcal {L}}}$ ( θ | x ) = ƒ _X ( x | θ ) es una función de verosimilitud de θ : da una medida de cuán "probable" es cualquier valor particular de θ , si sabemos que X tiene el valor x . La función de densidad puede ser una densidad con respecto a la medida de conteo, es decir, una función de masa de probabilidad .

Dos funciones de verosimilitud son equivalentes si una es un múltiplo escalar de la otra. ^[a] El principio de verosimilitud es el siguiente: toda la información de los datos que es relevante para las inferencias sobre el valor de los parámetros del modelo está en la clase de equivalencia a la que pertenece la función de verosimilitud. El principio de fuerte verosimilitud aplica este mismo criterio a casos tales como experimentos secuenciales donde la muestra de datos que está disponible resulta de aplicar una regla de detención a las observaciones anteriores en el experimento. ^[1]

Ejemplo

Suponer

X es el número de éxitos en doce ensayos de Bernoulli independientes con probabilidad θ de éxito en cada ensayo, y
Y es el número de intentos independientes de Bernoulli necesarios para obtener tres éxitos, nuevamente con probabilidad θ (= 1/2 para un lanzamiento de moneda) de éxito en cada intento.

Entonces la observación de que X = 3 induce la función de verosimilitud

{\ Displaystyle {\ mathcal {L}} (\ theta \ mid X = 3) = {\ binom {12} {3}} \ theta ^ {3} (1- \ theta) ^ {9} = 220 \ theta ^ {3} (1- \ theta) ^ {9},}

mientras que la observación de que Y = 12 induce la función de verosimilitud

{\ Displaystyle {\ mathcal {L}} (\ theta \ mid Y = 12) = {\ binom {11} {2}} \ theta ^ {3} (1- \ theta) ^ {9} = 55 \ theta ^ {3} (1- \ theta) ^ {9}.}

El principio de verosimilitud dice que, dado que los datos son los mismos en ambos casos, las inferencias extraídas sobre el valor de θ también deberían ser las mismas. Además, todo el contenido inferencial de los datos sobre el valor de θ está contenido en las dos probabilidades y es el mismo si son proporcionales entre sí. Este es el caso del ejemplo anterior, que refleja el hecho de que la diferencia entre observar X = 3 y observar Y = 12 no radica en los datos reales, sino simplemente en el diseño del experimento . Específicamente, en un caso, uno ha decidido de antemano intentarlo doce veces; en el otro, seguir intentándolo hasta que se observen tres aciertos. La inferencia sobre θ debería ser la misma, y esto se refleja en el hecho de que las dos probabilidades son proporcionales entre sí.

Esto no es siempre el caso, sin embargo. El uso de métodos frecuentistas que involucran valores p conduce a inferencias diferentes para los dos casos anteriores, ^[2] mostrando que el resultado de los métodos frecuentistas depende del procedimiento experimental y, por lo tanto, viola el principio de verosimilitud.

La ley de la probabilidad

Un concepto relacionado es la ley de verosimilitud , la noción de que la medida en que la evidencia apoya un valor de parámetro o hipótesis contra otro se indica por la razón de sus probabilidades, su razón de verosimilitud . Es decir,

{\ Displaystyle \ Lambda = {{\ mathcal {L}} (a \ mid X = x) \ over {\ mathcal {L}} (b \ mid X = x)} = {P (X = x \ mid a ) \ sobre P (X = x \ mid b)}}

es el grado en que la observación x apoya el valor del parámetro o la hipótesis a contra b . Si esta relación es 1, la evidencia es indiferente; si es mayor que 1, la evidencia apoya el valor a contra b ; o si es menos, viceversa.

En las estadísticas bayesianas , esta relación se conoce como el factor de Bayes , y la regla de Bayes puede verse como la aplicación de la ley de probabilidad a la inferencia.

En la inferencia frecuentista , la razón de verosimilitud se usa en la prueba de razón de verosimilitud , pero también se usan otras pruebas de no verosimilitud. El lema de Neyman-Pearson establece que la prueba de razón de verosimilitud es la prueba más poderosa para comparar dos hipótesis simples a un nivel de significancia dado , lo que da una justificación frecuentista para la ley de verosimilitud.

La combinación del principio de verosimilitud con la ley de verosimilitud produce la consecuencia de que el valor del parámetro que maximiza la función de verosimilitud es el valor que está más fuertemente respaldado por la evidencia. Ésta es la base del método ampliamente utilizado de máxima verosimilitud .

Historia

El principio de probabilidad se identificó por primera vez con ese nombre impreso en 1962 (Barnard et al., Birnbaum y Savage et al.), Pero los argumentos para el mismo principio, sin nombre, y el uso del principio en aplicaciones se remontan a los trabajos de RA Fisher en la década de 1920. La ley de probabilidad fue identificada con ese nombre por I. Hacking (1965). Más recientemente, AWF Edwards ha defendido el principio de probabilidad como principio general de inferencia . El principio de probabilidad ha sido aplicado a la filosofía de la ciencia por R. Royall. ^[3]

Birnbaum demostró que el principio de probabilidad se deriva de dos principios más primitivos y aparentemente razonables, el principio de condicionalidad y el principio de suficiencia :

El principio de condicionalidad dice que si se elige un experimento mediante un proceso aleatorio independiente de los estados de la naturaleza ${\ Displaystyle \ theta}$ , entonces solo el experimento realmente realizado es relevante para inferencias sobre ${\ Displaystyle \ theta}$ .
El principio de suficiencia dice que si ${\ Displaystyle T (X)}$ es una estadística suficiente para ${\ Displaystyle \ theta}$ , y si en dos experimentos con datos ${\ Displaystyle x_ {1}}$ y ${\ Displaystyle x_ {2}}$ tenemos ${\ Displaystyle T (x_ {1}) = T (x_ {2}) \,}$ , luego la evidencia sobre ${\ Displaystyle \ theta}$ dado por los dos experimentos es el mismo.

Argumentos a favor y en contra

Algunos métodos de estadística convencional ampliamente utilizados, por ejemplo, muchas pruebas de significancia , no son consistentes con el principio de verosimilitud.

Consideremos brevemente algunos de los argumentos a favor y en contra del principio de probabilidad.

El argumento original de Birnbaum

La prueba de Birnbaum del principio de probabilidad ha sido cuestionada por estadísticos como Michael Evans ^[4] y filósofos de la ciencia, incluida Deborah Mayo . ^[5]^[6] Alexander Dawid señala diferencias fundamentales entre las definiciones del principio de condicionalidad de Mayo y Birnbaum, argumentando que la prueba de Birnbaum no puede ser descartada tan fácilmente. ^[7] Greg Gandenberger ha proporcionado una nueva prueba del principio de probabilidad que aborda algunos de los contraargumentos de la prueba original. ^[8]

Argumentos de diseño experimental sobre el principio de verosimilitud

Los eventos no realizados juegan un papel en algunos métodos estadísticos comunes. Por ejemplo, el resultado de una prueba de significancia depende del valor $p$ , la probabilidad de un resultado tan extremo o más extremo que la observación, y esa probabilidad puede depender del diseño del experimento. En la medida en que se acepte el principio de probabilidad, tales métodos se niegan.

Algunas pruebas de significación clásicas no se basan en la probabilidad. Los siguientes son un simple y más ejemplo de aquellos complicada, utilizando un ejemplo comúnmente citado llamado la parada opcional problema .

Ejemplo 1: versión simple

Suponga que le digo que lancé una moneda 12 veces y en el proceso observé 3 caras. Puede hacer alguna inferencia sobre la probabilidad de que salga cara y si la moneda fue justa.

Supongamos que ahora digo que lancé la moneda hasta que observé 3 caras y la lancé 12 veces. ¿Hará ahora alguna inferencia diferente?

La función de verosimilitud es la misma en ambos casos: es proporcional a

{\ Displaystyle p ^ {3} (1-p) ^ {9} \ ,.}

Entonces, de acuerdo con el principio de probabilidad , en cualquier caso, la inferencia debería ser la misma.

Ejemplo 2: una versión más elaborada de las mismas estadísticas

Supongamos que varios científicos están evaluando la probabilidad de un resultado determinado (que llamaremos "éxito") en ensayos experimentales. La sabiduría convencional sugiere que si no existe un sesgo hacia el éxito o el fracaso, la probabilidad de éxito sería la mitad. Adam, un científico, realizó 12 ensayos y obtiene 3 éxitos y 9 fracasos. Uno de esos éxitos fue la duodécima y última observación. Entonces Adam dejó el laboratorio.

Bill, un colega en el mismo laboratorio, continuó el trabajo de Adam y publicó los resultados de Adam, junto con una prueba de significancia. Probó la hipótesis nula de que $p$ , la probabilidad de éxito, es igual a la mitad, frente a $p <0,5$ . La probabilidad del resultado observado de que de 12 ensayos 3 o algo menos (es decir, más extremos) fueron éxitos, si $H$ ₀ es verdadera, es

{\ Displaystyle \ left [{12 \ Choose 9} + {12 \ Choose 10} + {12 \ Choose 11} + {12 \ Choose 12} \ right] \ left ({1 \ over 2} \ right) ^ { 12}}

cual es $299 / 4096 = 7,3%$ . Por lo tanto, la hipótesis nula no se rechaza al nivel de significancia del 5%.

Charlotte, otra científica, lee el artículo de Bill y escribe una carta, diciendo que es posible que Adam siguiera intentándolo hasta obtener 3 éxitos, en cuyo caso la probabilidad de necesitar realizar 12 o más experimentos viene dada por

{\ Displaystyle 1- \ left [{10 \ choose 2} \ left ({1 \ over 2} \ right) ^ {11} + {9 \ choose 2} \ left ({1 \ over 2} \ right) ^ {10} + \ cdots + {2 \ choose 2} \ left ({1 \ over 2} \ right) ^ {3} \ right]}

cual es $134 / 4096 = 3,27%$ . Ahora el resultado es estadísticamente significativo al nivel del $5%$ . Tenga en cuenta que no hay contradicción entre estos dos análisis; ambos cálculos son correctos.

Para estos científicos, si un resultado es significativo o no depende del diseño del experimento, no de la probabilidad (en el sentido de la función de probabilidad) de que el valor del parámetro sea 1/2 .

Resumen de los problemas ilustrados

Algunos consideran resultados de este tipo como argumentos en contra del principio de probabilidad. Para otros, ejemplifica el valor del principio de verosimilitud y es un argumento en contra de las pruebas de significación.

Temas similares aparecen al comparar la prueba exacta de Fisher con la prueba de chi-cuadrado de Pearson .

La historia del voltímetro

Edwards da un argumento a favor del principio de probabilidad en su libro Likelihood . Cita la siguiente historia de JW Pratt, ligeramente condensada aquí. Tenga en cuenta que la función de probabilidad depende solo de lo que sucedió realmente y no de lo que podría haber sucedido.

Un ingeniero extrae una muestra aleatoria de tubos de electrones y mide sus voltajes. Las medidas oscilan entre 75 y 99 voltios. Un estadístico calcula la media muestral y un intervalo de confianza para la media verdadera. Más tarde, el estadístico descubre que el voltímetro lee solo hasta 100 voltios, por lo que técnicamente, la población parece estar " censurada ". Si el estadístico es ortodoxo, esto requiere un nuevo análisis. Sin embargo, el ingeniero dice que tiene otra lectura de medidor a 1000 voltios, que habría usado si el voltaje hubiera estado por encima de 100. Esto es un alivio para el estadístico, porque significa que la población no fue censurada efectivamente después de todo. Pero luego, el estadístico comprueba que el segundo medidor no estaba funcionando en el momento de las mediciones. El ingeniero informa al estadístico que no habría retrasado las mediciones originales hasta que se hubiera fijado el segundo medidor, y el estadístico le informa que se requieren nuevas mediciones. El ingeniero está asombrado. “¡ A continuación, estará preguntando por mi osciloscopio! "

Retroceso al ejemplo 2 en la sección anterior

Esta historia se puede traducir a la regla de detención de Adam anterior, de la siguiente manera: Adam se detuvo inmediatamente después de 3 éxitos, porque su jefe Bill le había ordenado que lo hiciera. Después de la publicación del análisis estadístico de Bill, Adam se da cuenta de que se ha perdido una instrucción posterior de Bill de realizar 12 ensayos, y que el artículo de Bill se basa en esta segunda instrucción. Adam está muy contento de haber obtenido sus 3 éxitos después de exactamente 12 intentos, y le explica a su amiga Charlotte que por coincidencia ejecutó la segunda instrucción. Más tarde, Adam se sorprende al escuchar la carta de Charlotte, explicando que ahora el resultado es significativo.

Ver también

Principio de condicionalidad
Estadísticas de verosimilismo

Notas

^ Geométricamente, si ocupan el mismo punto en el espacio proyectivo .

Referencias

^ Dodge, Y. (2003) El diccionario de términos estadísticos de Oxford. OUP. ISBN 0-19-920613-9
^ Vidakovic, Brani. "El principio de probabilidad" (PDF) . Escuela de Ingeniería Industrial y de Sistemas H. Milton Stewart . Georgia Tech . Consultado el 21 de octubre de 2017 .
^ Royall, Richard (1997). Evidencia estadística: un paradigma de verosimilitud . Boca Raton, FL: Chapman y Hall. ISBN 0-412-04411-0.
^ Evans, Michael (2013) ¿Qué prueba la prueba del teorema de Birnbaum?
^ Mayo, D. (2010) "Un error en el argumento de la condicionalidad y la suficiencia del principio de verosimilitud" en Error e inferencia: intercambios recientes sobre el razonamiento experimental, la confiabilidad y la objetividad y la racionalidad de la ciencia (D Mayo y A. Spanos eds .), Cambridge: Cambridge University Press: 305-314.
^ Mayo, Deborah (2014), " Sobre el argumento de Birnbaum para el principio de probabilidad fuerte ", Ciencia estadística , 29: 227-266 (con discusión).
^ Dawid, AP (2014), " Discusión de" Sobre el argumento de Birnbaum para el principio de probabilidad fuerte " ", Ciencia estadística , 29: 240-241
^ Gandenberger, Greg (2014), "Una nueva prueba del principio de probabilidad", British Journal for the Philosophy of Science , 66: 475-503; doi : 10.1093 / bjps / axt039 .

Barnard, GA ; GM Jenkins; CB Winsten (1962). "Inferencia de verosimilitud y series de tiempo". Revista de la Sociedad Real de Estadística, Serie A . 125 (3): 321–372. doi : 10.2307 / 2982406 . ISSN 0035-9238 . JSTOR 2982406 .
Berger, JO ; Wolpert, RL (1988). El principio de probabilidad (2ª ed.). Haywood, CA: Instituto de Estadística Matemática. ISBN 0-940600-13-7.
Birnbaum, Allan (1962). "Sobre las bases de la inferencia estadística". Revista de la Asociación Estadounidense de Estadística . 57 (298): 269–326. doi : 10.2307 / 2281640 . ISSN 0162-1459 . JSTOR 2281640 . Señor 0138176 . (Con discusión.)
Edwards, Anthony WF (1972). Probabilidad (1ª ed.). Cambridge: Cambridge University Press.
Edwards, Anthony WF (1992). Probabilidad (2ª ed.). Baltimore: Prensa de la Universidad Johns Hopkins. ISBN 0-8018-4445-2.
Edwards, Anthony WF (1974). "La historia de la probabilidad". Revista Estadística Internacional . 42 (1): 9-15. doi : 10.2307 / 1402681 . ISSN 0306-7734 . JSTOR 1402681 . Señor 0353514 .
Fisher, Ronald A. (1922). "Sobre los fundamentos matemáticos de la estadística teórica" (PDF texto completo) . Philosophical Transactions de la Royal Society A . 222 (594–604): 326. Bibcode : 1922RSPTA.222..309F . doi : 10.1098 / rsta.1922.0009 . Consultado el 28 de diciembre de 2008 .
Hackeo, Ian (1965). Lógica de inferencia estadística . Cambridge: Cambridge University Press. ISBN 0-521-05165-7.
Jeffreys, Harold (1961). La teoría de la probabilidad . Prensa de la Universidad de Oxford.
Mayo, Deborah G. (2010), "Un error en el argumento de la condicionalidad y la suficiencia del principio de verosimilitud" (PDF) , en Mayo, D; Spanos, A (eds.), Error and Inference: Recent Exchanges on Experimental Reasoning, Reliability and the Objectivity and Rationality of Science , Cambridge Reino Unido: Cambridge University Press, págs. 305–314, ISBN 9780521180252.
Royall, Richard M. (1997). Evidencia estadística: un paradigma de verosimilitud . Londres: Chapman & Hall. ISBN 0-412-04411-0.
Savage, Leonard J .; et al. (1962). Los fundamentos de la inferencia estadística . Londres: Methuen.

enlaces externos

Anthony WF Edwards. " Probabilidad ".
Jeff Miller. Usos conocidos más tempranos de algunas de las palabras de las matemáticas (L)
John Aldrich. Verosimilitud y probabilidad en los métodos estadísticos de RA Fisher para investigadores

[1] Geométricamente, si ocupan el mismo punto en el espacio proyectivo .

[2] Dodge, Y. (2003) El diccionario de términos estadísticos de Oxford. OUP. ISBN 0-19-920613-9

[Vidakovic-3] Vidakovic, Brani. "El principio de probabilidad" (PDF) . Escuela de Ingeniería Industrial y de Sistemas H. Milton Stewart . Georgia Tech . Consultado el 21 de octubre de 2017 .

[4] Royall, Richard (1997). Evidencia estadística: un paradigma de verosimilitud . Boca Raton, FL: Chapman y Hall. ISBN 0-412-04411-0.

[5] Evans, Michael (2013) ¿Qué prueba la prueba del teorema de Birnbaum?

[6] Mayo, D. (2010) "Un error en el argumento de la condicionalidad y la suficiencia del principio de verosimilitud" en Error e inferencia: intercambios recientes sobre el razonamiento experimental, la confiabilidad y la objetividad y la racionalidad de la ciencia (D Mayo y A. Spanos eds .), Cambridge: Cambridge University Press: 305-314.

[7] Mayo, Deborah (2014), " Sobre el argumento de Birnbaum para el principio de probabilidad fuerte ", Ciencia estadística , 29: 227-266 (con discusión).

[8] Dawid, AP (2014), " Discusión de" Sobre el argumento de Birnbaum para el principio de probabilidad fuerte " ", Ciencia estadística , 29: 240-241

[9] Gandenberger, Greg (2014), "Una nueva prueba del principio de probabilidad", British Journal for the Philosophy of Science , 66: 475-503; doi : 10.1093 / bjps / axt039 .

[a]