Fundamentos de la estadística

Los fundamentos de la estadística se refieren al debate epistemológico en estadística sobre cómo se debe realizar inferencia inductiva a partir de datos. Entre las cuestiones consideradas en la inferencia estadística están la cuestión de la inferencia bayesiana frente a la inferencia frecuentista , la distinción entre la "prueba de significación" de Fisher y la "prueba de hipótesis" de Neyman - Pearson , y si se debe seguir el principio de verosimilitud . Algunas de estas cuestiones se han debatido durante hasta 200 años sin resolución. ^[1]

Bandyopadhyay y Forster ^[2] describen cuatro paradigmas estadísticos: "(i) estadísticas clásicas o estadísticas de error, (ii) estadísticas bayesianas, (iii) estadísticas basadas en verosimilitud y (iv) estadísticas basadas en criterios de información de Akaikean ".

El texto de Savage, Foundations of Statistics, ha sido citado más de 15000 veces en Google Scholar . ^[3] Dice lo siguiente.

Se acuerda unánimemente que las estadísticas dependen de alguna manera de la probabilidad. Pero, en cuanto a qué es la probabilidad y cómo está relacionada con las estadísticas, rara vez ha habido un desacuerdo y una ruptura tan completa de la comunicación desde la Torre de Babel. Sin duda, gran parte del desacuerdo es meramente terminológico y desaparecería con un análisis suficientemente agudo. ^[4]

La "prueba de significación" de Fisher frente a la "prueba de hipótesis" de Neyman-Pearson

En el desarrollo de la estadística clásica en el segundo cuarto del siglo XX se desarrollaron dos modelos competidores de pruebas estadísticas inductivas. ^[5]^[6] Sus méritos relativos fueron objeto de acalorados debates ^[7] (durante más de 25 años) hasta la muerte de Fisher. Si bien se enseña y utiliza ampliamente un híbrido de los dos métodos, las cuestiones filosóficas planteadas en el debate no se han resuelto.

Prueba de significancia

Fisher popularizó las pruebas de significación, principalmente en dos libros populares y muy influyentes. ^[8]^[9] El estilo de escritura de Fisher en estos libros fue fuerte en ejemplos y relativamente débil en explicaciones. Los libros carecían de pruebas o derivaciones de las estadísticas de prueba de significancia (que colocaban la práctica estadística por delante de la teoría estadística). Los escritos más explicativos y filosóficos de Fisher se escribieron mucho más tarde. ^[10] Parece haber algunas diferencias entre sus prácticas anteriores y sus opiniones posteriores.

Fisher estaba motivado para obtener resultados científicos experimentales sin la influencia explícita de opiniones previas. La prueba de significancia es una versión probabilística de Modus tollens , una forma clásica de inferencia deductiva. La prueba de significación podría expresarse de manera simplista: "Si la evidencia es lo suficientemente discordante con la hipótesis, rechace la hipótesis". En la aplicación, se calcula una estadística a partir de los datos experimentales, se determina una probabilidad de exceder esa estadística y la probabilidad se compara con un umbral. El umbral (la versión numérica de "suficientemente discordante") es arbitrario (generalmente decidido por convención). Una aplicación común del método es decidir si un tratamiento tiene un efecto notificable basado en un experimento comparativo. La significación estadística es una medida de probabilidad, no de importancia práctica. Puede considerarse como un requisito impuesto a la señal / ruido estadístico. El método se basa en la supuesta existencia de una población infinita imaginaria correspondiente a la hipótesis nula.

La prueba de significancia requiere solo una hipótesis. El resultado de la prueba es rechazar la hipótesis (o no), una simple dicotomía. La prueba distingue entre la verdad de la hipótesis y la insuficiencia de evidencia para refutar la hipótesis; por lo que es como un juicio penal en el que la culpabilidad del acusado se evalúa contra una hipótesis nula donde el acusado se asume inocente hasta que se pruebe su culpabilidad.

Evaluación de la hipótesis

Neyman & Pearson colaboraron en un problema diferente, pero relacionado, seleccionando entre hipótesis en competencia basadas solo en la evidencia experimental. De sus artículos conjuntos, el más citado fue el de 1933. ^[11] El famoso resultado de ese artículo es el lema de Neyman-Pearson . El lema dice que una razón de probabilidades es un criterio excelente para seleccionar una hipótesis (siendo el umbral de comparación arbitrario). El artículo demostró una optimización de la prueba t de Student (una de las pruebas de significancia). Neyman expresó la opinión de que la prueba de hipótesis era una generalización y una mejora de la prueba de significancia. La justificación de sus métodos se encuentra en sus artículos conjuntos. ^[12]

La prueba de hipótesis requiere múltiples hipótesis. Siempre se selecciona una hipótesis, una opción múltiple. La falta de evidencia no es una consideración inmediata. El método se basa en el supuesto de un muestreo repetido de la misma población (el supuesto frecuentista clásico), aunque este supuesto fue criticado por Fisher (Rubin, 2020). ^[13]

Motivos de desacuerdo

La duración de la disputa permitió el debate de una amplia gama de cuestiones consideradas fundamentales para las estadísticas.

Un ejemplo de intercambio de 1955 a 1956
Ataque de Fisher ^[14]	Refutación de Neyman ^[15]	Discusión
Muestreo repetido de la misma población Tal muestreo es la base de la probabilidad frecuentista Fisher prefería la inferencia fiducial	La teoría de Fisher de la inferencia fiducial es defectuosa Las paradojas son comunes	El ataque de Fisher sobre la base de la probabilidad frecuentista fracasó, pero no sin resultado. Identificó un caso específico (tabla 2 × 2) donde las dos escuelas de prueba alcanzan resultados diferentes. Este caso es uno de varios que aún son preocupantes. Los comentaristas creen que la respuesta "correcta" depende del contexto. ^{[16] A la} probabilidad fiducial no le ha ido bien, ya que prácticamente no tiene defensores, mientras que la probabilidad frecuentista sigue siendo una interpretación de la corriente principal.
Errores de tipo II Que resultan de una hipótesis alternativa	Una teoría de las pruebas puramente probabilística requiere una hipótesis alternativa	El ataque de Fisher a los errores de tipo II se ha desvanecido con el tiempo. En los años intermedios, las estadísticas han separado lo exploratorio de lo confirmatorio. En el entorno actual, el concepto de errores de tipo II se utiliza en los cálculos de potencia para la determinación del tamaño de la muestra de la prueba de hipótesis confirmatoria .
Comportamiento inductivo (Vs razonamiento inductivo , preferencia de Fisher)		El ataque de Fisher al comportamiento inductivo ha tenido un gran éxito debido a su selección del campo de batalla. Si bien las decisiones operativas se toman de forma rutinaria sobre la base de una variedad de criterios (como el costo), las conclusiones científicas de la experimentación se toman típicamente sobre la base de la probabilidad únicamente.

En este intercambio, Fisher también discutió los requisitos para la inferencia inductiva, con críticas específicas de las funciones de costo que penalizan los juicios defectuosos. Neyman respondió que Gauss y Laplace los usaron. Este intercambio de argumentos se produjo 15 años después de que los libros de texto comenzaran a enseñar una teoría híbrida de las pruebas estadísticas.

Fisher y Neyman estaban en desacuerdo sobre los fundamentos de las estadísticas (aunque unidos en una oposición vehemente a la visión bayesiana ^[16] ):

La interpretación de la probabilidad
- El desacuerdo entre el razonamiento inductivo de Fisher y el comportamiento inductivo de Neyman contenía elementos de la división bayesiana / frecuentista. Fisher estaba dispuesto a modificar su opinión (llegar a una conclusión provisional) sobre la base de una probabilidad calculada, mientras que Neyman estaba más dispuesto a cambiar su comportamiento observable (tomar una decisión) sobre la base de un costo calculado.
La adecuada formulación de cuestiones científicas con especial preocupación por la modelización ^[7]^[17]
Si es razonable rechazar una hipótesis basada en una probabilidad baja sin conocer la probabilidad de una alternativa.
Si alguna vez se podría aceptar una hipótesis sobre la base de datos
- En matemáticas, la deducción prueba, los contraejemplos refutan
- En la filosofía de la ciencia popperiana, los avances se realizan cuando las teorías son refutadas
Subjetividad: Aunque Fisher y Neyman lucharon por minimizar la subjetividad, ambos reconocieron la importancia del "buen juicio". Cada uno acusó al otro de subjetividad.
- Fisher eligió subjetivamente la hipótesis nula.
- Neyman-Pearson eligió subjetivamente el criterio de selección (que no se limitó a una probabilidad).
- Ambos umbrales numéricos determinados subjetivamente .

Fisher y Neyman estaban separados por actitudes y quizás por lenguaje. Fisher fue un científico y un matemático intuitivo. El razonamiento inductivo era natural. Neyman fue un matemático riguroso. Estaba convencido por el razonamiento deductivo más bien por un cálculo de probabilidad basado en un experimento. ^[5] Por lo tanto, hubo un choque subyacente entre lo aplicado y lo teórico, entre la ciencia y las matemáticas.

Historia relacionada

Neyman, que había ocupado el mismo edificio en Inglaterra que Fisher, aceptó un puesto en la costa oeste de los Estados Unidos de América en 1938. Su movimiento puso fin de manera efectiva a su colaboración con Pearson y su desarrollo de pruebas de hipótesis. ^[5] Otros continuaron el desarrollo.

Los libros de texto proporcionaron una versión híbrida de pruebas de significancia e hipótesis en 1940. ^[18] Ninguno de los directores tenía ninguna participación personal conocida en el desarrollo posterior del híbrido que se enseña en la introducción a la estadística en la actualidad. ^[6]

Las estadísticas se desarrollaron más tarde en diferentes direcciones, incluida la teoría de decisiones (y posiblemente la teoría de juegos), estadísticas bayesianas, análisis de datos exploratorios, estadísticas sólidas y estadísticas no paramétricas. Las pruebas de hipótesis de Neyman-Pearson contribuyeron en gran medida a la teoría de la decisión, que se utiliza mucho (en el control de calidad estadístico, por ejemplo). La prueba de hipótesis se generalizó fácilmente para aceptar probabilidades previas que le daban un sabor bayesiano. La prueba de hipótesis de Neyman-Pearson se ha convertido en una asignatura matemática abstracta que se enseña en estadística de posgrado, ^[19] mientras que la mayor parte de lo que se enseña a los graduados y se usa bajo el estandarte de la prueba de hipótesis es de Fisher.

Opinión contemporánea

No han surgido batallas importantes entre las dos escuelas clásicas de pruebas durante décadas, pero los francotiradores continúan (tal vez alentados por los partidarios de otras controversias). Después de generaciones de disputas, prácticamente no hay posibilidad de que una de las teorías de las pruebas estadísticas sustituya a la otra en el futuro previsible.

El híbrido de las dos escuelas de prueba en competencia puede verse de manera muy diferente: como la unión imperfecta de dos ideas matemáticamente complementarias ^[16] o como la unión fundamentalmente defectuosa de ideas filosóficamente incompatibles. ^[20] Fisher disfrutó de alguna ventaja filosófica, mientras que Neyman & Pearson emplearon las matemáticas más rigurosas. La prueba de hipótesis es controvertida entre algunos usuarios, pero la alternativa más popular (intervalos de confianza) se basa en las mismas matemáticas.

La historia del desarrollo dejó a las pruebas sin una única fuente autorizada citable para la teoría híbrida que refleja la práctica estadística común. La terminología fusionada también es algo inconsistente. Existe una fuerte evidencia empírica de que los graduados (e instructores) de una clase de introducción a la estadística tienen una comprensión débil del significado de la prueba de hipótesis. ^[21]

Resumen

La interpretación de la probabilidad no se ha resuelto (pero la probabilidad fiducial es huérfana).
Ninguno de los métodos de prueba ha sido rechazado. Ambos se utilizan mucho para diferentes propósitos.
Los textos han fusionado los dos métodos de prueba bajo el término prueba de hipótesis.
- Los matemáticos afirman (con algunas excepciones) que las pruebas de significancia son un caso especial de pruebas de hipótesis.
- Otros tratan los problemas y métodos como distintos (o incompatibles).
La disputa ha afectado negativamente a la educación estadística.

Inferencia bayesiana versus inferencia frecuentista

Hace mucho tiempo que existen dos interpretaciones diferentes de la probabilidad (basadas en evidencia objetiva y grados subjetivos de creencia). Gauss y Laplace podrían haber debatido alternativas hace más de 200 años. Como consecuencia, se han desarrollado dos escuelas de estadística en competencia. La estadística inferencial clásica se desarrolló en gran medida en el segundo cuarto del siglo XX, ^[6] gran parte de ella como reacción a la probabilidad (bayesiana) de la época que utilizó el controvertido principio de indiferencia para establecer probabilidades previas. La rehabilitación de la inferencia bayesiana fue una reacción a las limitaciones de la probabilidad frecuentista. Siguieron más reacciones. Si bien las interpretaciones filosóficas son antiguas, la terminología estadística no lo es. Los términos estadísticos actuales "bayesiano" y "frecuentista" se estabilizaron en la segunda mitad del siglo XX. ^[22] La terminología (filosófica, matemática, científica, estadística) es confusa: la interpretación "clásica" de la probabilidad es bayesiana, mientras que la estadística "clásica" es frecuentista. "Frequentist" también tiene diversas interpretaciones, diferentes en filosofía que en física.

Los matices de las interpretaciones filosóficas de probabilidad se discuten en otra parte. En estadística, las interpretaciones alternativas permiten el análisis de diferentes datos utilizando diferentes métodos basados en diferentes modelos para lograr objetivos ligeramente diferentes. Cualquier comparación estadística de las escuelas en competencia considera criterios pragmáticos más allá de los filosóficos.

Contribuyentes principales

Dos de los principales contribuyentes a los métodos frecuentistas (clásicos) fueron Fisher y Neyman . ^[5] La interpretación de Fisher de la probabilidad fue idiosincrásica (pero fuertemente no bayesiana). Las opiniones de Neyman fueron rigurosamente frecuentistas. Tres de los principales contribuyentes a la filosofía, las matemáticas y los métodos estadísticos bayesianos del siglo XX fueron de Finetti , ^[23] Jeffreys ^[24] y Savage . ^[25] Savage popularizó las ideas de De Finetti en el mundo de habla inglesa e hizo que las matemáticas bayesianas fueran rigurosas. En 1965, el trabajo de 2 volúmenes de Dennis Lindley "Introducción a la probabilidad y la estadística desde un punto de vista bayesiano" llevó los métodos bayesianos a una amplia audiencia. Las estadísticas han avanzado durante las últimas tres generaciones; Las opiniones "autorizadas" de los primeros colaboradores no son todas actuales.

Enfoques contrastantes

Inferencia frecuentista

La inferencia frecuente se describe en forma parcial y concisa anteriormente en ("prueba de significación" de Fisher frente a "prueba de hipótesis" de Neyman-Pearson). La inferencia frecuentista combina varios puntos de vista diferentes. El resultado es capaz de sustentar conclusiones científicas, tomar decisiones operativas y estimar parámetros con o sin intervalos de confianza . La inferencia frecuentista se basa únicamente en (un conjunto de) evidencia.

Inferencia bayesiana

Una distribución de frecuencia clásica describe la probabilidad de los datos. El uso del teorema de Bayes permite un concepto más abstracto: la probabilidad de una hipótesis (correspondiente a una teoría) dados los datos. El concepto alguna vez se conoció como "probabilidad inversa". La inferencia bayesiana actualiza la estimación de probabilidad de una hipótesis a medida que se adquieren pruebas adicionales. La inferencia bayesiana se basa explícitamente en la evidencia y la opinión previa, lo que permite que se base en múltiples conjuntos de evidencia.

Comparaciones de características

Los frecuentistas y bayesianos utilizan diferentes modelos de probabilidad. Los frecuentadores a menudo consideran que los parámetros son fijos pero desconocidos, mientras que los bayesianos asignan distribuciones de probabilidad a parámetros similares. En consecuencia, los bayesianos hablan de probabilidades que no existen para los frecuentistas; Un bayesiano habla de la probabilidad de una teoría, mientras que un verdadero frecuentista sólo puede hablar de la coherencia de la evidencia con la teoría. Ejemplo: un frecuentista no dice que hay un 95% de probabilidad de que el valor verdadero de un parámetro se encuentre dentro de un intervalo de confianza, sino que dice que el 95% de los intervalos de confianza contienen el valor verdadero.

Adjetivos comparativos de Efron ^[26]
	Bayes	Frecuente
Base Característica resultante _ Aplicación ideal Público objetivo Característica de modelado	Creencia (previa) Filosofía basada en principios Una distribución Dinámico (muestreo repetido) Individual (subjetivo) Agresivo	Comportamiento (método) Métodos oportunistas Muchas distribuciones (¿bootstrap?) Estático (una muestra) Comunidad (objetivo) Defensivo

Comparación alternativa ^[27]^[28]
	Bayesiano	Frecuente
Fortalezas	Completo Coherente Preceptivo _ _ _ _ _ Fuerte inferencia del modelo	Inferencias bien calibradas No es necesario especificar distribuciones previas Gama flexible de procedimientos No prejuicios, suficiencia, ancillaridad ... Ampliamente aplicable y confiable Teoría asintótica Fácil de interpretar Puede calcularse a mano Formulación y evaluación de modelos sólidos
Debilidades	Demasiado subjetivo para la inferencia científica Niega el papel de la aleatorización para el diseño. Requiere y se basa en la especificación completa de un modelo (probabilidad y anterior) _ _ _ Formulación y evaluación de modelos débiles	Incompleto Ambiguo Incoherente No prescriptivo Sin teoría unificada (¿Sobre?) Énfasis en las propiedades asintóticas Inferencia débil del modelo

Resultados matemáticos

Ninguna escuela es inmune a la crítica matemática y tampoco la acepta sin luchar. La paradoja de Stein (por ejemplo) ilustró que encontrar una distribución de probabilidad previa "plana" o "no informativa" en dimensiones altas es sutil. ^{[1] Los} bayesianos consideran eso como algo periférico al núcleo de su filosofía, mientras que encuentran que el frecuentismo está plagado de inconsistencias, paradojas y mala conducta matemática. Los frecuentadores pueden explicar la mayoría. Algunos de los "malos" ejemplos son situaciones extremas, como estimar el peso de una manada de elefantes midiendo el peso de uno ("elefantes de Basu"), lo que no permite una estimación estadística de la variabilidad de los pesos. El principio de probabilidad ha sido un campo de batalla.

Resultados estadísticos

Ambas escuelas han logrado resultados impresionantes en la resolución de problemas del mundo real. La estadística clásica tiene efectivamente el registro más largo porque se obtuvieron numerosos resultados con calculadoras mecánicas y tablas impresas de funciones estadísticas especiales. Los métodos bayesianos han tenido mucho éxito en el análisis de información que se muestrea secuencialmente de forma natural (radar y sonar). Muchos métodos bayesianos y algunos métodos frecuentistas recientes (como el bootstrap) requieren el poder computacional ampliamente disponible solo en las últimas décadas. Existe una discusión activa sobre la combinación de métodos bayesianos y frecuentistas, ^[29]^[27] pero se expresan reservas sobre el significado de los resultados y la reducción de la diversidad de enfoques.

Resultados filosóficos

Los bayesianos están unidos en oposición a las limitaciones del frecuentismo, pero filosóficamente divididos en numerosos campos (empírico, jerárquico, objetivo, personal, subjetivo), cada uno con un énfasis diferente. Un filósofo (frecuentista) de la estadística ha notado un retroceso del campo estadístico a las interpretaciones filosóficas de probabilidad durante las dos últimas generaciones. ^[30] Existe la percepción de que los éxitos en las aplicaciones bayesianas no justifican la filosofía de apoyo. ^[31] Los métodos bayesianos a menudo crean modelos útiles que no se utilizan para la inferencia tradicional y que deben poco a la filosofía. ^[32] Ninguna de las interpretaciones filosóficas de la probabilidad (frecuentista o bayesiana) parece robusta. La visión frecuentista es demasiado rígida y limitante mientras que la visión bayesiana puede ser simultáneamente objetiva y subjetiva, etc.

Citas ilustrativas

"Si se utiliza con cuidado, el enfoque frecuentista produce respuestas ampliamente aplicables, aunque a veces torpes" ^[33].
"Insistir en técnicas [frecuentistas] no sesgadas puede conducir a estimaciones negativas (pero no sesgadas) de una varianza; el uso de valores p en múltiples pruebas puede conducir a contradicciones flagrantes; las regiones de confianza convencionales de 0,95 pueden consistir en la línea real completa. No es de extrañar que a los matemáticos les resulte difícil creer que los métodos estadísticos convencionales sean una rama de las matemáticas ". ^[34]
"El bayesianismo es una filosofía ordenada y plenamente basada en principios, mientras que el frecuentismo es una bolsa de sorpresas de métodos oportunistas e individualmente óptimos". ^[26]
"en problemas multiparamétricos, los a priori planos pueden dar muy malas respuestas" ^[33]
"[La regla de Bayes] dice que hay una manera simple y elegante de combinar la información actual con la experiencia previa para establecer cuánto se sabe. Implica que datos suficientemente buenos traerán de acuerdo a observadores previamente dispares. Hace un uso completo de los datos disponibles. información, y produce decisiones que tienen la menor tasa de error posible ". ^[35]
"La estadística bayesiana se trata de hacer declaraciones de probabilidad, la estadística frecuentista se trata de evaluar declaraciones de probabilidad". ^[36]
"Los especialistas a menudo se encuentran en un entorno que recuerda la paradoja de Arrow, donde se nos pide que proporcionemos estimaciones que sean informativas e imparciales y declaraciones de confianza que sean correctas condicionadas a los datos y también al parámetro verdadero subyacente". ^[36] (Estos son requisitos contradictorios).
"Los aspectos inferenciales formales son a menudo una parte relativamente pequeña del análisis estadístico" ^[33].
"Las dos filosofías, bayesiana y frecuentista, son más ortogonales que antitéticas". ^[26]
"Una hipótesis que puede ser cierta se rechaza porque no ha podido predecir resultados observables que no se han producido. Este parece un procedimiento notable". ^[24]

Resumen

La teoría bayesiana tiene una ventaja matemática
- La probabilidad frecuentista tiene problemas de existencia y consistencia
- Pero, encontrar buenos antecedentes para aplicar la teoría bayesiana sigue siendo (¿muy?) Difícil
Ambas teorías tienen un historial impresionante de aplicación exitosa
Ninguno de los dos fundamentos de la interpretación filosófica de la probabilidad es robusto
Existe un creciente escepticismo sobre la conexión entre la aplicación y la filosofía.
Algunos estadísticos recomiendan la colaboración activa (más allá de un alto el fuego)

El principio de probabilidad

Verosimilitud es sinónimo de probabilidad en el uso común. En las estadísticas eso no es cierto. Una probabilidad se refiere a datos variables para una hipótesis fija, mientras que una probabilidad se refiere a hipótesis variables para un conjunto fijo de datos. Las mediciones repetidas de una longitud fija con una regla generan un conjunto de observaciones. Cada conjunto fijo de condiciones de observación está asociado con una distribución de probabilidad y cada conjunto de observaciones puede interpretarse como una muestra de esa distribución: la visión frecuentista de la probabilidad. Alternativamente, un conjunto de observaciones puede resultar del muestreo de cualquiera de una serie de distribuciones (cada una resultante de un conjunto de condiciones de observación). La relación probabilística entre una muestra fija y una distribución variable (resultante de una hipótesis variable) se denomina verosimilitud, una visión bayesiana de la probabilidad. Un conjunto de medidas de longitud puede implicar lecturas tomadas por observadores cuidadosos, sobrios, descansados y motivados con buena iluminación.

Una probabilidad es una probabilidad (o no) con otro nombre que existe debido a la definición frecuentista limitada de probabilidad. La probabilidad es un concepto introducido y avanzado por Fisher durante más de 40 años (aunque existen referencias anteriores al concepto y el apoyo de Fisher fue poco entusiasta). ^[37] El concepto fue aceptado y cambiado sustancialmente por Jeffreys . ^[38] En 1962 Birnbaum "probó" el principio de probabilidad a partir de premisas aceptables para la mayoría de los estadísticos. ^[39] La "prueba" ha sido cuestionada por estadísticos y filósofos. El principio dice que toda la información de una muestra está contenida en la función de verosimilitud , que es aceptada como una distribución de probabilidad válida por los bayesianos (pero no por los frecuentistas).

Algunas pruebas de significancia (frecuentistas) no son consistentes con el principio de probabilidad. Los bayesianos aceptan el principio que es coherente con su filosofía (quizás alentado por el desconcierto de los frecuentistas). "[E] l enfoque de verosimilitud es compatible con la inferencia estadística bayesiana en el sentido de que, según el teorema de Bayes, la distribución posterior de Bayes para un parámetro se encuentra multiplicando la distribución anterior por la función de verosimilitud". ^{[37] Los} frecuentadores interpretan el principio de manera adversa a los bayesianos como que no implica preocupación por la confiabilidad de la evidencia. "El principio de probabilidad de las estadísticas bayesianas implica que la información sobre el diseño experimental a partir del cual se recopilan las pruebas no entra en el análisis estadístico de los datos". ^[40] Muchos bayesianos (Savage, por ejemplo) ^[41] reconocen esa implicación como una vulnerabilidad.

El principio de probabilidad se ha convertido en una vergüenza para las dos principales escuelas filosóficas de estadística; Ha debilitado a ambos en lugar de favorecer a ninguno de los dos. Sus partidarios más firmes afirman que ofrece una mejor base para las estadísticas que cualquiera de las dos escuelas. "[L] ikelihood se ve muy bien de hecho cuando se compara con estas alternativas [bayesianas y frecuentistas]". ^[42] Estos partidarios incluyen estadísticos y filósofos de la ciencia. ^[43] Si bien los bayesianos reconocen la importancia de la probabilidad para el cálculo, creen que la distribución de probabilidad posterior es la base adecuada para la inferencia. ^[44]

Modelado

La estadística inferencial se basa en modelos estadísticos . Gran parte de las pruebas de hipótesis clásicas, por ejemplo, se basaron en la supuesta normalidad de los datos. Se desarrollaron estadísticas sólidas y no paramétricas para reducir la dependencia de ese supuesto. La estadística bayesiana interpreta las nuevas observaciones desde la perspectiva del conocimiento previo, asumiendo una continuidad modelada entre el pasado y el presente. El diseño de experimentos presupone cierto conocimiento de los factores a controlar, variar, aleatorizar y observar. Los estadísticos son muy conscientes de las dificultades para probar la causalidad (más una limitación de modelado que matemática), diciendo que " correlación no implica causalidad ".

Las estadísticas más complejas utilizan modelos más complejos, a menudo con la intención de encontrar una estructura latente subyacente a un conjunto de variables. A medida que los modelos y conjuntos de datos se han vuelto más complejos, ^[a]^[b] se han planteado cuestiones fundamentales sobre la justificación de los modelos y la validez de las inferencias extraídas de ellos. La gama de opiniones contradictorias expresadas sobre el modelado es amplia.

Los modelos pueden basarse en teorías científicas o en análisis de datos ad-hoc. Los enfoques utilizan diferentes métodos. Hay defensores de cada uno. ^[46]
La complejidad del modelo es un compromiso. El criterio de información de Akaikean y el criterio de información bayesiano son dos enfoques menos subjetivos para lograr ese compromiso. ^[47]
Se han expresado reservas fundamentales incluso sobre los modelos de regresión simples utilizados en las ciencias sociales. Normalmente, una larga lista de supuestos inherentes a la validez de un modelo no se menciona ni se verifica. A menudo se considera suficiente una comparación favorable entre las observaciones y el modelo. ^[48]
La estadística bayesiana se centra tan estrechamente en la probabilidad posterior que ignora la comparación fundamental de observaciones y modelo. ^[32]
Los modelos tradicionales basados en la observación son inadecuados para resolver muchos problemas importantes. Debe utilizarse una gama mucho más amplia de modelos, incluidos modelos algorítmicos. "Si el modelo es una mala emulación de la naturaleza, las conclusiones pueden estar equivocadas". ^[49]
El modelado a menudo se realiza de manera deficiente (se utilizan métodos incorrectos) y se informa de manera deficiente. ^[50]

En ausencia de una revisión de consenso filosófico fuerte sobre el modelado estadístico, muchos estadísticos aceptan las palabras de advertencia del estadístico George Box : " Todos los modelos son incorrectos , pero algunos son útiles " .

Otra lectura

Para una breve introducción a los fundamentos de la estadística, consulte Stuart, A .; Ord, JK (1994). "Cap. 8 - Probabilidad e inferencia estadística". Teoría avanzada de estadística de Kendall . Vol. I: Teoría de la distribución (6ª ed.). Edward Arnold. |volume=tiene texto extra ( ayuda )

En su libro Statistics as Principled Argument , Robert P. Abelson articula la posición de que la estadística sirve como un medio estandarizado para resolver disputas entre científicos que de otra manera cada uno podría argumentar los méritos de sus propias posiciones ad infinitum . Desde este punto de vista, la estadística es una forma de retórica; Al igual que con cualquier medio de solución de controversias, los métodos estadísticos solo pueden tener éxito si todas las partes están de acuerdo con el enfoque utilizado. ^[51]

Ver también

Filosofía de la estadística
Historia de las estadisticas
Filosofía de la probabilidad
Filosofía de las matemáticas
Filosofía de la Ciencia
Evidencia
Estadísticas de verosimilismo
Interpretaciones de probabilidad
Fundadores de la estadística

Notas al pie

^ Algunos modelos grandes intentan predecir el comportamiento de los votantes en los Estados Unidos de América. La población ronda los 300 millones. Cada votante puede verse influenciado por muchos factores. Para algunas de las complicaciones del comportamiento de los votantes (que los nativos comprenden más fácilmente), ver: Gelman^[45]
^ Efron (2013) menciona millones de puntos de datos y miles de parámetros de estudios científicos. ^[26]

Citas

↑ a b Efron, 1978 .
^ Bandyopadhyay y Forster 2011 .
^ "Citas de Savage (1972)" . Google Scholar .
^ Salvaje 1972 .
↑ a b c d Lehmann, 2011 .
^ a b c Gigerenzer y col. 1989 .
↑ a b Louçã, 1993 .
^ Fisher, 1925 .
^ Fisher, 1935 .
^ Fisher, 1956 .
^ Neyman y Pearson, 1933 .
^ Neyman y Pearson 1967 .
^ Rubin, M (2020). " " ¿ Muestreo repetido de la misma población? "Una crítica de las respuestas de Neyman y Pearson a Fisher" . Revista europea de filosofía de la ciencia . 10 (42): 1-15. doi : 10.1007 / s13194-020-00309-6 . S2CID 221939887 .
^ Fisher, 1955 .
^ Neyman, 1956 .
↑ a b c Lehmann, 1993 .
^ Lenhard, 2006 .
^ Halpin y Stam, 2006 .
^ Lehmann y Romano 2005 .
^ Hubbard y Bayarri c. 2003 .
^ Sotos y col. 2007 .
^ Fienberg, 2006 .
↑ de Finetti, 1964 .
↑ a b Jeffreys, 1939 .
^ Salvaje 1954 .
↑ a b c d Efron, 2013 .
^ a b Pequeño 2005 .
^ Yu 2009 .
^ Berger 2003 .
^ Mayo de 2013 .
^ Senn, 2011 .
↑ a b Gelman y Shalizi, 2012 .
^ a b c Cox, 2005 .
^ Bernardo 2008 .
^ Kass c. 2012 .
^ a b Gelman, 2008 .
↑ a b Edwards, 1999 .
^ Aldrich, 2002 .
^ Birnbaum 1962 .
^ Backe 1999 .
^ Salvaje 1960 , p. 585.
^ Forster y Sober 2001 .
^ Royall 1997 .
^ Lindley 2000 .
^ Gelman. "Charla rojo-azul UBC" (PDF) . Estadísticas. Columbia U.
^ Tabachnick y Fidell 1996 .
^ Forster y Sober 1994 .
^ Freedman 1995 .
^ Breiman 2001 .
^ Chin nd .
^ Abelson, Robert P. (1995). Estadísticas como argumento basado en principios . Lawrence Erlbaum Associates. ISBN 978-0-8058-0528-4. ... el propósito de la estadística es organizar un argumento útil a partir de evidencia cuantitativa, utilizando una forma de retórica basada en principios.

Referencias

Aldrich, John (2002). "Cómo la probabilidad y la identificación fueron bayesianas" (PDF) . Revista Estadística Internacional . 70 (1): 79–98. doi : 10.1111 / j.1751-5823.2002.tb00350.x .
Backe, Andrew (1999). "El principio de verosimilitud y la fiabilidad de los experimentos". Filosofía de la ciencia . 66 : S354 – S361. doi : 10.1086 / 392737 . S2CID 15822883 .
Bandyopadhyay, Prasanta; Forster, Malcolm, eds. (2011). Filosofía de la estadística . Manual de Filosofía de la Ciencia. 7 . Oxford: Holanda Septentrional. ISBN 978-0444518620. El texto es una colección de ensayos.
Berger, James O. (2003). "¿Podrían haber estado de acuerdo Fisher, Jeffreys y Neyman sobre las pruebas?" . Ciencia estadística . 18 (1): 1–32. doi : 10.1214 / ss / 1056397485 .
Bernardo, José M. (2008). "Comentario sobre el artículo de Gelman" . Análisis bayesiano . 3 (3): 453. doi : 10.1214 / 08-BA318REJ .
Birnbaum, A. (1962). "Sobre las bases de la inferencia estadística". J. Amer. Estadístico. Assoc . 57 (298): 269–326. doi : 10.1080 / 01621459.1962.10480660 .
Breiman, Leo (2001). "Modelado estadístico: las dos culturas" . Ciencia estadística . 16 (3): 199–231. doi : 10.1214 / ss / 1009213726 .
Chin, Wynne W. (sin fecha). "Modelado de ecuaciones estructurales en la investigación de IS - Comprensión de la perspectiva de LISREL y PLS" . Archivado desde el original el 20 de julio de 2011 . Consultado el 16 de septiembre de 2013 . ¿Notas de conferencias de la Universidad de Houston?
Cox, RD (2005). "Estadística frecuentista y bayesiana: una crítica". Problemas estadísticos en física de partículas, astrofísica y cosmología . PHYSTAT05. CiteSeerX 10.1.1.173.4608 .
de Finetti, Bruno (1964). "Prospectiva: sus leyes lógicas, sus fuentes subjetivas". En Kyburg, HE (ed.). Estudios de Probabilidad Subjetiva . HE Smokler. Nueva York: Wiley. págs. 93-158. Traducción del original francés de 1937 con notas posteriores añadidas.
Edwards, AWF (1999). "Probabilidad" . Versión preliminar de un artículo para la Enciclopedia Internacional de Ciencias Sociales y del Comportamiento.
Efron, Bradley (2013). "Un argumento de 250 años: creencia, comportamiento y el bootstrap" . Boletín de la American Mathematical Society . Series nuevas. 50 (1): 129-146. doi : 10.1090 / s0273-0979-2012-01374-5 .
Efron, Bradley (1978). "Controversias en los fundamentos de la estadística" (PDF) . The American Mathematical Monthly . 85 (4): 231–246. doi : 10.2307 / 2321163 . JSTOR 2321163 . Archivado desde el original (PDF) el 14 de julio de 2010 . Consultado el 1 de noviembre de 2012 .
Fienberg, Stephen E. (2006). "¿Cuándo se convirtió la inferencia bayesiana en" bayesiana "? . Análisis bayesiano . 1 (1): 1–40. doi : 10.1214 / 06-ba101 .
Fisher, RA (1925). Métodos estadísticos para investigadores . Edimburgo: Oliver y Boyd.
Fisher, Ronald A., señor (1935). Diseño de Experimentos . Edimburgo: Oliver y Boyd.
Fisher, R. (1955). "Métodos estadísticos e inducción científica" (PDF) . Revista de la Sociedad Real de Estadística, Serie B . 17 (1): 69–78.
Fisher, Ronald A., señor (1956). La lógica de la inferencia científica . Edimburgo: Oliver y Boyd.
Forster, Malcolm; Sobrio, Elliott (1994). "Cómo saber cuándo las teorías más simples, más unificadas o menos ad-hoc proporcionarán predicciones más precisas". Revista británica de filosofía de la ciencia . 45 (1): 1–36. doi : 10.1093 / bjps / 45.1.1 .
Forster, Malcolm; Sobrio, Elliott (2001). "Por qué la probabilidad". Probabilidad y evidencia : 89–99.
Freedman, David (marzo de 1995). "Algunas cuestiones en la base de las estadísticas". Fundamentos de la ciencia . 1 (1): 19–39. doi : 10.1007 / BF00208723 .
Gelman, Andrew (2008). "Dúplica" . Análisis bayesiano . 3 (3): 467–478. doi : 10.1214 / 08-BA318REJ . - Una broma se convirtió en una discusión seria de los problemas bayesianos por 5 autores (Gelman, Bernardo, Kadane, Senn, Wasserman) en las páginas 445-478.
Gelman, Andrew; Shalizi, Cosma Rohilla (2012). "Filosofía y práctica de la estadística bayesiana" . Revista británica de psicología matemática y estadística . 66 (1): 8–38. arXiv : 1006,3868 . doi : 10.1111 / j.2044-8317.2011.02037.x . PMC 4476974 . PMID 22364575 .
Gigerenzer, Gerd ; Swijtink, Zeno; Porter, Theodore; Daston, Lorena; Beatty, John; Kruger, Lorenz (1989). "Parte 3: Los expertos en inferencia". El imperio del azar: cómo la probabilidad cambió la ciencia y la vida cotidiana . Prensa de la Universidad de Cambridge. págs. 70-122. ISBN 978-0-521-39838-1.
Halpin, PF; Stam, HJ (invierno de 2006). "Inferencia inductiva o comportamiento inductivo: Fisher y Neyman: enfoques de Pearson para las pruebas estadísticas en la investigación psicológica (1940-1960)". La Revista Estadounidense de Psicología . 119 (4): 625–653. doi : 10.2307 / 20445367 . JSTOR 20445367 . PMID 17286092 .
Hubbard, Raymond; Bayarri, MJ (c. 2003). "Los valores P no son probabilidades de error" (PDF) . Archivado desde el original (PDF) el 4 de septiembre de 2013 . Consultado el 3 de septiembre de 2013 .- Un documento de trabajo que explica la diferencia entre el valor p probatorio de Fisher y la tasa de error tipo I de Neyman-Pearson. ${\ Displaystyle \ alpha}$ .
Jeffreys, H. (1939). La teoría de la probabilidad . Prensa de la Universidad de Oxford.
Kass (c. 2012). "¿Por qué el gobierno de Bayes no solo ha captado la atención de tanta gente sino que también ha inspirado una devoción religiosa y una disputa, repetidamente, a lo largo de muchos años?" (PDF) .
Lehmann, EL (diciembre de 1993). "Las teorías de Fisher, Neyman-Pearson de probar hipótesis: ¿una teoría o dos?". Revista de la Asociación Estadounidense de Estadística . 88 (424): 1242-1249. doi : 10.1080 / 01621459.1993.10476404 .
Lehmann, EL (2011). Fisher, Neyman y la creación de estadísticas clásicas . Nueva York: Springer. ISBN 978-1441994998.
Lehmann, EL; Romano, Joseph P. (2005). Prueba de hipótesis estadísticas (3ª ed.). Nueva York: Springer. ISBN 978-0-387-98864-1.
Lenhard, Johannes (2006). "Modelos e inferencia estadística: la controversia entre Fisher y Neyman-Pearson". Br. J. Philos. Sci . 57 : 69–91. doi : 10.1093 / bjps / axi152 .
Lindley, DV (2000). "La filosofía de la estadística". Revista de la Sociedad Real de Estadística, Serie D . 49 (3): 293–337. doi : 10.1111 / 1467-9884.00238 .
Pequeño, Roderick J. (2006). "Bayes calibrado: una hoja de ruta Bayes / frecuentista". 60 (3). Cite journal requiere |journal=( ayuda )
Louçã, Francisco (2008). "Debería la hendidura más amplia en estadísticas: cómo y por qué Fisher se opuso a Neyman y Pearson" (PDF) . El documento de trabajo contiene numerosas citas de las fuentes originales de la disputa.
Mayo, Deborah G. (febrero de 2013). "Discusión: métodos bayesianos: ¿aplicados? Sí. ¿Defensa filosófica? In Flux". El estadístico estadounidense . 67 (1): 11-15. doi : 10.1080 / 00031305.2012.752410 . S2CID 11215443 .
Neyman, J .; Pearson, ES (1 de enero de 1933). "Sobre el problema de las pruebas más eficientes de hipótesis estadísticas" . Phil. Trans. R. Soc. Lond. Una . 231 (694–706): 289–337. Código bibliográfico : 1933RSPTA.231..289N . doi : 10.1098 / rsta.1933.0009 .
Neyman, J. (1967). Artículos estadísticos conjuntos de J. Neyman y ES Pearson . Prensa de la Universidad de Cambridge.
Neyman, Jerzy (1956). "Nota sobre un artículo de Sir Ronald Fisher". Revista de la Sociedad Real de Estadística, Serie B . 18 (2): 288-294.
Royall, Richard (1997). Evidencia estadística: un paradigma de verosimilitud . Chapman y Hall . ISBN 978-0412044113.
Salvaje, LJ (1972). Fundamentos de la estadística (segunda ed.).
Senn, Stephen (2011). "Puedes creer que eres bayesiano, pero probablemente te equivoques". RMM . 2 : 48–66.
Sotos, Ana Elisa Castro; van Hoof, Stijn; van den Noortgate, Wim; Onghena, Patrick (2007). "Conceptos erróneos de los estudiantes de la inferencia estadística: una revisión de la evidencia empírica de la investigación sobre la educación estadística" . Revisión de la investigación educativa . 2 (2): 98-113. doi : 10.1016 / j.edurev.2007.04.001 .
Stuart, A .; Ord, JK (1994). Teoría avanzada de estadística de Kendall . Vol. I: Teoría de la distribución. Edward Arnold. |volume=tiene texto extra ( ayuda )
Tabachnick, Barbara G .; Fidell, Linda S. (1996). Uso de estadísticas multivariadas (3ª ed.). ISBN 978-0-673-99414-1. Los componentes principales son un enfoque empírico, mientras que el análisis factorial y el modelado de ecuaciones estructurales tienden a ser enfoques teóricos (p. 27).
Yu, Yue (2009). "Bayesiano vs. Frecuente" (PDF) .- ¿Notas de lectura? Universidad de Illinois en Chicago

Otras lecturas

Barnett, Vic (1999). Inferencia estadística comparativa (3ª ed.). Wiley. ISBN 978-0-471-97643-1.
Cox, David R. (2006). Principios de inferencia estadística . Prensa de la Universidad de Cambridge. ISBN 978-0-521-68567-2.
Efron, Bradley (1986), "¿Por qué no todo el mundo es bayesiano? (Con discusión)", The American Statistician , 40 (1): 1-11, doi : 10.2307 / 2683105 , JSTOR 2683105.
Good, IJ (1988), "La interfaz entre la estadística y la filosofía de la ciencia", Ciencia estadística , 3 (4): 386–397, doi : 10.1214 / ss / 1177012754 , JSTOR 2245388
Kadane, JB ; Schervish, MJ; Seidenfeld, T. (1999). Repensar los fundamentos de la estadística . Prensa de la Universidad de Cambridge. - Bayesiano.
Mayo, Deborah G. (1992), "¿Pearson rechazó la filosofía estadística de Neyman-Pearson?", Synthese , 90 (2): 233-262, doi : 10.1007 / BF00485352 , S2CID 14236921.

enlaces externos

"Interpretación de la probabilidad" . Enciclopedia de Filosofía de Stanford . Palo Alto, CA: Universidad de Stanford.
"Filosofía de la estadística" . Enciclopedia de Filosofía de Stanford . Palo Alto, CA: Universidad de Stanford.

[46] Algunos modelos grandes intentan predecir el comportamiento de los votantes en los Estados Unidos de América. La población ronda los 300 millones. Cada votante puede verse influenciado por muchos factores. Para algunas de las complicaciones del comportamiento de los votantes (que los nativos comprenden más fácilmente), ver: Gelman^[45]

[47] Efron (2013) menciona millones de puntos de datos y miles de parámetros de estudios científicos. ^[26]

[FOOTNOTEEfron1978-1] Efron, 1978 .

[FOOTNOTEBandyopadhyayForster2011-2] Bandyopadhyay y Forster 2011 .

[3] "Citas de Savage (1972)" . Google Scholar .

[FOOTNOTESavage1972-4] Salvaje 1972 .

[FOOTNOTELehmann2011-5] Lehmann, 2011 .

[FOOTNOTEGigerenzerSwijtinkPorterDaston1989-6] Gigerenzer y col. 1989 .

[FOOTNOTELouçã1993-7] Louçã, 1993 .

[FOOTNOTEFisher1925-8] Fisher, 1925 .

[FOOTNOTEFisher1935-9] Fisher, 1935 .

[FOOTNOTEFisher1956-10] Fisher, 1956 .

[FOOTNOTENeymanPearson1933-11] Neyman y Pearson, 1933 .

[FOOTNOTENeymanPearson1967-12] Neyman y Pearson 1967 .

[Rubin_(2020)-13] Rubin, M (2020). " " ¿ Muestreo repetido de la misma población? "Una crítica de las respuestas de Neyman y Pearson a Fisher" . Revista europea de filosofía de la ciencia . 10 (42): 1-15. doi : 10.1007 / s13194-020-00309-6 . S2CID 221939887 .

[FOOTNOTEFisher1955-14] Fisher, 1955 .

[FOOTNOTENeyman1956-15] Neyman, 1956 .

[FOOTNOTELehmann1993-16] Lehmann, 1993 .

[FOOTNOTELenhard2006-17] Lenhard, 2006 .

[FOOTNOTEHalpinStam2006-18] Halpin y Stam, 2006 .

[FOOTNOTELehmannRomano2005-19] Lehmann y Romano 2005 .

[FOOTNOTEHubbardBayarric._2003-20] Hubbard y Bayarri c. 2003 .

[FOOTNOTESotosVanhoofNoortgateOnghena2007-21] Sotos y col. 2007 .

[FOOTNOTEFienberg2006-22] Fienberg, 2006 .

[FOOTNOTEde_Finetti1964-23] Finetti, 1964 .

[FOOTNOTEJeffreys1939-24] Jeffreys, 1939 .

[FOOTNOTESavage1954-25] Salvaje 1954 .

[FOOTNOTEEfron2013-26] Efron, 2013 .

[FOOTNOTELittle2005-27] Pequeño 2005 .

[FOOTNOTEYu2009-28] Yu 2009 .

[FOOTNOTEBerger2003-29] Berger 2003 .

[FOOTNOTEMayo2013-30] Mayo de 2013 .

[FOOTNOTESenn2011-31] Senn, 2011 .

[FOOTNOTEGelmanShalizi2012-32] Gelman y Shalizi, 2012 .

[FOOTNOTECox2005-33] Cox, 2005 .

[FOOTNOTEBernardo2008-34] Bernardo 2008 .

[FOOTNOTEKassc._2012-35] Kass c. 2012 .

[FOOTNOTEGelman2008-36] Gelman, 2008 .

[FOOTNOTEEdwards1999-37] Edwards, 1999 .

[FOOTNOTEAldrich2002-38] Aldrich, 2002 .

[FOOTNOTEBirnbaum1962-39] Birnbaum 1962 .

[FOOTNOTEBacke1999-40] Backe 1999 .

[FOOTNOTESavage1960585-41] Salvaje 1960 , p. 585.

[FOOTNOTEForsterSober2001-42] Forster y Sober 2001 .

[FOOTNOTERoyall1997-43] Royall 1997 .

[FOOTNOTELindley2000-44] Lindley 2000 .

[45] Gelman. "Charla rojo-azul UBC" (PDF) . Estadísticas. Columbia U.

[FOOTNOTETabachnickFidell1996-48] Tabachnick y Fidell 1996 .

[FOOTNOTEForsterSober1994-49] Forster y Sober 1994 .

[FOOTNOTEFreedman1995-50] Freedman 1995 .

[FOOTNOTEBreiman2001-51] Breiman 2001 .

[FOOTNOTEChinn.d.-52] Chin nd .

[53] Abelson, Robert P. (1995). Estadísticas como argumento basado en principios . Lawrence Erlbaum Associates. ISBN 978-0-8058-0528-4. ... el propósito de la estadística es organizar un argumento útil a partir de evidencia cuantitativa, utilizando una forma de retórica basada en principios.

[1]