De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

La inferencia estadística es el proceso de utilizar el análisis de datos para inferir las propiedades de una distribución de probabilidad subyacente . [1] El análisis estadístico inferencial infiere propiedades de una población , por ejemplo, probando hipótesis y derivando estimaciones. Se supone que el conjunto de datos observados se extrae de una población más grande.

La estadística inferencial se puede contrastar con la estadística descriptiva . La estadística descriptiva se ocupa únicamente de las propiedades de los datos observados y no se basa en la suposición de que los datos provienen de una población más grande. En el aprendizaje automático , el término inferencia a veces se usa en cambio para significar "hacer una predicción, evaluando un modelo ya entrenado"; [2] en este contexto, la inferencia de propiedades del modelo se denomina entrenamiento o aprendizaje (en lugar de inferencia ), y el uso de un modelo para la predicción se denomina inferencia (en lugar de predicción ); ver tambiéninferencia predictiva .

Introducción [ editar ]

La inferencia estadística hace proposiciones sobre una población, utilizando datos extraídos de la población con alguna forma de muestreo . Dada una hipótesis sobre una población, para la cual deseamos hacer inferencias, la inferencia estadística consiste en (primero) seleccionar un modelo estadístico del proceso que genera los datos y (segundo) deducir proposiciones del modelo. [ cita requerida ]

Konishi y Kitagawa afirman que "la mayoría de los problemas de inferencia estadística pueden considerarse problemas relacionados con el modelado estadístico". [3] En relación con esto, Sir David Cox ha dicho: "La forma en que se hace [la] traducción del problema de la materia a un modelo estadístico es a menudo la parte más crítica de un análisis". [4]

La conclusión de una inferencia estadística es una proposición estadística . [5] Algunas formas comunes de proposición estadística son las siguientes:

  • una estimación puntual , es decir, un valor particular que mejor se aproxima a algún parámetro de interés;
  • una estimación de intervalo , por ejemplo, un intervalo de confianza (o una estimación de conjunto), es decir, un intervalo construido utilizando un conjunto de datos extraído de una población de modo que, en el muestreo repetido de dichos conjuntos de datos, dichos intervalos contendrían el valor verdadero del parámetro con la probabilidad en la confianza establecida nivel ;
  • un intervalo creíble , es decir, un conjunto de valores que contienen, por ejemplo, el 95% de la creencia posterior;
  • rechazo de una hipótesis ; [nota 1]
  • agrupación o clasificación de puntos de datos en grupos.

Modelos y supuestos [ editar ]

Cualquier inferencia estadística requiere algunas suposiciones. Un modelo estadístico es un conjunto de supuestos relacionados con la generación de los datos observados y datos similares. Las descripciones de modelos estadísticos suelen enfatizar el papel de las cantidades de población de interés, sobre las que deseamos hacer inferencias. [6] Las estadísticas descriptivas se utilizan típicamente como un paso preliminar antes de extraer inferencias más formales. [7]

Grado de modelos / suposiciones [ editar ]

Los estadísticos distinguen entre tres niveles de supuestos de modelado;

  • Totalmente paramétrico : se supone que las distribuciones de probabilidad que describen el proceso de generación de datos están completamente descritas por una familia de distribuciones de probabilidad que involucran solo un número finito de parámetros desconocidos. [6] Por ejemplo, se puede suponer que la distribución de los valores de la población es verdaderamente Normal, con media y varianza desconocidas, y que los conjuntos de datos se generan mediante un muestreo aleatorio "simple" . La familia de modelos lineales generalizados es una clase flexible y ampliamente utilizada de modelos paramétricos.
  • No paramétrico : las suposiciones sobre el proceso que genera los datos son mucho menores que en las estadísticas paramétricas y pueden ser mínimas. [8] Por ejemplo, cada distribución de probabilidad continua tiene una mediana, que puede estimarse utilizando la mediana de la muestra o el estimador de Hodges-Lehmann-Sen , que tiene buenas propiedades cuando los datos surgen de un muestreo aleatorio simple.
  • Semi-paramétrico : este término típicamente implica supuestos 'intermedios' en enfoques completos y no paramétricos. Por ejemplo, se puede suponer que una distribución de población tiene una media finita. Además, se puede suponer que el nivel de respuesta medio en la población depende de una manera verdaderamente lineal de alguna covariable (una suposición paramétrica) pero no hacer ninguna suposición paramétrica que describa la varianza alrededor de esa media (es decir, sobre la presencia o posible forma de cualquier heterocedasticidad ). De manera más general, los modelos semiparamétricos a menudo se pueden separar en componentes "estructurales" y "variación aleatoria". Un componente se trata de forma paramétrica y el otro de forma no paramétrica. El conocido modelo de Cox es un conjunto de supuestos semiparamétricos.

Importancia de modelos / supuestos válidos [ editar ]

Cualquiera que sea el nivel de suposición que se haga, la inferencia correctamente calibrada en general requiere que estas suposiciones sean correctas; es decir, que los mecanismos de generación de datos realmente se han especificado correctamente.

Los supuestos incorrectos del muestreo aleatorio "simple" pueden invalidar la inferencia estadística. [9] Los supuestos semi y totalmente paramétricos más complejos también son motivo de preocupación. Por ejemplo, asumir incorrectamente el modelo de Cox puede, en algunos casos, llevar a conclusiones erróneas. [10] Las suposiciones incorrectas de normalidad en la población también invalidan algunas formas de inferencia basada en regresiones. [11] El uso de cualquierEl modelo paramétrico es visto con escepticismo por la mayoría de los expertos en muestreo de poblaciones humanas: "la mayoría de los estadísticos de muestreo, cuando tratan con intervalos de confianza en absoluto, se limitan a enunciados sobre [estimadores] basados ​​en muestras muy grandes, donde el teorema del límite central asegura que estos [ estimadores] tendrán distribuciones que son casi normales ". [12] En particular, una distribución normal "sería una suposición totalmente irreal y catastróficamente imprudente si estuviéramos tratando con cualquier tipo de población económica". [12] Aquí, el teorema del límite central establece que la distribución de la media muestral "para muestras muy grandes" tiene una distribución aproximadamente normal, si la distribución no tiene una cola gruesa.

Distribuciones aproximadas [ editar ]

Dada la dificultad de especificar distribuciones exactas de las estadísticas de la muestra, se han desarrollado muchos métodos para aproximarlas.

Con muestras finitas, los resultados de aproximación miden qué tan cerca se acerca una distribución límite a la distribución muestral del estadístico : por ejemplo, con 10,000 muestras independientes, la distribución normal se aproxima (con dos dígitos de precisión) a la distribución de la media muestral para muchas distribuciones de población, según el método Berry –Teorema de Esseen . [13] Sin embargo, para muchos propósitos prácticos, la aproximación normal proporciona una buena aproximación a la distribución de la media muestral cuando hay 10 (o más) muestras independientes, según estudios de simulación y la experiencia de los estadísticos. [13] Siguiendo el trabajo de Kolmogorov en la década de 1950, la estadística avanzada utilizateoría de aproximación y análisis funcional para cuantificar el error de aproximación. En este enfoque, se estudia la geometría métrica de las distribuciones de probabilidad ; este enfoque cuantifica el error de aproximación con, por ejemplo, la divergencia de Kullback-Leibler , la divergencia de Bregman y la distancia de Hellinger . [14] [15] [16]

Con muestras indefinidamente grandes, los resultados limitantes como el teorema del límite central describen la distribución limitante del estadístico muestral, si existe. Los resultados limitantes no son declaraciones sobre muestras finitas y, de hecho, son irrelevantes para muestras finitas. [17] [18] [19] Sin embargo, la teoría asintótica de distribuciones limitantes se invoca a menudo para trabajar con muestras finitas. Por ejemplo, los resultados limitantes a menudo se invocan para justificar el método generalizado de momentos y el uso de ecuaciones de estimación generalizadas , que son populares en econometría y bioestadística.. La magnitud de la diferencia entre la distribución límite y la distribución verdadera (formalmente, el "error" de la aproximación) se puede evaluar mediante simulación. [20] La aplicación heurística de limitar los resultados a muestras finitas es una práctica común en muchas aplicaciones, especialmente con modelos de baja dimensión con verosimilitudes log-cóncavas (como con familias exponenciales de un parámetro ).

Modelos basados ​​en la aleatorización [ editar ]

Para un conjunto de datos dado que fue producido por un diseño de aleatorización, la distribución de aleatorización de una estadística (bajo la hipótesis nula) se define evaluando la estadística de prueba para todos los planes que podrían haber sido generados por el diseño de aleatorización. En la inferencia frecuentista, la aleatorización permite que las inferencias se basen en la distribución de aleatorización en lugar de en un modelo subjetivo, y esto es importante especialmente en el muestreo de encuestas y el diseño de experimentos. [21] [22] La inferencia estadística de estudios aleatorizados también es más sencilla que muchas otras situaciones. [23] [24] [25] En la inferencia bayesiana , la aleatorización también es importante: en el muestreo de encuestas , el uso deel muestreo sin reemplazo asegura la intercambiabilidad de la muestra con la población; en experimentos aleatorios, la aleatorización justifica la ausencia de una suposición aleatoria para la información de covariables . [26]

La aleatorización objetiva permite procedimientos adecuadamente inductivos. [27] [28] [29] [30] [31] Muchos estadísticos prefieren el análisis basado en la aleatorización de los datos que se generaron mediante procedimientos de aleatorización bien definidos. [32] (Sin embargo, es cierto que en campos de la ciencia con conocimiento teórico desarrollado y control experimental, los experimentos aleatorios pueden aumentar los costos de experimentación sin mejorar la calidad de las inferencias. [33] [34] ) De manera similar, los resultados de experimentos aleatorios son recomendados por las principales autoridades estadísticas por permitir inferencias con mayor confiabilidad que los estudios observacionales de los mismos fenómenos. [35]Sin embargo, un buen estudio observacional puede ser mejor que un mal experimento aleatorio.

El análisis estadístico de un experimento aleatorizado puede basarse en el esquema de aleatorización establecido en el protocolo experimental y no necesita un modelo subjetivo. [36] [37]

Sin embargo, en cualquier momento, algunas hipótesis no se pueden probar utilizando modelos estadísticos objetivos, que describen con precisión experimentos aleatorizados o muestras aleatorias. En algunos casos, estos estudios aleatorios son antieconómicos o poco éticos.

Análisis basado en modelos de experimentos aleatorios [ editar ]

Es una práctica estándar referirse a un modelo estadístico, por ejemplo, un modelo lineal o logístico, cuando se analizan datos de experimentos aleatorios. [38] Sin embargo, el esquema de aleatorización guía la elección de un modelo estadístico. No es posible elegir un modelo apropiado sin conocer el esquema de aleatorización. [22] Se pueden obtener resultados seriamente engañosos analizando datos de experimentos aleatorios ignorando el protocolo experimental; Los errores comunes incluyen olvidar el bloqueo utilizado en un experimento y confundir mediciones repetidas en la misma unidad experimental con réplicas independientes del tratamiento aplicado a diferentes unidades experimentales. [39]

Inferencia de aleatorización sin modelo [ editar ]

Las técnicas sin modelos proporcionan un complemento a los métodos basados ​​en modelos, que emplean estrategias reduccionistas de simplificación de la realidad. Los primeros combinan, evolucionan, ensamblan y entrenan algoritmos adaptándose dinámicamente a las afinidades contextuales de un proceso y aprendiendo las características intrínsecas de las observaciones. [38] [40]

Por ejemplo, la regresión lineal simple sin modelo se basa en

  • un diseño aleatorio , donde los pares de observaciones son independientes y están distribuidos de manera idéntica (iid), o
  • un diseño determinista , donde las variables son deterministas, pero las variables de respuesta correspondientes son aleatorias e independientes con una distribución condicional común, es decir , que es independiente del índice .

En cualquier caso, la inferencia de aleatorización libre de modelo para las características de la distribución condicional común se basa en algunas condiciones de regularidad, por ejemplo, suavidad funcional. Por ejemplo, la inferencia de aleatorización libre de modelo para la función de la población condicional significar , , se puede estimar consistentemente a través de promediado local o ajuste polinómico local, bajo la suposición de que es suave. Además, basándose en la normalidad asintótica o remuestreo, podemos construir intervalos de confianza para la función de la población, en este caso, la media condicional , . [41]

Paradigmas para la inferencia [ editar ]

Se han establecido diferentes escuelas de inferencia estadística. Estas escuelas, o "paradigmas", no son mutuamente excluyentes, y los métodos que funcionan bien bajo un paradigma a menudo tienen interpretaciones atractivas bajo otros paradigmas.

Bandyopadhyay y Forster [42] describen cuatro paradigmas: "(i) estadísticas clásicas o estadísticas de error, (ii) estadísticas bayesianas, (iii) estadísticas basadas en verosimilitudes y (iv) estadísticas basadas en criterios de información de Akaikean". El paradigma clásico (o frecuentista ), el paradigma bayesiano , el paradigma verosimilista y el paradigma basado en AIC se resumen a continuación.

Inferencia frecuentista [ editar ]

Este paradigma calibra la plausibilidad de las proposiciones al considerar el muestreo repetido (teórico) de una distribución de población para producir conjuntos de datos similares al que tenemos a mano. Al considerar las características del conjunto de datos en un muestreo repetido, se pueden cuantificar las propiedades frecuentistas de una propuesta estadística, aunque en la práctica esta cuantificación puede ser un desafío.

Ejemplos de inferencia frecuentista [ editar ]

  • p -valor
  • Intervalo de confianza
  • Prueba de significación de hipótesis nula

Inferencia frecuentista, objetividad y teoría de la decisión [ editar ]

Una interpretación de la inferencia frecuentista (o inferencia clásica) es que es aplicable sólo en términos de probabilidad de frecuencia ; es decir, en términos de muestreo repetido de una población. Sin embargo, el enfoque de Neyman [43]desarrolla estos procedimientos en términos de probabilidades previas al experimento. Es decir, antes de emprender un experimento, se decide una regla para llegar a una conclusión tal que la probabilidad de ser correcta se controle de manera adecuada: tal probabilidad no necesita tener una interpretación de muestreo repetido o frecuentista. En contraste, la inferencia bayesiana funciona en términos de probabilidades condicionales (es decir, probabilidades condicionadas a los datos observados), en comparación con las probabilidades marginales (pero condicionadas por parámetros desconocidos) utilizadas en el enfoque frecuentista.

Los procedimientos frecuentistas de pruebas de significación e intervalos de confianza pueden construirse sin tener en cuenta las funciones de utilidad . Sin embargo, algunos elementos de la estadística frecuentista, como la teoría de la decisión estadística , incorporan funciones de utilidad . [ cita requerida ] En particular, los desarrollos frecuentistas de inferencia óptima (como estimadores insesgados de mínima varianza o pruebas uniformemente más poderosas ) hacen uso de funciones de pérdida , que desempeñan el papel de funciones de utilidad (negativas). Las funciones de pérdida no necesitan establecerse explícitamente para que los teóricos estadísticos demuestren que un procedimiento estadístico tiene una propiedad de optimalidad.[44] Sin embargo, las funciones de pérdida a menudo son útiles para establecer propiedades de optimización: por ejemplo, los estimadores de mediana insesgada son óptimos enfunciones de pérdida de valor absoluto , ya que minimizan la pérdida esperada, y losestimadores de mínimos cuadrados son óptimos en funciones de pérdida de error al cuadrado, porque minimizan la pérdida esperada.

Si bien los estadísticos que utilizan la inferencia frecuentista deben elegir por sí mismos los parámetros de interés y los estimadores / estadísticos de prueba que se utilizarán, la ausencia de utilidades obviamente explícitas y distribuciones previas ha ayudado a que los procedimientos frecuentistas se consideren ampliamente 'objetivos'. [45]

Inferencia bayesiana [ editar ]

El cálculo bayesiano describe los grados de creencia utilizando el "lenguaje" de la probabilidad; las creencias son positivas, se integran a una y obedecen a los axiomas de probabilidad. La inferencia bayesiana utiliza las creencias posteriores disponibles como base para hacer proposiciones estadísticas. Hay varias justificaciones diferentes para utilizar el enfoque bayesiano.

Ejemplos de inferencia bayesiana [ editar ]

  • Intervalo creíble para la estimación de intervalo
  • Factores de Bayes para la comparación de modelos

Inferencia bayesiana, subjetividad y teoría de la decisión [ editar ]

Muchas inferencias bayesianas informales se basan en resúmenes "intuitivamente razonables" del posterior. Por ejemplo, la media posterior, la mediana y la moda, los intervalos de densidad posterior más altos y los factores de Bayes pueden motivarse de esta manera. Si bien no es necesario establecer la función de utilidad de un usuario para este tipo de inferencia, todos estos resúmenes dependen (hasta cierto punto) de creencias previas declaradas y, en general, se consideran conclusiones subjetivas. (Se han propuesto métodos de construcción previa que no requieren aportes externos, pero aún no se han desarrollado completamente).

Formalmente, la inferencia bayesiana se calibra con referencia a una función de utilidad o pérdida declarada explícitamente; la 'regla de Bayes' es la que maximiza la utilidad esperada, promediada sobre la incertidumbre posterior. Por tanto, la inferencia bayesiana formal proporciona automáticamente decisiones óptimas en un sentido teórico de la decisión . Dados los supuestos, los datos y la utilidad, la inferencia bayesiana se puede hacer para prácticamente cualquier problema, aunque no todas las inferencias estadísticas necesitan una interpretación bayesiana. Los análisis que no son formalmente bayesianos pueden ser (lógicamente) incoherentes ; una característica de los procedimientos bayesianos que utilizan a priori adecuados (es decir, los integrables a uno) es que se garantiza que son coherentes . Algunos defensores deLa inferencia bayesiana afirma que la inferencia debe tener lugar en este marco de la teoría de la decisión y que la inferencia bayesiana no debe concluir con la evaluación y el resumen de creencias posteriores.

Inferencia basada en verosimilitud [ editar ]

El verosimilismo se aproxima a la estadística mediante el uso de la función de verosimilitud . Algunos verosimilistas rechazan la inferencia, considerando las estadísticas como solo un soporte informático de la evidencia. Otros, sin embargo, proponen inferencias basadas en la función de verosimilitud, de las cuales la más conocida es la estimación de máxima verosimilitud .

Inferencia basada en AIC [ editar ]

El criterio de información de Akaike (AIC) es un estimador de la calidad relativa de los modelos estadísticos para un conjunto de datos dado. Dada una colección de modelos para los datos, AIC estima la calidad de cada modelo, en relación con cada uno de los otros modelos. Por tanto, AIC proporciona un medio para la selección de modelos .

AIC se basa en la teoría de la información : ofrece una estimación de la información relativa perdida cuando se utiliza un modelo dado para representar el proceso que generó los datos. (Al hacerlo, se ocupa de la compensación entre la bondad de ajuste del modelo y la simplicidad del modelo).

Otros paradigmas para la inferencia [ editar ]

Longitud mínima de la descripción [ editar ]

El principio de longitud mínima de descripción (MDL) se ha desarrollado a partir de ideas en la teoría de la información [46] y la teoría de la complejidad de Kolmogorov . [47] El principio (MDL) selecciona modelos estadísticos que comprimen al máximo los datos; La inferencia procede sin asumir "mecanismos de generación de datos" o modelos de probabilidad contrafácticos o no falsables para los datos, como se podría hacer en los enfoques frecuentista o bayesiano.

Sin embargo, si un "datos mecanismo de generación de" existe en la realidad, a continuación, de acuerdo con Shannon 's fuente teorema de codificación que proporciona la descripción MDL de los datos, en promedio y asintóticamente. [48] Al minimizar la longitud de la descripción (o complejidad descriptiva), la estimación de MDL es similar a la estimación de máxima verosimilitud y la estimación máxima a posteriori (utilizando a priori bayesianos de máxima entropía ). Sin embargo, MDL evita asumir que se conoce el modelo de probabilidad subyacente; El principio MDL también se puede aplicar sin suponer que, por ejemplo, los datos surgen de un muestreo independiente. [48] [49]

El principio MDL se ha aplicado en comunicación- teoría de la codificación en teoría de la información , en la regresión lineal , [49] y en la minería de datos . [47]

La evaluación de procedimientos inferenciales basados ​​en MDL a menudo utiliza técnicas o criterios de la teoría de la complejidad computacional . [50]

Inferencia fiducial [ editar ]

La inferencia fiducial era un enfoque de la inferencia estadística basada en la probabilidad fiducial , también conocida como "distribución fiducial". En trabajos posteriores, este enfoque se ha calificado de mal definido, de aplicabilidad extremadamente limitada e incluso falaz. [51] [52] Sin embargo, este argumento es el mismo que muestra [53] que una denominada distribución de confianza no es una distribución de probabilidad válida y, dado que esto no ha invalidado la aplicación de intervalos de confianza , no invalida necesariamente conclusiones extraídas de argumentos fiduciales. Se intentó reinterpretar el trabajo inicial del argumento fiducial de Fisher.como un caso especial de una teoría de inferencia que utiliza probabilidades superior e inferior . [54]

Inferencia estructural [ editar ]

Al desarrollar las ideas de Fisher y Pitman de 1938 a 1939, [55] George A. Barnard desarrolló una "inferencia estructural" o "inferencia fundamental", [56] un enfoque que utiliza probabilidades invariantes en familias de grupos . Barnard reformuló los argumentos detrás de la inferencia fiducial sobre una clase restringida de modelos en los que los procedimientos "fiduciales" serían bien definidos y útiles.

Temas de inferencia [ editar ]

Los temas a continuación generalmente se incluyen en el área de inferencia estadística .

  1. Supuestos estadísticos
  2. Teoría de la decisión estadística
  3. Teoría de la estimación
  4. Prueba de hipótesis estadística
  5. Revisión de opiniones en estadísticas
  6. Diseño de experimentos , análisis de varianza y regresión.
  7. Muestreo de encuestas
  8. Resumiendo datos estadísticos

Historia [ editar ]

Al-Kindi , un matemático árabe del siglo IX, hizo el primer uso conocido de la inferencia estadística en su Manuscrito sobre el descifrado de mensajes criptográficos , un trabajo sobre criptoanálisis y análisis de frecuencia . [57]

Ver también [ editar ]

  • Inferencia algorítmica
  • Inducción (filosofía)
  • Razonamiento inferencial informal
  • Proporción de población
  • Filosofía de la estadística
  • Inferencia predictiva
  • Teoría del campo de información

Notas [ editar ]

  1. Según Peirce, la aceptación significa que la investigación sobre esta cuestión cesa por el momento. En ciencia, todas las teorías científicas son revisables.

Referencias [ editar ]

Citas [ editar ]

  1. ^ Upton, G., Cook, I. (2008) Diccionario de estadística de Oxford , OUP. ISBN  978-0-19-954145-4 .
  2. ^ "Inferencia de TensorFlow Lite" . El término inferencia se refiere al proceso de ejecutar un modelo de TensorFlow Lite en el dispositivo para hacer predicciones basadas en datos de entrada.
  3. ^ Konishi y Kitagawa (2008), p. 75.
  4. ^ Cox (2006), p. 197.
  5. ^ "Inferencia estadística - enciclopedia de matemáticas" . www.encyclopediaofmath.org . Consultado el 23 de enero de 2019 .
  6. ^ a b Cox (2006) página 2
  7. ^ Evans, Michael; et al. (2004). Probabilidad y estadística: la ciencia de la incertidumbre . Freeman and Company. pag. 267. ISBN 9780716747420.
  8. ^ van der Vaart, AW (1998) Estadísticas asintóticas Cambridge University Press. ISBN 0-521-78450-6 (página 341) 
  9. ^ Kruskal 1988
  10. ^ Freedman, DA (2008) "Análisis de supervivencia: ¿un peligro epidemiológico?". The American Statistician (2008) 62: 110-119. (Reimpreso como Capítulo 11 (páginas 169-192) de Freedman (2010)).
  11. ^ Berk, R. (2003) Análisis de regresión: una crítica constructiva (técnicas cuantitativas avanzadas en las ciencias sociales) (v. 11) Publicaciones sabias. ISBN 0-7619-2904-5 
  12. ↑ a b Brewer, Ken (2002). Inferencia de muestreo de encuesta combinada: pesaje de elefantes de Basu . Hodder Arnold. pag. 6. ISBN 978-0340692295.
  13. ^ a b Probabilidad de Jörgen Hoffman-Jörgensen con miras a las estadísticas , Volumen I. Página 399 [ se necesita cita completa ]
  14. ^ Le Cam (1986) [ página necesaria ]
  15. ^ Erik Torgerson (1991) Comparación de experimentos estadísticos , volumen 36 de la Enciclopedia de las matemáticas. Prensa de la Universidad de Cambridge. [ se necesita cita completa ]
  16. ^ Liese, Friedrich y Miescke, Klaus-J. (2008). Teoría de la decisión estadística: estimación, prueba y selección . Saltador. ISBN 978-0-387-73193-3.
  17. Kolmogorov (1963, p. 369): "El concepto de frecuencia, basado en la noción de frecuencia límite a medida que el número de ensayos aumenta hasta el infinito, no aporta nada para fundamentar la aplicabilidad de los resultados de la teoría de la probabilidad a problemas prácticos reales donde siempre tenemos que lidiar con un número finito de ensayos ".
  18. ^ "De hecho, los teoremas del límite 'como tiende al infinito' están lógicamente desprovistos de contenido sobre lo que sucede en cualquier particular . Todo lo que pueden hacer es sugerir ciertos enfoques cuyo desempeño debe ser verificado en el caso en cuestión". - Le Cam (1986) (página xiv)
  19. ^ Pfanzagl (1994): "El inconveniente crucial de la teoría asintótica: lo que esperamos de la teoría asintótica son resultados que se mantienen aproximadamente ... Lo que la teoría asintótica tiene para ofrecer son teoremas límite". (Página ix) "Lo que cuenta para las aplicaciones son aproximaciones, no límites ". (página 188)
  20. Pfanzagl (1994): "Al considerar que un teorema del límite es aproximadamente cierto para tamaños de muestra grandes, cometemos un error cuyo tamaño se desconoce. [...] Se puede obtener información realista sobre los errores restantes mediante simulaciones". (página ix)
  21. ^ Neyman, J. (1934) "Sobre los dos aspectos diferentes del método representativo: el método de muestreo estratificado y el método de selección intencional", Journal of the Royal Statistical Society , 97 (4), 557-625 JSTOR  2342192
  22. ^ a b Hinkelmann y Kempthorne (2008) [ página necesaria ]
  23. ^ Directrices de la ASA para un primer curso de estadística para no estadísticos. (disponible en el sitio web de ASA)
  24. ^ Estadísticas de David A. Freedman y otros.
  25. ^ Moore y col. (2015).
  26. ^ Gelman A. et al. (2013). Análisis de datos bayesianos ( Chapman & Hall ).
  27. Peirce (1877-1878)
  28. Peirce (1883)
  29. ^ Freedman, Pisani y Purves 1978 .
  30. ^ Modelos estadísticos de David A. Freedman .
  31. ^ Rao, CR (1997) Estadísticas y verdad: poner la oportunidad a trabajar , World Scientific. ISBN 981-02-3111-3 
  32. ^ Peirce; Freedman; Moore y col. (2015). [ cita requerida ]
  33. ^ Caja, GEP y amigos (2006) Mejorando casi todo: ideas y ensayos, edición revisada , Wiley. ISBN 978-0-471-72755-2 
  34. ^ Cox (2006), p. 196.
  35. ^ Directrices de la ASA para un primer curso de estadística para no estadísticos. (disponible en el sitio web de ASA)
    • Estadísticas de David A. Freedman et alia .
    • Moore y col. (2015).
  36. ^ Neyman, Jerzy. 1923 [1990]. "Sobre la aplicación de la teoría de la probabilidad a los experimentos agrícolas. Ensayo sobre principios. Sección 9." Ciencia estadística 5 (4): 465–472. Trans. Dorota M. Dabrowska y Terence P. Speed.
  37. ^ Hinkelmann & Kempthorne (2008) [ página necesaria ]
  38. ^ a b Dinov, Ivo; Palanimalai, Selvam; Khare, Ashwini; Christou, Nicolas (2018). "Inferencia estadística basada en la aleatorización: una infraestructura de simulación y remuestreo" . Enseñanza de la Estadística . 40 (2): 64–73. doi : 10.1111 / test.12156 . PMC 6155997 . PMID 30270947 .  
  39. ^ Hinkelmann y Kempthorne (2008) Capítulo 6.
  40. ^ Tang, Ming; Gao, Chao; Goutman, Stephen; Kalinin, Alexandr; Mukherjee, Bhramar; Guan, Yuanfang; Dinov, Ivo (2019). "Técnicas basadas en modelos y sin modelos para la predicción diagnóstica de la esclerosis lateral amiotrófica y la agrupación de pacientes" . Neuroinformática . 17 (3): 407–421. doi : 10.1007 / s12021-018-9406-9 . PMC 6527505 . PMID 30460455 .  
  41. ^ Politis, DN (2019). "Inferencia sin modelo en estadística: cómo y por qué" . Boletín IMS . 48 .
  42. ^ Bandyopadhyay y Forster (2011). La cita está tomada de la Introducción del libro (p. 3). Véase también "Sección III: Cuatro paradigmas de la estadística".
  43. ^ Neyman, J. (1937). "Esquema de una teoría de la estimación estadística basada en la teoría clásica de la probabilidad" . Philosophical Transactions de la Royal Society de Londres Una . 236 (767): 333–380. Código bibliográfico : 1937RSPTA.236..333N . doi : 10.1098 / rsta.1937.0005 . JSTOR 91337 . 
  44. ^ Prefacio a Pfanzagl.
  45. ^ Pequeño, Roderick J. (2006). "Bayes calibrado: una hoja de ruta Bayes / Frequentist". El estadístico estadounidense . 60 (3): 213-223. doi : 10.1198 / 000313006X117837 . ISSN 0003-1305 . JSTOR 27643780 . S2CID 53505632 .   
  46. Soofi (2000)
  47. ↑ a b Hansen y Yu (2001)
  48. ↑ a b Hansen y Yu (2001), página 747.
  49. ↑ a b Rissanen (1989), página 84
  50. ^ Joseph F. Traub, GW Wasilkowski y H. Wozniakowski. (1988) [ página necesaria ]
  51. Neyman (1956)
  52. Zabell (1992)
  53. ^ Cox (2006) página 66
  54. ^ Hampel 2003 .
  55. ^ Davison, página 12. [ se necesita cita completa ]
  56. ^ Barnard, GA (1995) "Modelos fundamentales y el argumento fiducial", Revista estadística internacional, 63 (3), 309–323. JSTOR  1403482
  57. ^ Broemeling, Lyle D. (1 de noviembre de 2011). "Una cuenta de la inferencia estadística temprana en criptología árabe". El estadístico estadounidense . 65 (4): 255–257. doi : 10.1198 / tas.2011.10191 . S2CID 123537702 . 

Fuentes [ editar ]

  • Bandyopadhyay, PS; Forster, MR, eds. (2011), Filosofía de la estadística , Elsevier.
  • Bickel, Peter J .; Doksum, Kjell A. (2001). Estadística matemática: temas básicos y seleccionados . 1 (Segunda edición (impresión actualizada 2007)). Prentice Hall . ISBN 978-0-13-850363-5. Señor  0443141 .
  • Cox, RD (2006). Principios de inferencia estadística , Cambridge University Press . ISBN 0-521-68567-2 . 
  • Fisher, RA (1955), "Métodos estadísticos e inducción científica", Revista de la Royal Statistical Society , Serie B , 17, 69-78. (crítica a las teorías estadísticas de Jerzy Neyman y Abraham Wald )
  • Freedman, DA (2009). Modelos estadísticos: teoría y práctica (ed. Revisada). Prensa de la Universidad de Cambridge . págs. xiv + 442 págs. ISBN 978-0-521-74385-3. Señor  2489600 .
  • Freedman, DA (2010). Modelos estadísticos e inferencias causales: un diálogo con las ciencias sociales (editado por David Collier, Jasjeet Sekhon y Philip B. Stark), Cambridge University Press .
  • Hampel, Frank (febrero de 2003). "El argumento fiducial adecuado" (PDF) (Informe de investigación nº 114) . Consultado el 29 de marzo de 2016 . Cite journal requires |journal= (help)
  • Hansen, Mark H .; Yu, Bin (junio de 2001). "Selección del modelo y principio de longitud mínima de descripción: artículo de revisión" . Revista de la Asociación Estadounidense de Estadística . 96 (454): 746–774. CiteSeerX  10.1.1.43.6581 . doi : 10.1198 / 016214501753168398 . JSTOR  2670311 . Señor  1939352 . S2CID  14460386 . Archivado desde el original el 16 de noviembre de 2004.
  • Hinkelmann, Klaus; Kempthorne, Oscar (2008). Introducción al Diseño Experimental (Segunda ed.). Wiley. ISBN 978-0-471-72756-9.
  • Kolmogorov, Andrei N. (1963). "En tablas de números aleatorios". Sankhyā Ser. Una . 25 : 369–375. Señor  0178484 .Reimpreso como Kolmogorov, Andrei N. (1998). "En tablas de números aleatorios". Informática Teórica . 207 (2): 387–395. doi : 10.1016 / S0304-3975 (98) 00075-9 . Señor 1643414 . 
  • Konishi S., Kitagawa G. (2008), Criterios de información y modelado estadístico , Springer.
  • Kruskal, William (diciembre de 1988). "Milagros y estadísticas: la asunción casual de la independencia (Discurso presidencial de ASA)". Revista de la Asociación Estadounidense de Estadística . 83 (404): 929–940. doi : 10.2307 / 2290117 . JSTOR  2290117 .
  • Le Cam, Lucian . (1986) Métodos asintóticos de teoría de la decisión estadística , Springer. ISBN 0-387-96307-3 
  • Moore, DS ; McCabe, GP; Craig, BA (2015), Introducción a la práctica de la estadística , octava edición, Macmillan.
  • Neyman, Jerzy (1956). "Nota sobre un artículo de Sir Ronald Fisher". Revista de la Sociedad Real de Estadística, Serie B . 18 (2): 288-294. doi : 10.1111 / j.2517-6161.1956.tb00236.x . JSTOR  2983716 . (respuesta a Fisher 1955)
  • Peirce, CS (1877–1878), "Ilustraciones de la lógica de la ciencia" (serie), Popular Science Monthly , vols. 12-13. Artículos individuales relevantes:
    • (1878 Marzo), "La doctrina de posibilidades", Popular Science Monthly , v. 12, edición de marzo, pp. 604 -615. Archivo de Internet Eprint .
    • (Abril de 1878), "La probabilidad de la inducción", Popular Science Monthly , v. 12, pp. 705 - 718. Archivo de Internet Eprint .
    • (Junio ​​de 1878), "El orden de la naturaleza", Popular Science Monthly , v. 13, págs. 203 –217. Archivo de Internet Eprint .
    • (1878 agosto), "Deducción, inducción, y Hipótesis", Popular Science Monthly , v. 13, pp. 470 -482. Archivo de Internet Eprint .
  • Peirce, CS (1883), "Una teoría de la inferencia probable", Estudios de lógica , págs. 126-181 , Little, Brown y Company. (Reimpreso en 1983, John Benjamins Publishing Company , ISBN 90-272-3271-7 ) 
  • Freedman, DA ; Pisani, R .; Purves, RA (1978). Estadística . Nueva York: WW Norton & Company .
  • Pfanzagl, Johann; con la ayuda de R. Hamböker (1994). Teoría estadística paramétrica . Berlín: Walter de Gruyter . ISBN 978-3-11-013863-4. Señor  1291393 .
  • Rissanen, Jorma (1989). Complejidad estocástica en la investigación estadística . Serie en Ciencias de la Computación. 15 . Singapur: World Scientific . ISBN 978-9971-5-0859-3. Señor  1082556 .
  • Soofi, Ehsan S. (diciembre de 2000). "Principales enfoques de la teoría de la información (viñetas para el año 2000: teoría y métodos, ed. Por George Casella)". Revista de la Asociación Estadounidense de Estadística . 95 (452): 1349-1353. doi : 10.1080 / 01621459.2000.10474346 . JSTOR  2669786 . Señor  1825292 . S2CID  120143121 .
  • Traub, Joseph F .; Wasilkowski, GW; Wozniakowski, H. (1988). Complejidad basada en la información . Prensa académica. ISBN 978-0-12-697545-1.
  • Zabell, SL (agosto de 1992). "RA Fisher y argumento fiducial" . Ciencia estadística . 7 (3): 369–387. doi : 10.1214 / ss / 1177011233 . JSTOR  2246073 .

Lectura adicional [ editar ]

  • Casella, G. , Berger, RL (2002). Inferencia estadística . Prensa de Duxbury. ISBN 0-534-24312-6 
  • Freedman, DA (1991). "Modelos estadísticos y calzado de cuero". Metodología sociológica . 21 : 291–313. doi : 10.2307 / 270939 . JSTOR  270939 .
  • Held L., Bové DS (2014). Inferencia estadística aplicada: probabilidad y Bayes (Springer).
  • Lenhard, Johannes (2006). "Modelos e inferencia estadística: la controversia entre Fisher y Neyman-Pearson" (PDF) . Revista británica de filosofía de la ciencia . 57 : 69–91. doi : 10.1093 / bjps / axi152 . S2CID  14136146 .
  • Lindley, D (1958). "Distribución fiducial y teorema de Bayes". Revista de la Sociedad Real de Estadística, Serie B . 20 : 102–7.
  • Rahlf, Thomas (2014). "Inferencia estadística", en Claude Diebolt, y Michael Haupert (eds.), "Manual de cliometría (serie de referencia de Springer)", Berlín / Heidelberg: Springer. http://www.springerreference.com/docs/html/chapterdbid/372458.html
  • Reid, N .; Cox, RD (2014). "Sobre algunos principios de inferencia estadística". Revista Estadística Internacional . 83 (2): 293–308. doi : 10.1111 / insr.12067 . hdl : 10.1111 / insr.12067 .
  • Young, GA, Smith, RL (2005). Fundamentos de la inferencia estadística , CUP. ISBN 0-521-83971-8 

Enlaces externos [ editar ]

  • MIT OpenCourseWare : Inferencia estadística
  • Inferencia estadística NPTEL , enlace de youtube
  • Inducción y predicción estadística