Intervalo de confianza

En estadística , un intervalo de confianza ( IC ) es un tipo de estimación calculada a partir de las estadísticas de los datos observados. Esto da un rango de valores para un parámetro desconocido (por ejemplo, una media poblacional). El intervalo tiene un nivel de confianza asociado que da la probabilidad con la que un intervalo estimado contendrá el valor real del parámetro. El nivel de confianza lo elige el investigador. Para una estimación dada en una muestra dada, el uso de un nivel de confianza más alto genera un intervalo de confianza más amplio (es decir, menos preciso). En términos generales, un intervalo de confianza para un parámetro desconocido se basa en muestrear la distribución de unestimador . ^[1]

Esto significa que el nivel de confianza representa la frecuencia teórica a largo plazo (es decir, la proporción) de los intervalos de confianza que contienen el valor real del parámetro de población desconocido. En otras palabras, el 90% de los intervalos de confianza calculados al nivel de confianza del 90% contienen el parámetro, el 95% de los intervalos de confianza calculados al nivel de confianza del 95% contienen el parámetro, el 99% de los intervalos de confianza calculados al nivel de confianza del 99% contienen el parámetro. parámetro, etc. ^[2]

El nivel de confianza se designa antes de examinar los datos. Por lo general, se utiliza un nivel de confianza del 95%. ^[3] Sin embargo, a veces se utilizan otros niveles de confianza, como el 90% o el 99%.

Los factores que afectan la amplitud del intervalo de confianza incluyen el tamaño de la muestra, el nivel de confianza y la variabilidad en la muestra. Una muestra más grande tenderá a producir una mejor estimación del parámetro de población, cuando todos los demás factores son iguales. Un nivel de confianza más alto tenderá a producir un intervalo de confianza más amplio.

Muchos intervalos de confianza tienen la forma ${\ Displaystyle (tc \ sigma _ {T}, t + c \ sigma _ {T})}$ , dónde ${\ Displaystyle t}$ es la realización del conjunto de datos, c es una constante y ${\ Displaystyle \ sigma _ {T}}$ es la desviación estándar del conjunto de datos. ^[1]

Otra forma de expresar la forma del intervalo de confianza es un conjunto de dos parámetros: (estimación puntual - límite de error, estimación puntual + límite de error) , o expresado simbólicamente como (–EBM, + EBM) , donde (estimación puntual) sirve como un estimación para m (la media de la población) y EBM es el límite de error para una media de la población. ^[2]

El margen de error (MBE) depende del nivel de confianza. ^[2]

Una definición general rigurosa:

Supongamos un conjunto de datos ${\ Displaystyle x_ {1}, \ ldots, x_ {n}}$ se da, modelado como la realización de variables aleatorias ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ . Dejar ${\ Displaystyle \ theta}$ ser el parámetro de interés, y ${\ Displaystyle \ gamma}$ un número entre 0 y 1. Si existen estadísticas de muestra ${\ Displaystyle L_ {n} = g (X_ {1}, \ ldots, X_ {n})}$ y ${\ Displaystyle U_ {n} = h (X_ {1}, \ ldots, X_ {n})}$ tal que:

${\ Displaystyle P (L_ {n} <\ theta$ por cada valor de ${\ Displaystyle \ theta}$

luego ${\ Displaystyle (l_ {n}, u_ {n})}$ , dónde ${\ Displaystyle l_ {n} = g (x_ {1}, \ ldots, x_ {n})}$ y ${\ Displaystyle u_ {n} = h (x_ {1}, \ ldots, x_ {n})}$ , se llama ${\ Displaystyle \ gamma \ times 100 \%}$ intervalo de confianza para ${\ Displaystyle \ theta}$ . El número ${\ Displaystyle \ gamma}$ se llama nivel de confianza . ^[1]

Base conceptual

En este gráfico de barras , los extremos superiores de las barras marrones indican las medias observadas y los segmentos de línea roja ("barras de error") representan los intervalos de confianza a su alrededor. Aunque las barras de error se muestran simétricas alrededor de las medias, no siempre es así. También es importante tener en cuenta que en la mayoría de los gráficos, las barras de error no representan intervalos de confianza (por ejemplo, a menudo representan errores estándar o desviaciones estándar ).

Introducción

La estimación por intervalos se puede contrastar con la estimación puntual . Una estimación puntual es un valor único dado como la estimación de un parámetro de población que es de interés, por ejemplo, la media de alguna cantidad. En cambio, una estimación de intervalo especifica un rango dentro del cual se estima que se encuentra el parámetro. Los intervalos de confianza se informan comúnmente en tablas o gráficos junto con estimaciones puntuales de los mismos parámetros, para mostrar la confiabilidad de las estimaciones.

Por ejemplo, se puede usar un intervalo de confianza para describir cuán confiables son los resultados de la encuesta. En una encuesta de intenciones electorales de voto, el resultado podría ser que el 40% de los encuestados tiene la intención de votar por un partido determinado. Un intervalo de confianza del 99% para la proporción de toda la población que tiene la misma intención en la encuesta podría ser del 30% al 50%. A partir de los mismos datos, se puede calcular un intervalo de confianza del 90%, que en este caso podría ser del 37% al 43%. Un factor importante que determina la duración de un intervalo de confianza es el tamaño de la muestra utilizada en el procedimiento de estimación, por ejemplo, el número de personas que participan en una encuesta.

Significado e interpretación

Se pueden dar varias interpretaciones de un intervalo de confianza (tomando el intervalo de confianza del 90% como ejemplo a continuación).

El intervalo de confianza se puede expresar en términos de muestras (o muestras repetidas ): " Si este procedimiento se repitiera en numerosas muestras, la fracción de los intervalos de confianza calculados (que diferirían para cada muestra) que abarcan el parámetro de población real tenderían a 90% ". ^[4]
El intervalo de confianza se puede expresar en términos de una sola muestra: " Hay un 90% de probabilidad de que el intervalo de confianza calculado de algún experimento futuro abarque el valor real del parámetro de población". Tenga en cuenta que esta es una declaración de probabilidad sobre el intervalo de confianza, no el parámetro de población. Se considera la probabilidad asociada a un intervalo de confianza desde un punto de vista previo al experimento, en el mismo contexto en el que se formulan los argumentos para la asignación aleatoria de tratamientos a los ítems de estudio. Aquí, el experimentador establece la forma en que pretende calcular un intervalo de confianza y saber, antes de realizar el experimento real, que el intervalo que terminará calculando tiene una probabilidad particular de cubrir el valor verdadero pero desconocido. ^[5] Esto es muy similar a la interpretación de "muestra repetida" anterior, excepto que evita depender de considerar repeticiones hipotéticas de un procedimiento de muestreo que pueden no ser repetibles en ningún sentido significativo. Ver construcción de Neyman .
La explicación de un intervalo de confianza puede equivaler a algo como: " El intervalo de confianza representa valores para el parámetro de población para los cuales la diferencia entre el parámetro y la estimación observada no es estadísticamente significativa al nivel del 10% ". ^[6] Esta interpretación es común en artículos científicos que utilizan intervalos de confianza para validar sus experimentos, aunque la dependencia excesiva de los intervalos de confianza también puede causar problemas .

En cada uno de los anteriores, se aplica lo siguiente: si el valor real del parámetro se encuentra fuera del intervalo de confianza del 90%, entonces se ha producido un evento de muestreo (es decir, obtener una estimación puntual del parámetro al menos tan lejos del valor real del parámetro ) que tenía una probabilidad del 10% (o menos) de ocurrir por casualidad.

Malentendidos

Los intervalos y niveles de confianza con frecuencia son malinterpretados por la mayoría de los jóvenes académicos, y los estudios publicados han demostrado que incluso los científicos profesionales los malinterpretan a menudo. ^[7]^[8]^[9]^[10]^[11]

Un nivel de confianza del 95% no significa que para un intervalo realizado dado hay una probabilidad del 95% de que el parámetro de población se encuentre dentro del intervalo (es decir, una probabilidad del 95% de que el intervalo cubra el parámetro de población). ^[12] Según la interpretación frecuentista estricta, una vez que se calcula un intervalo, este intervalo cubre el valor del parámetro o no; ya no es una cuestión de probabilidad. La probabilidad del 95% se relaciona con la confiabilidad del procedimiento de estimación, no con un intervalo calculado específico. ^{[13] El} propio Neyman (el proponente original de los intervalos de confianza) hizo este punto en su artículo original: ^[5]
"Se notará que en la descripción anterior, los enunciados de probabilidad se refieren a los problemas de estimación con los que el estadístico se ocupará en el futuro. De hecho, he afirmado repetidamente que la frecuencia de resultados correctos tenderá a α . Considere ahora el caso en el que ya se extrajo una muestra y los cálculos han dado [límites particulares]. ¿Podemos decir que en este caso particular la probabilidad de que el valor verdadero [que se encuentre entre estos límites] es igual a α ? La respuesta es obviamente en el negativo. El parámetro es una constante desconocida, y no se puede hacer ninguna declaración de probabilidad con respecto a su valor ... "

Deborah Mayo amplía esto aún más de la siguiente manera: ^[14]

"Debe enfatizarse, sin embargo, que habiendo visto el valor [de los datos], la teoría de Neyman-Pearson nunca permite concluir que el intervalo de confianza específico formado cubre el verdadero valor de 0 con (1 - α ) 100% de probabilidad o (1 - α ) 100% de grado de confianza. La observación de Seidenfeld parece arraigada en un deseo (no infrecuente) de que los intervalos de confianza de Neyman-Pearson proporcionen algo que no pueden proporcionar legítimamente; es decir, una medida del grado de probabilidad, creencia, o apoyar que un valor de parámetro desconocido se encuentra en un intervalo específico. Siguiendo a Savage (1962), la probabilidad de que un parámetro se encuentre en un intervalo específico puede denominarse una medida de precisión final. Si bien una medida de precisión final puede parecer deseable, y aunque los niveles de confianza a menudo se interpretan (erróneamente) como una medida de este tipo, no se justifica tal interpretación. Es cierto que la palabra 'confianza' fomenta esa mala interpretación ".

Un nivel de confianza del 95% no significa que el 95% de los datos de la muestra se encuentren dentro del intervalo de confianza.
Un intervalo de confianza no es un rango definitivo de valores plausibles para el parámetro de muestra, aunque puede entenderse como una estimación de valores plausibles para el parámetro de población.
Un nivel de confianza particular del 95% calculado a partir de un experimento no significa que haya una probabilidad del 95% de que un parámetro de muestra de una repetición del experimento se encuentre dentro de este intervalo. ^[11]

Historia

Los intervalos de confianza fueron introducidos en las estadísticas por Jerzy Neyman en un artículo publicado en 1937. ^[15] Sin embargo, tomó bastante tiempo para que los intervalos de confianza se usaran de manera precisa y rutinaria.

En el primer ensayo clínico controlado moderno de un tratamiento médico para el accidente cerebrovascular agudo , publicado por Dyken y White en 1959, los investigadores no pudieron rechazar la hipótesis nula de que el cortisol no tiene ningún efecto sobre el accidente cerebrovascular. No obstante, llegaron a la conclusión de que su ensayo "claramente no indicó ninguna ventaja posible del tratamiento con cortisona". Dyken y White no calcularon los intervalos de confianza, que eran raros en ese momento en medicina. Cuando Peter Sandercock reevaluó los datos en 2015, descubrió que el intervalo de confianza del 95% se extendía desde una reducción del riesgo del 12% hasta un aumento del riesgo del 140%. Por lo tanto, la afirmación de los autores no fue respaldada por su experimento. Sandercock concluyó que, especialmente en las ciencias médicas, donde los conjuntos de datos pueden ser pequeños, los intervalos de confianza son mejores que las pruebas de hipótesis para cuantificar la incertidumbre en torno al tamaño y la dirección de un efecto. ^[dieciséis]

No fue hasta la década de 1980 que las revistas requirieron que los intervalos de confianza y los valores p se informaran en los artículos. Para 1992, las estimaciones imprecisas seguían siendo habituales, incluso para ensayos grandes. Esto impidió una decisión clara sobre la hipótesis nula. Por ejemplo, un estudio de terapias médicas para el accidente cerebrovascular agudo llegó a la conclusión de que los tratamientos del accidente cerebrovascular podrían reducir la mortalidad o aumentarla en un 10% -20%. La estricta admisión al estudio introdujo un error imprevisto, lo que aumentó aún más la incertidumbre en la conclusión. Los estudios persistieron, y no fue hasta 1997 que un ensayo con una muestra masiva y un intervalo de confianza aceptable pudo proporcionar una respuesta definitiva: la terapia con cortisol no reduce el riesgo de accidente cerebrovascular agudo. ^[dieciséis]

Problemas filosóficos

El principio detrás de los intervalos de confianza se formuló para dar una respuesta a la pregunta planteada en la inferencia estadística de cómo lidiar con la incertidumbre inherente a los resultados derivados de los datos que son en sí mismos solo un subconjunto seleccionado al azar de una población. Hay otras respuestas, en particular la proporcionada por la inferencia bayesiana en forma de intervalos creíbles . Los intervalos de confianza corresponden a una regla elegida para determinar los límites de confianza, donde esta regla se determina esencialmente antes de que se obtengan los datos o antes de realizar un experimento. La regla se define de tal manera que sobre todos los conjuntos de datos posibles que se pueden obtener, existe una alta probabilidad ("alta" se cuantifica específicamente) de que el intervalo determinado por la regla incluya el valor real de la cantidad en consideración. El enfoque bayesiano parece ofrecer intervalos que pueden, sujeto a la aceptación de una interpretación de "probabilidad" como probabilidad bayesiana , ser interpretados en el sentido de que el intervalo específico calculado a partir de un conjunto de datos dado tiene una probabilidad particular de incluir el valor verdadero, condicionado a la datos y otra información disponible. El enfoque del intervalo de confianza no permite esto, ya que en esta formulación y en esta misma etapa, tanto los límites del intervalo como los valores verdaderos son valores fijos y no hay aleatoriedad involucrada. Por otro lado, el enfoque bayesiano solo es tan válido como la probabilidad previa utilizada en el cálculo, mientras que el intervalo de confianza no depende de supuestos sobre la probabilidad previa.

Las cuestiones relativas a cómo podría formularse un intervalo que expresa incertidumbre en una estimación, y cómo podrían interpretarse tales intervalos, no son problemas estrictamente matemáticos y son filosóficamente problemáticos. ^{[17] Las} matemáticas pueden asumir el control una vez que se han establecido los principios básicos de un enfoque de 'inferencia', pero solo tiene un papel limitado a la hora de decir por qué se debe preferir un enfoque a otro: por ejemplo, un nivel de confianza del 95% es se utiliza a menudo en las ciencias biológicas , pero esto es una cuestión de convención o arbitraje. En las ciencias físicas , se puede utilizar un nivel mucho más alto. ^[18]

Relación con otros temas estadísticos

Prueba de hipótesis estadística

Los intervalos de confianza están estrechamente relacionados con las pruebas de significación estadística . Por ejemplo, si para algún parámetro estimado θ uno quiere probar la hipótesis nula de que θ = 0 contra la alternativa de que θ ≠ 0, entonces esta prueba se puede realizar determinando si el intervalo de confianza para θ contiene 0.

De manera más general, dada la disponibilidad de un procedimiento de prueba de hipótesis que puede probar la hipótesis nula θ = θ ₀ contra la alternativa de que θ ≠ θ ₀ para cualquier valor de θ ₀ , entonces un intervalo de confianza con nivel de confianza γ = 1 - α puede ser definido como que contiene cualquier número θ ₀ para el cual la hipótesis nula correspondiente no se rechaza en el nivel de significancia α . ^[19]

Si las estimaciones de dos parámetros (por ejemplo, los valores medios de una variable en dos grupos independientes) tienen intervalos de confianza que no se superponen, entonces la diferencia entre los dos valores es más significativa que la indicada por los valores individuales de α . ^[20] Por lo tanto, esta "prueba" es demasiado conservadora y puede conducir a un resultado que sea más significativo de lo que indicarían los valores individuales de α . Si dos intervalos de confianza se superponen, las dos medias aún pueden ser significativamente diferentes. ^[21]^[22]^{[23] En} consecuencia, y consistente con la prueba Chi-cuadrado de Mantel-Haenszel , es una solución propuesta por la cual uno reduce los límites de error para las dos medias multiplicándolos por la raíz cuadrada de ½ (0.707107) antes haciendo la comparación. ^[24]

Si bien las formulaciones de las nociones de intervalos de confianza y de prueba de hipótesis estadísticas son distintas, en algunos sentidos están relacionadas y hasta cierto punto son complementarias. Si bien no todos los intervalos de confianza se construyen de esta manera, un enfoque de propósito general para construir intervalos de confianza es definir un intervalo de confianza del 100 (1 - α )% que consista en todos aquellos valores θ ₀ para los cuales una prueba de la hipótesis θ = θ ₀ no se rechaza a un nivel de significancia de 100α%. Es posible que este enfoque no siempre esté disponible, ya que presupone la disponibilidad práctica de una prueba de significación adecuada. Naturalmente, cualquier supuesto requerido para la prueba de significancia se trasladaría a los intervalos de confianza.

Puede ser conveniente hacer la correspondencia general de que los valores de los parámetros dentro de un intervalo de confianza son equivalentes a aquellos valores que no serían rechazados por una prueba de hipótesis, pero esto sería peligroso. En muchos casos, los intervalos de confianza que se citan son sólo aproximadamente válidos, quizás derivados de "más o menos el doble del error estándar", y las implicaciones de esto para las pruebas de hipótesis supuestamente correspondientes generalmente se desconocen.

Vale la pena señalar que el intervalo de confianza para un parámetro no es el mismo que la región de aceptación de una prueba para este parámetro, como a veces se piensa. El intervalo de confianza es parte del espacio de parámetros, mientras que la región de aceptación es parte del espacio muestral. Por la misma razón, el nivel de confianza no es lo mismo que la probabilidad complementaria del nivel de significancia. ^{[ se necesita más explicación ]}

Región de confianza

Las regiones de confianza generalizan el concepto de intervalo de confianza para tratar con múltiples cantidades. Estas regiones pueden indicar no solo el alcance de los probables errores de muestreo, sino que también pueden revelar si (por ejemplo) se da el caso de que si la estimación de una cantidad no es confiable, es probable que la otra tampoco sea confiable.

Banda de confianza

Una banda de confianza se utiliza en análisis estadístico para representar la incertidumbre en una estimación de una curva o función basada en datos limitados o ruidosos. De manera similar, se usa una banda de predicción para representar la incertidumbre sobre el valor de un nuevo punto de datos en la curva, pero sujeto a ruido. Las bandas de confianza y predicción se utilizan a menudo como parte de la presentación gráfica de los resultados de un análisis de regresión .

Las bandas de confianza están estrechamente relacionadas con los intervalos de confianza, que representan la incertidumbre en una estimación de un solo valor numérico. "Como los intervalos de confianza, por construcción, solo se refieren a un único punto, son más estrechos (en este punto) que una banda de confianza que se supone que se mantiene simultáneamente en muchos puntos". ^[25]

Pasos básicos

Este ejemplo supone que las muestras se extraen de una distribución normal . El procedimiento básico para calcular un intervalo de confianza para una media poblacional es el siguiente:

Identificar la media muestral, ${\ displaystyle {\ bar {x}}}$ .
Identificar si se conoce la desviación estándar de la población, ${\ Displaystyle \ sigma}$ , o se desconoce y se estima mediante la desviación estándar de la muestra ${\ Displaystyle s}$ .
- Si se conoce la desviación estándar de la población, entonces ${\ textstyle z ^ {*} = \ Phi ^ {- 1} \ left (1 - {\ frac {\ alpha} {2}} \ right) = - \ Phi ^ {- 1} \ left ({\ frac {\ alpha} {2}} \ right)}$ , dónde ${\ Displaystyle C = 100 (1- \ alpha) \%}$ es el nivel de confianza y ${\ Displaystyle \ Phi}$ es el CDF de la distribución normal estándar , utilizado como valor crítico. Este valor solo depende del nivel de confianza de la prueba. Los niveles de confianza bilaterales típicos son: ^[26]
  C z *
  99% 2.576
  98% 2.326
  95% 1,96
  90% 1.645
- Si se desconoce la desviación estándar de la población, se utiliza la distribución t de Student como valor crítico. Este valor depende del nivel de confianza (C) para la prueba y los grados de libertad. Los grados de libertad se encuentran restando uno del número de observaciones, n - 1. El valor crítico se encuentra en la tabla de distribución t. En esta tabla, el valor crítico se escribe como ${\ Displaystyle t ^ {*} = t _ {\ alpha} (r)}$ , dónde ${\ Displaystyle r}$ son los grados de libertad y ${\ textstyle \ alpha = {1-C \ over 2}}$ .
Sustituya los valores encontrados en las ecuaciones apropiadas:
- Para una desviación estándar conocida: ${\ Displaystyle \ left ({\ bar {x}} - z ^ {*} {\ sigma \ over {\ sqrt {n}}}, {\ bar {x}} + z ^ {*} {\ sigma \ sobre {\ sqrt {n}}} \ right)}$
- Para una desviación estándar desconocida: ${\ Displaystyle \ left ({\ bar {x}} - t ^ {*} {s \ over {\ sqrt {n}}}, {\ bar {x}} + t ^ {*} {s \ over { \ sqrt {n}}} \ right)}$ ^[27]

Distribución normal: representación gráfica del desglose del intervalo de confianza y relación de los intervalos de confianza con las puntuaciones zy t.

Importancia de las tablas t y las tablas z

Los intervalos de confianza se pueden calcular utilizando dos valores diferentes: valores t o valores z, como se muestra en el ejemplo básico anterior. Ambos valores se tabulan en tablas, según los grados de libertad y la cola de una distribución de probabilidad. Más a menudo, se utilizan valores z. Estos son los valores críticos de la distribución normal con probabilidad de cola derecha. Sin embargo, los valores t se utilizan cuando el tamaño de la muestra es inferior a 30 y se desconoce la desviación estándar. ^[1]^[28]

Cuando se desconoce la varianza, debemos utilizar un estimador diferente: ${\ Displaystyle S_ {n}}$ . Esto permite la formación de una distribución que solo depende de ${\ Displaystyle n}$ y cuya densidad puede expresarse explícitamente. ^[1]

Definición: Una variable aleatoria continua tiene una distribución t con parámetro m, donde ${\ Displaystyle m \ geq 1}$ es un número entero, si su densidad de probabilidad viene dada por ${\ textstyle f (x) = \ left (k_ {m} \ left (1 + {\ frac {x ^ {2}} {m}} \ right) \ right) ^ {\ frac {-m + 1} {2}}}$ por ${\ Displaystyle - \ infty$ , dónde ${\ textstyle k_ {m} = {\ frac {\ Gamma \ left ({\ frac {m + 1} {2}} \ right)} {{\ sqrt {m \ pi}} \, \ Gamma \ left ( {\ frac {m} {2}} \ right)}}}$ . Esta distribución se denota por ${\ Displaystyle t (m)}$ y se denomina distribución t con m grados de libertad. ^[1]

Ejemplo

Uso de la tabla de distribución t ^[29]

Encuentre los grados de libertad (gl) del tamaño de la muestra:
Si el tamaño de la muestra = 10, gl = 9.
Reste el intervalo de confianza (CL) de 1 y luego divídalo por dos. Este valor es el nivel alfa. (alfa + CL = 1)
Busque df y alpha en la tabla de distribución t. Para df = 9 y alpha = 0.01, la tabla da un valor de 2.821. Este valor obtenido de la tabla es el t-score.

Teoría estadística

Definición

Sea X una muestra aleatoria de una distribución de probabilidad con el parámetro estadístico θ , que es una cantidad a estimar, y φ , que representa cantidades que no son de interés inmediato. Un intervalo de confianza para el parámetro θ , con nivel de confianza o coeficiente de confianza γ , es un intervalo con puntos finales aleatorios ( u ( X ), v ( X )), determinado por el par de variables aleatorias u ( X ) yv ( X ) , con la propiedad:

{\ Displaystyle {\ Pr} _ {\ theta, \ phi} (u (X) <\ theta

Las cantidades φ en las que no existe un interés inmediato se denominan parámetros de molestia , ya que la teoría estadística aún necesita encontrar alguna forma de abordarlas. El número γ , con valores típicos cercanos pero no mayores a 1, a veces se da en la forma 1 - α (o como un porcentaje 100% · (1 - α )), donde α es un número pequeño no negativo, cerca a 0.

Aquí Pr _{θ , φ} indica la distribución de probabilidad de X caracterizada por ( θ , φ ). Una parte importante de esta especificación es que el intervalo aleatorio ( u ( X ), v ( X )) cubre el valor desconocido θ con una alta probabilidad no importa lo que el verdadero valor de θ es en realidad.

Tenga en cuenta que aquí Pr _{θ , φ} no necesita referirse a una familia de distribuciones parametrizada dada explícitamente, aunque a menudo lo hace. Así como la variable aleatoria X corresponde teóricamente a otras posibles realizaciones de x de la misma población o de la misma versión de la realidad, los parámetros ( θ , φ ) indican que debemos considerar otras versiones de la realidad en las que la distribución de X podría tienen diferentes características.

En una situación específica, cuando x es el resultado de la muestra X , el intervalo ( u ( x ), v ( x )) también se denomina intervalo de confianza para θ . Tenga en cuenta que ya no es posible decir que el intervalo (observado) ( u ( x ), v ( x )) tiene probabilidad γ de contener el parámetro θ . Este intervalo observado es solo una realización de todos los intervalos posibles para los que se cumple el enunciado de probabilidad.

Intervalos de confianza aproximados

En muchas aplicaciones, los intervalos de confianza que tienen exactamente el nivel de confianza requerido son difíciles de construir. Pero todavía se pueden encontrar intervalos prácticamente útiles: la regla para construir el intervalo puede aceptarse como que proporciona un intervalo de confianza a nivel ${\ Displaystyle \ gamma}$ Si

{\ Displaystyle {\ Pr} _ {\ theta, \ phi} (u (X) <\ theta

a un nivel aceptable de aproximación. Alternativamente, algunos autores ^[30] simplemente requieren que

{\ Displaystyle {\ Pr} _ {\ theta, \ phi} (u (X) <\ theta

lo cual es útil si las probabilidades están solo parcialmente identificadas o son imprecisas , y también cuando se trata de distribuciones discretas . Límites de confianza de la forma ${\ Displaystyle {\ Pr} _ {\ theta, \ phi} (u (X) <\ theta) \ geq \ gamma}$ y ${\ Displaystyle {\ Pr} _ {\ theta, \ phi} (\ theta$ se llaman conservadores ; ^{[31] en} consecuencia, se habla de intervalos de confianza conservadores y, en general, de regiones.

Propiedades deseables

Al aplicar procedimientos estadísticos estándar, a menudo habrá formas estándar de construir intervalos de confianza. Estos se habrán ideado para cumplir ciertas propiedades deseables, que se mantendrán dado que las suposiciones en las que se basa el procedimiento son verdaderas. Estas propiedades deseables pueden describirse como: validez, optimización e invariancia. De estos, la "validez" es la más importante, seguida de cerca por la "optimización". La "invarianza" se puede considerar como una propiedad del método de derivación de un intervalo de confianza más que como una propiedad de la regla para construir el intervalo. En aplicaciones no estándar, se buscarían las mismas propiedades deseables.

Validez. Esto significa que la probabilidad de cobertura nominal (nivel de confianza) del intervalo de confianza debe mantenerse, ya sea exactamente o con una buena aproximación.
Optimidad. Esto significa que la regla para construir el intervalo de confianza debe hacer el mayor uso posible de la información del conjunto de datos. Recuerde que uno podría desechar la mitad de un conjunto de datos y aún así poder derivar un intervalo de confianza válido. Una forma de evaluar la optimalidad es por la longitud del intervalo, de modo que una regla para construir un intervalo de confianza se juzgue mejor que otra si conduce a intervalos cuyas longitudes suelen ser más cortas.
Invarianza. En muchas aplicaciones, es posible que la cantidad estimada no se defina exactamente como tal. Por ejemplo, una encuesta puede dar como resultado una estimación del ingreso medio de una población, pero también se puede considerar que proporciona una estimación del logaritmo del ingreso medio, dado que se trata de una escala común para presentar resultados gráficos. Sería deseable que el método utilizado para construir un intervalo de confianza para el ingreso mediano arrojara resultados equivalentes cuando se aplicara a la construcción de un intervalo de confianza para el logaritmo del ingreso mediano: específicamente los valores en los extremos del último intervalo serían los logaritmos de los valores al final del intervalo anterior.

Métodos de derivación

Para aplicaciones no estándar, existen varias rutas que se pueden tomar para derivar una regla para la construcción de intervalos de confianza. Las reglas establecidas para los procedimientos estándar pueden justificarse o explicarse a través de varias de estas rutas. Por lo general, una regla para construir intervalos de confianza está estrechamente relacionada con una forma particular de encontrar una estimación puntual de la cantidad que se está considerando.

Resumen estadístico

Esto está estrechamente relacionado con el método de los momentos para la estimación. Surge un ejemplo simple donde la cantidad a estimar es la media, en cuyo caso una estimación natural es la media muestral. Los argumentos habituales indican que la varianza muestral se puede utilizar para estimar la varianza de la media muestral. Se puede construir un intervalo de confianza para la media verdadera centrado en la media muestral con un ancho que es un múltiplo de la raíz cuadrada de la varianza muestral.

Teoría de la verosimilitud

Cuando las estimaciones se construyen utilizando el principio de máxima verosimilitud , la teoría para esto proporciona dos formas de construir intervalos de confianza o regiones de confianza para las estimaciones. Una forma es usar el teorema de Wilks para encontrar todos los valores posibles de

{\ Displaystyle \ theta}

que cumplen la siguiente restricción: ^[32]

{\ Displaystyle \ ln (L (\ theta)) \ geq \ ln (L ({\ hat {\ theta}})) - {\ frac {1} {2}} \ chi _ {1,1- \ alpha } ^ {2}}

Estimación de ecuaciones: El enfoque de estimación aquí puede considerarse como una generalización del método de momentos y una generalización del enfoque de máxima verosimilitud. Existen generalizaciones correspondientes de los resultados de la teoría de máxima verosimilitud que permiten construir intervalos de confianza basados en estimaciones derivadas de ecuaciones de estimación . ^{[ aclaración necesaria ]}
Evaluación de la hipótesis: Si las pruebas de significancia están disponibles para los valores generales de un parámetro, entonces los intervalos / regiones de confianza se pueden construir incluyendo en la región de confianza del 100 p % todos aquellos puntos para los cuales la prueba de significancia de la hipótesis nula de que el valor verdadero es el valor dado es no rechazado a un nivel de significancia de (1 - p ). ^[19]
Bootstrapping: En situaciones donde los supuestos de distribución para los métodos anteriores son inciertos o violados, los métodos de remuestreo permiten la construcción de intervalos de confianza o intervalos de predicción. La distribución de datos observada y las correlaciones internas se utilizan como sustituto de las correlaciones en la población en general.

Ejemplos de

Ejemplos medicos

La investigación médica a menudo estima los efectos de una intervención o exposición en una determinada población. ^[33] Por lo general, los investigadores han determinado la importancia de los efectos basándose en el valor p; sin embargo, recientemente ha habido un impulso para obtener más información estadística con el fin de proporcionar una base más sólida para las estimaciones. ^[33] Una forma de resolver este problema también es exigir el informe del intervalo de confianza. A continuación, se muestran dos ejemplos de cómo se utilizan y se informan los intervalos de confianza para la investigación.

En un estudio de 2004, Briton y sus colegas llevaron a cabo un estudio sobre la evaluación de la relación entre la infertilidad y el cáncer de ovario. Se informó la razón de incidencia de 1,98 para un intervalo de confianza (IC) del 95% con un rango de razón de 1,4 a 2,6. ^[34] La estadística se informó de la siguiente manera en el documento: "(índice de incidencia estandarizado = 1,98; IC del 95%, 1,4-2,6)". ^[34] Esto significa que, según la muestra estudiada, las mujeres infértiles tienen una incidencia de cáncer de ovario que es 1,98 veces mayor que las mujeres no infértiles. Además, también significa que tenemos un 95% de confianza en que la tasa de incidencia real en toda la población femenina infértil se encuentra en el rango de 1,4 a 2,6. ^[34] En general, el intervalo de confianza proporcionó más información estadística, ya que informó los efectos más bajos y más grandes que es probable que ocurran para la variable estudiada, al tiempo que proporciona información sobre la importancia de los efectos observados. ^[33]

En un estudio de 2018, se entendió la prevalencia y la carga de enfermedad de la dermatitis atópica en la población adulta de EE. UU. Con el uso de intervalos de confianza del 95%. ^[35] Se informó que entre 1278 adultos participantes, la prevalencia de dermatitis atópica fue de 7,3% (5,9 a 8,8). ^[35] Además, el 60,1% (56,1–64,1) de los participantes se clasificó como con dermatitis atópica leve, mientras que el 28,9% (25,3–32,7) tenía moderada y el 11% (8,6–13,7) tenía grave. ^[35] El estudio confirmó que existe una alta prevalencia y carga de enfermedad de la dermatitis atópica en la población.

Ejemplo teórico

Suponga que { X ₁ ,…, X _n } es una muestra independiente de una población distribuida normalmente con una media desconocida ( parámetros ) μ y varianza σ ² . Dejar

{\ Displaystyle {\ bar {X}} = (X_ {1} + \ cdots + X_ {n}) / n \ ,,}

{\ Displaystyle S ^ {2} = {\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ bar {X}} \,) ^ {2}.}

Donde X es la media de la muestra y S ² es la varianza de la muestra . Luego

{\ Displaystyle T = {\ frac {{\ bar {X}} - \ mu} {S / {\ sqrt {n}}}}}

tiene una distribución t de Student con n - 1 grados de libertad. ^[36] Nótese que la distribución de T no depende de los valores de los parámetros no observables μ y σ ² ; es decir, es una cantidad fundamental . Supongamos que quisiéramos calcular un intervalo de confianza del 95% para μ . Luego, denotando c como el percentil 97.5 de esta distribución,

{\ Displaystyle \ Pr (-c \ leq T \ leq c) = 0,95 \,}

Tenga en cuenta que "97.5th" y "0.95" son correctos en las expresiones anteriores. Hay un 2,5% de probabilidad de que ${\ Displaystyle T}$ será menor que ${\ Displaystyle -}$ ${\ Displaystyle c}$ y un 2,5% de probabilidad de que sea mayor que ${\ displaystyle +}$ ${\ Displaystyle c}$ . Por tanto, la probabilidad de que ${\ Displaystyle T}$ estará entre ${\ Displaystyle -}$ ${\ Displaystyle c}$ y ${\ displaystyle +}$ ${\ Displaystyle c}$ es del 95%.

Como consecuencia,

{\ Displaystyle \ Pr \ left ({\ bar {X}} - {\ frac {cS} {\ sqrt {n}}} \ leq \ mu \ leq {\ bar {X}} + {\ frac {cS} {\ sqrt {n}}} \ right) = 0,95 \,}

y tenemos un intervalo de confianza teórico (estocástico) del 95% para μ .

Después de observar la muestra encontramos los valores x para X y s para S , a partir de los cuales calculamos el intervalo de confianza

{\ Displaystyle \ left [{\ bar {x}} - {\ frac {cs} {\ sqrt {n}}}, {\ bar {x}} + {\ frac {cs} {\ sqrt {n}} }\derecho],\,}

un intervalo con números fijos como puntos finales, del cual ya no podemos decir que hay cierta probabilidad de que contenga el parámetro μ ; ya sea μ es en este intervalo o no lo es.

Alternativas y críticas

Los intervalos de confianza son un método de estimación de intervalos y el más utilizado en las estadísticas frecuentistas . Un concepto análogo en la estadística bayesiana son los intervalos creíbles , mientras que un método frecuentista alternativo es el de los intervalos de predicción que, en lugar de estimar parámetros, estiman el resultado de muestras futuras . Para conocer otros enfoques para expresar la incertidumbre mediante intervalos, consulte la estimación de intervalos .

Comparación con los intervalos de predicción

Un intervalo de predicción para una variable aleatoria se define de manera similar a un intervalo de confianza para un parámetro estadístico . Considere un adicional variable aleatoria Y que puede o no puede ser dependiente estadísticamente en la muestra aleatoria X . Entonces ( u ( X ), v ( X )) proporciona un intervalo de predicción para el valor y aún por observar de Y si

{\ Displaystyle {\ Pr} _ {\ theta, \ varphi} (u (X)

Aquí Pr _{θ , φ} indica la distribución de probabilidad conjunta de las variables aleatorias ( X , Y ), donde esta distribución depende de los parámetros estadísticos ( θ , φ ).

Comparación con estimaciones de intervalo bayesiano

Una estimación de intervalo bayesiano se denomina intervalo creíble . Utilizando gran parte de la misma notación anterior, la definición de un intervalo creíble para el valor verdadero desconocido de θ es, para un γ dado , ^[37]

{\ Displaystyle \ Pr (u (x) <\ Theta

Aquí Θ se usa para enfatizar que el valor desconocido de θ se trata como una variable aleatoria. Las definiciones de los dos tipos de intervalos se pueden comparar de la siguiente manera.

La definición de un intervalo de confianza involucra probabilidades calculadas a partir de la distribución de X para un ( θ , φ ) dado ( o condicionado a estos valores) y la condición debe mantenerse para todos los valores de ( θ , φ ).
La definición de un intervalo creíble involucra probabilidades calculadas a partir de la distribución de Θ condicionada a los valores observados de X = x y marginada (o promediada) sobre los valores de Φ, donde esta última cantidad es la variable aleatoria correspondiente a la incertidumbre sobre la molestia. parámetros en φ .

Tenga en cuenta que el tratamiento de los parámetros de molestia anteriores a menudo se omite en las discusiones que comparan la confianza y los intervalos creíbles, pero es marcadamente diferente entre los dos casos.

En algunos casos, un intervalo de confianza y un intervalo creíble calculados para un parámetro dado utilizando un conjunto de datos dado son idénticos. Pero en otros casos, los dos pueden ser muy diferentes, particularmente si se incluye información previa informativa en el análisis bayesiano .

Existe desacuerdo sobre cuál de estos métodos produce los resultados más útiles: las matemáticas de los cálculos rara vez se cuestionan (los intervalos de confianza se basan en distribuciones de muestreo, los intervalos creíbles se basan en el teorema de Bayes), pero la aplicación de estos métodos, la utilidad e interpretación de las estadísticas producidas.

Intervalos de confianza para proporciones y cantidades relacionadas

Se puede construir un intervalo de confianza aproximado para una media poblacional para variables aleatorias que no se distribuyen normalmente en la población, basándose en el teorema del límite central , si los tamaños de muestra y los recuentos son lo suficientemente grandes. Las fórmulas son idénticas al caso anterior (donde la media de la muestra en realidad se distribuye normalmente alrededor de la media de la población). La aproximación será bastante buena con solo unas pocas docenas de observaciones en la muestra si la distribución de probabilidad de la variable aleatoria no es muy diferente de la distribución normal (por ejemplo, su función de distribución acumulativa no tiene discontinuidades y su asimetría es moderada).

Un tipo de media muestral es la media de una variable indicadora , que toma el valor 1 para verdadero y el valor 0 para falso. La media de dicha variable es igual a la proporción que tiene la variable igual a uno (tanto en la población como en cualquier muestra). Esta es una propiedad útil de las variables indicadoras, especialmente para la prueba de hipótesis. Para aplicar el teorema del límite central, se debe usar una muestra lo suficientemente grande. Una regla general es que se deben ver al menos 5 casos en los que el indicador es 1 y al menos 5 en los que es 0. Los intervalos de confianza construidos usando las fórmulas anteriores pueden incluir números negativos o números mayores que 1, pero obviamente proporciones no puede ser negativo ni exceder 1. Además, las proporciones muestrales solo pueden tomar un número finito de valores, por lo que el teorema del límite central y la distribución normal no son las mejores herramientas para construir un intervalo de confianza. Consulte " Intervalo de confianza de la proporción binomial " para obtener mejores métodos específicos para este caso.

Contraejemplos

Desde que se propuso la teoría del intervalo de confianza, se han desarrollado varios contraejemplos a la teoría para mostrar cómo la interpretación de los intervalos de confianza puede ser problemática, al menos si uno los interpreta ingenuamente.

Procedimiento de confianza para una ubicación uniforme

Welch ^[38] presentó un ejemplo que muestra claramente la diferencia entre la teoría de los intervalos de confianza y otras teorías de la estimación de intervalos (incluidos los intervalos fiduciales de Fisher y los intervalos bayesianos objetivos ). Robinson ^[39] llamó a este ejemplo "[posiblemente] el contraejemplo más conocido de la versión de Neyman de la teoría del intervalo de confianza". Para Welch, mostró la superioridad de la teoría del intervalo de confianza; para los críticos de la teoría, muestra una deficiencia. A continuación presentamos una versión simplificada.

Suponer que ${\ Displaystyle X_ {1}, X_ {2}}$ son observaciones independientes de una distribución uniforme ( θ - 1/2, θ + 1/2). Entonces, el procedimiento óptimo de confianza del 50% ^[40] es

{\ Displaystyle {\ bar {X}} \ pm {\ begin {cases} {\ dfrac {| X_ {1} -X_ {2} |} {2}} & {\ text {if}} | X_ {1 } -X_ {2} | <1/2 \\ [8pt] {\ dfrac {1- | X_ {1} -X_ {2} |} {2}} & {\ text {if}} | X_ {1 } -X_ {2} | \ geq 1/2. \ End {casos}}}

Se puede utilizar un argumento bayesiano fiducial u objetivo para derivar la estimación del intervalo

{\ Displaystyle {\ bar {X}} \ pm {\ frac {1- | X_ {1} -X_ {2} |} {4}},}

que también es un procedimiento de confianza del 50%. Welch mostró que el primer procedimiento de confianza domina al segundo, según desiderata de la teoría del intervalo de confianza; para cada ${\ Displaystyle \ theta _ {1} \ neq \ theta}$ , la probabilidad de que el primer procedimiento contenga ${\ Displaystyle \ theta _ {1}}$ es menor o igual que la probabilidad de que el segundo procedimiento contenga ${\ Displaystyle \ theta _ {1}}$ . El ancho promedio de los intervalos del primer procedimiento es menor que el del segundo. Por tanto, se prefiere el primer procedimiento en la teoría clásica de intervalos de confianza.

Sin embargo cuando ${\ Displaystyle | X_ {1} -X_ {2} | \ geq 1/2}$ , se garantiza que los intervalos desde el primer procedimiento contienen el valor verdadero ${\ Displaystyle \ theta}$ : Por lo tanto, el coeficiente de confianza nominal del 50% no está relacionado con la incertidumbre que deberíamos tener de que un intervalo específico contiene el valor verdadero. El segundo procedimiento no tiene esta propiedad.

Además, cuando el primer procedimiento genera un intervalo muy corto, esto indica que ${\ Displaystyle X_ {1}, X_ {2}}$ están muy juntos y, por lo tanto, solo ofrecen la información en un único punto de datos. Sin embargo, el primer intervalo excluirá casi todos los valores razonables del parámetro debido a su corto ancho. El segundo procedimiento no tiene esta propiedad.

Las dos propiedades contraintuitivas del primer procedimiento: cobertura del 100% cuando ${\ Displaystyle X_ {1}, X_ {2}}$ están muy separados y tienen una cobertura de casi 0% cuando ${\ Displaystyle X_ {1}, X_ {2}}$ están muy juntos — se equilibran para producir una cobertura del 50% en promedio. Sin embargo, a pesar de que el primer procedimiento es óptimo, sus intervalos no ofrecen ni una evaluación de la precisión de la estimación ni una evaluación de la incertidumbre que se debe tener de que el intervalo contiene el valor real.

Este contraejemplo se utiliza para argumentar en contra de interpretaciones ingenuas de los intervalos de confianza. Si se afirma que un procedimiento de confianza tiene propiedades más allá de la cobertura nominal (como una relación con la precisión o una relación con la inferencia bayesiana), esas propiedades deben probarse; no se siguen del hecho de que un procedimiento sea un procedimiento de confianza.

Procedimiento de confianza para ω ²

Steiger ^[41] sugirió varios procedimientos de confianza para medidas de tamaño del efecto comunes en ANOVA . Morey y col. ^[12] señalan que varios de estos procedimientos de confianza, incluido el de ω ² , tienen la propiedad de que a medida que el estadístico F se vuelve cada vez más pequeño, lo que indica un desajuste con todos los valores posibles de ω ² , el intervalo de confianza se reduce e incluso puede contener solo el valor único ω ² = 0; es decir, el CI es infinitesimalmente estrecho (esto ocurre cuando ${\ Displaystyle p \ geq 1- \ alpha / 2}$ para ${\ Displaystyle 100 (1- \ alpha) \%}$ CI).

Este comportamiento es consistente con la relación entre el procedimiento de confianza y la prueba de significancia: como F se vuelve tan pequeño que las medias del grupo están mucho más juntas de lo que esperaríamos por casualidad, una prueba de significancia podría indicar rechazo para la mayoría o todos los valores de ω ² . Por lo tanto, el intervalo será muy estrecho o incluso vacío (o, según una convención sugerida por Steiger, contendrá solo 0). Sin embargo, esto no indica que la estimación de ω ² sea muy precisa. En cierto sentido, indica lo contrario: que la confiabilidad de los resultados mismos puede estar en duda. Esto es contrario a la interpretación común de los intervalos de confianza de que revelan la precisión de la estimación.

Ver también

Intervalo de confianza no paramétrico basado en funciones de distribución acumulativa
Límites superiores de CL (física de partículas)
Distribución de la confianza
Credencia (estadísticas)
Barra de error
Estadísticas de estimación
valor p
Intervalos de confianza robustos
Región de confianza
Intervalo creíble