Regla 68–95–99,7

En estadística , la regla 68-95-99.7 , también conocida como regla empírica , es una forma abreviada que se usa para recordar el porcentaje de valores que se encuentran dentro de una estimación de intervalo en una distribución normal : 68%, 95% y 99.7% de la los valores se encuentran dentro de una, dos y tres desviaciones estándar de la media , respectivamente.

En notación matemática, estos hechos se pueden expresar de la siguiente manera, donde $Χ$ es una observación de una variable aleatoria distribuida normalmente , $μ$ es la media de la distribución y $σ$ es su desviación estándar:

En las ciencias empíricas , la llamada regla de tres sigma expresa una heurística convencional de que casi todos los valores se consideran dentro de tres desviaciones estándar de la media y, por lo tanto, es empíricamente útil tratar el 99,7% de probabilidad como una certeza cercana. ^[1]

En las ciencias sociales , un resultado puede considerarse " significativo " si su nivel de confianza es del orden de un efecto de dos sigma (95%), mientras que en la física de partículas , existe una convención de un efecto de cinco sigma (99,99994% confianza) que se requiere para calificar como un descubrimiento .

Se puede derivar una regla de tres sigma más débil a partir de la desigualdad de Chebyshev , indicando que incluso para las variables no distribuidas normalmente, al menos el 88,8% de los casos deben caer dentro de los intervalos de tres sigma calculados correctamente. Para distribuciones unimodales , la probabilidad de estar dentro del intervalo es al menos del 95% según la desigualdad de Vysochanskij-Petunin . Puede haber ciertos supuestos para una distribución que obliguen a que esta probabilidad sea al menos del 98%. ^[2]

Estos valores numéricos "68%, 95%, 99,7%" provienen de la función de distribución acumulada de la distribución normal .

Para un conjunto de datos aproximadamente normal , los valores dentro de una desviación estándar de la media representan aproximadamente el 68% del conjunto; mientras que dentro de dos desviaciones estándar, muchos porcentajes son probabilidades teóricas redondeadas destinadas únicamente a aproximar los datos empíricos derivados de una población normal.

Intervalo de predicción (en el eje y ) dado a partir de la puntuación estándar (en el eje x ). El eje y tiene una escala logarítmica (pero los valores que contiene no se modifican).

Diagrama que muestra la función de distribución acumulada para la distribución normal con media ( μ ) 0 y varianza ( σ ² ) 1