Prueba binomial

En estadística , la prueba binomial es una prueba exacta de la significancia estadística de las desviaciones de una distribución de observaciones teóricamente esperada en dos categorías.

Uso

La prueba binomial es útil para probar hipótesis sobre la probabilidad ( ${\ Displaystyle \ pi}$ ) del éxito:

{\ Displaystyle H_ {0}: \ pi = \ pi _ {0}}

dónde ${\ Displaystyle \ pi _ {0}}$ es un valor definido por el usuario entre 0 y 1.

Si en una muestra de tamaño ${\ Displaystyle n}$ existen ${\ Displaystyle k}$ éxitos, mientras esperamos ${\ Displaystyle n \ pi _ {0}}$ , la fórmula de la distribución binomial da la probabilidad de encontrar este valor:

{\ Displaystyle Pr (X = k) = {\ binom {n} {k}} p ^ {k} (1-p) ^ {nk}}

Si la hipótesis nula ${\ Displaystyle H_ {0}}$ fueron correctos, entonces el número esperado de éxitos sería ${\ Displaystyle n \ pi _ {0}}$ . Encontramos nuestro ${\ Displaystyle p}$ -valor para esta prueba considerando la probabilidad de ver un resultado como, o más, extremo. Para una prueba de una cola, esto es sencillo de calcular. Supongamos que queremos probar si ${\ Displaystyle \ pi <\ pi _ {0}}$ . Entonces nuestro ${\ Displaystyle p}$ -el valor sería,

{\ Displaystyle p = \ sum _ {i = 0} ^ {k} Pr (X = i) = \ sum _ {i = 0} ^ {k} {\ binom {n} {i}} p ^ {i } (1-p) ^ {ni}}

Se puede realizar un cálculo análogo si estamos probando si ${\ Displaystyle \ pi> \ pi _ {0}}$ .

Calculando un ${\ Displaystyle p}$ -valor para una prueba de dos colas es un poco más complicado, ya que una distribución binomial no es simétrica si ${\ Displaystyle \ pi _ {0} \ neq 0.5}$ . Esto significa que no podemos simplemente duplicar el ${\ Displaystyle p}$ -valor de la prueba de una cola. Recuerde que queremos considerar eventos que son tan, o más, extremos que el que hemos visto, por lo que debemos considerar la probabilidad de que veamos un evento que sea tan o menos probable que ${\ Displaystyle X = k}$ . Dejar ${\ Displaystyle {\ mathcal {I}} = \ {i: Pr (X = i) \ leq Pr (X = k) \}}$ denotar todos esos eventos. Entonces el de dos colas ${\ Displaystyle p}$ -el valor se calcula como,

{\ Displaystyle p = \ sum _ {i \ in {\ mathcal {I}}} Pr (X = i) = \ sum _ {i \ in {\ mathcal {I}}} {\ binom {n} {i }} p ^ {i} (1-p) ^ {ni}}

Uso común

Un uso común de la prueba binomial es en el caso en el que la hipótesis nula es que es igualmente probable que ocurran dos categorías (como el lanzamiento de una moneda), lo que implica una hipótesis nula. ${\ Displaystyle H_ {0}: \ pi = 0.5}$ . Las tablas están ampliamente disponibles para dar el número de observaciones de importancia observada en las categorías para este caso. Sin embargo, como muestra el ejemplo siguiente, la prueba binomial no se limita a este caso.

Cuando hay más de dos categorías y se requiere una prueba exacta , se debe utilizar la prueba multinomial , basada en la distribución multinomial , en lugar de la prueba binomial. ^[1]

Muestras grandes

Para las muestras de gran tamaño como el siguiente ejemplo, la distribución binomial está bien aproximada por convenientes distribuciones continuas , y estos se utilizan como base para pruebas alternativas que son mucho más rápida de calcular, prueba de ji cuadrado de Pearson y la prueba G . Sin embargo, para muestras pequeñas, estas aproximaciones se rompen y no hay alternativa a la prueba binomial.

La aproximación más habitual (y más fácil) es a través de la distribución normal estándar, en la que se realiza una prueba z del estadístico de prueba ${\ Displaystyle Z}$ , dada por

{\ Displaystyle Z = {\ frac {kn \ pi} {\ sqrt {n \ pi (1- \ pi)}}}}

dónde ${\ Displaystyle k}$ es el número de éxitos observados en una muestra de tamaño ${\ Displaystyle n}$ y ${\ Displaystyle \ pi}$ es la probabilidad de éxito según la hipótesis nula. Es posible mejorar esta aproximación introduciendo una corrección de continuidad :

{\ Displaystyle Z = {\ frac {kn \ pi \ pm {\ frac {1} {2}}} {\ sqrt {n \ pi (1- \ pi)}}}}

Para muy grande ${\ Displaystyle n}$ , esta corrección de continuidad no será importante, pero para valores intermedios, donde la prueba binomial exacta no funciona, producirá un resultado sustancialmente más preciso.

Ejemplo de prueba binomial

Supongamos que tenemos un juego de mesa que depende de la tirada de un dado y concede especial importancia al lanzamiento de un 6. En un juego en particular, el dado se lanza 235 veces y el 6 sale 51 veces. Si el dado es justo, esperaríamos que salieran 6

{\ Displaystyle 235 \ times 1/6 = 39,17}

veces. Ahora hemos observado que el número de 6 es más alto de lo que esperaríamos en promedio por pura casualidad si el dado hubiera sido justo. Pero, ¿es el número lo suficientemente alto como para que podamos concluir algo sobre la equidad del dado? Esta pregunta puede responderse mediante la prueba binomial. Nuestra hipótesis nula sería que el dado es justo (la probabilidad de que cada número aparezca en el dado es 1/6).

Para encontrar una respuesta a esta pregunta usando la prueba binomial, usamos la distribución binomial

{\ Displaystyle B (N = 235, p = 1/6)}

con pmf

{\ Displaystyle f (k, n, p) = \ Pr (k; n, p) = \ Pr (X = k) = {\ binom {n} {k}} p ^ {k} (1-p) ^ {nk}}

.

Como hemos observado un valor mayor que el valor esperado, podríamos considerar la probabilidad de observar 51 6s o más bajo el nulo, lo que constituiría una prueba de una cola (aquí básicamente estamos probando si este dado está sesgado hacia generar más 6s que lo esperado). Para calcular la probabilidad de 51 o más 6s en una muestra de 235 bajo la hipótesis nula, sumamos las probabilidades de obtener exactamente 51 6s, exactamente 52 6s, y así sucesivamente hasta la probabilidad de obtener exactamente 235 6s:

{\ Displaystyle \ sum _ {i = 51} ^ {235} {235 \ elija i} p ^ {i} (1-p) ^ {235-i} = 0.02654}

Si tenemos un nivel de significancia del 5%, entonces este resultado (0.02654 <5%) indica que tenemos evidencia que es lo suficientemente significativa como para rechazar la hipótesis nula de que el dado es justo.

Normalmente, cuando estamos probando la equidad de un dado, también nos interesa si el dado está sesgado hacia generar menos 6 de lo esperado, y no solo más 6 como consideramos en la prueba de una cola anterior. Para considerar ambos sesgos, utilizamos una prueba de dos colas . Tenga en cuenta que para hacer esto no podemos simplemente duplicar el valor p de una cola a menos que la probabilidad del evento sea 1/2. Esto se debe a que la distribución binomial se vuelve asimétrica a medida que esa probabilidad se desvía de 1/2. Hay dos métodos para definir el valor p de dos colas. Un método consiste en sumar la probabilidad de que la desviación total en el número de eventos en cualquier dirección del valor esperado sea mayor o menor que el valor esperado. La probabilidad de que eso ocurra en nuestro ejemplo es 0.0437. El segundo método implica calcular la probabilidad de que la desviación del valor esperado sea tan improbable o más improbable que el valor observado, es decir, a partir de una comparación de las funciones de densidad de probabilidad. Esto puede crear una diferencia sutil, pero en este ejemplo arroja la misma probabilidad de 0.0437. En ambos casos, la prueba de dos colas revela significancia al nivel del 5%, lo que indica que el número de 6 observados fue significativamente diferente para este dado que el número esperado al nivel del 5%.

En paquetes de software estadístico

Las pruebas binomiales están disponibles en la mayoría de los programas que se utilizan con fines estadísticos. P.ej

En R, el ejemplo anterior podría calcularse con el siguiente código:
- binom.test(51, 235, 1/6, alternative = "less") (prueba de una cola)
- binom.test(51, 235, 1/6, alternative = "greater") (prueba de una cola)
- binom.test(51, 235, 1/6, alternative = "two.sided") (prueba de dos colas)

En Java usando la biblioteca Apache Commons :
- new BinomialTest().binomialTest(235, 51, 1.0 / 6, AlternativeHypothesis.LESS_THAN) (prueba de una cola)
- new BinomialTest().binomialTest(235, 51, 1.0 / 6, AlternativeHypothesis.GREATER_THAN) (prueba de una cola)
- new BinomialTest().binomialTest(235, 51, 1.0 / 6, AlternativeHypothesis.TWO_SIDED) (prueba de dos colas)

En SAS la prueba está disponible en el procedimiento de Frecuencia

PROC FREQ DATA = DiceRoll;MESAS Rollo / BINOMIAL (P = 0.166667 ) ALPHA = 0.05  ;BINOMIAL EXACTO;PESO Frec ; CORRER;

En SPSS, la prueba se puede utilizar a través del menú Analizar > Prueba no paramétrica > Binomial
```
 pruebas npar  / binomial (.5) = nodo1 nodo2.
```
En Python , use SciPy :
- scipy.stats.binom_test(51, 235, 1.0/6, alternative='greater') (prueba de una cola)
- scipy.stats.binom_test(51, 235, 1.0/6, alternative='two-sided') (prueba de dos colas)
En MATLAB , use myBinomTest , que está disponible a través del sitio web de intercambio de archivos de la comunidad de Mathworks. myBinomTest calculará directamente el valor p para las observaciones dada la probabilidad hipotética de éxito. (generalmente de dos colas, pero opcionalmente puede realizar una prueba de una cola).[pout]=myBinomTest(51, 235, 1/6)
En Stata , use bitest.
En Microsoft Excel , use Binom.Dist. La función toma parámetros (Número de éxitos, Pruebas, Probabilidad de éxito, Acumulativo). El parámetro "Acumulativo" toma un valor booleano Verdadero o Falso, donde Verdadero da la probabilidad acumulada de encontrar tantos éxitos (una prueba de cola izquierda) y Falso la probabilidad exacta de encontrar tantos éxitos.

Ver también

p -valor

Referencias

^ Howell, David C. (2007). Métodos estadísticos para la psicología (6. ed.). Belmont, California: Thomson. ISBN 978-0495012870.

"La prueba del binomio" . www.graphpad.com .

enlaces externos

Calculadora de probabilidad binomial

[Howell-1] Howell, David C. (2007). Métodos estadísticos para la psicología (6. ed.). Belmont, California: Thomson. ISBN 978-0495012870.

[1]