En teoría y estadística de probabilidad , la distribución hipergeométrica es una distribución de probabilidad discreta que describe la probabilidad de éxitos (sorteos aleatorios para los que el objeto dibujado tiene una característica específica) en extrae, sin reemplazo, de una población finita de tamaño que contiene exactamente objetos con esa característica, donde cada sorteo es un éxito o un fracaso. Por el contrario, la distribución binomial describe la probabilidad de éxitos en dibuja con reemplazo.
Función de probabilidad | |||
Función de distribución acumulativa | |||
Parámetros | |||
---|---|---|---|
Apoyo | |||
PMF | |||
CDF | dónde es la función hipergeométrica generalizada | ||
Significar | |||
Modo | |||
Diferencia | |||
Oblicuidad | |||
Ex. curtosis |
| ||
MGF | |||
CF |
Definiciones
Función de probabilidad
Las siguientes condiciones caracterizan la distribución hipergeométrica:
- El resultado de cada sorteo (los elementos de la población que se muestrea) se puede clasificar en una de dos categorías mutuamente excluyentes (por ejemplo, Pasa / No pasa o Empleado / Desempleado).
- La probabilidad de éxito cambia en cada sorteo, ya que cada sorteo disminuye la población ( muestreo sin reemplazo de una población finita).
Una variable aleatoria sigue la distribución hipergeométrica si su función de masa de probabilidad (pmf) está dada por [1]
dónde
- es el tamaño de la población,
- es el número de estados de éxito en la población,
- es el número de extracciones (es decir, la cantidad extraída en cada ensayo),
- es el número de éxitos observados,
- es un coeficiente binomial .
El pmf es positivo cuando.
Una variable aleatoria distribuida hipergeométricamente con parámetros , y está escrito y tiene función de masa de probabilidad sobre.
Identidades combinatorias
Según sea necesario, tenemos
que se deriva esencialmente de la identidad de Vandermonde de la combinatoria .
También tenga en cuenta que
Esta identidad se puede demostrar expresando los coeficientes binomiales en términos de factoriales y reordenando estos últimos, pero también se deriva de la simetría del problema. De hecho, considere dos rondas de dibujo sin reemplazo. En la primera ronda fuera de Las canicas neutrales se extraen de una urna sin reemplazo y de color verde. Luego se vuelven a colocar las canicas de colores. En la segunda rondalas canicas se dibujan sin reemplazo y de color rojo. Entonces, la cantidad de canicas con ambos colores (es decir, la cantidad de canicas que se han dibujado dos veces) tiene la distribución hipergeométrica. La simetría en y proviene del hecho de que las dos rondas son independientes, y uno podría haber comenzado dibujando bolas y colorearlas de rojo primero.
Propiedades
Ejemplo de trabajo
La aplicación clásica de la distribución hipergeométrica es el muestreo sin reemplazo . Piense en una urna con dos colores de canicas , rojo y verde. Defina dibujar una canica verde como un éxito y dibujar una canica roja como un fracaso (análogo a la distribución binomial). Si la variable N describe el número de todas las canicas en la urna (consulte la tabla de contingencia a continuación) y K describe el número de canicas verdes , entonces N - K corresponde al número de canicas rojas . En este ejemplo, X es la variable aleatoria cuyo resultado es k , el número de canicas verdes realmente extraídas en el experimento. Esta situación se ilustra en la siguiente tabla de contingencia :
dibujado | no dibujado | total | |
---|---|---|---|
canicas verdes | k | K - k | K |
canicas rojas | n - k | N + k - n - K | N - K |
total | norte | N - n | norte |
Ahora, suponga (por ejemplo) que hay 5 canicas verdes y 45 rojas en la urna. De pie junto a la urna, cierras los ojos y sacas 10 canicas sin reemplazarlas. ¿Cuál es la probabilidad de que exactamente 4 de los 10 sean verdes? Tenga en cuenta que, aunque estamos analizando el éxito / fracaso, los datos no se modelan con precisión mediante la distribución binomial , porque la probabilidad de éxito en cada ensayo no es la misma, ya que el tamaño de la población restante cambia a medida que retiramos cada canica.
Este problema se resume en la siguiente tabla de contingencia:
dibujado | no dibujado | total | |
---|---|---|---|
canicas verdes | k = 4 | K - k = 1 | K = 5 |
canicas rojas | n - k = 6 | N + k - norte - K = 39 | N - K = 45 |
total | n = 10 | N - n = 40 | N = 50 |
La probabilidad de sacar exactamente k canicas verdes se puede calcular mediante la fórmula
Por lo tanto, en este ejemplo calcule
Intuitivamente, esperaríamos que sea aún más improbable que las 5 canicas verdes estén entre las 10 sorteadas.
Como era de esperar, la probabilidad de sacar 5 canicas verdes es aproximadamente 35 veces menos probable que la de sacar 4.
Simetrías
Intercambiando los roles de las canicas verdes y rojas:
Intercambiando los roles de canicas dibujadas y no dibujadas:
Intercambiando los roles de las canicas verdes y dibujadas:
Estas simetrías generan el grupo diedro .
Orden de sorteos
La probabilidad de sacar cualquier conjunto de canicas verdes y rojas (la distribución hipergeométrica) depende solo del número de canicas verdes y rojas, no del orden en que aparecen; es decir, es una distribución intercambiable . Como resultado, la probabilidad de sacar una canica verde en eldibujar es [2]
Esta es una probabilidad ex ante, es decir, se basa en no conocer los resultados de los sorteos anteriores.
Límites de cola
Dejar y . Entonces parapodemos derivar los siguientes límites: [3]
dónde
es la divergencia de Kullback-Leibler y se utiliza que. [4]
Si n es mayor que N / 2, puede ser útil aplicar simetría para "invertir" los límites, lo que le da lo siguiente: [4] [5]
Inferencia estadística
Prueba hipergeométrica
La prueba hipergeométrica utiliza la distribución hipergeométrica para medir la significación estadística de haber extraído una muestra que consta de un número específico de éxitos (de extracciones totales) de una población de tamaño conteniendo éxitos. En una prueba de sobrerrepresentación de éxitos en la muestra, el valor p hipergeométrico se calcula como la probabilidad de extraer al azar o más éxitos de la población en sorteos totales. En una prueba de subrepresentación, el valor p es la probabilidad de extraer al azar o menos éxitos.
La prueba basada en la distribución hipergeométrica (prueba hipergeométrica) es idéntica a la correspondiente versión de una cola de la prueba exacta de Fisher . [6] Recíprocamente, el valor p de una prueba exacta de Fisher de dos caras se puede calcular como la suma de dos pruebas hipergeométricas apropiadas (para obtener más información, consulte [7] ).
La prueba se usa a menudo para identificar qué subpoblaciones están sobrerrepresentadas o subrepresentadas en una muestra. Esta prueba tiene una amplia gama de aplicaciones. Por ejemplo, un grupo de marketing podría utilizar la prueba para comprender su base de clientes probando un conjunto de clientes conocidos para detectar una representación excesiva de varios subgrupos demográficos (por ejemplo, mujeres, personas menores de 30 años).
Distribuciones relacionadas
Dejar y .
- Si luego tiene una distribución de Bernoulli con parámetro.
- Dejar tener una distribución binomial con parámetros y ; esto modela el número de éxitos en el problema de muestreo análogo con reemplazo. Si y son grandes en comparación con , y no está cerca de 0 o 1, entonces y tienen distribuciones similares, es decir, .
- Si es largo, y son grandes en comparación con , y no está cerca de 0 o 1, entonces
dónde es la función de distribución normal estándar
- Si las probabilidades de sacar una canica verde o roja no son iguales (por ejemplo, porque las canicas verdes son más grandes / más fáciles de agarrar que las canicas rojas) entonces tiene una distribución hipergeométrica no central
- La distribución beta-binomial es un conjugado previo de la distribución hipergeométrica.
La siguiente tabla describe cuatro distribuciones relacionadas con el número de éxitos en una secuencia de sorteos:
Con reemplazos | Sin reemplazos | |
---|---|---|
Dado el número de sorteos | Distribución binomial | distribución hipergeométrica |
Dado el número de fallas | distribución binomial negativa | distribución hipergeométrica negativa |
Distribución hipergeométrica multivariante
Parámetros | | ||
---|---|---|---|
Apoyo | |||
PMF | |||
Significar | |||
Diferencia | |
El modelo de urna con canicas verdes y rojas se puede extender al caso donde haya más de dos colores de canicas. Si hay K i canicas de color i en la urna y toma n canicas al azar sin reemplazarlas, entonces el número de canicas de cada color en la muestra ( k 1 , k 2 , ..., k c ) tiene el valor multivariante distribución hipergeométrica. Esto tiene la misma relación con la distribución multinomial que la distribución hipergeométrica con la distribución binomial: la distribución multinomial es la distribución "con reemplazo" y la hipergeométrica multivariada es la distribución "sin reemplazo".
Las propiedades de esta distribución se dan en la tabla adyacente, donde c es el número de colores diferentes y es el número total de canicas.
Ejemplo
Suponga que hay 5 canicas negras, 10 blancas y 15 rojas en una urna. Si se eligen seis canicas sin reemplazarlas, la probabilidad de que se elijan exactamente dos de cada color es
Ocurrencia y aplicaciones
Aplicación para auditar elecciones
Las auditorías electorales generalmente prueban una muestra de recintos contados por máquina para ver si los recuentos a mano o en máquina coinciden con los conteos originales. Las discrepancias dan como resultado un informe o un recuento más grande. Las tasas de muestreo generalmente se definen por ley, no por diseño estadístico, por lo que para un tamaño de muestra n definido legalmente , ¿cuál es la probabilidad de pasar por alto un problema que está presente en los recintos K , como un truco o un error? Esta es la probabilidad de que k = 0. Los errores a menudo son oscuros y un pirata informático puede minimizar la detección al afectar solo unos pocos distritos, lo que aún afectará las elecciones cerradas, por lo que un escenario plausible es que K esté en el orden del 5% de N . Las auditorías generalmente cubren del 1% al 10% de los recintos (a menudo, el 3%), [8] [9] [10], por lo que tienen una alta probabilidad de pasar por alto un problema. Por ejemplo, si hay un problema en 5 de 100 recintos, una muestra del 3% tiene un 86% de probabilidad de que k = 0, por lo que el problema no se notará, y solo el 14% de probabilidad de que el problema aparezca en la muestra ( k positivo ) :
La muestra necesitaría 45 recintos para tener una probabilidad inferior al 5% de que k = 0 en la muestra y, por lo tanto, tener una probabilidad superior al 95% de encontrar el problema:
Aplicación al póquer Texas Hold'em
En el póquer Hold'em, los jugadores hacen la mejor mano posible combinando las dos cartas de su mano con las 5 cartas (cartas comunitarias) que eventualmente aparecen en la mesa. La baraja tiene 52 y hay 13 de cada palo. Para este ejemplo, suponga que un jugador tiene 2 palos en la mano y hay 3 cartas en la mesa, 2 de las cuales también son palos. Al jugador le gustaría saber la probabilidad de que una de las siguientes 2 cartas se muestre como un trébol para completar el color .
(Tenga en cuenta que la probabilidad calculada en este ejemplo asume que no se conoce información sobre las cartas en las manos de los otros jugadores; sin embargo, los jugadores de póquer experimentados pueden considerar cómo los otros jugadores hacen sus apuestas (pasar, pagar, subir o retirarse) al considerar la probabilidad para cada escenario. Estrictamente hablando, el enfoque para calcular las probabilidades de éxito que se describe aquí es preciso en un escenario en el que solo hay un jugador en la mesa; en un juego multijugador, esta probabilidad podría ajustarse de alguna manera en función del juego de apuestas de los oponentes .)
Se muestran 4 clubes, por lo que aún quedan 9 clubes sin ver. Se muestran 5 cartas (2 en la mano y 3 en la mesa), por lo que hay todavía invisible.
La probabilidad de que una de las siguientes dos cartas volteadas sea un palo se puede calcular usando hipergeométrica con y . (aproximadamente 31,64%)
La probabilidad de que las dos siguientes cartas vueltas sean tréboles se puede calcular utilizando hipergeométrica con y . (alrededor de 3.33%)
La probabilidad de que ninguna de las dos cartas siguientes sean tréboles se puede calcular utilizando hipergeométrico con y . (aproximadamente 65,03%)
Ver también
- Distribuciones hipergeométricas no centrales
- Distribución hipergeométrica negativa
- Distribución multinomial
- Muestreo (estadísticas)
- Función hipergeométrica generalizada
- Problema del cobrador de cupones
- Distribución geométrica
- Keno
- Dama degustación de té
Referencias
Citas
- ^ Arroz, John A. (2007). Estadística matemática y análisis de datos (Tercera ed.). Prensa de Duxbury. pag. 42.
- ^ http://www.stat.yale.edu/~pollard/Courses/600.spring2010/Handouts/Symmetry%5BPolyaUrn%5D.pdf
- ^ Hoeffding, Wassily (1963), "Desigualdades de probabilidad para sumas de variables aleatorias acotadas" (PDF) , Journal of the American Statistical Association , 58 (301): 13-30, doi : 10.2307 / 2282952 , JSTOR 2282952.
- ^ a b "Otra cola de la distribución hipergeométrica" . wordpress.com . 8 de diciembre de 2015 . Consultado el 19 de marzo de 2018 .
- ^ Serfling, Robert (1974), "Desigualdades de probabilidad para la suma en el muestreo sin reemplazo", The Annals of Statistics , 2 : 39–48, doi : 10.1214 / aos / 1176342611.
- ^ Rivales, I .; Personnaz, L .; Taing, L .; Potier, M.-C (2007). "Enriquecimiento o agotamiento de una categoría GO dentro de una clase de genes: ¿qué prueba?" . Bioinformática . 23 (4): 401–407. doi : 10.1093 / bioinformatics / btl633 . PMID 17182697 .
- ^ K. Preacher y N. Briggs. "Cálculo para la prueba exacta de Fisher: una herramienta de cálculo interactiva para la prueba de probabilidad exacta de Fisher para tablas de 2 x 2 (página interactiva)" .
- ^ Amanda Glazer y Jacob Spertus (10 de febrero de 2020). "Empiece a difundir las noticias: la auditoría posterior a las elecciones de Nueva York tiene defectos importantes". SSRN 3536011 . Cite journal requiere
|journal=
( ayuda ) - ^ "Leyes estatales de auditoría" . Votación verificada . 2017-02-10 . Consultado el 2 de abril de 2018 .
- ^ Conferencia Nacional de Legislaturas Estatales. "Auditorías Post-Electorales" . www.ncsl.org . Consultado el 2 de abril de 2018 .
Fuentes
- Berkopec, Aleš (2007). "Algoritmo HyperQuick para distribución hipergeométrica discreta" . Diario de algoritmos discretos . 5 (2): 341–347. doi : 10.1016 / j.jda.2006.01.001 .
- Skala, M. (2011). "Desigualdades de cola hipergeométrica: poner fin a la locura". arXiv : 1311.5939 [ math.PR ]. nota inédita
enlaces externos
- La distribución hipergeométrica y la aproximación binomial a una variable aleatoria hipergeométrica por Chris Boucher, Wolfram Demonstrations Project .
- Weisstein, Eric W. "Distribución hipergeométrica" . MathWorld .