Prueba U de Mann-Whitney

En estadística , la prueba U de Mann-Whitney (también llamada prueba de Mann-Whitney-Wilcoxon ( MWW ), prueba de suma de rangos de Wilcoxon o prueba de Wilcoxon-Mann-Whitney ) es una prueba no paramétrica de la hipótesis nula de que, para valores seleccionados al azar X y y de dos poblaciones, la probabilidad de X es mayor que y es igual a la probabilidad de y que es mayor que X .

Una prueba no paramétrica similar que se usa en muestras dependientes es la prueba de rango con signo de Wilcoxon .

Supuestos y enunciado formal de hipótesis

Aunque Mann y Whitney ^[1] desarrollaron la prueba U de Mann-Whitney bajo el supuesto de respuestas continuas con la hipótesis alternativa de que una distribución es estocásticamente mayor que la otra, hay muchas otras formas de formular las hipótesis nula y alternativa de manera que la La prueba U de Mann-Whitney dará una prueba válida. ^[2]

Una formulación muy general es asumir que:

Todas las observaciones de ambos grupos son independientes entre sí,
Las respuestas son al menos ordinales (es decir, al menos se puede decir, de dos observaciones cualesquiera, cuál es la mayor),
Bajo la hipótesis nula H ₀ , las distribuciones de ambas poblaciones son iguales. ^[3]
La hipótesis alternativa H ₁ es que las distribuciones no son iguales.

Bajo la formulación general, la prueba solo es consistente cuando ocurre lo siguiente bajo H ₁ :

La probabilidad de que una observación de la población X exceda una observación de la población Y es diferente (mayor o menor) que la probabilidad de que una observación de Y exceda una observación de X; es decir, $P (X > Y) \neq P (Y > X)$ o $P (X > Y) + 0.5 \cdot P (X = Y) \neq 0.5$ .

Bajo supuestos más estrictos que la formulación general anterior, p. Ej., Si se supone que las respuestas son continuas y la alternativa está restringida a un cambio de ubicación, es decir, $F 1 (x) = F 2 (x + δ)$ , podemos interpretar una prueba U de Mann-Whitney significativa que muestra una diferencia en las medianas. Bajo este supuesto de cambio de ubicación, también podemos interpretar que la prueba U de Mann-Whitney evalúa si la estimación de Hodges-Lehmann de la diferencia en la tendencia central entre las dos poblaciones difiere de cero. La estimación de Hodges-Lehmann para este problema de dos muestras es la mediana de todas las posibles diferencias entre una observación en la primera muestra y una observación en la segunda muestra.

De lo contrario, si tanto las dispersiones como las formas de la distribución de ambas muestras difieren, la prueba U de Mann-Whitney falla en una prueba de medianas. Es posible mostrar ejemplos, donde las medianas son numéricamente iguales, mientras que la prueba rechaza la hipótesis nula con un valor p pequeño. ^[4] ^[5]

La prueba U de Mann-Whitney / prueba de suma de rangos de Wilcoxon no es lo mismo que la prueba de rangos con signo de Wilcoxon , aunque ambas son no paramétricas e implican la suma de rangos. La prueba U de Mann-Whitney se aplica a muestras independientes. La prueba de rango con signo de Wilcoxon se aplica a muestras emparejadas o dependientes.

Estadística U

Dejar ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ ser una muestra de iid de ${\ Displaystyle X}$ , y ${\ Displaystyle Y_ {1}, \ ldots, Y_ {m}}$ una muestra de iid de ${\ Displaystyle Y}$ , y ambas muestras independientes entre sí. El estadístico U de Mann-Whitney correspondiente se define como:

{\ Displaystyle U = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {m} S (X_ {i}, Y_ {j}),}

con

{\ displaystyle S (X, Y) = {\ begin {cases} 1, & {\ text {if}} Y X. \ end {cases}}}

Cálculos

La prueba implica el cálculo de un estadístico , generalmente llamado U , cuya distribución bajo la hipótesis nula se conoce. En el caso de muestras pequeñas, la distribución se tabula, pero para tamaños de muestra superiores a ~ 20, la aproximación utilizando la distribución normal es bastante buena. Algunos libros tabulan estadísticas equivalentes a U , como la suma de rangos en una de las muestras, en lugar de la U misma.

La prueba U de Mann-Whitney se incluye en la mayoría de los paquetes estadísticos modernos . También se calcula fácilmente a mano, especialmente para muestras pequeñas. Hay dos formas de hacer esto.

Método uno:

Para comparar dos pequeños conjuntos de observaciones, un método directo es rápido y da una idea del significado de la estadística U , que corresponde al número de victorias de todos los concursos por parejas (consulte el ejemplo de la tortuga y la liebre en Ejemplos a continuación). Para cada observación en un conjunto, cuente el número de veces que este primer valor gana sobre cualquier observación en el otro conjunto (el otro valor pierde si el primero es mayor). Cuente 0.5 para cualquier empate. La suma de victorias y empates es U (es decir: ${\ Displaystyle U_ {1}}$ ) para el primer juego. U para el otro conjunto es el inverso (es decir: ${\ Displaystyle U_ {2}}$ ).

Método dos:

Para muestras más grandes:

Asigne rangos numéricos a todas las observaciones (coloque las observaciones de ambos grupos en un conjunto), comenzando con 1 para el valor más pequeño. Donde haya grupos de valores empatados, asigne una clasificación igual al punto medio de las clasificaciones no ajustadas. Por ejemplo, los rangos de $(3, 5, 5, 5, 5, 8)$ son $(1, 3.5, 3.5, 3.5, 3.5, 6)$ (el rango sin ajustar sería $(1, 2, 3, 4, 5, 6 )$ ).
Ahora, sume los rangos de las observaciones que provienen de la muestra 1. Ahora se determina la suma de rangos en la muestra 2, ya que la suma de todos los rangos es igual a $N (N + 1) / 2$ donde N es el número total de observaciones .
Entonces U viene dado por: ^[6]

{\ Displaystyle U_ {1} = R_ {1} - {n_ {1} (n_ {1} +1) \ over 2} \, \!}

donde n ₁ es el tamaño de la muestra para la muestra 1 y R ₁ es la suma de los rangos en la muestra 1.

Tenga en cuenta que no importa cuál de las dos muestras se considera muestra 1. Una fórmula igualmente válida para U es

{\ Displaystyle U_ {2} = R_ {2} - {n_ {2} (n_ {2} +1) \ over 2} \, \!}

El valor menor de U ₁ y U ₂ es el que se utiliza al consultar las tablas de significación. La suma de los dos valores viene dada por

{\ Displaystyle U_ {1} + U_ {2} = R_ {1} - {n_ {1} (n_ {1} +1) \ over 2} + R_ {2} - {n_ {2} (n_ {2 } +1) \ over 2}. \, \!}

Sabiendo que

R 1 + R 2 = N (N + 1) / 2

y

N = n 1 + n 2

, y haciendo algo de álgebra , encontramos que la suma es

U 1 + U 2 = norte 1 norte 2

.

Propiedades

El valor máximo de U es el producto de los tamaños de muestra para las dos muestras (es decir: ${\ Displaystyle U_ {i} = n_ {1} n_ {2}}$ ). En tal caso, la "otra" U sería 0.

Ejemplos de

Ilustración de métodos de cálculo

Supongamos que Esopo no está satisfecho con su experimento clásico en el que se encontró que una tortuga vence a una liebre en una carrera y decide realizar una prueba de significancia para descubrir si los resultados podrían extenderse a las tortugas y liebres en general. Recoge una muestra de 6 tortugas y 6 liebres, y hace que todas corran su carrera a la vez. El orden en el que llegan al puesto de llegada (su orden de clasificación, desde el primero al último que cruza la línea de meta) es el siguiente, escribiendo T para una tortuga y H para una liebre:

THHHHHTTTTTH

¿Cuál es el valor de U ?

Usando el método directo, tomamos cada tortuga por turno y contamos el número de liebres que golpea, obteniendo 6, 1, 1, 1, 1, 1, lo que significa que $U = 11$ . Alternativamente, podríamos tomar cada liebre por turno y contar el número de tortugas que golpea. En este caso, obtenemos 5, 5, 5, 5, 5, 0, entonces U = 25. Note que la suma de estos dos valores para $U = 36$ , que es $6 \times 6$ .
Usando el método indirecto:

clasifique a los animales según el tiempo que tardan en completar el curso, así que asigne al primer animal el rango 12, al segundo rango 11, y así sucesivamente.

la suma de los rangos alcanzados por las tortugas es

12 + 6 + 5 + 4 + 3 + 2 = 32

.

Por lo tanto,

U = 32 - (6 \times 7) / 2 = 32 - 21 = 11

(igual que el método uno).

la suma de los rangos alcanzados por las liebres es

11 + 10 + 9 + 8 + 7 + 1 = 46

, lo que lleva a

U = 46 - 21 = 25

.

Ejemplo de declaración de resultados

Al informar los resultados de una prueba U de Mann-Whitney , es importante indicar:

Una medida de las tendencias centrales de los dos grupos (medias o medianas; dado que la prueba U de Mann-Whitney es una prueba ordinal, generalmente se recomiendan las medianas)
El valor de U (quizás con alguna medida del tamaño del efecto, como el tamaño del efecto del lenguaje común o la correlación biserial de rango ).
Los tamaños de muestra
El nivel de significancia.

En la práctica, es posible que parte de esta información ya se haya proporcionado y se debe utilizar el sentido común para decidir si se debe repetir. Se puede ejecutar un informe típico,

"Las latencias medias en los grupos E y C fueron 153 y 247 ms; las distribuciones en los dos grupos difirieron significativamente (Mann-Whitney

U = 10.5

,

n 1 = n 2 = 8

,

P <0.05 de

dos colas)".

Podría ejecutarse una declaración que haga plena justicia al estado estadístico de la prueba,

"Los resultados de los dos tratamientos se compararon mediante la prueba de suma de rangos de dos muestras de Wilcoxon-Mann-Whitney. El efecto del tratamiento (diferencia entre tratamientos) se cuantificó mediante el estimador de Hodges-Lehmann (HL), que es consistente con la prueba de Wilcoxon . ^[7] Este estimador (HLΔ) es la mediana de todas las posibles diferencias en los resultados entre un sujeto en el grupo B y un sujeto en el grupo A. a no paramétrico intervalo de 0,95 de confianza para HLΔ acompaña a estas estimaciones como lo hace ρ, una estimación de la probabilidad de que un sujeto elegido al azar de la población B tenga un peso mayor que un sujeto elegido al azar de la población A. El peso medio [cuartiles] para los sujetos en tratamiento A y B, respectivamente, es 147 [121, 177] y 151 [130, 180 ] kg. Tratamiento A peso reducido en HLΔ = 5 kg (0,95 CL [2, 9] kg,

2 P = 0,02

,

ρ = 0,58

) ".

Sin embargo, sería raro encontrar un informe tan extenso en un documento cuyo tema principal no fuera la inferencia estadística.

Aproximación normal y corrección de ataduras

Para muestras grandes, U tiene una distribución aproximadamente normal . En ese caso, el valor estandarizado

{\ Displaystyle z = {\ frac {U-m_ {U}} {\ sigma _ {U}}}, \,}

donde m _U y σ _U son la media y la desviación estándar de U , es aproximadamente una desviación normal estándar cuyo significado se puede verificar en las tablas de la distribución normal. m _U y σ _U están dados por

{\ Displaystyle m_ {U} = {\ frac {n_ {1} n_ {2}} {2}}, \,}

^[8] y

{\ Displaystyle \ sigma _ {U} = {\ sqrt {n_ {1} n_ {2} (n_ {1} + n_ {2} +1) \ over 12}}. \,}

^[8]

La fórmula para la desviación estándar es más complicada en presencia de rangos empatados. Si hay empates en los rangos, σ debe corregirse de la siguiente manera:

{\ Displaystyle \ sigma _ {\ text {corr}} = {\ sqrt {{n_ {1} n_ {2} \ over 12} \ left ((n + 1) - \ sum _ {i = 1} ^ { k} {{t_ {i}} ^ {3} -t_ {i} \ over n (n-1)} \ right)}} \,}

donde $n = n 1 + n 2$ , t _i es el número de sujetos que comparten el rango i , y k es el número de rangos (distintos).

Si el número de ataduras es pequeño (y especialmente si no hay bandas de corbata grandes) se pueden ignorar las ataduras al hacer cálculos a mano. Los paquetes estadísticos informáticos utilizarán la fórmula correctamente ajustada de forma rutinaria.

Nota que desde $T 1 + T 2 = n 1 n 2$ , la media $n 1 n 2 /2$ utilizado en la aproximación normal es la media de los dos valores de U . Por lo tanto, el valor absoluto del estadístico z calculado será el mismo cualquiera que sea el valor de U que se utilice.

Tamaños de efecto

Es una práctica ampliamente recomendada para los científicos informar el tamaño del efecto para una prueba inferencial. ^[9]^[10]

Proporción de concordancia de todos los pares

Las siguientes tres medidas son equivalentes.

Tamaño del efecto del lenguaje común

Un método para informar el tamaño del efecto de la prueba U de Mann-Whitney es con f , el tamaño del efecto del lenguaje común. ^[11]^[12] Como estadística de muestra, el tamaño del efecto del lenguaje común se calcula formando todos los pares posibles entre los dos grupos y luego encontrando la proporción de pares que apoyan una dirección (digamos, que los elementos del grupo 1 son más grandes que los elementos del grupo 2). ^[12] Para ilustrar, en un estudio con una muestra de diez liebres y diez tortugas, el número total de pares ordenados es diez veces diez o 100 pares de liebres y tortugas. Suponga que los resultados muestran que la liebre corrió más rápido que la tortuga en 90 de los 100 pares de muestras; en ese caso, el tamaño del efecto del lenguaje común de la muestra es del 90%. Este valor de muestra es un estimador insesgado del valor de la población, por lo que la muestra sugiere que la mejor estimación del tamaño del efecto del lenguaje común en la población es del 90%. ^[13]

La relación entre f y la U de Mann-Whitney (específicamente ${\ Displaystyle U_ {1}}$ ) es como sigue:

{\ Displaystyle f = {U_ {1} \ over n_ {1} n_ {2}} \,}

Es lo mismo que el área bajo la curva (AUC) de la curva ROC a continuación.

ρ estadística

Una estadística llamada ρ que se relaciona linealmente con U y se usa ampliamente en estudios de categorización ( aprendizaje de discriminación que involucra conceptos ), y en otros lugares, ^[14] se calcula dividiendo U por su valor máximo para los tamaños de muestra dados, que es simplemente $n 1 \times n 2$ . ρ es, por tanto, una medida no paramétrica de la superposición entre dos distribuciones; puede tomar valores entre 0 y 1, y es una estimación de $P (Y > X) + 0.5 P (Y = X)$ , donde X e Y son observaciones elegidas al azar de las dos distribuciones. Ambos valores extremos representan una separación completa de las distribuciones, mientras que un ρ de 0,5 representa una superposición completa. La utilidad del estadístico ρ se puede ver en el caso del extraño ejemplo utilizado anteriormente, donde dos distribuciones que eran significativamente diferentes en una prueba U de Mann-Whitney tenían, sin embargo, medianas casi idénticas: el valor de ρ en este caso es aproximadamente 0,723 a favor de las liebres, reflejando correctamente el hecho de que aunque la tortuga mediana venció a la liebre mediana, las liebres colectivamente lo hicieron mejor que las tortugas colectivamente. ^{[ cita requerida ]}

Estadístico de área bajo curva (AUC) para curvas ROC

La estadística U es equivalente al área bajo la curva característica de funcionamiento del receptor ( AUC ) que se puede calcular fácilmente. ^[15]^[16]

{\ Displaystyle \ mathrm {AUC} _ {1} = {U_ {1} \ over n_ {1} n_ {2}}}

Tenga en cuenta que esta es la misma definición que el tamaño del efecto del lenguaje común de la sección anterior. es decir, la probabilidad de que un clasificador clasifique una instancia positiva elegida al azar más alta que una negativa elegida aleatoriamente (asumiendo que 'positivo' clasifica más alto que 'negativo'). ^[17]

Debido a su forma probabilística, el estadístico U se puede generalizar a una medida del poder de separación de un clasificador para más de dos clases: ^[18]

{\ Displaystyle M = {1 \ over c (c-1)} \ sum \ mathrm {AUC} _ {k, \ ell}}

Donde c es el número de clases, y el R _{k , ℓ} plazo de AUC _{k , ℓ} sólo considera la clasificación de los elementos que pertenecen a las clases de k y ℓ (es decir, elementos que pertenecen a todas las demás clases se ignoran) de acuerdo con las estimaciones del clasificador de la probabilidad de aquellos ítems pertenecientes a la clase k . AUC _{k , k} siempre será cero pero, a diferencia del caso de dos clases, generalmente $AUC k, ℓ \neq AUC ℓ, k$ , por lo que la medida M suma todos los pares ( k , ℓ ), de hecho utilizando el promedio de AUC _{k , ℓ} y AUC _{ℓ , k} .

Correlación de rango-biserial

Un método para informar el tamaño del efecto de la prueba U de Mann-Whitney es con una medida de correlación de rango conocida como correlación biserial de rango. Edward Cureton presentó y nombró la medida. ^[19] Al igual que otras medidas correlacionales, la correlación biserial de rango puede variar de menos uno a más uno, con un valor de cero que indica que no hay relación.

Existe una fórmula de diferencia simple para calcular la correlación biserial de rango a partir del tamaño del efecto del lenguaje común: la correlación es la diferencia entre la proporción de pares favorables a la hipótesis ( f ) menos su complemento (es decir, la proporción que es desfavorable ( u )). Esta fórmula de diferencia simple es solo la diferencia del tamaño del efecto del lenguaje común de cada grupo, y es la siguiente: ^[11]

{\ Displaystyle r = fu}

Por ejemplo, considere el ejemplo donde las liebres corren más rápido que las tortugas en 90 de 100 parejas. El tamaño del efecto del lenguaje común es del 90%, por lo que la correlación de rango biserial es 90% menos 10%, y el rango biserial $r = 0,80$ .

Se puede usar una fórmula alternativa para el rango biserial para calcularlo a partir de la U de Mann-Whitney (ya sea ${\ Displaystyle U_ {1}}$ o ${\ Displaystyle U_ {2}}$ ) y los tamaños de muestra de cada grupo: ^[20]

{\ Displaystyle r = f- (1-f) = 2f-1 = {2U_ {1} \ sobre n_ {1} n_ {2}} - 1 = 1- {2U_ {2} \ sobre n_ {1} n_ {2}}}

Esta fórmula es útil cuando los datos no están disponibles, pero cuando hay un informe publicado, porque U y los tamaños de las muestras se informan de forma rutinaria. Usando el ejemplo anterior con 90 pares que favorecen a las liebres y 10 pares que favorecen a la tortuga, U ₂ es el más pequeño de los dos, entonces $U 2 = 10$ . Luego, esta fórmula da $r = 1 - (2 \times 10) / (10 \times 10) = 0.80$ , que es el mismo resultado que con la fórmula de diferencia simple anterior.

Relación con otras pruebas

Comparación con la prueba t de Student

La prueba U de Mann-Whitney prueba una hipótesis nula de que la probabilidad de que una observación extraída al azar de un grupo sea mayor que una observación extraída al azar del otro es igual a 0.5 frente a una alternativa de que esta probabilidad no es 0.5 (ver Mann-Whitney Prueba U # Supuestos y enunciado formal de hipótesis ). En contraste, una prueba t prueba una hipótesis nula de medias iguales en dos grupos contra una alternativa de medias desiguales. Por lo tanto, excepto en casos especiales, la prueba U de Mann-Whitney y la prueba t no prueban las mismas hipótesis y deben compararse con esto en mente.

Datos ordinales: La prueba U de Mann-Whitney es preferible a la prueba t cuando los datos son ordinales pero no en escala de intervalo, en cuyo caso no se puede suponer que el espaciado entre valores adyacentes de la escala sea constante.
Robustez: Al comparar las sumas de los rangos, ^[21] la prueba U de Mann-Whitney es menos probable que la prueba t de indicar falsamente significancia debido a la presencia de valores atípicos . Sin embargo, la prueba U de Mann-Whitney puede tener un peor control de errores de tipo I cuando los datos son heterocedásticos y no normales. ^[22]
Eficiencia: Cuando se mantiene la normalidad, la prueba U de Mann-Whitney tiene una eficiencia (asintótica) de 3 / $π$ o aproximadamente 0,95 en comparación con la prueba t . ^[23] Para distribuciones suficientemente alejadas de lo normal y para tamaños de muestra suficientemente grandes, la prueba U de Mann-Whitney es considerablemente más eficiente que la t . ^[24] Sin embargo, esta comparación en eficiencia debe interpretarse con precaución, ya que Mann-Whitney y la prueba t no prueban las mismas cantidades. Si, por ejemplo, una diferencia de medias de grupo es de interés principal, Mann-Whitney no es una prueba adecuada. ^[25]

La prueba U de Mann-Whitney dará resultados muy similares a la realización de una prueba t paramétrica ordinaria de dos muestras en las clasificaciones de los datos. ^[26]

Diferentes distribuciones

Si se desea probar el orden estocástico de las dos poblaciones (es decir, la hipótesis alternativa ${\ Displaystyle P (Y> X) + 0.5P (Y = X) \ neq 0.5}$ ), sin asumir que las formas de las distribuciones son las mismas (es decir, usando la hipótesis nula ${\ displaystyle P (Y> X) + 0.5P (Y = X) = 0.5}$ en vez de ${\ Displaystyle F_ {1} = F_ {2}}$ ), hay mejores pruebas disponibles. Entre ellos se encuentran las pruebas de Brunner-Munzel y Fligner-Policello. ^[27] Específicamente, bajo la hipótesis nula más general ${\ displaystyle P (Y> X) + 0.5P (Y = X) = 0.5}$ , la prueba U de Mann-Whitney ha inflado las tasas de error de tipo incluso en muestras grandes, un problema que resuelven las mejores alternativas. ^[28] Como resultado, se ha sugerido utilizar una de las alternativas (específicamente la prueba de Brunner-Munzel) si no se puede suponer que las distribuciones son iguales bajo la hipótesis nula. ^[28]

Alternativas

Si se desea una interpretación de cambio simple, la prueba U de Mann-Whitney no debe usarse cuando las distribuciones de las dos muestras son muy diferentes, ya que puede dar una interpretación errónea de resultados significativos. ^[29] En esa situación, la versión de varianzas desiguales de la prueba t puede dar resultados más confiables.

De manera similar, algunos autores (p. Ej., Conover ^{[ se necesita cita completa ]} ) sugieren transformar los datos en rangos (si aún no son rangos) y luego realizar la prueba t en los datos transformados, la versión de la prueba t utilizada depende de si se sospecha que las variaciones de la población son diferentes o no. Las transformaciones de rango no conservan las variaciones, pero las variaciones se vuelven a calcular a partir de muestras después de las transformaciones de rango.

Se ha sugerido la prueba de Brown-Forsythe como un equivalente no paramétrico apropiado de la prueba F para varianzas iguales. ^{[ cita requerida ]}

Una prueba más poderosa es la prueba de Brunner-Munzel , que supera a la prueba U de Mann-Whitney en caso de incumplimiento del supuesto de intercambiabilidad. ^[30]

La prueba U de Mann-Whitney es un caso especial del modelo de probabilidades proporcionales , que permite el ajuste de covariables. ^[31]

Véase también la prueba de Kolmogorov-Smirnov .

Estadísticas de prueba relacionadas

Tau de Kendall

La prueba U de Mann-Whitney está relacionada con varios otros procedimientos estadísticos no paramétricos. Por ejemplo, es equivalente al coeficiente de correlación tau de Kendall si una de las variables es binaria (es decir, solo puede tomar dos valores). ^{[ cita requerida ]}

Implementaciones de software

En muchos paquetes de software, la prueba U de Mann-Whitney (de la hipótesis de distribuciones iguales frente a alternativas apropiadas) ha sido pobremente documentada. Algunos paquetes tratan incorrectamente las ataduras o no documentan las técnicas asintóticas (por ejemplo, corrección por continuidad). Una revisión de 2000 examinó algunos de los siguientes paquetes: ^[32]

MATLAB tiene una suma de clasificación en su Caja de herramientas de estadísticas.
El paquete base de estadísticas de R implementa la prueba wilcox.test en su paquete "stats".
El paquete R wilcoxonZ calculará el estadístico z para una prueba de Wilcoxon de dos muestras, pareada o de una muestra.
SAS implementa la prueba en su procedimiento PROC NPAR1WAY.
Python (lenguaje de programación) tiene una implementación de esta prueba proporcionada por SciPy ^[33]
SigmaStat (SPSS Inc., Chicago, IL)
SYSTAT (SPSS Inc., Chicago, IL)
Java (lenguaje de programación) tiene una implementación de esta prueba proporcionada por Apache Commons ^[34]
Julia (lenguaje de programación) tiene implementaciones de esta prueba a través de varios paquetes. En el paquete HypothesisTests.jl, esto se encuentra como pvalue (MannWhitneyUTest (X, Y)) ^[35]
JMP (SAS Institute Inc., Cary, Carolina del Norte)
S-Plus (MathSoft, Inc., Seattle, WA)
ESTADÍSTICA (StatSoft, Inc., Tulsa, OK)
UNISTAT (Unistat Ltd, Londres)
SPSS (SPSS Inc, Chicago)
StatsDirect (StatsDirect Ltd, Manchester, Reino Unido) implementa todas las variantes comunes .
Stata (Stata Corporation, College Station, TX) implementa la prueba en su comando de suma .
StatXact (Cytel Software Corporation, Cambridge, Massachusetts)
PSPP implementa la prueba en su función WILCOXON .

Historia

La estadística apareció en un artículo de 1914 ^[36] del alemán Gustav Deuchler (con un término faltante en la varianza).

En un solo artículo en 1945, Frank Wilcoxon propuso ^[37] tanto la prueba de rango con signo de una muestra como la prueba de suma de rangos de dos muestras, en una prueba de significancia con una hipótesis nula de punto contra su alternativa complementaria (es decir, igual frente a no es igual). Sin embargo, solo tabuló unos pocos puntos para el caso de igual tamaño de muestra en ese artículo (aunque en un artículo posterior proporcionó tablas más grandes).

En el artículo de Henry Mann y su alumno Donald Ransom Whitney en 1947 apareció un análisis completo de la estadística, que incluía una recurrencia que permitía calcular las probabilidades de cola para tamaños de muestra arbitrarios y tablas para tamaños de muestra de ocho o menos . ^[1] Este El artículo discutió hipótesis alternativas, incluido un orden estocástico (donde las funciones de distribución acumuladas satisfacen la desigualdad puntual $F X (t) < F Y (t)$ ). Este trabajo también calculó los primeros cuatro momentos y estableció la normalidad límite del estadístico bajo la hipótesis nula, estableciendo así que es asintóticamente libre de distribución.

Ver también

Prueba de lepage
Prueba de Cucconi
Prueba de Kolmogorov-Smirnov
Prueba de rango con signo de Wilcoxon
Análisis de varianza unidireccional de Kruskal-Wallis
Prueba de Brunner-Munzel
Modelo de probabilidades proporcionales

Notas

↑ a b Mann, Henry B .; Whitney, Donald R. (1947). "En una prueba de si una de las dos variables aleatorias es estocásticamente más grande que la otra" . Anales de estadística matemática . 18 (1): 50–60. doi : 10.1214 / aoms / 1177730491 . Señor 0022058 . Zbl 0041.26103 .
^ Fay, Michael P .; Proschan, Michael A. (2010). "¿Wilcoxon-Mann-Whitney o t -test? Sobre supuestos para pruebas de hipótesis y múltiples interpretaciones de reglas de decisión" . Encuestas estadísticas . 4 : 1–39. doi : 10.1214 / 09-SS051 . Señor 2595125 . PMC 2857732 . PMID 20414472 .
^ [1] , consulte la Tabla 2.1 de Pratt (1964) "Robustez de algunos procedimientos para el problema de ubicación de dos muestras". Revista de la Asociación Estadounidense de Estadística. 59 (307): 655–680. Si las dos distribuciones son normales con la misma media pero diferentes varianzas, entonces Pr [X> Y] = Pr [Y Por tanto, no podemos definir la hipótesis nula como Pr [X> Y] = Pr [Y
^ Divine, George W .; Norton, H. James; Barón, Anna E .; Juárez-Colunga, Elizabeth (2018). "El procedimiento de Wilcoxon-Mann-Whitney falla como una prueba de medianas" . El estadístico estadounidense . 72 (3): 278–286. doi : 10.1080 / 00031305.2017.1305291 . Consultado el 24 de mayo de 2021 .
^ Conroy, Ronán (2012). "¿Qué hipótesis prueban realmente las pruebas de dos grupos" no paramétricos "? . Stata Journal . 12 (2): 182-190. doi : 10.1177 / 1536867X1201200202 . S2CID 118445807 . Consultado el 24 de mayo de 2021 .
^ Zar, Jerrold H. (1998). Análisis bioestadístico . Nueva Jersey: Prentice Hall International, INC. P. 147. ISBN 978-0-13-082390-8.
^ Myles Hollander y Douglas A. Wolfe (1999). Métodos estadísticos no paramétricos (2 ed.). Wiley-Interscience. ISBN 978-0471190455.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
^ a b Siegal, Sidney. Estadística no paramétrica para las ciencias del comportamiento . McGraw-Hill. pag. 121.
^ Wilkinson, Leland (1999). "Métodos estadísticos en revistas de psicología: pautas y explicaciones". Psicólogo estadounidense . 54 (8): 594–604. doi : 10.1037 / 0003-066X.54.8.594 .
^ Nakagawa, Shinichi; Cuthill, Innes C (2007). "Tamaño del efecto, intervalo de confianza y significación estadística: una guía práctica para biólogos". Reseñas biológicas de la Sociedad Filosófica de Cambridge . 82 (4): 591–605. doi : 10.1111 / j.1469-185X.2007.00027.x . PMID 17944619 . S2CID 615371 .
^ a b Kerby, DS (2014). "La fórmula de la diferencia simple: un enfoque para la enseñanza de la correlación no paramétrica". Psicología Integral . 3 : 11.IT.3.1. doi : 10.2466 / 11.IT.3.1 .
^ a b McGraw, KO; Wong, JJ (1992). "Una estadística de tamaño del efecto del lenguaje común". Boletín psicológico . 111 (2): 361–365. doi : 10.1037 / 0033-2909.111.2.361 .
^ Grissom RJ (1994). "Análisis estadístico del estado categórico ordinal después de las terapias". Revista de Consultoría y Psicología Clínica . 62 (2): 281–284. doi : 10.1037 / 0022-006X.62.2.281 . PMID 8201065 .
^ Herrnstein, Richard J .; Loveland, Donald H .; Cable, Cynthia (1976). "Conceptos naturales en palomas". Journal of Experimental Psychology: Animal Behavior Processes . 2 (4): 285-302. doi : 10.1037 / 0097-7403.2.4.285 .
^ Hanley, James A .; McNeil, Barbara J. (1982). "El significado y uso del área bajo una característica de la curva de funcionamiento del receptor (ROC)". Radiología . 143 (1): 29–36. doi : 10.1148 / radiology.143.1.7063747 . PMID 7063747 .
^ Mason, Simon J .; Graham, Nicholas E. (2002). "Áreas debajo de las curvas de características operativas relativas (ROC) y niveles operativos relativos (ROL): significado e interpretación estadística" (PDF) . Revista trimestral de la Royal Meteorological Society . 128 (584): 2145–2166. Código bibliográfico : 2002QJRMS.128.2145M . CiteSeerX 10.1.1.458.8392 . doi : 10.1256 / 003590002320603584 .
^ Fawcett, Tom (2006); Una introducción al análisis ROC , Pattern Recognition Letters, 27, 861–874.
^ Hand, David J .; Hasta, Robert J. (2001). "Una simple generalización del área bajo la curva ROC para problemas de clasificación de clases múltiples" . Aprendizaje automático . 45 (2): 171–186. doi : 10.1023 / A: 1010920819831 .
^ Cureton, EE (1956). "Correlación de rango-biserial". Psychometrika . 21 (3): 287–290. doi : 10.1007 / BF02289138 . S2CID 122500836 .
^ Wendt, HW (1972). "Tratar con un problema común en las ciencias sociales: un coeficiente de correlación biserial de rango simplificado basado en la estadística U". Revista europea de psicología social . 2 (4): 463–465. doi : 10.1002 / ejsp.2420020412 .
^ Motulsky, Harvey J .; Guía de estadísticas , San Diego, CA: GraphPad Software, 2007, p. 123
^ Zimmerman, Donald W. (1 de enero de 1998). "Invalidación de pruebas estadísticas paramétricas y no paramétricas por violación concurrente de dos supuestos". La Revista de Educación Experimental . 67 (1): 55–68. doi : 10.1080 / 00220979809598344 . ISSN 0022-0973 .
^ Lehamnn, Erich L .; Elementos de la teoría de muestras grandes , Springer, 1999, p. 176
^ Conover, William J .; Estadística no paramétrica práctica , John Wiley & Sons, 1980 (segunda edición), págs. 225–226
^ Lumley, Thomas; Diehr, Paula; Emerson, Scott; Chen, Lu (mayo de 2002). "La importancia del supuesto de normalidad en grandes conjuntos de datos de salud pública" . Revisión anual de salud pública . 23 (1): 151-169. doi : 10.1146 / annurev.publhealth.23.100901.140546 . ISSN 0163-7525 . PMID 11910059 .
^ Conover, William J .; Iman, Ronald L. (1981). "Transformaciones de rango como un puente entre estadísticas paramétricas y no paramétricas". El estadístico estadounidense . 35 (3): 124-129. doi : 10.2307 / 2683975 . JSTOR 2683975 .
^ Brunner, Edgar; Bathke, Arne C .; Konietschke, Frank (2018). Procedimientos de rango y pseudo rango para observaciones independientes en diseños factoriales: usando R y SAS . Springer Series en Estadística. Cham: Springer International Publishing. doi : 10.1007 / 978-3-030-02914-2 . ISBN 978-3-030-02912-8.
^ a b Karch, Julian D. (2021). "Los psicólogos deben utilizar la prueba U de Brunner-Munzel en lugar de la de Mann-Whitney como procedimiento no paramétrico predeterminado" . Avances en métodos y prácticas en ciencia psicológica . 4 (2). doi : 10.1177 / 2515245921999602 . ISSN 2515-2459 .
^ Kasuya, Eiiti (2001). "Prueba U de Mann-Whitney cuando las varianzas son desiguales". Comportamiento animal . 61 (6): 1247-1249. doi : 10.1006 / anbe.2001.1691 . S2CID 140209347 .
^ Karch, Julian (2021). "Los psicólogos deben utilizar la prueba U de Brunner-Munzel en lugar de la de Mann-Whitney como procedimiento no paramétrico predeterminado" . Avances en métodos y prácticas en ciencia psicológica . 4 (2). doi : 10.1177 / 2515245921999602 .
^ Harrell, Frank (20 de septiembre de 2020). "La violación de las probabilidades proporcionales no es fatal" . Cite journal requiere |journal=( ayuda )
^ Bergmann, Reinhard; Ludbrook, John; Spooren, Will PJM (2000). "Diferentes resultados de la prueba de Wilcoxon-Mann-Whitney de diferentes paquetes de estadísticas". El estadístico estadounidense . 54 (1): 72–77. doi : 10.1080 / 00031305.2000.10474513 . JSTOR 2685616 . S2CID 120473946 .
^ "scipy.stats.mannwhitneyu" . Guía de referencia de SciPy v0.16.0 . La comunidad Scipy. 24 de julio de 2015 . Consultado el 11 de septiembre de 2015 . scipy.stats.mannwhitneyu (x, y, use_continuity = True): Calcula la prueba de rango de Mann-Whitney en las muestras x e y.
^ "MannWhitneyUTest (API de Apache Commons Math 3.3)" . commons.apache.org .
^ "JuliaStats / HypothesisTests.jl" . GitHub . 30 de mayo de 2021.
^ Kruskal, William H. (septiembre de 1957). "Notas históricas sobre la prueba de dos muestras no emparejadas de Wilcoxon". Revista de la Asociación Estadounidense de Estadística . 52 (279): 356–360. doi : 10.2307 / 2280906 . JSTOR 2280906 .
^ Wilcoxon, Frank (1945). "Comparaciones individuales por métodos de clasificación". Boletín de biometría . 1 (6): 80–83. doi : 10.2307 / 3001968 . hdl : 10338.dmlcz / 135688 . JSTOR 3001968 .

Referencias

Hettmansperger, TP; McKean, JW (1998). Métodos estadísticos robustos no paramétricos . Biblioteca de estadísticas de Kendall. 5 (Primera ed., En lugar de Taylor y Francis (2010), segunda ed.). Londres; Nueva York: Edward Arnold; John Wiley and Sons, Inc. págs. Xiv + 467. ISBN 978-0-340-54937-7. Señor 1604954 .
Corder, GW; Capataz, DI (2014). Estadísticas no paramétricas: un enfoque paso a paso . Wiley. ISBN 978-1118840313.
Hodges, JL; Lehmann, EL (1963). "Estimación de ubicación basada en rangos" . Anales de estadística matemática . 34 (2): 598–611. doi : 10.1214 / aoms / 1177704172 . JSTOR 2238406 . Señor 0152070 . Zbl 0203.21105 . PE euclid.aoms / 1177704172 .
Kerby, DS (2014). "La fórmula de la diferencia simple: un enfoque para la enseñanza de la correlación no paramétrica". Psicología Integral . 3 : 11.IT.3.1. doi : 10.2466 / 11.IT.3.1 .
Lehmann, Erich L. (2006). No paramétricos: métodos estadísticos basados en rangos . Con la ayuda especial de HJM D'Abrera (Reimpresión de la revisión de 1988 de la edición de Holden-Day de 1975). Nueva York: Springer. págs. xvi + 463. ISBN 978-0-387-35212-1. Señor 0395032 .
Oja, Hannu (2010). Métodos multivariantes no paramétricos con R : un enfoque basado en signos y rangos espaciales . Notas de conferencias en estadística. 199 . Nueva York: Springer. págs. xiv + 232. doi : 10.1007 / 978-1-4419-0468-3 . ISBN 978-1-4419-0467-6. Señor 2598854 .
Sen, Pranab Kumar (diciembre de 1963). "Sobre la estimación de la potencia relativa en ensayos de dilución (-directa) por métodos sin distribución". Biometría . 19 (4): 532–552. doi : 10.2307 / 2527532 . JSTOR 2527532 . Zbl 0119.15604 .

enlaces externos

Tabla de valores críticos de U (pdf)
Calculadora interactiva para U y su significado.
Breve guía del psicólogo experimental Karl L. Weunsch - Estimadores no paramétricos del tamaño del efecto (Copyright 2015 de Karl L. Weunsch)

[mannwhitney1947-1] Mann, Henry B .; Whitney, Donald R. (1947). "En una prueba de si una de las dos variables aleatorias es estocásticamente más grande que la otra" . Anales de estadística matemática . 18 (1): 50–60. doi : 10.1214 / aoms / 1177730491 . Señor 0022058 . Zbl 0041.26103 .

[2] Fay, Michael P .; Proschan, Michael A. (2010). "¿Wilcoxon-Mann-Whitney o t -test? Sobre supuestos para pruebas de hipótesis y múltiples interpretaciones de reglas de decisión" . Encuestas estadísticas . 4 : 1–39. doi : 10.1214 / 09-SS051 . Señor 2595125 . PMC 2857732 . PMID 20414472 .

[3] [1] , consulte la Tabla 2.1 de Pratt (1964) "Robustez de algunos procedimientos para el problema de ubicación de dos muestras". Revista de la Asociación Estadounidense de Estadística. 59 (307): 655–680. Si las dos distribuciones son normales con la misma media pero diferentes varianzas, entonces Pr [X> Y] = Pr [Y Por tanto, no podemos definir la hipótesis nula como Pr [X> Y] = Pr [Y

[4] Divine, George W .; Norton, H. James; Barón, Anna E .; Juárez-Colunga, Elizabeth (2018). "El procedimiento de Wilcoxon-Mann-Whitney falla como una prueba de medianas" . El estadístico estadounidense . 72 (3): 278–286. doi : 10.1080 / 00031305.2017.1305291 . Consultado el 24 de mayo de 2021 .

[5] Conroy, Ronán (2012). "¿Qué hipótesis prueban realmente las pruebas de dos grupos" no paramétricos "? . Stata Journal . 12 (2): 182-190. doi : 10.1177 / 1536867X1201200202 . S2CID 118445807 . Consultado el 24 de mayo de 2021 .

[6] Zar, Jerrold H. (1998). Análisis bioestadístico . Nueva Jersey: Prentice Hall International, INC. P. 147. ISBN 978-0-13-082390-8.

[7] Myles Hollander y Douglas A. Wolfe (1999). Métodos estadísticos no paramétricos (2 ed.). Wiley-Interscience. ISBN 978-0471190455.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[auto-8] Siegal, Sidney. Estadística no paramétrica para las ciencias del comportamiento . McGraw-Hill. pag. 121.

[Wilkinson1999-9] Wilkinson, Leland (1999). "Métodos estadísticos en revistas de psicología: pautas y explicaciones". Psicólogo estadounidense . 54 (8): 594–604. doi : 10.1037 / 0003-066X.54.8.594 .

[Nakagawa2007-10] Nakagawa, Shinichi; Cuthill, Innes C (2007). "Tamaño del efecto, intervalo de confianza y significación estadística: una guía práctica para biólogos". Reseñas biológicas de la Sociedad Filosófica de Cambridge . 82 (4): 591–605. doi : 10.1111 / j.1469-185X.2007.00027.x . PMID 17944619 . S2CID 615371 .

[Kerby2014-11] Kerby, DS (2014). "La fórmula de la diferencia simple: un enfoque para la enseñanza de la correlación no paramétrica". Psicología Integral . 3 : 11.IT.3.1. doi : 10.2466 / 11.IT.3.1 .

[McGraw1992-12] McGraw, KO; Wong, JJ (1992). "Una estadística de tamaño del efecto del lenguaje común". Boletín psicológico . 111 (2): 361–365. doi : 10.1037 / 0033-2909.111.2.361 .

[13] Grissom RJ (1994). "Análisis estadístico del estado categórico ordinal después de las terapias". Revista de Consultoría y Psicología Clínica . 62 (2): 281–284. doi : 10.1037 / 0022-006X.62.2.281 . PMID 8201065 .

[H1976-14] Herrnstein, Richard J .; Loveland, Donald H .; Cable, Cynthia (1976). "Conceptos naturales en palomas". Journal of Experimental Psychology: Animal Behavior Processes . 2 (4): 285-302. doi : 10.1037 / 0097-7403.2.4.285 .

[Hanley-15] Hanley, James A .; McNeil, Barbara J. (1982). "El significado y uso del área bajo una característica de la curva de funcionamiento del receptor (ROC)". Radiología . 143 (1): 29–36. doi : 10.1148 / radiology.143.1.7063747 . PMID 7063747 .

[Mason-16] Mason, Simon J .; Graham, Nicholas E. (2002). "Áreas debajo de las curvas de características operativas relativas (ROC) y niveles operativos relativos (ROL): significado e interpretación estadística" (PDF) . Revista trimestral de la Royal Meteorological Society . 128 (584): 2145–2166. Código bibliográfico : 2002QJRMS.128.2145M . CiteSeerX 10.1.1.458.8392 . doi : 10.1256 / 003590002320603584 .

[fawcett-17] Fawcett, Tom (2006); Una introducción al análisis ROC , Pattern Recognition Letters, 27, 861–874.

[18] Hand, David J .; Hasta, Robert J. (2001). "Una simple generalización del área bajo la curva ROC para problemas de clasificación de clases múltiples" . Aprendizaje automático . 45 (2): 171–186. doi : 10.1023 / A: 1010920819831 .

[19] Cureton, EE (1956). "Correlación de rango-biserial". Psychometrika . 21 (3): 287–290. doi : 10.1007 / BF02289138 . S2CID 122500836 .

[20] Wendt, HW (1972). "Tratar con un problema común en las ciencias sociales: un coeficiente de correlación biserial de rango simplificado basado en la estadística U". Revista europea de psicología social . 2 (4): 463–465. doi : 10.1002 / ejsp.2420020412 .

[Motulsky_2007-21] Motulsky, Harvey J .; Guía de estadísticas , San Diego, CA: GraphPad Software, 2007, p. 123

[22] Zimmerman, Donald W. (1 de enero de 1998). "Invalidación de pruebas estadísticas paramétricas y no paramétricas por violación concurrente de dos supuestos". La Revista de Educación Experimental . 67 (1): 55–68. doi : 10.1080 / 00220979809598344 . ISSN 0022-0973 .

[Lehmann_1999-23] Lehamnn, Erich L .; Elementos de la teoría de muestras grandes , Springer, 1999, p. 176

[Conover_1980-24] Conover, William J .; Estadística no paramétrica práctica , John Wiley & Sons, 1980 (segunda edición), págs. 225–226

[25] Lumley, Thomas; Diehr, Paula; Emerson, Scott; Chen, Lu (mayo de 2002). "La importancia del supuesto de normalidad en grandes conjuntos de datos de salud pública" . Revisión anual de salud pública . 23 (1): 151-169. doi : 10.1146 / annurev.publhealth.23.100901.140546 . ISSN 0163-7525 . PMID 11910059 .

[26] Conover, William J .; Iman, Ronald L. (1981). "Transformaciones de rango como un puente entre estadísticas paramétricas y no paramétricas". El estadístico estadounidense . 35 (3): 124-129. doi : 10.2307 / 2683975 . JSTOR 2683975 .

[27] Brunner, Edgar; Bathke, Arne C .; Konietschke, Frank (2018). Procedimientos de rango y pseudo rango para observaciones independientes en diseños factoriales: usando R y SAS . Springer Series en Estadística. Cham: Springer International Publishing. doi : 10.1007 / 978-3-030-02914-2 . ISBN 978-3-030-02912-8.

[karch-28] Karch, Julian D. (2021). "Los psicólogos deben utilizar la prueba U de Brunner-Munzel en lugar de la de Mann-Whitney como procedimiento no paramétrico predeterminado" . Avances en métodos y prácticas en ciencia psicológica . 4 (2). doi : 10.1177 / 2515245921999602 . ISSN 2515-2459 .

[29] Kasuya, Eiiti (2001). "Prueba U de Mann-Whitney cuando las varianzas son desiguales". Comportamiento animal . 61 (6): 1247-1249. doi : 10.1006 / anbe.2001.1691 . S2CID 140209347 .

[30] Karch, Julian (2021). "Los psicólogos deben utilizar la prueba U de Brunner-Munzel en lugar de la de Mann-Whitney como procedimiento no paramétrico predeterminado" . Avances en métodos y prácticas en ciencia psicológica . 4 (2). doi : 10.1177 / 2515245921999602 .

[31] Harrell, Frank (20 de septiembre de 2020). "La violación de las probabilidades proporcionales no es fatal" . Cite journal requiere |journal=( ayuda )

[32] Bergmann, Reinhard; Ludbrook, John; Spooren, Will PJM (2000). "Diferentes resultados de la prueba de Wilcoxon-Mann-Whitney de diferentes paquetes de estadísticas". El estadístico estadounidense . 54 (1): 72–77. doi : 10.1080 / 00031305.2000.10474513 . JSTOR 2685616 . S2CID 120473946 .

[33] "scipy.stats.mannwhitneyu" . Guía de referencia de SciPy v0.16.0 . La comunidad Scipy. 24 de julio de 2015 . Consultado el 11 de septiembre de 2015 . scipy.stats.mannwhitneyu (x, y, use_continuity = True): Calcula la prueba de rango de Mann-Whitney en las muestras x e y.

[34] "MannWhitneyUTest (API de Apache Commons Math 3.3)" . commons.apache.org .

[35] "JuliaStats / HypothesisTests.jl" . GitHub . 30 de mayo de 2021.

[Kruskal57-36] Kruskal, William H. (septiembre de 1957). "Notas históricas sobre la prueba de dos muestras no emparejadas de Wilcoxon". Revista de la Asociación Estadounidense de Estadística . 52 (279): 356–360. doi : 10.2307 / 2280906 . JSTOR 2280906 .

[wilcoxon1945-37] Wilcoxon, Frank (1945). "Comparaciones individuales por métodos de clasificación". Boletín de biometría . 1 (6): 80–83. doi : 10.2307 / 3001968 . hdl : 10338.dmlcz / 135688 . JSTOR 3001968 .

[1]