Tasa de error familiar

En estadística , la tasa de error familiar ( FWER ) es la probabilidad de realizar uno o más descubrimientos falsos o errores de tipo I al realizar pruebas de hipótesis múltiples .

Historia

Tukey acuñó los términos tasa de error experimental y "tasa de error por experimento" para indicar tasas de error que el investigador podría utilizar como nivel de control en un experimento de hipótesis múltiples. ^{[ cita requerida ]}

Fondo

Dentro del marco estadístico, existen varias definiciones para el término "familia":

Hochberg y Tamhane definieron "familia" en 1987 como "cualquier conjunto de inferencias para las que es significativo tener en cuenta alguna medida combinada de error". ^[1]
Según Cox en 1982, un conjunto de inferencias debe considerarse una familia: ^{[ cita requerida ]}

Para tener en cuenta el efecto de selección debido al dragado de datos.
Asegurar la exactitud simultánea de un conjunto de inferencias para garantizar una decisión general correcta.

En resumen, una familia podría definirse mejor por la inferencia selectiva potencial que se está enfrentando: una familia es el conjunto más pequeño de elementos de inferencia en un análisis, intercambiables sobre su significado para el objetivo de la investigación, a partir del cual la selección de resultados para la acción , se podría hacer una presentación o resaltar ( Yoav Benjamini ). ^{[ cita requerida ]}

Clasificación de pruebas de hipótesis múltiples

La siguiente tabla define los posibles resultados al probar múltiples hipótesis nulas. Supongamos que tenemos un número m de hipótesis nulas, denotadas por: $H 1, H 2, ..., H m .$ Utilizando una prueba estadística , rechazamos la hipótesis nula si la prueba se declara significativa. No rechazamos la hipótesis nula si la prueba no es significativa. La suma de cada tipo de resultado sobre todo H _i produce las siguientes variables aleatorias:

	La hipótesis nula es verdadera (H ₀ )	La hipótesis alternativa es verdadera (H _A )	Total
La prueba se declara significativa	$V$	$S$	$R$
La prueba se declara no significativa	$U$	$T$	${\ displaystyle mR}$
Total	${\ Displaystyle m_ {0}}$	${\ Displaystyle m-m_ {0}}$	$metro$

$m$ es el número total de hipótesis probadas
${\ Displaystyle m_ {0}}$ es el número de hipótesis nulas verdaderas , un parámetro desconocido
${\ Displaystyle m-m_ {0}}$ es el número de hipótesis alternativas verdaderas
$V$ es el número de falsos positivos (error de tipo I) (también llamado "falsos descubrimientos")
$S$ es el número de verdaderos positivos (también llamado "verdaderos descubrimientos")
$T$ es el número de falsos negativos (error de tipo II)
$U$ es el número de verdaderos negativos
${\ Displaystyle R = V + S}$ es el número de hipótesis nulas rechazadas (también llamadas "descubrimientos", verdaderas o falsas)

En $m$ pruebas de hipótesis de las cuales ${\ Displaystyle m_ {0}}$ son verdaderas hipótesis nulas, $R$ es una variable aleatoria observable y $S$ , $T$ , $U$ y $V$ son variables aleatorias no observables .

Definición

El FWER es la probabilidad de cometer al menos un error tipo I en la familia,

{\ Displaystyle \ mathrm {FWER} = \ Pr (V \ geq 1), \,}

o equivalente,

{\ Displaystyle \ mathrm {FWER} = 1- \ Pr (V = 0).}

Por lo tanto, asegurando ${\ Displaystyle \ mathrm {FWER} \ leq \ alpha \, \! \,}$ , la probabilidad de cometer uno o más errores de tipo I en la familia se controla a nivel ${\ Displaystyle \ alpha \, \!}$ .

Un procedimiento controla el FWER en el sentido débil si el control FWER en el nivel ${\ Displaystyle \ alpha \, \!}$ está garantizado solo cuando todas las hipótesis nulas son verdaderas (es decir, cuando ${\ Displaystyle m_ {0} = m}$ , lo que significa que la "hipótesis nula global" es verdadera). ^[2]

Un procedimiento controla el FWER en sentido estricto si el control FWER en el nivel ${\ Displaystyle \ alpha \, \!}$ está garantizado para cualquier configuración de hipótesis nulas verdaderas y no verdaderas (ya sea que la hipótesis nula global sea verdadera o no). ^[3]

Procedimientos de control

Algunas soluciones clásicas que aseguran un nivel fuerte ${\ Displaystyle \ alpha}$ Control FWER y existen algunas soluciones más nuevas.

El procedimiento de Bonferroni

Denotamos por ${\ Displaystyle p_ {i}}$ el valor p para la prueba ${\ Displaystyle H_ {i}}$
rechazar ${\ Displaystyle H_ {i}}$ Si ${\ Displaystyle p_ {i} \ leq {\ frac {\ alpha} {m}}}$

El procedimiento Šidák

Probando cada hipótesis a nivel ${\ Displaystyle \ alpha _ {SID} = 1- (1- \ alpha) ^ {\ frac {1} {m}}}$ es el procedimiento de prueba múltiple de Sidak.
Este procedimiento es más poderoso que Bonferroni pero la ganancia es pequeña.
Este procedimiento puede fallar en controlar el FWER cuando las pruebas son negativamente dependientes.

El procedimiento de Tukey

El procedimiento de Tukey solo es aplicable para comparaciones por pares .
Asume la independencia de las observaciones que se están probando, así como una variación igual entre las observaciones ( homocedasticidad ).
El procedimiento calcula para cada par el estadístico de rango studentizado : ${\ Displaystyle {\ frac {Y_ {A} -Y_ {B}} {SE}}}$ dónde ${\ Displaystyle Y_ {A}}$ es el mayor de los dos medios que se comparan, ${\ Displaystyle Y_ {B}}$ es el más pequeño, y ${\ displaystyle SE}$ es el error estándar de los datos en cuestión. ^{[ cita requerida ]}
La prueba de Tukey es esencialmente una prueba t de Student , excepto que corrige la tasa de error familiar . ^{[ cita requerida ]}

Procedimiento de reducción de Holm (1979)

Comience ordenando los valores p (de menor a mayor) ${\ Displaystyle P _ {(1)} \ ldots P _ {(m)}}$ y deja que las hipótesis asociadas sean ${\ Displaystyle H _ {(1)} \ ldots H _ {(m)}}$
Dejar ${\ Displaystyle k}$ ser el índice mínimo tal que ${\ Displaystyle P _ {(k)}> {\ frac {\ alpha} {m + 1-k}}}$
Rechaza las hipótesis nulas ${\ Displaystyle H _ {(1)} \ ldots H _ {(k-1)}}$ . Si ${\ Displaystyle k = 1}$ entonces ninguna de las hipótesis es rechazada. ^{[ cita requerida ]}

Este procedimiento es uniformemente más poderoso que el procedimiento de Bonferroni. ^[4] La razón por la que este procedimiento controla la tasa de error familiar para todas las m hipótesis en el nivel α en el sentido estricto es porque es un procedimiento de prueba cerrado . Como tal, cada intersección se prueba utilizando la prueba de Bonferroni simple. ^{[ cita requerida ]}

Procedimiento de aumento de Hochberg

El procedimiento step-up de Hochberg (1988) se realiza siguiendo los siguientes pasos: ^[5]

Comience ordenando los valores p (de menor a mayor) ${\ Displaystyle P _ {(1)} \ ldots P _ {(m)}}$ y deja que las hipótesis asociadas sean ${\ Displaystyle H _ {(1)} \ ldots H _ {(m)}}$
Para una dada ${\ Displaystyle \ alpha}$ , dejar ${\ Displaystyle R}$ ser el mas grande ${\ Displaystyle k}$ tal que ${\ Displaystyle P _ {(k)} \ leq {\ frac {\ alpha} {m-k + 1}}}$
Rechaza las hipótesis nulas ${\ Displaystyle H _ {(1)} \ ldots H _ {(R)}}$

El procedimiento de Hochberg es más poderoso que el de Holms. Sin embargo, mientras que el de Holm es un procedimiento de prueba cerrado (y por lo tanto, como Bonferroni, no tiene restricciones en la distribución conjunta de las estadísticas de prueba), el de Hochberg se basa en la prueba de Simes, por lo que solo se mantiene bajo dependencia no negativa. ^{[ cita requerida ]}

Corrección de Dunnett

Charles Dunnett (1955, 1966) describió un ajuste de error alfa alternativo cuando se comparan k grupos con el mismo grupo de control. Ahora conocido como prueba de Dunnett, este método es menos conservador que el ajuste de Bonferroni. ^{[ cita requerida ]}

El método de Scheffé

Procedimientos de remuestreo

Los procedimientos de Bonferroni y Holm controlan el FWER bajo cualquier estructura de dependencia de los valores p (o de manera equivalente, las estadísticas de prueba individuales). Básicamente, esto se logra acomodando una estructura de dependencia del "peor caso" (que está cerca de la independencia para la mayoría de los propósitos prácticos). Pero ese enfoque es conservador si la dependencia es realmente positiva. Para dar un ejemplo extremo, bajo una dependencia positiva perfecta, hay efectivamente solo una prueba y, por lo tanto, el FWER está desinflado.

Tener en cuenta la estructura de dependencia de los valores p (o de las estadísticas de prueba individuales) produce procedimientos más poderosos. Esto se puede lograr aplicando métodos de remuestreo, como métodos de arranque y permutaciones. El procedimiento de Westfall y Young (1993) requiere una cierta condición que no siempre se cumple en la práctica (es decir, la pivotalidad de un subconjunto). ^[6] Los procedimientos de Romano y Wolf (2005a, b) prescinden de esta condición y, por lo tanto, tienen una validez más generalizada. ^[7]^[8]

Procedimiento de valor p de media armónica

El procedimiento de valor p medio armónico (HMP) ^[9]^[10] proporciona una prueba multinivel que mejora el poder de la corrección de Bonferroni al evaluar la significancia de grupos de hipótesis mientras se controla la tasa de error familiar de sentido fuerte. La importancia de cualquier subconjunto ${\ textstyle {\ mathcal {R}}}$ de El ${\ textstyle m}$ Las pruebas se evalúan calculando el HMP para el subconjunto,

{\ Displaystyle {\ overset {\ circ} {p}} _ {\ mathcal {R}} = {\ frac {\ sum _ {i \ in {\ mathcal {R}}} w_ {i}} {\ sum _ {i \ in {\ mathcal {R}}} w_ {i} / p_ {i}}},}

dónde

{\ textstyle w_ {1}, \ dots, w_ {m}}

son pesos que suman uno (es decir

{\ textstyle \ sum _ {i = 1} ^ {m} w_ {i} = 1}

). Un procedimiento aproximado que controla la tasa de error familiar de sentido fuerte a un nivel aproximadamente

{\ textstyle \ alpha}

rechaza la hipótesis nula de que ninguno de los valores p en el subconjunto

{\ textstyle {\ mathcal {R}}}

son importantes cuando

{\ textstyle {\ overset {\ circ} {p}} _ {\ mathcal {R}} \ leq \ alpha \, w _ {\ mathcal {R}}}

^[11] (donde

{\ textstyle w _ {\ mathcal {R}} = \ sum _ {i \ in {\ mathcal {R}}} w_ {i}}

). Esta aproximación es razonable para pequeños

{\ textstyle \ alpha}

(p.ej

{\ textstyle \ alpha <0.05}

) y se vuelve arbitrariamente bueno como

{\ textstyle \ alpha}

se acerca a cero. También está disponible una prueba asintóticamente exacta (ver artículo principal ).

Aproximaciones alternativas

El control FWER ejerce un control más estricto sobre el descubrimiento falso en comparación con los procedimientos de tasa de descubrimiento falso (FDR). El control FWER limita la probabilidad de al menos un descubrimiento falso, mientras que el control FDR limita (en un sentido amplio) la proporción esperada de descubrimientos falsos. Por lo tanto, los procedimientos FDR tienen mayor poder a costa de mayores tasas de errores de tipo I , es decir, rechazan hipótesis nulas que son realmente verdaderas. ^[12]

Por otro lado, el control FWER es menos estricto que el control de la tasa de error por familia, lo que limita el número esperado de errores por familia. Debido a que el control FWER se ocupa de al menos un descubrimiento falso, a diferencia del control de la tasa de error por familia, no trata los múltiples descubrimientos falsos simultáneos como algo peor que un descubrimiento falso. A menudo se considera que la corrección de Bonferroni simplemente controla el FWER, pero de hecho también controla la tasa de error por familia. ^[13]

Referencias

^ Hochberg, Y .; Tamhane, AC (1987). Procedimientos de comparación múltiple . Nueva York: Wiley. pag. 5 . ISBN 978-0-471-82222-6.
^ Dmitrienko, Alex; Tamhane, Ajit; Bretz, Frank (2009). Problemas de pruebas múltiples en estadísticas farmacéuticas (1 ed.). Prensa CRC. pag. 37. ISBN 9781584889847.
^ Dmitrienko, Alex; Tamhane, Ajit; Bretz, Frank (2009). Problemas de pruebas múltiples en estadísticas farmacéuticas (1 ed.). Prensa CRC. pag. 37. ISBN 9781584889847.
^ Aickin, M; Gensler, H (1996). "Ajuste de múltiples pruebas al informar los resultados de la investigación: los métodos Bonferroni vs Holm" . Revista estadounidense de salud pública . 86 (5): 726–728. doi : 10.2105 / ajph.86.5.726 . PMC 1380484 . PMID 8629727 .
^ Hochberg, Yosef (1988). "Un procedimiento de Bonferroni más nítido para múltiples pruebas de importancia" (PDF) . Biometrika . 75 (4): 800–802. doi : 10.1093 / biomet / 75.4.800 .
^ Westfall, PH; Young, SS (1993). Pruebas múltiples basadas en remuestreos: ejemplos y métodos para el ajuste del valor p . Nueva York: John Wiley. ISBN 978-0-471-55761-6.
^ Romano, JP; Wolf, M. (2005a). "Métodos stepdown exactos y aproximados para pruebas de hipótesis múltiples". Revista de la Asociación Estadounidense de Estadística . 100 (469): 94–108. doi : 10.1198 / 016214504000000539 . hdl : 10230/576 .
^ Romano, JP; Wolf, M. (2005b). "Pruebas múltiples escalonadas como espionaje formalizado de datos". Econometrica . 73 (4): 1237–1282. CiteSeerX 10.1.1.198.2473 . doi : 10.1111 / j.1468-0262.2005.00615.x .
^ Bien, IJ (1958). "Pruebas de significancia en paralelo y en serie". Revista de la Asociación Estadounidense de Estadística . 53 (284): 799–813. doi : 10.1080 / 01621459.1958.10501480 . JSTOR 2281953 .
^ Wilson, DJ (2019). "El valor p medio armónico para combinar pruebas dependientes" . Actas de la Academia Nacional de Ciencias de EE . UU . 116 (4): 1195-1200. doi : 10.1073 / pnas.1814092116 . PMC 6347718 . PMID 30610179 .
^ Ciencias, Academia Nacional de (2019-10-22). "Corrección de Wilson, el valor p medio armónico para combinar pruebas dependientes" . Actas de la Academia Nacional de Ciencias . 116 (43): 21948–21948. doi : 10.1073 / pnas.1914128116 . PMC 6815184 .
^ Shaffer, JP (1995). "Prueba de hipótesis múltiples". Revisión anual de psicología . 46 : 561–584. doi : 10.1146 / annurev.ps.46.020195.003021 . hdl : 10338.dmlcz / 142950 .
^ Frane, Andrew (2015). "¿Son relevantes las tasas de error tipo I por familia en las ciencias sociales y del comportamiento?" . Revista de métodos estadísticos aplicados modernos . 14 (1): 12-23. doi : 10.22237 / jmasm / 1430453040 .

enlaces externos

Comprensión de la tasa de error familiar : publicación de blog que incluye su utilidad en relación con la tasa de descubrimiento falso

[1] Hochberg, Y .; Tamhane, AC (1987). Procedimientos de comparación múltiple . Nueva York: Wiley. pag. 5 . ISBN 978-0-471-82222-6.

[2] Dmitrienko, Alex; Tamhane, Ajit; Bretz, Frank (2009). Problemas de pruebas múltiples en estadísticas farmacéuticas (1 ed.). Prensa CRC. pag. 37. ISBN 9781584889847.

[3] Dmitrienko, Alex; Tamhane, Ajit; Bretz, Frank (2009). Problemas de pruebas múltiples en estadísticas farmacéuticas (1 ed.). Prensa CRC. pag. 37. ISBN 9781584889847.

[Aickin1996-4] Aickin, M; Gensler, H (1996). "Ajuste de múltiples pruebas al informar los resultados de la investigación: los métodos Bonferroni vs Holm" . Revista estadounidense de salud pública . 86 (5): 726–728. doi : 10.2105 / ajph.86.5.726 . PMC 1380484 . PMID 8629727 .

[Hochberg1988-5] Hochberg, Yosef (1988). "Un procedimiento de Bonferroni más nítido para múltiples pruebas de importancia" (PDF) . Biometrika . 75 (4): 800–802. doi : 10.1093 / biomet / 75.4.800 .

[6] Westfall, PH; Young, SS (1993). Pruebas múltiples basadas en remuestreos: ejemplos y métodos para el ajuste del valor p . Nueva York: John Wiley. ISBN 978-0-471-55761-6.

[Romano_and_Wolf_2005a-7] Romano, JP; Wolf, M. (2005a). "Métodos stepdown exactos y aproximados para pruebas de hipótesis múltiples". Revista de la Asociación Estadounidense de Estadística . 100 (469): 94–108. doi : 10.1198 / 016214504000000539 . hdl : 10230/576 .

[Romano_and_Wolf_2005b-8] Romano, JP; Wolf, M. (2005b). "Pruebas múltiples escalonadas como espionaje formalizado de datos". Econometrica . 73 (4): 1237–1282. CiteSeerX 10.1.1.198.2473 . doi : 10.1111 / j.1468-0262.2005.00615.x .

[9] Bien, IJ (1958). "Pruebas de significancia en paralelo y en serie". Revista de la Asociación Estadounidense de Estadística . 53 (284): 799–813. doi : 10.1080 / 01621459.1958.10501480 . JSTOR 2281953 .

[10] Wilson, DJ (2019). "El valor p medio armónico para combinar pruebas dependientes" . Actas de la Academia Nacional de Ciencias de EE . UU . 116 (4): 1195-1200. doi : 10.1073 / pnas.1814092116 . PMC 6347718 . PMID 30610179 .

[11] Ciencias, Academia Nacional de (2019-10-22). "Corrección de Wilson, el valor p medio armónico para combinar pruebas dependientes" . Actas de la Academia Nacional de Ciencias . 116 (43): 21948–21948. doi : 10.1073 / pnas.1914128116 . PMC 6815184 .

[12] Shaffer, JP (1995). "Prueba de hipótesis múltiples". Revisión anual de psicología . 46 : 561–584. doi : 10.1146 / annurev.ps.46.020195.003021 . hdl : 10338.dmlcz / 142950 .

[13] Frane, Andrew (2015). "¿Son relevantes las tasas de error tipo I por familia en las ciencias sociales y del comportamiento?" . Revista de métodos estadísticos aplicados modernos . 14 (1): 12-23. doi : 10.22237 / jmasm / 1430453040 .

[1]