En estadística , una prueba de diferencias pareadas es un tipo de prueba de ubicación que se utiliza al comparar dos conjuntos de medidas para evaluar si las medias de sus poblaciones difieren. Una prueba de diferencia pareada utiliza información adicional sobre la muestra que no está presente en una situación de prueba no pareada ordinaria, ya sea para aumentar el poder estadístico o para reducir los efectos de los factores de confusión .
Los métodos específicos para realizar pruebas de diferencias pareadas son, para la prueba t de diferencia distribuida normalmente (donde no se conoce la desviación estándar de la población de la diferencia) y la prueba Z pareada (donde se conoce la desviación estándar de la población de la diferencia), y para diferencias que pueden no estar distribuidas normalmente la prueba de rango con signo de Wilcoxon . [1]
El ejemplo más familiar de una prueba de diferencias pareadas ocurre cuando los sujetos se miden antes y después de un tratamiento. Dicha prueba de "medidas repetidas" compara estas medidas dentro de los sujetos, en lugar de entre sujetos, y generalmente tendrá mayor potencia que una prueba no emparejada. Otro ejemplo proviene de emparejar casos de una enfermedad con controles comparables.
Usar para reducir la varianza
Las pruebas de diferencias pareadas para reducir la varianza son un tipo específico de bloqueo . Para ilustrar la idea, suponga que estamos evaluando el rendimiento de un medicamento para tratar el colesterol alto. Bajo el diseño de nuestro estudio, inscribimos a 100 sujetos y medimos el nivel de colesterol de cada sujeto. Luego, todos los sujetos son tratados con el fármaco durante seis meses, tras lo cual se vuelven a medir sus niveles de colesterol. Nuestro interés es saber si el fármaco tiene algún efecto sobre los niveles medios de colesterol, lo que puede inferirse mediante una comparación de las mediciones posteriores al tratamiento con las realizadas antes del tratamiento.
La cuestión clave que motiva la prueba de diferencias pareadas es que, a menos que el estudio tenga criterios de entrada muy estrictos, es probable que los sujetos difieran sustancialmente entre sí antes de que comience el tratamiento. Las diferencias de referencia importantes entre los sujetos pueden deberse a su sexo, edad, tabaquismo, nivel de actividad y dieta.
Hay dos enfoques naturales para analizar estos datos:
- En un "análisis no apareado", los datos se tratan como si el diseño del estudio hubiera sido realmente inscribir a 200 sujetos, seguido de la asignación aleatoria de 100 sujetos a cada uno de los grupos de tratamiento y control. El grupo de tratamiento en el diseño no emparejado se consideraría análogo a las mediciones posteriores al tratamiento en el diseño emparejado, y el grupo de control se consideraría análogo a las mediciones previas al tratamiento. A continuación, podríamos calcular las medias de la muestra dentro de los grupos de sujetos tratados y no tratados, y comparar estas medias entre sí.
- En un "análisis de diferencias pareadas", primero restaríamos el valor previo al tratamiento del valor posterior al tratamiento para cada sujeto y luego compararíamos estas diferencias con cero.
Si solo consideramos las medias, los enfoques emparejados y no emparejados dan el mismo resultado. Para ver esto, sean Y i 1 , Y i 2 los datos observados para el i- ésimo par, y sean D i = Y i 2 - Y i 1 . También sean D , Y 1 e Y 2 , respectivamente, las medias muestrales de D i , Y i 1 y Y i 2 . Al reorganizar los términos podemos ver que
donde n es el número de pares. Por tanto, la diferencia de medias entre los grupos no depende de si organizamos los datos por parejas.
Aunque la diferencia de medias es la misma para las estadísticas pareadas y no pareadas, sus niveles de significación estadística pueden ser muy diferentes, porque es fácil sobrestimar la varianza de la estadística no pareada. La varianza de D es
donde σ 1 y σ 2 son las desviaciones estándar de la población de los datos Y i 1 y Y i 2 , respectivamente. Por tanto, la varianza de D es menor si existe una correlación positiva dentro de cada par. Esta correlación es muy común en la configuración de medidas repetidas, ya que muchos factores que influyen en el valor que se compara no se ven afectados por el tratamiento. Por ejemplo, si los niveles de colesterol están asociados con la edad, el efecto de la edad dará lugar a correlaciones positivas entre los niveles de colesterol medidos en los sujetos, siempre que la duración del estudio sea pequeña en relación con la variación de edades en la muestra.
Potencia de la prueba Z emparejada
Suponga que estamos usando una prueba Z para analizar los datos, donde se conocen las varianzas de los datos de pretratamiento y postratamiento σ 1 2 y σ 2 2 (la situación con una prueba t es similar). El estadístico de la prueba Z no apareado es
La potencia de la prueba unilateral no emparejada realizada en el nivel α = 0,05 se puede calcular de la siguiente manera:
donde S es la desviación estándar de D , Φ es la función de distribución acumulativa normal estándar y δ = E Y 2 - EY 1 es el verdadero efecto del tratamiento. La constante 1,64 es el percentil 95 de la distribución normal estándar, que define la región de rechazo de la prueba.
Mediante un cálculo similar, la potencia de la prueba Z emparejada es
Al comparar las expresiones de potencia de las pruebas pareadas y no pareadas, se puede ver que la prueba pareada tiene más potencia siempre que
Esta condición se cumple siempre que , la correlación dentro de los pares, es positiva.
Un modelo de efectos aleatorios para pruebas pareadas
El siguiente modelo estadístico es útil para comprender la prueba de diferencias pareadas
donde α i es un efecto aleatorio que se comparte entre los dos valores del par, y ε ij es un término de ruido aleatorio que es independiente en todos los puntos de datos. Los valores constantes μ 1 , μ 2 son los valores esperados de las dos medidas que se comparan, y nuestro interés está en δ = μ 2 - μ 1 .
En este modelo, el α i captura "factores de confusión estables" que tienen el mismo efecto en las mediciones de pretratamiento y postratamiento. Cuando restamos para formar D i , el α i se cancela, por lo que no contribuye a la varianza. La covarianza dentro de los pares es
Esto no es negativo, por lo que conduce a un mejor rendimiento para la prueba de diferencias pareadas en comparación con la prueba no pareada, a menos que α i sea constante sobre i , en cuyo caso las pruebas pareadas y no pareadas son equivalentes.
En términos menos matemáticos, la prueba de datos no apareados supone que los datos de los dos grupos que se comparan son independientes. Esta suposición determina la forma de la variación de D . Sin embargo, cuando se realizan dos mediciones para cada sujeto, es poco probable que las dos mediciones sean independientes. Si las dos mediciones dentro de un sujeto están correlacionadas positivamente, la prueba no apareada exagera la varianza de D , lo que la convierte en una prueba conservadora en el sentido de que su probabilidad de error de tipo I real será menor que el nivel nominal, con la correspondiente pérdida de poder estadístico. . En casos raros, los datos pueden tener una correlación negativa dentro de los sujetos, en cuyo caso la prueba no emparejada se vuelve anti-conservadora. La prueba por pares se utiliza generalmente cuando se realizan mediciones repetidas en los mismos sujetos, ya que tiene el nivel correcto independientemente de la correlación de las mediciones dentro de los pares.
Úselo para reducir los factores de confusión
Otra aplicación de la prueba de diferencias pareadas surge cuando se comparan dos grupos en un conjunto de datos de observación , con el objetivo de aislar el efecto de un factor de interés de los efectos de otros factores que pueden influir. Por ejemplo, suponga que los profesores adoptan uno de dos enfoques diferentes, denominados "A" y "B", para enseñar un tema matemático en particular. Puede que nos interese saber si el desempeño de los estudiantes en una prueba de matemáticas estandarizada difiere según el enfoque de enseñanza. Si los profesores son libres de adoptar el método A o el método B, es posible que los profesores cuyos alumnos ya se están desempeñando bien en matemáticas elijan preferentemente el método A (o viceversa). En esta situación, una simple comparación entre los rendimientos medios de los estudiantes enseñados con el enfoque A y el enfoque B probablemente mostrará una diferencia, pero esta diferencia se debe parcial o totalmente a las diferencias preexistentes entre los dos grupos de estudiantes. En esta situación, las habilidades de línea de base de los estudiantes sirven como una variable de confusión , ya que están relacionadas tanto con el resultado (desempeño en la prueba estandarizada) como con la asignación de tratamiento para el enfoque A o el enfoque B.
Es posible reducir, pero no necesariamente eliminar, los efectos de las variables de confusión formando "pares artificiales" y realizando una prueba de diferencias por pares. Estos pares artificiales se construyen sobre la base de variables adicionales que se cree que sirven como factores de confusión. Al emparejar a los estudiantes cuyos valores en las variables de confusión son similares, una fracción mayor de la diferencia en el valor de interés (por ejemplo, la puntuación de la prueba estandarizada en el ejemplo discutido anteriormente), se debe al factor de interés, y una fracción menor se debe al confundidor. La formación de pares artificiales para pruebas de diferencias pareadas es un ejemplo de un enfoque general para reducir los efectos de confusión cuando se hacen comparaciones utilizando datos de observación llamados emparejamiento . [2] [3] [4]
Como ejemplo concreto, supongamos que observamos los resultados de las pruebas de los estudiantes X bajo las estrategias de enseñanza A y B , y cada estudiante tiene un nivel "alto" o "bajo" de conocimiento matemático antes de que se implementen las dos estrategias de enseñanza. Sin embargo, no sabemos qué estudiantes están en la categoría "alta" y cuáles están en la categoría "baja". Las puntuaciones medias de las pruebas de la población en los cuatro grupos posibles son y las proporciones de estudiantes en los grupos son donde p HA + p HB + p LA + p LB = 1 .
La "diferencia de tratamiento" entre los estudiantes en el grupo de "alto" es μ HA - μ HB y la diferencia de tratamiento entre los estudiantes en el grupo de "bajo" es μ LA - μ LB . En general, es posible que las dos estrategias de enseñanza difieran en cualquier dirección o no muestren diferencias, y los efectos podrían diferir en magnitud o incluso en signo entre los grupos "alto" y "bajo". Por ejemplo, si la estrategia B fuera superior a la estrategia A para estudiantes bien preparados, pero la estrategia A fuera superior a la estrategia B para estudiantes mal preparados, las dos diferencias de tratamiento tendrían signos opuestos.
Dado que no conocemos los niveles de referencia de los estudiantes, el valor esperado de la puntuación media de la prueba X A entre los estudiantes del grupo A es un promedio de los de los dos niveles de referencia:
y de manera similar, la puntuación media de la prueba X B entre los estudiantes del grupo B es
Por lo tanto, el valor esperado de la diferencia de tratamiento observada D = X A - X B es
Un razonable hipótesis nula es que no hay ningún efecto del tratamiento dentro de cualquiera de los grupos de estudiantes o "altos", "bajo", de modo que μ HA = μ HB y μ LA = μ LB . Bajo esta hipótesis nula, el valor esperado de D será cero si
y
Esta condición afirma que la asignación de los estudiantes a los grupos de estrategias de enseñanza A y B es independiente de sus conocimientos matemáticos antes de que se implementen las estrategias de enseñanza. Si esto es así, el conocimiento matemático básico no es un factor de confusión y, a la inversa, si el conocimiento matemático básico es un factor de confusión, el valor esperado de D generalmente diferirá de cero. Si el valor esperado de D bajo la hipótesis nula no es igual a cero, entonces una situación en la que rechazamos la hipótesis nula podría deberse a un efecto diferencial real entre las estrategias de enseñanza A y B , o podría deberse a la falta de independencia. en la asignación de los estudiantes a los grupos A y B (incluso en ausencia total de efecto debido a la estrategia de enseñanza).
Este ejemplo ilustra que si hacemos una comparación directa entre dos grupos cuando existen factores de confusión, no sabemos si alguna diferencia que se observe se debe a la agrupación en sí, o se debe a algún otro factor. Si podemos emparejar a los estudiantes mediante una medida exacta o estimada de su habilidad matemática de referencia, entonces solo estamos comparando a los estudiantes "dentro de las filas" de la tabla de medias dada anteriormente. En consecuencia, si se cumple la hipótesis nula, el valor esperado de D será igual a cero y los niveles de significación estadística tienen la interpretación deseada.
Ver también
Referencias
- ^ Derrick, B; Amplio, A; Al rebaño; Blanco, P (2017). "El impacto de una observación extrema en un diseño de muestras pareadas" . Metodološki Zvezki - Avances en metodología y estadística . 14 (2): 1–17.
- ^ Rubin, Donald B. (1973). "Coincidencia para eliminar sesgos en estudios observacionales". Biometría . 29 (1): 159-183. doi : 10.2307 / 2529684 . JSTOR 2529684 .
- ^ Anderson, Dallas W .; Kish, Leslie; Cornell, Richard G. (1980). "Sobre estratificación, agrupamiento y emparejamiento". Revista Escandinava de Estadística . Publicación de Blackwell. 7 (2): 61–66. JSTOR 4615774 .
- ^ Kupper, Lawrence L .; Karon, John M .; Kleinbaum, David G .; Morgenstern, Hal; Lewis, Donald K. (1981). "Coincidencia en estudios epidemiológicos: consideraciones de validez y eficiencia". Biometría . 37 (2): 271-291. CiteSeerX 10.1.1.154.1197 . doi : 10.2307 / 2530417 . JSTOR 2530417 . PMID 7272415 .
enlaces externos
- Medición relativa y su generalización en la toma de decisiones: por qué las comparaciones por pares son fundamentales en matemáticas para la medición de factores intangibles: la jerarquía analítica / proceso de red (Thomas L. Saaty)
- Evaluación de comparación de secuencias por pares
- Comparación por pares (Filippo A. Salustri)