Coeficiente de correlación biserial puntual

El coeficiente de correlación biserial puntual ( r _pb ) es un coeficiente de correlación utilizado cuando una variable (por ejemplo, Y ) es dicotómica ; Y puede ser dicotómica "naturalmente", como si una moneda cae cara o cruz, o una variable dicotomizada artificialmente. En la mayoría de las situaciones, no es aconsejable dicotomizar las variables artificialmente ^{[ cita requerida ]} . Cuando una nueva variable se dicotomiza artificialmente, la nueva variable dicotómica puede conceptualizarse como si tuviera una continuidad subyacente. Si este es el caso, una correlación biserial sería el cálculo más apropiado.

La correlación biserial puntual es matemáticamente equivalente a la correlación de Pearson (momento del producto) ; es decir, si tenemos una variable X medida continuamente y una variable dicotómica Y , r _XY = r _pb . Esto se puede demostrar asignando dos valores numéricos distintos a la variable dicotómica.

Cálculo

Para calcular r _pb , suponga que la variable dicotómica Y tiene los dos valores 0 y 1. Si dividimos el conjunto de datos en dos grupos, el grupo 1 que recibió el valor "1" en Y y el grupo 2 que recibió el valor "0" en Y , el coeficiente de correlación biserial puntual se calcula de la siguiente manera:

{\ Displaystyle r_ {pb} = {\ frac {M_ {1} -M_ {0}} {s_ {n}}} {\ sqrt {\ frac {n_ {1} n_ {0}} {n ^ {2 }}}},}

donde s _n es la desviación estándar utilizada cuando los datos están disponibles para cada miembro de la población:

{\ Displaystyle s_ {n} = {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) ^ { 2}}} \ ,,}

M ₁ es el valor medio de la variable continua X para todos los puntos de datos del grupo 1 y M ₀ el valor medio de la variable continua X para todos los puntos de datos del grupo 2. Además, n ₁ es el número de puntos de datos del grupo 1, n ₀ es el número de puntos de datos en el grupo 2 y n es el tamaño total de la muestra. Esta fórmula es una fórmula computacional que se ha derivado de la fórmula para r _XY con el fin de reducir los pasos en el cálculo; es más fácil de calcular que r _XY .

Existe una fórmula equivalente que usa s _{n −1} :

{\ Displaystyle r_ {pb} = {\ frac {M_ {1} -M_ {0}} {s_ {n-1}}} {\ sqrt {\ frac {n_ {1} n_ {0}} {n ( n-1)}}},}

donde s _{n −1} es la desviación estándar utilizada cuando los datos están disponibles solo para una muestra de la población:

{\ Displaystyle s_ {n-1} = {\ sqrt {{\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X} }) ^ {2}}}.}

La versión de la fórmula que usa s _{n −1} es útil si se están calculando coeficientes de correlación biserial puntual en un lenguaje de programación u otro entorno de desarrollo donde hay una función disponible para calcular s _{n −1} , pero no hay una función disponible para calcular s _n .

El libro de Glass y Hopkins Statistical Methods in Education and Psychology , (3ª edición) ^[1] contiene una versión correcta de la fórmula biserial puntual.

También se puede escribir el cuadrado del coeficiente de correlación biserial puntual:

{\ Displaystyle {\ frac {(M_ {1} -M_ {0}) ^ {2}} {\ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) ^ {2}}} \ left ({\ frac {n_ {1} n_ {0}} {n}} \ right) \ ,.}

Podemos probar la hipótesis nula de que la correlación es cero en la población. Un poco de álgebra muestra que la fórmula habitual para evaluar la significación de un coeficiente de correlación, cuando se aplica a r _pb , es la misma que la fórmula para un desapareado t -test y así

{\ Displaystyle r_ {pb} {\ sqrt {\ frac {n_ {1} + n_ {0} -2} {1-r_ {pb} ^ {2}}}}}

sigue la distribución t de Student con ( n ₁ + n ₀ - 2) grados de libertad cuando la hipótesis nula es verdadera.

Una desventaja del coeficiente biserial puntual es que cuanto más lejos esté la distribución de Y de 50/50, más restringido será el rango de valores que puede tomar el coeficiente. Si se puede suponer que X tiene una distribución normal, el coeficiente biserial da un índice descriptivo mejor

{\ Displaystyle r_ {b} = {\ frac {M_ {1} -M_ {0}} {s_ {n}}} {\ frac {n_ {1} n_ {0}} {n ^ {2} u} },}

donde u es la ordenada de la distribución normal con media cero y varianza unidad en el punto que divide la distribución en proporciones n ₀ / n y n ₁ / n . Esto no es fácil de calcular y el coeficiente biserial no se utiliza mucho en la práctica.

Un caso específico de correlación biserial ocurre donde X es la suma de varias variables dicotómicas de las cuales Y es una. Un ejemplo de esto es donde X es la puntuación total de una persona en una prueba compuesta por n elementos puntuados de forma dicotómica. Una estadística de interés (que es un índice de discriminación) es la correlación entre las respuestas a un elemento dado y las puntuaciones totales correspondientes de la prueba. Hay tres cálculos de uso generalizado, ^[2] todos llamados correlación biserial puntual : (i) la correlación de Pearson entre las puntuaciones de los elementos y las puntuaciones totales de las pruebas, incluidas las puntuaciones de los elementos, (ii) la correlación de Pearson entre las puntuaciones de los elementos y las puntuaciones totales de las pruebas excluyendo las puntuaciones de los ítems, y (iii) una correlación ajustada por el sesgo causado por la inclusión de las puntuaciones de los elementos en las puntuaciones de las pruebas. La correlación (iii) es

{\ displaystyle r_ {upb} = {\ frac {M_ {1} -M_ {0} -1} {\ sqrt {{\ frac {n ^ {2} s_ {n} ^ {2}} {n_ {1 } n_ {0}}} - 2 (M_ {1} -M_ {0}) + 1}}}.}

Una versión ligeramente diferente del coeficiente biserial puntual es el biserial de rango que ocurre donde la variable X consiste en rangos mientras que Y es dicotómica. Podríamos calcular el coeficiente de la misma manera que cuando X es continuo, pero tendría la misma desventaja de que el rango de valores que puede tomar se vuelve más restringido a medida que la distribución de Y se vuelve más desigual. Para solucionar esto, observamos que el coeficiente tendrá su valor más grande donde los rangos más pequeños son todos opuestos a los 0 y los rangos más grandes son opuestos a los 1. Su valor más pequeño ocurre cuando ocurre lo contrario. Estos valores son respectivamente más y menos ( n ₁ + n ₀ ) / 2. Por lo tanto, podemos usar el recíproco de este valor para cambiar la escala de la diferencia entre los rangos medios observados en el intervalo de más uno a menos uno. El resultado es

{\ Displaystyle r_ {rb} = 2 {\ frac {M_ {1} -M_ {0}} {n_ {1} + n_ {0}}},}

donde M ₁ y M ₀ son respectivamente las medias de los rangos correspondientes a las puntuaciones 1 y 0 de la variable dicotómica. Esta fórmula, que simplifica el cálculo a partir del recuento de acuerdos e inversiones, se debe a Gene V Glass (1966).

Es posible usar esto para probar la hipótesis nula de correlación cero en la población de la que se extrajo la muestra. Si r _rb se calcula como se _indicó anteriormente, entonces el menor de

{\ displaystyle (1 + r_ {rb}) {\ frac {n_ {1} n_ {0}} {2}}}

y

{\ displaystyle (1-r_ {rb}) {\ frac {n_ {1} n_ {0}} {2}}}

se distribuye como U de Mann-Whitney con tamaños de muestra n ₁ y n ₀ cuando la hipótesis nula es verdadera.

Notas

^ Gene V. Glass y Kenneth D. Hopkins (1995). Métodos estadísticos en educación y psicología (3ª ed.). Allyn y Bacon . ISBN 0-205-14212-5.
^ Linacre, John (2008). "El valor esperado de una correlación punto-biserial (o similar)" . Transacciones de medición de Rasch . 22 (1): 1154.

enlaces externos

Coeficiente biserial puntual (Keith Calkins, 2005)

[1] Gene V. Glass y Kenneth D. Hopkins (1995). Métodos estadísticos en educación y psicología (3ª ed.). Allyn y Bacon . ISBN 0-205-14212-5.

[2] Linacre, John (2008). "El valor esperado de una correlación punto-biserial (o similar)" . Transacciones de medición de Rasch . 22 (1): 1154.

[1]