En estadística, Somers' D , a veces referido incorrectamente como de Somer D , es una medida de asociación ordinal entre dos variables aleatorias posiblemente dependientes X y Y . La D de Somers toma valores entre cuando todos los pares de variables no están de acuerdo y cuando todos los pares de variables coinciden. La D de Somers lleva el nombre de Robert H. Somers, quien la propuso en 1962. [1]
La D de Somers juega un papel central en las estadísticas de clasificación y es el parámetro detrás de muchos métodos no paramétricos. [2] También se utiliza como medida de calidad de elección binaria o regresión ordinal (por ejemplo, regresiones logísticas ) y modelos de calificación crediticia .
Somers ' D para muestra
Decimos que dos pares y son concordantes si los rangos de ambos elementos están de acuerdo, o y o si y . Decimos que dos pares y son discordantes, si los rangos de ambos elementos no están de acuerdo, o si y o si y . Si o , la pareja no es concordante ni discordante.
Dejar ser un conjunto de observaciones de dos vectores aleatorios X e Y posiblemente dependientes . Definir el coeficiente de correlación de rango tau de Kendall como
dónde es el número de pares concordantes y es el número de pares discordantes. La D de Y de Somers con respecto a X se define como. [2] Nota que tau de Kendall es simétrica en X y Y , mientras que Somers' D es asimétrico en X y Y .
Como cuantifica el número de pares con valores de X desiguales , la D de Somers es la diferencia entre el número de pares concordantes y discordantes, dividida por el número de pares con valores de X en el par desiguales.
Somers ' D para distribución
Sea dos variables aleatorias bivariadas independientes y tienen la misma distribución de probabilidad . Nuevamente, la D de Somers , que mide la asociación ordinal de las variables aleatorias X e Y en, se puede definir a través de la tau de Kendall
o la diferencia entre las probabilidades de concordancia y discordancia. La D de Y de Somers con respecto a X se define como. Por lo tanto,es la diferencia entre las dos probabilidades correspondientes, condicionada a que los valores de X no sean iguales. Si X tiene una distribución de probabilidad continua , entoncesy la tau de Kendall y la D de Somers coinciden. Somers D normaliza la tau de Kendall para los posibles puntos de masa de la variable X .
Si X e Y son ambos binarios con valores 0 y 1, entonces la D de Somers es la diferencia entre dos probabilidades:
D de Somers para variables dependientes binarias
En la práctica, la D de Somers se utiliza con mayor frecuencia cuando la variable dependiente Y es una variable binaria , [2] es decir, para la clasificación binaria o la predicción de resultados binarios, incluidos los modelos de elección binaria en econometría. Los métodos para ajustar dichos modelos incluyen regresión logística y probit .
Varias estadísticas se pueden utilizar para cuantificar la calidad de este tipo de modelos: área bajo la característica de funcionamiento del receptor (ROC), Goodman y gamma de Kruskal , tau de Kendall (Tau-a) , Somers D , etc. Somers D es probablemente la más ampliamente utilizado de las estadísticas de asociación ordinal disponibles. [3] Idéntica al coeficiente de Gini , la D de Somers está relacionada con el área bajo la curva característica de funcionamiento del receptor (AUC), [2]
- .
En el caso de que la variable independiente (predictora) X sea discreta y la variable dependiente (resultado) Y sea binaria, la D de Somers es igual a
dónde es el número de ni concordantes ni discordantes pares que están vinculados en la variable X y no en la variable Y .
Ejemplo
Suponga que la variable independiente (predictora) X toma tres valores,0,25 ,0.5 , o0,75 , y la variable dependiente (resultado) Y toma dos valores,0 o1 . La siguiente tabla contiene combinaciones observadas de X e Y :
X Y | 0,25 | 0,5 | 0,75 |
---|---|---|---|
0 | 3 | 5 | 2 |
1 | 1 | 7 | 6 |
El número de pares concordantes es igual a
El número de pares discordantes es igual a
El número de pares empatados es igual al número total de pares menos los pares concordantes y discordantes.
Por lo tanto, la D de Somers es igual a
Referencias
- ^ Somers, RH (1962). "Una nueva medida asimétrica de asociación para variables ordinales". American Sociological Review . 27 (6). doi : 10.2307 / 2090408 . JSTOR 2090408 .
- ^ a b c d Newson, Roger (2002). "Parámetros detrás de las estadísticas" no paramétricas ": tau de Kendall, D de Somers y diferencias de la mediana" . Stata Journal . 2 (1): 45–64.
- ^ O'Connell, AA (2006). Modelos de regresión logística para variables de respuesta ordinal . Publicaciones SAGE.