Datos ordinales

Los datos ordinales son un tipo de datos estadísticos categóricos en los que las variables tienen categorías naturales ordenadas y no se conocen las distancias entre las categorías. ^[1]^{: 2} Estos datos existen en una escala ordinal , uno de los cuatro niveles de medición descritos por SS Stevens en 1946. La escala ordinal se distingue de la escala nominal por tener una clasificación . También se diferencia de las escalas de intervalo y razón por no tener anchos de categoría que representen incrementos iguales del atributo subyacente. ^[2]

Ejemplos de datos ordinales

Un ejemplo bien conocido de datos ordinales es la escala Likert . Un ejemplo de escala Likert es: ^[3]^{: 685}

Como	Como algo	Neutral	No me gusta un poco	Disgusto
1	2	3	4	5

A menudo se encuentran ejemplos de datos ordinales en los cuestionarios: por ejemplo, la pregunta de la encuesta "¿Su salud general es mala, razonable, buena o excelente?" pueden tener esas respuestas codificadas respectivamente como 1, 2, 3 y 4. A veces, los datos en una escala de intervalo o una escala de razón se agrupan en una escala ordinal: por ejemplo, las personas cuyos ingresos se conocen pueden agruparse en las categorías de ingresos $ 0– $ 19,999 , $ 20,000– $ 39,999, $ 40,000– $ 59,999, ..., que luego podrían codificarse como 1, 2, 3, 4, .... Otros ejemplos de datos ordinales incluyen estatus socioeconómico, rangos militares y calificaciones con letras para los cursos. ^[4]

Formas de analizar datos ordinales

El análisis de datos ordinales requiere un conjunto de análisis diferente al de otras variables cualitativas. Estos métodos incorporan el orden natural de las variables para evitar la pérdida de potencia. ^[1]^{: 88 No se} recomienda calcular la media de una muestra de datos ordinales; otras medidas de tendencia central, incluida la mediana o la moda, son generalmente más apropiadas. ^[5]

General

Stevens (1946) argumentó que, debido a que el supuesto de igual distancia entre categorías no es válido para datos ordinales, el uso de medias y desviaciones estándar para la descripción de distribuciones ordinales y de estadísticas inferenciales basadas en medias y desviaciones estándar no era apropiado. En su lugar, deben utilizarse medidas posicionales como la mediana y los percentiles, además de las estadísticas descriptivas apropiadas para los datos nominales (número de casos, moda, correlación de contingencia). ^[2]^{: 678} Se han propuesto métodos no paramétricos como los procedimientos más apropiados para las estadísticas inferenciales que involucran datos ordinales, especialmente aquellos desarrollados para el análisis de medidas clasificadas. ^[4]^{: 25-28} Sin embargo, el uso de estadísticas paramétricas para datos ordinales puede estar permitido con ciertas advertencias para aprovechar la mayor variedad de procedimientos estadísticos disponibles. ^[6]^[7]^[3]^{: 90}

Estadística univariante

En lugar de medias y desviaciones estándar, las estadísticas univariadas apropiadas para datos ordinales incluyen la mediana, ^[8]^{: 59-61} otros percentiles (como cuartiles y deciles), ^[8]^{: 71} y la desviación de cuartiles. ^[8]^{: 77} Las pruebas de una muestra para datos ordinales incluyen la prueba de una muestra de Kolmogorov-Smirnov , ^[4]^{: 51–55} la prueba de corridas de una muestra , ^[4]^{: 58–64} y la prueba del punto de cambio. ^[4]^{: 64–71}

Estadísticas bivariadas

En lugar de probar las diferencias en las medias con pruebas t , las diferencias en las distribuciones de los datos ordinales de dos muestras independientes se pueden probar con Mann-Whitney , ^[8]^{: 259–264} corridas , ^[8]^{: 253–259} Smirnov , ^{[8 ]}^{: 266–269} y rangos con signo ^[8]^{: 269–273} pruebas. La prueba para dos muestras relacionadas o emparejadas incluye la prueba de signos ^[4]^{: 80–87} y la prueba de rangos con signo de Wilcoxon . ^[4]^{: 87–95 El} análisis de varianza con rangos ^[8]^{: 367–369} y la prueba de Jonckheere para alternativas ordenadas ^[4]^{: 216–222} se pueden realizar con datos ordinales en lugar de ANOVA de muestras independientes . Las pruebas para más de dos muestras relacionadas incluyen el análisis de varianza bidireccional de Friedman por rangos ^[4]^{: 174-183} y la prueba de Page para alternativas ordenadas . ^[4]^{: 184–188 Las} medidas de correlación apropiadas para dos variables de escala ordinal incluyen tau de Kendall , ^[8]^{: 436–439} gamma , ^[8]^{: 442–443} r s , ^[8]^{: 434–436} y d yx / d xy . ^[8]^{: 443}

Aplicaciones de regresión

Los datos ordinales se pueden considerar como una variable cuantitativa. En regresión logística , la ecuación

{\ Displaystyle logit [P (Y = 1)] = \ alpha + \ beta _ {1} c + \ beta _ {2} x}

es el modelo yc asume los niveles asignados de la escala categórica. ^[1]^{: 189} En el análisis de regresión , los resultados ( variables dependientes ) que son variables ordinales se pueden predecir utilizando una variante de regresión ordinal , como logit ordenado o probit ordenado .

En el análisis de regresión / correlación múltiple, los datos ordinales se pueden acomodar utilizando polinomios de potencia y mediante la normalización de puntuaciones y rangos. ^[9]

Tendencias lineales

Las tendencias lineales también se utilizan para encontrar asociaciones entre datos ordinales y otras variables categóricas, normalmente en tablas de contingencia . Se encuentra una correlación r entre las variables donde r se encuentra entre -1 y 1. Para probar la tendencia, un estadístico de prueba:

{\ Displaystyle M ^ {2} = (n-1) r ^ {2}}

se utiliza donde n es el tamaño de la muestra. ^[1]^{: 87}

R se puede encontrar dejando ${\ Displaystyle u_ {1} \ leq u_ {2} \ leq ... \ leq u_ {I}}$ ser las puntuaciones de la fila y ${\ Displaystyle v_ {1} \ leq v_ {2} \ leq ... \ leq v_ {I}}$ sean las puntuaciones de la columna. Dejar ${\ Displaystyle {\ bar {u}} \ = \ sum _ {i} u_ {i} p_ {i +}}$ ser la media de las puntuaciones de las filas mientras ${\ Displaystyle {\ bar {v}} \ = \ sum _ {j} v_ {j} p_ {j +}.}$ . Luego ${\ Displaystyle p_ {i +}}$ es la probabilidad de fila marginal y ${\ Displaystyle p _ {+ j}}$ es la probabilidad de la columna marginal. R se calcula mediante:

{\ Displaystyle r = {\ frac {\ sum _ {i, j} \ left (u_ {i} - {\ bar {u}} \ \ right) \ left (v_ {j} - {\ bar {v} " } \ \ right) p_ {ij}} {\ sqrt {\ left \ lbrack \ sum _ {i} (u_ {i} - {\ bar {u}} \ \ right) ^ {2} p_ {i +} \ rbrack \ lbrack \ sum _ {j} (v_ {j} - {\ bar {v}} \) ^ {2} p _ {+ j} \ rbrack}}}}

Métodos de clasificación

También se han desarrollado métodos de clasificación para datos ordinales. Los datos se dividen en diferentes categorías de modo que cada observación sea similar entre sí. La dispersión se mide y minimiza en cada grupo para maximizar los resultados de clasificación. La función de dispersión se utiliza en teoría de la información . ^[10]

Modelos estadísticos para datos ordinales

Hay varios modelos diferentes que se pueden utilizar para describir la estructura de los datos ordinales. ^{[11] A} continuación se describen cuatro clases principales de modelos, cada una definida para una variable aleatoria. ${\ Displaystyle Y}$ , con niveles indexados por ${\ Displaystyle k = 1,2, \ dots, q}$ .

Tenga en cuenta que en las definiciones del modelo a continuación, los valores de ${\ Displaystyle \ mu _ {k}}$ y ${\ Displaystyle \ mathbf {\ beta}}$ no será el mismo para todos los modelos para el mismo conjunto de datos, pero la notación se utiliza para comparar la estructura de los diferentes modelos.

Modelo de probabilidades proporcionales

El modelo más comúnmente utilizado para datos ordinales es el modelo de probabilidades proporcionales, definido por ${\ Displaystyle \ log \ left [{\ frac {\ Pr (Y \ leq k)} {Pr (Y> k)}} \ right] = \ log \ left [{\ frac {\ Pr (Y \ leq k )} {1- \ Pr (Y \ leq k)}} \ right] = \ mu _ {k} + \ mathbf {\ beta} ^ {T} \ mathbf {x}}$ donde los parámetros ${\ Displaystyle \ mu _ {k}}$ describir la distribución base de los datos ordinales, ${\ Displaystyle \ mathbf {x}}$ son las covariables y ${\ Displaystyle \ mathbf {\ beta}}$ son los coeficientes que describen los efectos de las covariables.

Este modelo se puede generalizar definiendo el modelo utilizando ${\ Displaystyle \ mu _ {k} + \ mathbf {\ beta} _ {k} ^ {T} \ mathbf {x}}$ en vez de ${\ Displaystyle \ mu _ {k} + \ mathbf {\ beta} ^ {T} \ mathbf {x}}$ , y esto haría que el modelo fuera adecuado para datos nominales (en los que las categorías no tienen un orden natural) así como para datos ordinales. Sin embargo, esta generalización puede hacer que sea mucho más difícil ajustar el modelo a los datos.

Modelo logit de categoría de línea de base

El modelo de categoría de línea de base está definido por ${\ Displaystyle \ log \ left [{\ frac {\ Pr (Y = k)} {\ Pr (Y = 1)}} \ right] = \ mu _ {k} + \ mathbf {\ beta} _ {k } ^ {T} \ mathbf {x}}$

Este modelo no impone un orden en las categorías y, por lo tanto, se puede aplicar tanto a datos nominales como a datos ordinales.

Modelo de estereotipo ordenado

El modelo de estereotipo ordenado se define por ${\ Displaystyle \ log \ left [{\ frac {\ Pr (Y = k)} {\ Pr (Y = 1)}} \ right] = \ mu _ {k} + \ phi _ {k} \ mathbf { \ beta} ^ {T} \ mathbf {x}}$ donde los parámetros de puntuación están restringidos de manera que ${\ Displaystyle 0 = \ phi _ {1} \ leq \ phi _ {2} \ leq \ dots \ leq \ phi _ {q} = 1}$ .

Este es un modelo más parsimonioso y más especializado que el modelo logit de categoría de línea base: ${\ Displaystyle \ phi _ {k} \ mathbf {\ beta}}$ puede considerarse similar a ${\ Displaystyle \ mathbf {\ beta} _ {k}}$ .

El modelo de estereotipo no ordenado tiene la misma forma que el modelo de estereotipo ordenado, pero sin el orden impuesto a ${\ Displaystyle \ phi _ {k}}$ . Este modelo se puede aplicar a datos nominales.

Tenga en cuenta que las puntuaciones ajustadas, ${\ Displaystyle {\ hat {\ phi}} _ {k}}$ , indique lo fácil que es distinguir entre los diferentes niveles de ${\ Displaystyle Y}$ . Si ${\ Displaystyle {\ hat {\ phi}} _ {k} \ approx {\ hat {\ phi}} _ {k-1}}$ entonces eso indica que el conjunto actual de datos para las covariables ${\ Displaystyle \ mathbf {x}}$ no proporcionan mucha información para distinguir entre niveles ${\ Displaystyle k}$ y ${\ Displaystyle k-1}$ , pero eso no implica necesariamente que los valores reales ${\ Displaystyle k}$ y ${\ Displaystyle k-1}$ están muy separados. Y si los valores de las covariables cambian, entonces para esos nuevos datos las puntuaciones ajustadas ${\ Displaystyle {\ hat {\ phi}} _ {k}}$ y ${\ Displaystyle {\ hat {\ phi}} _ {k-1}}$ entonces podría estar muy alejado.

Modelo logit de categorías adyacentes

El modelo de categorías adyacentes está definido por ${\ Displaystyle \ log \ left [{\ frac {\ Pr (Y = k)} {\ Pr (Y = k + 1)}} \ right] = \ mu _ {k} + \ mathbf {\ beta} _ {k} ^ {T} \ mathbf {x}}$ aunque la forma más común, referida en Agresti (2010) ^[11] como la "forma de probabilidades proporcionales" se define por ${\ Displaystyle \ log \ left [{\ frac {\ Pr (Y = k)} {\ Pr (Y = k + 1)}} \ right] = \ mu _ {k} + \ mathbf {\ beta} ^ {T} \ mathbf {x}}$

Este modelo solo se puede aplicar a datos ordinales, ya que modelar las probabilidades de cambios de una categoría a la siguiente implica que existe un orden de esas categorías.

El modelo logit de categorías adyacentes se puede considerar como un caso especial del modelo logit de categorías de línea base, donde ${\ Displaystyle \ mathbf {\ beta} _ {k} = \ mathbf {\ beta} (k-1)}$ . El modelo logit de categorías adyacentes también se puede considerar como un caso especial del modelo de estereotipo ordenado, donde ${\ Displaystyle \ phi _ {k} \ propto k-1}$ , es decir, las distancias entre los ${\ Displaystyle \ phi _ {k}}$ se definen de antemano, en lugar de estimarse en función de los datos.

Comparaciones entre los modelos

El modelo de probabilidades proporcionales tiene una estructura muy diferente a los otros tres modelos, y también un significado subyacente diferente. Tenga en cuenta que el tamaño de la categoría de referencia en el modelo de probabilidades proporcionales varía con ${\ Displaystyle k}$ , desde ${\ Displaystyle Y \ leq k}$ se compara con ${\ Displaystyle Y> k}$ , mientras que en los demás modelos el tamaño de la categoría de referencia permanece fijo, como ${\ Displaystyle Y = k}$ se compara con ${\ Displaystyle Y = 1}$ o ${\ Displaystyle Y = k + 1}$ .

Diferentes funciones de enlace

Hay variantes de todos los modelos que utilizan diferentes funciones de enlace, como el enlace probit o el enlace log-log complementario.

Visualización y visualización

Los datos ordinales se pueden visualizar de varias formas diferentes. Las visualizaciones comunes son el gráfico de barras o el gráfico circular . Las tablas también pueden ser útiles para mostrar datos ordinales y frecuencias. Los gráficos de mosaico se pueden utilizar para mostrar la relación entre una variable ordinal y una variable nominal u ordinal. ^[12] Un gráfico de relieve, un gráfico de líneas que muestra la clasificación relativa de elementos de un momento al siguiente, también es apropiado para datos ordinales. ^[13]

La gradación de color o escala de grises se puede utilizar para representar la naturaleza ordenada de los datos. Una escala unidireccional, como los rangos de ingresos, se puede representar con un gráfico de barras donde el aumento (o la disminución) de la saturación o la claridad de un solo color indica ingresos más altos (o más bajos). La distribución ordinal de una variable medida en una escala de doble dirección, como una escala Likert, también podría ilustrarse con color en un gráfico de barras apiladas. Se puede usar un color neutro (blanco o gris) para el punto medio (cero o neutro) con colores contrastantes en las direcciones opuestas desde el punto medio, donde el aumento de la saturación u oscuridad de los colores podría indicar categorías a una distancia creciente del punto medio. ^[14] Los mapas de coropletas también usan sombreado de color o escala de grises para mostrar datos ordinales. ^[15]

Ejemplo de diagrama de barras de opinión sobre gastos de defensa.

Ejemplo de diagrama de variación de opinión sobre el gasto en defensa por partido político.

Ejemplo de diagrama de mosaico de opinión sobre el gasto en defensa por partido político.

Ejemplo de diagrama de barras apiladas de opinión sobre el gasto en defensa por partido político.

Aplicaciones

El uso de datos ordinales se puede encontrar en la mayoría de las áreas de investigación donde se generan datos categóricos. Los entornos donde a menudo se recopilan datos ordinales incluyen las ciencias sociales y del comportamiento y los entornos gubernamentales y comerciales donde las mediciones se recopilan de personas mediante observación, pruebas o cuestionarios . Algunos contextos comunes para la recopilación de datos ordinales incluyen la investigación por encuestas ; ^[16]^[17] y pruebas de inteligencia , aptitud y personalidad . ^[3]^{: 89–90}

Ver también

Lista de análisis de datos categóricos

Referencias

↑ a b c d Agresti, Alan (2013). Análisis de datos categóricos (3 ed.). Hoboken, Nueva Jersey: John Wiley & Sons. ISBN 978-0-470-46363-5.
^ a b Stevens, SS (1946). "En la teoría de las escalas de medición". Ciencia . Series nuevas. 103 (2684): 677–680. Código Bibliográfico : 1946Sci ... 103..677S . doi : 10.1126 / science.103.2684.677 . PMID 17750512 .
^ a b c Cohen, Ronald Jay; Swerdik, Mark E .; Phillips, Suzanne M. (1996). Pruebas y evaluación psicológicas: una introducción a las pruebas y la medición (3ª ed.). Mountain View, CA: Mayfield. págs. 685 . ISBN 1-55934-427-X.
^ a b c d e f g h yo j Siegel, Sidney; Castellan, N. John Jr. (1988). Estadística no paramétrica para las ciencias del comportamiento (2ª ed.). Boston: McGraw-Hill. págs. 25-26. ISBN 0-07-057357-3.
^ Jamieson, Susan (diciembre de 2004). "Escalas Likert: cómo (ab) usarlas". Educación médica . 38 (12): 1212-1218. doi : 10.1111 / j.1365-2929.2004.02012.x . PMID 15566531 . S2CID 42509064 .
^ Sarle, Warren S. (14 de septiembre de 1997). "Teoría de la medición: preguntas frecuentes" .
^ van Belle, Gerald (2002). Reglas estadísticas generales . Nueva York: John Wiley & Sons. págs. 23-24. ISBN 0-471-40227-3.
^ a b c d e f g h yo j k l Blalock, Hubert M. Jr. (1979). Estadísticas sociales (Rev. 2ª ed.). Nueva York: McGraw-Hill. ISBN 0-07-005752-4.
^ Cohen, Jacob; Cohen, Patricia (1983). Análisis de correlación / regresión múltiple aplicada para las ciencias del comportamiento (2ª ed.). Hillsdale, Nueva Jersey: Lawrence Erlbaum Associates. pag. 273. ISBN 0-89859-268-2.
^ Laird, Nan M. (1979). "Una nota sobre la clasificación de datos de escala ordinal". Metodología sociológica . 10 : 303–310. doi : 10.2307 / 270775 . JSTOR 270775 .
^ a b Agresti, Alan (2010). Análisis de datos categóricos ordinales (2ª ed.). Hoboken, Nueva Jersey: Wiley. ISBN 978-0470082898.
^ "Técnicas de trazado" .
^ Berinato, Scott (2016). Buenos gráficos: la guía HBR para hacer visualizaciones de datos más inteligentes y persuasivas . Boston: Harvard Business Review Press. pag. 228. ISBN 978-1633690707.
^ Kirk, Andy (2016). Visualización de datos: un manual para el diseño basado en datos (1ª ed.). Londres: SAGE. pag. 269. ISBN 978-1473912144.
^ El Cairo, Alberto (2016). El arte veraz: datos, gráficos y mapas para la comunicación (1ª ed.). San Francisco: nuevos jinetes. pag. 280. ISBN 978-0321934079.
^ Alwin, Duane F. (2010). Marsden, Peter V .; Wright, James D. (eds.). Evaluación de la confiabilidad y validez de las medidas de la encuesta . Manual de investigación por encuestas . Howard House, Wagon Lane, Bingley BD16 1WA, Reino Unido: Emerald House. pag. 420. ISBN 978-1-84855-224-1.Mantenimiento de CS1: ubicación ( enlace )
^ Fowler, Floyd J. Jr. (1995). Mejora de las preguntas de la encuesta: diseño y evaluación . Thousand Oaks, CA: Sage. págs. 156-165 . ISBN 0-8039-4583-3.

Otras lecturas

Agresti, Alan (2010). Análisis de datos categóricos ordinales (2ª ed.). Hoboken, Nueva Jersey: Wiley. ISBN 978-0470082898.

[agresti-1] Agresti, Alan (2013). Análisis de datos categóricos (3 ed.). Hoboken, Nueva Jersey: John Wiley & Sons. ISBN 978-0-470-46363-5.

[stevens-2] Stevens, SS (1946). "En la teoría de las escalas de medición". Ciencia . Series nuevas. 103 (2684): 677–680. Código Bibliográfico : 1946Sci ... 103..677S . doi : 10.1126 / science.103.2684.677 . PMID 17750512 .

[cohenetal-3] Cohen, Ronald Jay; Swerdik, Mark E .; Phillips, Suzanne M. (1996). Pruebas y evaluación psicológicas: una introducción a las pruebas y la medición (3ª ed.). Mountain View, CA: Mayfield. págs. 685 . ISBN 1-55934-427-X.

[s&c-4] yo j Siegel, Sidney; Castellan, N. John Jr. (1988). Estadística no paramétrica para las ciencias del comportamiento (2ª ed.). Boston: McGraw-Hill. págs. 25-26. ISBN 0-07-057357-3.

[5] Jamieson, Susan (diciembre de 2004). "Escalas Likert: cómo (ab) usarlas". Educación médica . 38 (12): 1212-1218. doi : 10.1111 / j.1365-2929.2004.02012.x . PMID 15566531 . S2CID 42509064 .

[6] Sarle, Warren S. (14 de septiembre de 1997). "Teoría de la medición: preguntas frecuentes" .

[7] van Belle, Gerald (2002). Reglas estadísticas generales . Nueva York: John Wiley & Sons. págs. 23-24. ISBN 0-471-40227-3.

[blalock-8] yo j k l Blalock, Hubert M. Jr. (1979). Estadísticas sociales (Rev. 2ª ed.). Nueva York: McGraw-Hill. ISBN 0-07-005752-4.

[9] Cohen, Jacob; Cohen, Patricia (1983). Análisis de correlación / regresión múltiple aplicada para las ciencias del comportamiento (2ª ed.). Hillsdale, Nueva Jersey: Lawrence Erlbaum Associates. pag. 273. ISBN 0-89859-268-2.

[10] Laird, Nan M. (1979). "Una nota sobre la clasificación de datos de escala ordinal". Metodología sociológica . 10 : 303–310. doi : 10.2307 / 270775 . JSTOR 270775 .

[Agresti_2010-11] Agresti, Alan (2010). Análisis de datos categóricos ordinales (2ª ed.). Hoboken, Nueva Jersey: Wiley. ISBN 978-0470082898.

[12] "Técnicas de trazado" .

[13] Berinato, Scott (2016). Buenos gráficos: la guía HBR para hacer visualizaciones de datos más inteligentes y persuasivas . Boston: Harvard Business Review Press. pag. 228. ISBN 978-1633690707.

[14] Kirk, Andy (2016). Visualización de datos: un manual para el diseño basado en datos (1ª ed.). Londres: SAGE. pag. 269. ISBN 978-1473912144.

[15] El Cairo, Alberto (2016). El arte veraz: datos, gráficos y mapas para la comunicación (1ª ed.). San Francisco: nuevos jinetes. pag. 280. ISBN 978-0321934079.

[16] Alwin, Duane F. (2010). Marsden, Peter V .; Wright, James D. (eds.). Evaluación de la confiabilidad y validez de las medidas de la encuesta . Manual de investigación por encuestas . Howard House, Wagon Lane, Bingley BD16 1WA, Reino Unido: Emerald House. pag. 420. ISBN 978-1-84855-224-1.Mantenimiento de CS1: ubicación ( enlace )

[17] Fowler, Floyd J. Jr. (1995). Mejora de las preguntas de la encuesta: diseño y evaluación . Thousand Oaks, CA: Sage. págs. 156-165 . ISBN 0-8039-4583-3.

[1]