Mesa de contingencia


En estadística , una tabla de contingencia (también conocida como tabulación cruzada o tabla cruzada ) es un tipo de tabla en un formato de matriz que muestra la distribución de frecuencia (multivariante) de las variables. Se utilizan mucho en investigación de encuestas, inteligencia empresarial, ingeniería e investigación científica. Proporcionan una imagen básica de la interrelación entre dos variables y pueden ayudar a encontrar interacciones entre ellas. El término tabla de contingencia fue utilizado por primera vez por Karl Pearson en "Sobre la teoría de la contingencia y su relación con la asociación y la correlación normal", [1] parte de laSerie biométrica de memorias de investigación de Drapers 'Company que publiqué en 1904.

Un problema crucial de la estadística multivariante es encontrar la estructura de dependencia (directa) subyacente a las variables contenidas en tablas de contingencia de alta dimensión. Si se revelan algunas de las independientes condicionales , incluso el almacenamiento de los datos se puede hacer de una manera más inteligente (ver Lauritzen (2002)). Para hacer esto, se pueden utilizar conceptos de teoría de la información , que obtienen la información solo de la distribución de probabilidad, que se puede expresar fácilmente a partir de la tabla de contingencia mediante las frecuencias relativas.

Suponga que hay dos variables, sexo (hombre o mujer) y destreza (diestro o zurdo). Suponga además que se muestrean al azar 100 individuos de una población muy grande como parte de un estudio de las diferencias sexuales en la mano. Se puede crear una tabla de contingencia para mostrar el número de individuos que son hombres diestros y zurdos, mujeres diestras y zurdas. A continuación se muestra una tabla de contingencia de este tipo.

Los números de hombres, mujeres e individuos diestros y zurdos se denominan totales marginales . El gran total (el número total de individuos representados en la tabla de contingencia) es el número en la esquina inferior derecha.

La tabla permite a los usuarios ver de un vistazo que la proporción de hombres que son diestros es aproximadamente la misma que la proporción de mujeres que son diestras, aunque las proporciones no son idénticas. La fuerza de la asociación se puede medir por la razón de probabilidades y la razón de probabilidades de la población estimada por la razón de probabilidades de la muestra . La significación de la diferencia entre las dos proporciones puede ser evaluada con una variedad de pruebas estadísticas que incluyen prueba de ji cuadrado de Pearson , la G -test , la prueba exacta de Fisher , la prueba de Boschloo , y la prueba de Barnard, siempre que las entradas en la tabla representen individuos muestreados aleatoriamente de la población acerca de los cuales se extraerán conclusiones. Si las proporciones de individuos en las diferentes columnas varían significativamente entre filas (o viceversa), se dice que existe una contingencia entre las dos variables. En otras palabras, las dos variables no son independientes. Si no hay contingencia, se dice que las dos variables son independientes .

El ejemplo anterior es el tipo más simple de tabla de contingencia, una tabla en la que cada variable tiene solo dos niveles; esto se llama tabla de contingencia 2 × 2. En principio, se puede utilizar cualquier número de filas y columnas. También puede haber más de dos variables, pero las tablas de contingencia de orden superior son difíciles de representar visualmente. La relación entre variables ordinales , o entre variables ordinales y categóricas, también se puede representar en tablas de contingencia, aunque esta práctica es poco común. Para obtener más información sobre el uso de una tabla de contingencia para la relación entre dos variables ordinales, consulte la gamma de Goodman y Kruskal .