Mesa de contingencia


En estadística , una tabla de contingencia (también conocida como tabulación cruzada o tabulación cruzada ) es un tipo de tabla en formato de matriz que muestra la distribución de frecuencia (multivariada) de las variables. Se utilizan mucho en investigación de encuestas, inteligencia empresarial, ingeniería e investigación científica. Proporcionan una imagen básica de la interrelación entre dos variables y pueden ayudar a encontrar interacciones entre ellas. El término tabla de contingencia fue utilizado por primera vez por Karl Pearson en "Sobre la teoría de la contingencia y su relación con la asociación y la correlación normal", [1] parte delDrapers' Company Research Memoirs Biometric Series I publicado en 1904.

Un problema crucial de las estadísticas multivariadas es encontrar la estructura de dependencia (directa) subyacente a las variables contenidas en las tablas de contingencia de alta dimensión. Si se revelan algunas de las independencias condicionales , incluso el almacenamiento de los datos se puede hacer de una manera más inteligente (ver Lauritzen (2002)). Para hacer esto, se pueden utilizar conceptos de la teoría de la información , que obtienen la información solo de la distribución de probabilidad, que se puede expresar fácilmente a partir de la tabla de contingencia mediante las frecuencias relativas.

Supongamos que hay dos variables, sexo (masculino o femenino) y lateralidad (diestro o zurdo). Además, suponga que se toman muestras aleatorias de 100 individuos de una población muy grande como parte de un estudio de las diferencias sexuales en la lateralidad. Se puede crear una tabla de contingencia para mostrar el número de personas que son hombres diestros y zurdos, mujeres diestras y zurdas. Tal tabla de contingencia se muestra a continuación.

Los números de hombres, mujeres y diestros y zurdos se denominan totales marginales . El gran total (el número total de personas representadas en la tabla de contingencia) es el número en la esquina inferior derecha.

La tabla permite a los usuarios ver de un vistazo que la proporción de hombres diestros es aproximadamente la misma que la proporción de mujeres diestras, aunque las proporciones no son idénticas. La fuerza de la asociación se puede medir mediante la razón de probabilidades , y la razón de probabilidades de la población puede estimarse mediante la razón de probabilidades de la muestra . La importancia de la diferencia entre las dos proporciones se puede evaluar con una variedad de pruebas estadísticas que incluyen la prueba de chi-cuadrado de Pearson , la prueba G , la prueba exacta de Fisher , la prueba de Boschloo y la prueba de Barnard., siempre que las entradas en la tabla representen individuos seleccionados al azar de la población sobre los cuales se deben sacar conclusiones. Si las proporciones de individuos en las distintas columnas varían significativamente entre filas (o viceversa), se dice que existe una contingencia entre las dos variables. En otras palabras, las dos variables no son independientes. Si no hay contingencia, se dice que las dos variables son independientes .

El ejemplo anterior es el tipo más simple de tabla de contingencia, una tabla en la que cada variable tiene solo dos niveles; esto se llama una tabla de contingencia de 2 × 2. En principio, se puede utilizar cualquier número de filas y columnas. También puede haber más de dos variables, pero las tablas de contingencia de orden superior son difíciles de representar visualmente. La relación entre variables ordinales , o entre variables ordinales y categóricas, también puede representarse en tablas de contingencia, aunque tal práctica es rara. Para obtener más información sobre el uso de una tabla de contingencia para la relación entre dos variables ordinales, consulte la gamma de Goodman y Kruskal .