Reducción de dimensionalidad multifactorial


La reducción de dimensionalidad multifactorial (MDR) es un enfoque estadístico, también utilizado en enfoques automáticos de aprendizaje automático, [1] para detectar y caracterizar combinaciones de atributos o variables independientes que interactúan para influir en una variable dependiente o de clase. [2] [3] [4] [5] [6] [7] [8] MDR se diseñó específicamente para identificar interacciones no aditivas entre variables discretas que influyen en un resultado binario y se considera una alternativa no paramétrica y sin modelos a la estadística tradicional. métodos tales comoregresión logística .

La base del método MDR es una inducción constructiva o un algoritmo de ingeniería de características que convierte dos o más variables o atributos en un solo atributo. [9] Este proceso de construcción de un nuevo atributo cambia el espacio de representación de los datos. [10] El objetivo final es crear o descubrir una representación que facilite la detección de interacciones no lineales o no aditivas entre los atributos, de modo que la predicción de la variable de clase mejore con respecto a la representación original de los datos.

Considere el siguiente ejemplo simple usando la función OR exclusiva (XOR). XOR es un operador lógico que se usa comúnmente en minería de datos y aprendizaje automático como ejemplo de una función que no es linealmente separable. La siguiente tabla representa un conjunto de datos simple donde la relación entre los atributos (X1 y X2) y la variable de clase (Y) está definida por la función XOR de manera que Y = X1 XOR X2.

Un aprendizaje automáticoEl algoritmo necesitaría descubrir o aproximar la función XOR para predecir con precisión Y usando información sobre X1 y X2. Una estrategia alternativa sería cambiar primero la representación de los datos usando inducción constructiva para facilitar el modelado predictivo. El algoritmo MDR cambiaría la representación de los datos (X1 y X2) de la siguiente manera. MDR comienza seleccionando dos atributos. En este ejemplo simple, se seleccionan X1 y X2. Se examina cada combinación de valores para X1 y X2 y se cuenta el número de veces Y=1 y/o Y=0. En este ejemplo simple, Y=1 ocurre cero veces y Y=0 ocurre una vez para la combinación de X1=0 y X2=0. Con MDR, la proporción de estos recuentos se calcula y compara con un umbral fijo. Aquí, la proporción de conteos es 0/1, que es menor que nuestro umbral fijo de 1. Dado que 0/1 <

El algoritmo de aprendizaje automático ahora tiene mucho menos trabajo por hacer para encontrar una buena función predictiva. De hecho, en este ejemplo muy simple, la función Y = Z tiene una precisión de clasificación de 1. Una buena característica de los métodos de inducción constructiva como MDR es la capacidad de usar cualquier método de aprendizaje automático o de minería de datos para analizar la nueva representación de la datos. Los árboles de decisión , las redes neuronales o un clasificador de Bayes ingenuo podrían usarse en combinación con medidas de calidad del modelo, como la precisión equilibrada [11] [12] y la información mutua. [13]