Lift (minería de datos)

En la minería de datos y el aprendizaje de reglas de asociación , la elevación es una medida del rendimiento de un modelo de focalización (regla de asociación) para predecir o clasificar casos con una respuesta mejorada (con respecto a la población en su conjunto), medida frente a una focalización de elección aleatoria. modelo. Un modelo de focalización está funcionando bien si la respuesta dentro del objetivo es mucho mejor que el promedio de la población en su conjunto. El incremento es simplemente la proporción de estos valores: la respuesta objetivo dividida por la respuesta promedio.

Por ejemplo, suponga que una población tiene una tasa de respuesta promedio del 5%, pero un determinado modelo (o regla) ha identificado un segmento con una tasa de respuesta del 20%. Entonces ese segmento tendría un incremento de 4.0 (20% / 5%).

Normalmente, el modelador busca dividir la población en cuantiles y clasificar los cuantiles por elevación. Luego, las organizaciones pueden considerar cada cuantil y, al sopesar la tasa de respuesta prevista (y el beneficio financiero asociado) con el costo, pueden decidir si comercializar con ese cuantil o no.

La curva de elevación también se puede considerar una variación de la curva característica de funcionamiento del receptor (ROC), y también se conoce en econometría como la curva de Lorenz o potencia. ^[1]

${\ Displaystyle elevación = {\ frac {P (A \ cap B)} {P (A) * P (B)}}}$

Ejemplo

Suponga que el conjunto de datos que se extrae es:

Antecedente	Consiguiente
A	0
A	0
A	1
A	0
B	1
B	0
B	1

donde el antecedente es la variable de entrada que podemos controlar y el consecuente es la variable que estamos tratando de predecir. Los problemas de minería reales suelen tener antecedentes más complejos, pero normalmente se centran en los consecuentes de valor único.

La mayoría de los algoritmos de minería determinarían las siguientes reglas (modelos de focalización):

Regla 1: A implica 0
Regla 2: B implica 1

porque estos son simplemente los patrones más comunes que se encuentran en los datos. Una simple revisión de la tabla anterior debería hacer que estas reglas sean obvias.

El soporte para la Regla 1 es 3/7 porque ese es el número de elementos en el conjunto de datos en el que el antecedente es A y el consecuente 0. El soporte para la Regla 2 es 2/7 porque dos de los siete registros cumplen con el antecedente de B y el consecuente de 1. Los soportes se pueden escribir como:

{\ Displaystyle \ operatorname {supp} (A \ Rightarrow 0) = P (A \ land 0) = P (A) P (0 \ mid A) = P (0) P (A \ mid 0)}

{\ Displaystyle \ operatorname {supp} (B \ Rightarrow 1) = P (B \ land 1) = P (B) P (1 \ mid B) = P (1) P (B \ mid 1)}

La confianza para la Regla 1 es 3/4 porque tres de los cuatro registros que cumplen con el antecedente de A cumplen con el consecuente de 0. La confianza para la Regla 2 es 2/3 porque dos de los tres registros que cumplen con el antecedente de B cumplen con el consecuencia de 1. Las confidencias se pueden escribir como:

{\ Displaystyle \ operatorname {conf} (A \ Rightarrow 0) = P (0 \ mid A)}

{\ Displaystyle \ operatorname {conf} (B \ Rightarrow 1) = P (1 \ mid B)}

La elevación se puede encontrar dividiendo la confianza por la probabilidad incondicional del consecuente, o dividiendo el soporte por la probabilidad del antecedente multiplicada por la probabilidad del consecuente, así:

La elevación para la Regla 1 es (3/4) / (4/7) = (3 * 7) / (4 * 4) = 21/16 ≈ 1.31
La elevación de la Regla 2 es (2/3) / (3/7) = (2 * 7) / (3 * 3) = 14/9 ≈ 1,56

{\ Displaystyle \ operatorname {lift} (A \ Rightarrow 0) = {\ frac {P (0 \ mid A)} {P (0)}} = {\ frac {P (A \ land 0)} {P ( A) P (0)}}}

{\ Displaystyle \ operatorname {lift} (B \ Rightarrow 1) = {\ frac {P (1 \ mid B)} {P (1)}} = {\ frac {P (B \ land 1)} {P ( B) P (1)}}}

Si alguna regla tuviera una elevación de 1, implicaría que la probabilidad de ocurrencia del antecedente y la del consecuente son independientes entre sí. Cuando dos eventos son independientes entre sí, no se puede establecer una regla que involucre a esos dos eventos.

Si la elevación es> 1, como aquí para las Reglas 1 y 2, eso nos permite saber el grado en que esas dos ocurrencias son dependientes entre sí, y hace que esas reglas sean potencialmente útiles para predecir el consecuente en conjuntos de datos futuros.

Observe que aunque la Regla 1 tiene mayor confianza, tiene menor sustentación. Intuitivamente, parecería que la Regla 1 es más valiosa debido a su mayor confianza: parece más precisa (mejor respaldada). Pero la precisión de la regla independientemente del conjunto de datos puede ser engañosa. El valor de la elevación es que considera tanto la confianza de la regla como el conjunto de datos general.

Referencias

^ Tufféry, Stéphane (2011); Minería de datos y estadísticas para la toma de decisiones , Chichester, GB: John Wiley & Sons, traducido del francés Data Mining et statistique décisionnelle (Éditions Technip, 2008)

Coppock, David S. (21 de junio de 2002). "¿Por qué levantar?" . Consultado el 5 de julio de 2015 .

Ver también

[1] Tufféry, Stéphane (2011); Minería de datos y estadísticas para la toma de decisiones , Chichester, GB: John Wiley & Sons, traducido del francés Data Mining et statistique décisionnelle (Éditions Technip, 2008)

[1]