Aprendizaje de reglas de asociación


El aprendizaje de reglas de asociación es un método de aprendizaje automático basado en reglas para descubrir relaciones interesantes entre variables en grandes bases de datos. Su objetivo es identificar reglas sólidas descubiertas en bases de datos utilizando algunas medidas de interés. [1] En cualquier transacción dada con una variedad de artículos, las reglas de asociación están destinadas a descubrir las reglas que determinan cómo o por qué se conectan ciertos artículos.

Basados ​​en el concepto de reglas fuertes, Rakesh Agrawal , Tomasz Imieliński y Arun Swami [2] introdujeron reglas de asociación para descubrir regularidades entre productos en datos de transacciones a gran escala registrados por sistemas de punto de venta (POS) en supermercados. Por ejemplo, la regla encontrada en los datos de ventas de un supermercado indicaría que si un cliente compra cebollas y papas juntas, es probable que también compre carne para hamburguesas. Dicha información se puede utilizar como base para decisiones sobre actividades de marketing como, por ejemplo, precios promocionales o colocación de productos .

Además del ejemplo anterior del análisis de la cesta de la compra , las reglas de asociación se emplean hoy en día en muchas áreas de aplicación, incluida la minería de uso web , la detección de intrusos , la producción continua y la bioinformática . En contraste con la minería de secuencias , el aprendizaje de reglas de asociación generalmente no considera el orden de los elementos dentro de una transacción o entre transacciones.

El algoritmo de regla de asociación en sí consta de varios parámetros que pueden dificultar la ejecución de quienes no tienen cierta experiencia en minería de datos, con muchas reglas que son difíciles de entender. [3]

A pesar de esto, el aprendizaje de reglas de asociación es un gran sistema para predecir el comportamiento en las interconexiones de datos. Esto lo convierte en una técnica notable para la clasificación o el descubrimiento de patrones en los datos, al implementar métodos de aprendizaje automático.

Siguiendo la definición original de Agrawal, Imieliński, Swami [2], el problema de la minería de reglas de asociación se define como:


Un diagrama de Venn para mostrar las asociaciones entre los conjuntos de elementos X e Y de un conjunto de datos. Todas las transacciones que contienen el elemento X se ubican en la parte izquierda blanca del círculo, mientras que las que contienen Y se colorean en rojo y a la derecha. Cualquier transacción que contenga tanto X como Y se ubica en el medio y se colorea de rosa. Se pueden utilizar varios conceptos para representar la información de este gráfico. Por ejemplo, si uno toma todas las transacciones en la sección rosa y las divide por la cantidad total de transacciones (transacciones que contienen X (blanco) + transacciones que contienen Y (rojo)), la salida se conocería como soporte. Una instancia para obtener el resultado de un método conocido como confianza, uno puede tomar todas las transacciones en el medio (rosa) y dividirlas por todas las transacciones que contienen Y (rojo y rosa). En este caso,
Entramado de elementos frecuentes, donde el color del cuadro indica cuántas transacciones contienen la combinación de elementos. Tenga en cuenta que los niveles inferiores de la red pueden contener como máximo el número mínimo de elementos de sus padres; por ejemplo, {ac} solo puede tener como máximo elementos. Esto se llama la propiedad de cierre hacia abajo . [2]
El diagrama de flujo de control para el algoritmo Apriori