Aprendizaje de reglas de asociación

El aprendizaje de reglas de asociación es un método de aprendizaje automático basado en reglas para descubrir relaciones interesantes entre variables en grandes bases de datos. Su objetivo es identificar reglas sólidas descubiertas en bases de datos utilizando algunas medidas de interés. ^[1]

Basándose en el concepto de reglas estrictas, Rakesh Agrawal , Tomasz Imieliński y Arun Swami ^[2] introdujeron reglas de asociación para descubrir regularidades entre productos en datos de transacciones a gran escala registrados por sistemas de punto de venta (POS) en supermercados. Por ejemplo, la regla ${\ displaystyle \ {\ mathrm {cebollas, patatas} \} \ Rightarrow \ {\ mathrm {hamburguesa} \}}$ que se encuentran en los datos de ventas de un supermercado indicaría que si un cliente compra cebollas y papas juntas, es probable que también compre carne de hamburguesa. Dicha información se puede utilizar como base para decisiones sobre actividades de marketing como, por ejemplo, precios promocionales o colocación de productos .

Además del ejemplo anterior del análisis de la canasta de mercado, las reglas de asociación se emplean hoy en muchas áreas de aplicación, incluida la minería del uso de la web , la detección de intrusiones , la producción continua y la bioinformática . A diferencia de la minería de secuencias , el aprendizaje de reglas de asociación normalmente no considera el orden de los elementos dentro de una transacción o entre transacciones.

Definición

Base de datos de ejemplo con 5 transacciones y 5 elementos
ID de transacción	Leche	un pan	manteca	cerveza	pañales
1	1	1	0	0	0
2	0	0	1	0	0
3	0	0	0	1	1
4	1	1	1	0	0
5	0	1	0	0	0

Siguiendo la definición original de Agrawal, Imieliński, Swami ^[2], el problema de la minería de reglas de asociación se define como:

Dejar ${\ Displaystyle I = \ {i_ {1}, i_ {2}, \ ldots, i_ {n} \}}$ ser un conjunto de ${\ Displaystyle n}$ atributos binarios llamados elementos .

Dejar ${\ Displaystyle D = \ {t_ {1}, t_ {2}, \ ldots, t_ {m} \}}$ ser un conjunto de transacciones denominado base de datos .

Cada transacción en ${\ Displaystyle D}$ tiene un ID de transacción único y contiene un subconjunto de los elementos en ${\ Displaystyle I}$ .

Una regla se define como una implicación de la forma:

${\ Displaystyle X \ Rightarrow Y}$ , dónde ${\ Displaystyle X, Y \ subseteq I}$ .

En Agrawal, Imieliński, Swami ^[2] una regla se define solo entre un conjunto y un solo elemento, ${\ Displaystyle X \ Rightarrow i_ {j}}$ por ${\ Displaystyle i_ {j} \ in I}$ .

Cada regla está compuesta por dos conjuntos diferentes de artículos, también conocidos como conjuntos de elementos , ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ , dónde ${\ Displaystyle X}$ se llama antecedente o del lado izquierdo (LHS) y ${\ Displaystyle Y}$ consecuente o del lado derecho (RHS).

Para ilustrar los conceptos, usamos un pequeño ejemplo del dominio de los supermercados. El conjunto de elementos es ${\ displaystyle I = \ {\ mathrm {leche, pan, mantequilla, cerveza, pañales} \}}$ y en la tabla se muestra una pequeña base de datos que contiene los artículos, donde, en cada entrada, el valor 1 significa la presencia del artículo en la transacción correspondiente y el valor 0 representa la ausencia de un artículo en esa transacción.

Una regla de ejemplo para el supermercado podría ser ${\ displaystyle \ {\ mathrm {mantequilla, pan} \} \ Rightarrow \ {\ mathrm {leche} \}}$ lo que significa que si se compra mantequilla y pan, los clientes también compran leche.

Nota: este ejemplo es extremadamente pequeño. En aplicaciones prácticas, una regla necesita el respaldo de varios cientos de transacciones antes de que pueda considerarse estadísticamente significativa, ^{[ cita requerida ]} y los conjuntos de datos a menudo contienen miles o millones de transacciones.

Conceptos útiles

Para seleccionar reglas interesantes del conjunto de todas las reglas posibles, se utilizan restricciones sobre varias medidas de importancia e interés. Las limitaciones más conocidas son los umbrales mínimos de apoyo y confianza.

Dejar ${\ Displaystyle X, Y}$ ser conjuntos de elementos, ${\ Displaystyle X \ Rightarrow Y}$ una regla de asociación y ${\ Displaystyle T}$ un conjunto de transacciones de una base de datos determinada.

Apoyo

El soporte es una indicación de la frecuencia con la que aparece el conjunto de elementos en el conjunto de datos.

El apoyo de ${\ Displaystyle X}$ con respecto a ${\ Displaystyle T}$ se define como la proporción de transacciones en el conjunto de datos que contiene el conjunto de elementos ${\ Displaystyle X}$ .

${\ Displaystyle \ mathrm {supp} (X) = {\ frac {| \ {X \ subseteq T \} |} {| T |}}}$

En el conjunto de datos de ejemplo, el conjunto de elementos ${\ displaystyle X = \ {\ mathrm {cerveza, pañales} \}}$ tiene un apoyo de ${\ Displaystyle 1/5 = 0.2}$ ya que ocurre en el 20% de todas las transacciones (1 de cada 5 transacciones). El argumento de ${\ Displaystyle \ mathrm {supp} ()}$ es un conjunto de condiciones previas y, por lo tanto, se vuelve más restrictivo a medida que crece (en lugar de ser más inclusivo). ^[3]

Además, el conjunto de elementos ${\ displaystyle Y = \ {\ mathrm {leche, pan, mantequilla} \}}$ tiene un apoyo de ${\ Displaystyle 1/5 = 0.2}$ como también aparece en el 20% de todas las transacciones.

Confianza

La confianza es una indicación de la frecuencia con la que se ha descubierto que la regla es cierta.

El valor de confianza de una regla, ${\ Displaystyle X \ Rightarrow Y}$ , con respecto a un conjunto de transacciones ${\ Displaystyle T}$ , es la proporción de las transacciones que contiene ${\ Displaystyle X}$ que también contiene ${\ Displaystyle Y}$ .

La confianza se define como:

${\ Displaystyle \ mathrm {conf} (X \ Rightarrow Y) = \ mathrm {supp} (X \ cup Y) / \ mathrm {supp} (X)}$

Por ejemplo, la regla ${\ displaystyle \ {\ mathrm {mantequilla, pan} \} \ Rightarrow \ {\ mathrm {leche} \}}$ tiene una confianza de ${\ Displaystyle 0.2 / 0.2 = 1.0}$ en la base de datos, lo que significa que para el 100% de las transacciones que contienen mantequilla y pan, la regla es correcta (el 100% de las veces que un cliente compra mantequilla y pan, también compra leche).

Tenga en cuenta que ${\ Displaystyle \ mathrm {supp} (X \ cup Y)}$ significa el apoyo de la unión de los elementos en X e Y. Esto es algo confuso ya que normalmente pensamos en términos de probabilidades de eventos y no conjuntos de elementos. Podemos reescribir ${\ Displaystyle \ mathrm {supp} (X \ cup Y)}$ como la probabilidad ${\ Displaystyle P (E_ {X} \ cap E_ {Y})}$ , dónde ${\ Displaystyle E_ {X}}$ y ${\ Displaystyle E_ {Y}}$ son los eventos que una transacción contiene itemset ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ , respectivamente. ^[4]

Por tanto, la confianza se puede interpretar como una estimación de la probabilidad condicional ${\ Displaystyle P (E_ {Y} | E_ {X})}$ , la probabilidad de encontrar el RHS de la regla en transacciones con la condición de que estas transacciones también contengan el LHS. ^[3]^[5]

Elevar

El levantamiento de una regla se define como:

${\ Displaystyle \ mathrm {elevación} (X \ Flecha derecha Y) = {\ frac {\ mathrm {supp} (X \ cup Y)} {\ mathrm {supp} (X) \ times \ mathrm {supp} (Y) }}}$

o la relación entre el soporte observado y el esperado si X e Y fueran independientes .

Por ejemplo, la regla ${\ displaystyle \ {\ mathrm {leche, pan} \} \ Rightarrow \ {\ mathrm {mantequilla} \}}$ tiene un ascensor de ${\ displaystyle {\ frac {0.2} {0.4 \ times 0.4}} = 1.25}$ .

Si la regla tuviera una elevación de 1, implicaría que la probabilidad de ocurrencia del antecedente y la del consecuente son independientes entre sí. Cuando dos eventos son independientes entre sí, no se puede establecer una regla que involucre a esos dos eventos.

Si la elevación es> 1, eso nos permite saber el grado en que esas dos ocurrencias son dependientes entre sí, y hace que esas reglas sean potencialmente útiles para predecir el consecuente en conjuntos de datos futuros.

Si la elevación es <1, eso nos permite saber que los elementos se sustituyen entre sí. Esto significa que la presencia de un elemento tiene un efecto negativo sobre la presencia de otro elemento y viceversa.

El valor de la elevación es que considera tanto el respaldo de la regla como el conjunto de datos general. ^[3]

Convicción

La convicción de una regla se define como ${\ Displaystyle \ mathrm {conv} (X \ Rightarrow Y) = {\ frac {1- \ mathrm {supp} (Y)} {1- \ mathrm {conf} (X \ Rightarrow Y)}}}$ . ^[6]

Por ejemplo, la regla ${\ displaystyle \ {\ mathrm {leche, pan} \} \ Rightarrow \ {\ mathrm {mantequilla} \}}$ tiene una convicción de ${\ displaystyle {\ frac {1-0,4} {1-0,5}} = 1,2}$ , y se puede interpretar como la razón de la frecuencia esperada con la que X ocurre sin Y (es decir, la frecuencia con la que la regla hace una predicción incorrecta) si X e Y fueran independientes dividida por la frecuencia observada de predicciones incorrectas. En este ejemplo, el valor de convicción de 1.2 muestra que la regla ${\ displaystyle \ {\ mathrm {leche, pan} \} \ Rightarrow \ {\ mathrm {mantequilla} \}}$ sería incorrecta un 20% más a menudo (1,2 veces más) si la asociación entre X e Y fuera puramente aleatoria.

Medidas alternativas de interés

Además de la confianza, se han propuesto otras medidas de interés para las reglas. Algunas medidas populares son:

Confianza total ^[7]
Fuerza colectiva ^[8]
Apalancamiento ^[9]

Varias medidas más son presentadas y comparadas por Tan et al. ^[10] y por Hahsler. ^[4] Buscar técnicas que puedan modelar lo que el usuario ha conocido (y usar estos modelos como medidas de interés) es actualmente una tendencia de investigación activa bajo el nombre de "interés subjetivo".

Proceso

Rejilla de conjunto de elementos frecuente, donde el color del cuadro indica cuántas transacciones contienen la combinación de elementos. Tenga en cuenta que los niveles inferiores de la celosía pueden contener como máximo el número mínimo de elementos de sus padres; p. ej., {ac} solo puede tener como máximo

{\ Displaystyle min (a, c)}

artículos. Esto se llama propiedad de cierre hacia abajo . ^[2]

Las reglas de asociación generalmente se requieren para satisfacer un soporte mínimo especificado por el usuario y una confianza mínima especificada por el usuario al mismo tiempo. La generación de reglas de asociación generalmente se divide en dos pasos separados:

Se aplica un umbral de soporte mínimo para encontrar todos los conjuntos de elementos frecuentes en una base de datos.
Se aplica una restricción de confianza mínima a estos conjuntos de elementos frecuentes para formar reglas.

Si bien el segundo paso es sencillo, el primer paso necesita más atención.

Encontrar todos los conjuntos de elementos frecuentes en una base de datos es difícil, ya que implica buscar todos los conjuntos de elementos posibles (combinaciones de elementos). El conjunto de posibles conjuntos de elementos es el conjunto potencia durante ${\ Displaystyle I}$ y tiene tamaño ${\ Displaystyle 2 ^ {n} -1}$ (excluyendo el conjunto vacío que no es un conjunto de elementos válido). Aunque el tamaño del conjunto de potencia crece exponencialmente en el número de elementos ${\ Displaystyle n}$ en ${\ Displaystyle I}$ , la búsqueda eficiente es posible utilizando la propiedad de cierre hacia abajo de support ^[2]^[11] (también llamada anti-monotonicidad ^[12] ) que garantiza que para un conjunto de elementos frecuente, todos sus subconjuntos también son frecuentes y, por lo tanto, ningún conjunto de elementos infrecuente puede ser un subconjunto de un conjunto de elementos frecuentes. Aprovechando esta propiedad, algoritmos eficientes (por ejemplo, Apriori ^[13] y Eclat ^[14] ) pueden encontrar todos los conjuntos de elementos frecuentes.

Historia

El concepto de reglas de asociación se popularizó particularmente debido al artículo de 1993 de Agrawal et al., ^[2] que ha adquirido más de 23.790 citas según Google Scholar, hasta abril de 2021, y por lo tanto es uno de los artículos más citados en el Campo de minería de datos. Sin embargo, lo que ahora se llama "reglas de asociación" ya se introdujo en el artículo de 1966 ^[15] sobre GUHA, un método general de extracción de datos desarrollado por Petr Hájek et al. ^[dieciséis]

Un uso temprano (alrededor de 1989) de soporte y confianza mínimos para encontrar todas las reglas de asociación es el marco de modelado basado en características, que encontró todas las reglas con ${\ Displaystyle \ mathrm {supp} (X)}$ y ${\ Displaystyle \ mathrm {conf} (X \ Rightarrow Y)}$ mayor que las restricciones definidas por el usuario. ^[17]

Asociaciones estadísticamente sólidas

Una limitación del enfoque estándar para descubrir asociaciones es que al buscar en cantidades masivas de posibles asociaciones para buscar colecciones de elementos que parecen estar asociados, existe un gran riesgo de encontrar muchas asociaciones espurias. Estas son colecciones de elementos que coexisten con una frecuencia inesperada en los datos, pero solo lo hacen por casualidad. Por ejemplo, suponga que estamos considerando una colección de 10,000 elementos y buscando reglas que contengan dos elementos en el lado izquierdo y 1 elemento en el lado derecho. Hay aproximadamente 1,000,000,000,000 de tales reglas. Si aplicamos una prueba estadística de independencia con un nivel de significancia de 0.05, significa que solo hay un 5% de probabilidad de aceptar una regla si no hay asociación. Si asumimos que no hay asociaciones, deberíamos esperar encontrar 50.000.000.000 de reglas. Asociación descubrimiento Estadísticamente sonido ^[18]^[19] controla este riesgo, en la mayoría de casos, reduciendo el riesgo de encontrar cualquier asociaciones espurias para un nivel de significación especificado por el usuario.

Algoritmos

Se han propuesto muchos algoritmos para generar reglas de asociación.

Algunos algoritmos conocidos son Apriori , Eclat y FP-Growth, pero solo hacen la mitad del trabajo, ya que son algoritmos para extraer conjuntos de elementos frecuentes. Se debe realizar otro paso después para generar reglas a partir de conjuntos de elementos frecuentes que se encuentran en una base de datos.

Algoritmo a priori

Apriori ^[13] utiliza una estrategia de búsqueda de amplitud primero para contar el soporte de conjuntos de elementos y utiliza una función de generación de candidatos que explota la propiedad de cierre descendente del soporte.

Algoritmo Eclat

Eclat ^[14] (alt. ECLAT, siglas de Equivalence Class Transformation) es un algoritmo de búsqueda en profundidad basado en la intersección de conjuntos. Es adecuado tanto para ejecución secuencial como paralela con propiedades que mejoran la localidad. ^[20]^[21]

Algoritmo de crecimiento FP

FP significa patrón frecuente. ^[22]

En la primera pasada, el algoritmo cuenta las apariciones de elementos (pares atributo-valor) en el conjunto de datos de transacciones y almacena estos recuentos en una 'tabla de encabezado'. En el segundo paso, construye la estructura de árbol FP insertando transacciones en un trie .

Los elementos de cada transacción deben clasificarse por orden descendente de su frecuencia en el conjunto de datos antes de insertarse para que el árbol se pueda procesar rápidamente. Los artículos de cada transacción que no cumplen con el requisito mínimo de soporte se descartan. Si muchas transacciones comparten los elementos más frecuentes, el árbol FP proporciona una alta compresión cerca de la raíz del árbol.

El procesamiento recursivo de esta versión comprimida del conjunto de datos principal genera conjuntos de elementos frecuentes directamente, en lugar de generar elementos candidatos y probarlos con toda la base de datos (como en el algoritmo a priori).

El crecimiento comienza desde la parte inferior de la tabla de encabezado, es decir, el elemento con el soporte más pequeño al encontrar todas las transacciones ordenadas que terminan en ese elemento. Llamar a este artículo ${\ Displaystyle I}$ .

Se crea un nuevo árbol condicional que es el árbol FP original proyectado en ${\ Displaystyle I}$ . Los apoyos de todos los nodos en el árbol proyectado se vuelven a contar y cada nodo obtiene la suma de sus recuentos secundarios. Se podan los nodos (y por lo tanto los subárboles) que no cumplen con el soporte mínimo. El crecimiento recursivo finaliza cuando no hay elementos individuales condicionados a ${\ Displaystyle I}$ cumplir con el umbral mínimo de soporte. Los caminos resultantes de la raíz a ${\ Displaystyle I}$ serán conjuntos de elementos frecuentes. Después de este paso, el procesamiento continúa con el siguiente elemento de encabezado menos admitido del árbol FP original.

Una vez que se haya completado el proceso recursivo, se habrán encontrado todos los conjuntos de elementos frecuentes y comenzará la creación de reglas de asociación. ^[23]

Otros

ASSOC

El procedimiento ASSOC ^[24] es un método GUHA que busca reglas de asociación generalizadas usando operaciones rápidas de cadenas de bits . Las reglas de asociación extraídas por este método son más generales que las producidas por apriori, por ejemplo, los "elementos" se pueden conectar tanto con conjunciones como con disyunciones y la relación entre el antecedente y el consecuente de la regla no se limita a establecer un mínimo de apoyo y confianza como en apriori: se puede utilizar una combinación arbitraria de medidas de interés respaldado.

Búsqueda OPUS

OPUS es un algoritmo eficiente para el descubrimiento de reglas que, a diferencia de la mayoría de las alternativas, no requiere restricciones monótonas o anti monótonas, como un soporte mínimo. ^[25] Inicialmente utilizado para encontrar reglas para un consecuente fijo ^[25]^[26] posteriormente se ha ampliado para encontrar reglas con cualquier elemento como consecuente. ^{[27] La} búsqueda OPUS es la tecnología central en el popular sistema de descubrimiento de asociaciones Magnum Opus.

Ciencia

Una historia famosa sobre la minería de reglas de asociación es la historia de la "cerveza y el pañal". Una supuesta encuesta sobre el comportamiento de los compradores de los supermercados descubrió que los clientes (presumiblemente hombres jóvenes) que compran pañales también tienden a comprar cerveza. Esta anécdota se hizo popular como un ejemplo de cómo se pueden encontrar reglas de asociación inesperadas a partir de datos cotidianos. Hay diferentes opiniones sobre la verdad de la historia. ^[28] Daniel Powers dice: ^[28]

En 1992, Thomas Blischok, director de un grupo de consultoría minorista en Teradata , y su personal prepararon un análisis de 1,2 millones de cestas de mercado de unas 25 farmacias Osco. Se desarrollaron consultas a la base de datos para identificar afinidades. El análisis "sí descubrió que entre las 17:00 y las 19:00 horas los consumidores compraban cerveza y pañales". Los gerentes de Osco NO explotaron la relación entre la cerveza y los pañales al acercar los productos en los estantes.

Otros tipos de minería de reglas de asociación

Reglas de asociación de relaciones múltiples: Las reglas de asociación de relaciones múltiples (MRAR) son reglas de asociación en las que cada elemento puede tener varias relaciones. Estas relaciones indican una relación indirecta entre las entidades. Considere la MRAR siguiente, donde el primer elemento consiste en tres relaciones de vivir en , cercano y húmedo : “Los que viven en un lugar que es cercana una ciudad con húmedo tipo de clima y también son más jóvenes de 20 -> su estado de salud es bueno”. Estas reglas de asociación se pueden extraer de los datos RDBMS o de los datos de la web semántica. ^[29]

El aprendizaje por conjuntos de contrastes es una forma de aprendizaje asociativo. Los alumnos de conjuntos de contraste utilizan reglas que difieren significativamente en su distribución entre subconjuntos. ^[30]^[31]

El aprendizaje ponderado en clase es otra forma de aprendizaje asociativo en el que se puede asignar peso a las clases para enfocar un tema particular de interés para el consumidor de los resultados de la minería de datos.

El descubrimiento de patrones de alto orden facilita la captura de patrones de alto orden (politéticos) o asociaciones de eventos que son intrínsecos a datos complejos del mundo real. ^[32]

El descubrimiento de patrones K-óptimo proporciona una alternativa al enfoque estándar para el aprendizaje de reglas de asociación que requiere que cada patrón aparezca con frecuencia en los datos.

La minería de conjuntos de elementos frecuentes aproximados es una versión relajada de la minería de conjuntos de elementos frecuentes que permite que algunos de los elementos en algunas de las filas sean 0. ^[33]

Taxonomía jerárquica de reglas de asociación generalizadas (jerarquía de conceptos)

Reglas de asociación cuantitativa datos categóricos y cuantitativos

Reglas de asociación de datos de intervalo, por ejemplo, dividir la edad en rangos de incrementos de 5 años

La minería de patrones secuenciales descubre subsecuencias que son comunes a más de las secuencias de minsup^{[ aclaración necesaria ]} en una base de datos de secuencias, donde el usuario establece minsup. Una secuencia es una lista ordenada de transacciones. ^[34]

La agrupación en clústeres subespacial , un tipo específico de agrupación de datos de alta dimensión , también se basa en muchas variantes en la propiedad de cierre hacia abajo para modelos de agrupación específicos. ^[35]

Warmr se envía como parte de la suite de minería de datos ACE. Permite el aprendizaje de reglas de asociación para reglas relacionales de primer orden. ^[36]

Ver también

Minería de secuencia
Sistema de producción (informática)
Sistema clasificador de aprendizaje
Aprendizaje automático basado en reglas

Referencias

^ Piatetsky-Shapiro, Gregory (1991), Descubrimiento, análisis y presentación de reglas fuertes , en Piatetsky-Shapiro, Gregory; y Frawley, William J .; eds., Descubrimiento de conocimientos en bases de datos , AAAI / MIT Press, Cambridge, MA.
^ a b c d e f Agrawal, R .; Imieliński, T .; Swami, A. (1993). "Reglas de asociación minera entre conjuntos de elementos en grandes bases de datos". Actas de la conferencia internacional ACM SIGMOD de 1993 sobre Gestión de datos - SIGMOD '93 . pag. 207. CiteSeerX 10.1.1.40.6984 . doi : 10.1145 / 170035.170072 . ISBN 978-0897915922. S2CID 490415 .
^ a b c Hahsler, Michael (2005). "Introducción a arules - Un entorno computacional para reglas de asociación minera y conjuntos de elementos frecuentes" (PDF) . Revista de software estadístico . doi : 10.18637 / jss.v014.i15 .
↑ a b Michael Hahsler (2015). Una comparación probabilística de las medidas de interés comúnmente utilizadas para las reglas de asociación. http://michael.hahsler.net/research/association_rules/measures.html
^ Hipp, J .; Güntzer, U .; Nakhaeizadeh, G. (2000). "Algoritmos para la minería de reglas de asociación --- un estudio general y una comparación". Boletín de exploración de ACM SIGKDD . 2 : 58–64. CiteSeerX 10.1.1.38.5305 . doi : 10.1145 / 360402.360421 . S2CID 9248096 .
^ Brin, Sergey; Motwani, Rajeev; Ullman, Jeffrey D .; Tsur, Shalom (1997). "Reglas dinámicas de recuento e implicación de elementos para los datos de la cesta de la compra". Actas de la conferencia internacional ACM SIGMOD de 1997 sobre Gestión de datos - SIGMOD '97 . págs. 255-264. CiteSeerX 10.1.1.41.6476 . doi : 10.1145 / 253260.253325 . ISBN 978-0897919111. S2CID 15385590 .
^ Omiecinski, ER (2003). "Medidas alternativas de interés para asociaciones mineras en bases de datos". Transacciones IEEE sobre conocimiento e ingeniería de datos . 15 : 57–69. CiteSeerX 10.1.1.329.5344 . doi : 10.1109 / TKDE.2003.1161582 .
^ Aggarwal, Charu C .; Yu, Philip S. (1998). "Un nuevo marco para la generación de conjuntos de elementos". Actas del decimoséptimo simposio ACM SIGACT-SIGMOD-SIGART sobre los principios de los sistemas de bases de datos - PODS '98 . págs. 18-24. CiteSeerX 10.1.1.24.714 . doi : 10.1145 / 275487.275490 . ISBN 978-0897919968. S2CID 11934586 .
^ Piatetsky-Shapiro, Gregory; Descubrimiento, análisis y presentación de reglas sólidas , Descubrimiento de conocimientos en bases de datos, 1991, págs. 229-248
^ Tan, Pang-Ning; Kumar, Vipin; Srivastava, Jaideep (2004). "Seleccionar la medida objetiva adecuada para el análisis de asociación". Sistemas de información . 29 (4): 293–313. CiteSeerX 10.1.1.331.4740 . doi : 10.1016 / S0306-4379 (03) 00072-3 .
^ Tan, Pang-Ning; Michael, Steinbach; Kumar, Vipin (2005). "Capítulo 6. Análisis de asociación: conceptos básicos y algoritmos" (PDF) . Introducción a la minería de datos . Addison-Wesley . ISBN 978-0-321-32136-7.
^ Jian Pei; Jiawei Han; Lakshmanan, LVS (2001). "Extracción de conjuntos de elementos frecuentes con restricciones convertibles". Actas del 17º Congreso Internacional de Ingeniería de Datos . págs. 433–442. CiteSeerX 10.1.1.205.2150 . doi : 10.1109 / ICDE.2001.914856 . ISBN 978-0-7695-1001-9. S2CID 1080975 .
^ a b Agrawal, Rakesh; y Srikant, Ramakrishnan; Algoritmos rápidos para reglas de asociación minera en grandes bases de datos Archivado 2015-02-25 en Wayback Machine , en Bocca, Jorge B .; Jarke, Matthias; y Zaniolo, Carlo; editores, Actas de la 20a Conferencia Internacional sobre Bases de Datos Muy Grandes (VLDB), Santiago de Chile, septiembre de 1994 , páginas 487-499
^ a b Zaki, MJ (2000). "Algoritmos escalables para minería asociativa". Transacciones IEEE sobre conocimiento e ingeniería de datos . 12 (3): 372–390. CiteSeerX 10.1.1.79.9448 . doi : 10.1109 / 69.846291 .
^ Hájek, P .; Havel, I .; Chytil, M. (1966). "El método GUHA de determinación automática de hipótesis". Computación . 1 (4): 293–308. doi : 10.1007 / BF02345483 . S2CID 10511114 .
^ Hájek, Petr; Rauch, Jan; Coufal, David; Feglar, Tomáš (2004). "El método GUHA, preprocesamiento de datos y minería". Soporte de base de datos para aplicaciones de minería de datos . Apuntes de conferencias en Ciencias de la Computación. 2682 . págs. 135-153. doi : 10.1007 / 978-3-540-44497-8_7 . ISBN 978-3-540-22479-2.
^ Webb, Geoffrey (1989). "Un enfoque de aprendizaje automático para el modelado de estudiantes". Actas de la Tercera Conferencia Conjunta Australiana sobre Inteligencia Artificial (AI 89) : 195–205.
^ Webb, Geoffrey I. (2007). "Descubriendo patrones significativos" . Aprendizaje automático . 68 : 1–33. doi : 10.1007 / s10994-007-5006-x .
^ Gionis, Arístides; Mannila, Heikki; Mielikäinen, Taneli; Tsaparas, Panayiotis (2007). "Evaluación de los resultados de la minería de datos a través de swap randomization" Transacciones de ACM sobre el descubrimiento de conocimientos a partir de datos . 1 (3): 14 – es. CiteSeerX 10.1.1.141.2607 . doi : 10.1145 / 1297332.1297338 . S2CID 52305658 .
^ Zaki, Mohammed Javeed; Parthasarathy, Srinivasan; Ogihara, Mitsunori; Li, Wei (1997). "Nuevos algoritmos para el descubrimiento rápido de reglas de asociación": 283-286. CiteSeerX 10.1.1.42.3283 . hdl : 1802/501 . Cite journal requiere |journal=( ayuda )
^ Zaki, Mohammed J .; Parthasarathy, Srinivasan; Ogihara, Mitsunori; Li, Wei (1997). "Algoritmos paralelos para el descubrimiento de reglas de asociación". Minería de datos y descubrimiento de conocimientos . 1 (4): 343–373. doi : 10.1023 / A: 1009773317876 . S2CID 10038675 .
^ Han (2000). "Minería de patrones frecuentes sin generación de candidatos". Actas de la conferencia internacional 2000 ACM SIGMOD sobre Gestión de datos - SIGMOD '00 . Actas de la Conferencia Internacional 2000 ACM SIGMOD sobre Gestión de Datos . SIGMOD '00. págs. 1-12. CiteSeerX 10.1.1.40.4436 . doi : 10.1145 / 342009.335372 . ISBN 978-1581132175. S2CID 6059661 .
^ Witten, Frank, Hall: herramientas y técnicas prácticas de aprendizaje automático de minería de datos, tercera edición^{[ página necesaria ]}
^ Hájek, Petr; Havránek, Tomáš (1978). Mecanizar la formación de hipótesis: fundamentos matemáticos de una teoría general . Springer-Verlag. ISBN 978-3-540-08738-0.
↑ a b Webb, Geoffrey I. (1995); OPUS: An Efficient Admissible Algorithm for Unordered Search , Journal of Artificial Intelligence Research 3, Menlo Park, CA: AAAI Press, págs. 431-465 acceso en línea
^ Bayardo, Roberto J., Jr .; Agrawal, Rakesh; Gunopulos, Dimitrios (2000). "Minería de reglas basada en restricciones en bases de datos grandes y densas". Minería de datos y descubrimiento de conocimientos . 4 (2): 217–240. doi : 10.1023 / A: 1009895914772 . S2CID 5120441 .
^ Webb, Geoffrey I. (2000). "Búsqueda eficiente de reglas de asociación". Actas de la sexta conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos - KDD '00 . págs. 99-107. CiteSeerX 10.1.1.33.1309 . doi : 10.1145 / 347090.347112 . ISBN 978-1581132335. S2CID 5444097 .
^ a b "DSS News: Vol. 3, No. 23" .
↑ Ramezani, Reza, Mohamad Sunni ee y Mohammad Ali Nematbakhsh; MRAR: Mining Multi-Relation Association Rules , Journal of Computing and Security, 1, no. 2 (2014)
^ GI Webb y S. Butler y D. Newlands (2003). Sobre la detección de diferencias entre grupos . KDD'03 Actas de la Novena Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos.
^ Menzies, T .; Ying Hu (2003). "Prácticas informáticas - Minería de datos para personas muy ocupadas". Computadora . 36 (11): 22-29. doi : 10.1109 / MC.2003.1244531 .
^ Wong, AKC; Yang Wang (1997). "Descubrimiento de patrones de orden superior a partir de datos de valor discreto". Transacciones IEEE sobre conocimiento e ingeniería de datos . 9 (6): 877–893. CiteSeerX 10.1.1.189.1704 . doi : 10.1109 / 69.649314 .
^ Liu, Jinze; Paulsen, Susan; Sun, Xing; Wang, Wei; Nobel, Andrew; Prins, enero (2006). "Minería de conjuntos de elementos frecuentes aproximados en presencia de ruido: algoritmo y análisis". Actas de la Conferencia Internacional SIAM de 2006 sobre Minería de Datos . págs. 407–418. CiteSeerX 10.1.1.215.3599 . doi : 10.1137 / 1.9781611972764.36 . ISBN 978-0-89871-611-5.
^ Zaki, Mohammed J. (2001); SPADE: An Efficient Algorithm for Mining Frequent Sequences , Machine Learning Journal, 42, págs. 31–60
^ Zimek, Arthur; Asentimiento, Ira; Vreeken, Jilles (2014). Minería de patrones frecuente . págs. 403–423. doi : 10.1007 / 978-3-319-07821-2_16 . ISBN 978-3-319-07820-5.
^ King, RD; Srinivasan, A .; Dehaspe, L. (febrero de 2001). "Warmr: una herramienta de minería de datos para datos químicos". J Comput Aided Mol Des . 15 (2): 173–81. Código bibliográfico : 2001JCAMD..15..173K . doi : 10.1023 / A: 1008171016861 . PMID 11272703 . S2CID 3055046 .

Bibliografias

Bibliografía comentada sobre las reglas de la asociación por M. Hahsler

[piatetsky-1] Piatetsky-Shapiro, Gregory (1991), Descubrimiento, análisis y presentación de reglas fuertes , en Piatetsky-Shapiro, Gregory; y Frawley, William J .; eds., Descubrimiento de conocimientos en bases de datos , AAAI / MIT Press, Cambridge, MA.

[mining-2] Agrawal, R .; Imieliński, T .; Swami, A. (1993). "Reglas de asociación minera entre conjuntos de elementos en grandes bases de datos". Actas de la conferencia internacional ACM SIGMOD de 1993 sobre Gestión de datos - SIGMOD '93 . pag. 207. CiteSeerX 10.1.1.40.6984 . doi : 10.1145 / 170035.170072 . ISBN 978-0897915922. S2CID 490415 .

[:0-3] Hahsler, Michael (2005). "Introducción a arules - Un entorno computacional para reglas de asociación minera y conjuntos de elementos frecuentes" (PDF) . Revista de software estadístico . doi : 10.18637 / jss.v014.i15 .

[michael.hahsler.net-4] Michael Hahsler (2015). Una comparación probabilística de las medidas de interés comúnmente utilizadas para las reglas de asociación. http://michael.hahsler.net/research/association_rules/measures.html

[hipp-5] Hipp, J .; Güntzer, U .; Nakhaeizadeh, G. (2000). "Algoritmos para la minería de reglas de asociación --- un estudio general y una comparación". Boletín de exploración de ACM SIGKDD . 2 : 58–64. CiteSeerX 10.1.1.38.5305 . doi : 10.1145 / 360402.360421 . S2CID 9248096 .

[brin-dynamic-itemset1-6] Brin, Sergey; Motwani, Rajeev; Ullman, Jeffrey D .; Tsur, Shalom (1997). "Reglas dinámicas de recuento e implicación de elementos para los datos de la cesta de la compra". Actas de la conferencia internacional ACM SIGMOD de 1997 sobre Gestión de datos - SIGMOD '97 . págs. 255-264. CiteSeerX 10.1.1.41.6476 . doi : 10.1145 / 253260.253325 . ISBN 978-0897919111. S2CID 15385590 .

[allconfidence-7] Omiecinski, ER (2003). "Medidas alternativas de interés para asociaciones mineras en bases de datos". Transacciones IEEE sobre conocimiento e ingeniería de datos . 15 : 57–69. CiteSeerX 10.1.1.329.5344 . doi : 10.1109 / TKDE.2003.1161582 .

[collectivestrength-8] Aggarwal, Charu C .; Yu, Philip S. (1998). "Un nuevo marco para la generación de conjuntos de elementos". Actas del decimoséptimo simposio ACM SIGACT-SIGMOD-SIGART sobre los principios de los sistemas de bases de datos - PODS '98 . págs. 18-24. CiteSeerX 10.1.1.24.714 . doi : 10.1145 / 275487.275490 . ISBN 978-0897919968. S2CID 11934586 .

[leverage-9] Piatetsky-Shapiro, Gregory; Descubrimiento, análisis y presentación de reglas sólidas , Descubrimiento de conocimientos en bases de datos, 1991, págs. 229-248

[measurescomp-10] Tan, Pang-Ning; Kumar, Vipin; Srivastava, Jaideep (2004). "Seleccionar la medida objetiva adecuada para el análisis de asociación". Sistemas de información . 29 (4): 293–313. CiteSeerX 10.1.1.331.4740 . doi : 10.1016 / S0306-4379 (03) 00072-3 .

[11] Tan, Pang-Ning; Michael, Steinbach; Kumar, Vipin (2005). "Capítulo 6. Análisis de asociación: conceptos básicos y algoritmos" (PDF) . Introducción a la minería de datos . Addison-Wesley . ISBN 978-0-321-32136-7.

[pei-12] Jian Pei; Jiawei Han; Lakshmanan, LVS (2001). "Extracción de conjuntos de elementos frecuentes con restricciones convertibles". Actas del 17º Congreso Internacional de Ingeniería de Datos . págs. 433–442. CiteSeerX 10.1.1.205.2150 . doi : 10.1109 / ICDE.2001.914856 . ISBN 978-0-7695-1001-9. S2CID 1080975 .

[apriori-13] Agrawal, Rakesh; y Srikant, Ramakrishnan; Algoritmos rápidos para reglas de asociación minera en grandes bases de datos Archivado 2015-02-25 en Wayback Machine , en Bocca, Jorge B .; Jarke, Matthias; y Zaniolo, Carlo; editores, Actas de la 20a Conferencia Internacional sobre Bases de Datos Muy Grandes (VLDB), Santiago de Chile, septiembre de 1994 , páginas 487-499

[eclat-14] Zaki, MJ (2000). "Algoritmos escalables para minería asociativa". Transacciones IEEE sobre conocimiento e ingeniería de datos . 12 (3): 372–390. CiteSeerX 10.1.1.79.9448 . doi : 10.1109 / 69.846291 .

[guha_oldest-15] Hájek, P .; Havel, I .; Chytil, M. (1966). "El método GUHA de determinación automática de hipótesis". Computación . 1 (4): 293–308. doi : 10.1007 / BF02345483 . S2CID 10511114 .

[pospaper-16] Hájek, Petr; Rauch, Jan; Coufal, David; Feglar, Tomáš (2004). "El método GUHA, preprocesamiento de datos y minería". Soporte de base de datos para aplicaciones de minería de datos . Apuntes de conferencias en Ciencias de la Computación. 2682 . págs. 135-153. doi : 10.1007 / 978-3-540-44497-8_7 . ISBN 978-3-540-22479-2.

[17] Webb, Geoffrey (1989). "Un enfoque de aprendizaje automático para el modelado de estudiantes". Actas de la Tercera Conferencia Conjunta Australiana sobre Inteligencia Artificial (AI 89) : 195–205.

[18] Webb, Geoffrey I. (2007). "Descubriendo patrones significativos" . Aprendizaje automático . 68 : 1–33. doi : 10.1007 / s10994-007-5006-x .

[19] Gionis, Arístides; Mannila, Heikki; Mielikäinen, Taneli; Tsaparas, Panayiotis (2007). "Evaluación de los resultados de la minería de datos a través de swap randomization" Transacciones de ACM sobre el descubrimiento de conocimientos a partir de datos . 1 (3): 14 – es. CiteSeerX 10.1.1.141.2607 . doi : 10.1145 / 1297332.1297338 . S2CID 52305658 .

[20] Zaki, Mohammed Javeed; Parthasarathy, Srinivasan; Ogihara, Mitsunori; Li, Wei (1997). "Nuevos algoritmos para el descubrimiento rápido de reglas de asociación": 283-286. CiteSeerX 10.1.1.42.3283 . hdl : 1802/501 . Cite journal requiere |journal=( ayuda )

[21] Zaki, Mohammed J .; Parthasarathy, Srinivasan; Ogihara, Mitsunori; Li, Wei (1997). "Algoritmos paralelos para el descubrimiento de reglas de asociación". Minería de datos y descubrimiento de conocimientos . 1 (4): 343–373. doi : 10.1023 / A: 1009773317876 . S2CID 10038675 .

[22] Han (2000). "Minería de patrones frecuentes sin generación de candidatos". Actas de la conferencia internacional 2000 ACM SIGMOD sobre Gestión de datos - SIGMOD '00 . Actas de la Conferencia Internacional 2000 ACM SIGMOD sobre Gestión de Datos . SIGMOD '00. págs. 1-12. CiteSeerX 10.1.1.40.4436 . doi : 10.1145 / 342009.335372 . ISBN 978-1581132175. S2CID 6059661 .

[23] Witten, Frank, Hall: herramientas y técnicas prácticas de aprendizaje automático de minería de datos, tercera edición^{[ página necesaria ]}

[24] Hájek, Petr; Havránek, Tomáš (1978). Mecanizar la formación de hipótesis: fundamentos matemáticos de una teoría general . Springer-Verlag. ISBN 978-3-540-08738-0.

[OPUS-25] Webb, Geoffrey I. (1995); OPUS: An Efficient Admissible Algorithm for Unordered Search , Journal of Artificial Intelligence Research 3, Menlo Park, CA: AAAI Press, págs. 431-465 acceso en línea

[Bayardo-26] Bayardo, Roberto J., Jr .; Agrawal, Rakesh; Gunopulos, Dimitrios (2000). "Minería de reglas basada en restricciones en bases de datos grandes y densas". Minería de datos y descubrimiento de conocimientos . 4 (2): 217–240. doi : 10.1023 / A: 1009895914772 . S2CID 5120441 .

[webb-27] Webb, Geoffrey I. (2000). "Búsqueda eficiente de reglas de asociación". Actas de la sexta conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos - KDD '00 . págs. 99-107. CiteSeerX 10.1.1.33.1309 . doi : 10.1145 / 347090.347112 . ISBN 978-1581132335. S2CID 5444097 .

[dss-28] "DSS News: Vol. 3, No. 23" .

[MRAR:_Mining_Multi-Relation_Association_Rules-29] Ramezani, Reza, Mohamad Sunni ee y Mohammad Ali Nematbakhsh; MRAR: Mining Multi-Relation Association Rules , Journal of Computing and Security, 1, no. 2 (2014)

[webb03-30] GI Webb y S. Butler y D. Newlands (2003). Sobre la detección de diferencias entre grupos . KDD'03 Actas de la Novena Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos.

[busy-31] Menzies, T .; Ying Hu (2003). "Prácticas informáticas - Minería de datos para personas muy ocupadas". Computadora . 36 (11): 22-29. doi : 10.1109 / MC.2003.1244531 .

[discovere-32] Wong, AKC; Yang Wang (1997). "Descubrimiento de patrones de orden superior a partir de datos de valor discreto". Transacciones IEEE sobre conocimiento e ingeniería de datos . 9 (6): 877–893. CiteSeerX 10.1.1.189.1704 . doi : 10.1109 / 69.649314 .

[33] Liu, Jinze; Paulsen, Susan; Sun, Xing; Wang, Wei; Nobel, Andrew; Prins, enero (2006). "Minería de conjuntos de elementos frecuentes aproximados en presencia de ruido: algoritmo y análisis". Actas de la Conferencia Internacional SIAM de 2006 sobre Minería de Datos . págs. 407–418. CiteSeerX 10.1.1.215.3599 . doi : 10.1137 / 1.9781611972764.36 . ISBN 978-0-89871-611-5.

[sequence-34] Zaki, Mohammed J. (2001); SPADE: An Efficient Algorithm for Mining Frequent Sequences , Machine Learning Journal, 42, págs. 31–60

[ZimekAssent2014-35] Zimek, Arthur; Asentimiento, Ira; Vreeken, Jilles (2014). Minería de patrones frecuente . págs. 403–423. doi : 10.1007 / 978-3-319-07821-2_16 . ISBN 978-3-319-07820-5.

[36] King, RD; Srinivasan, A .; Dehaspe, L. (febrero de 2001). "Warmr: una herramienta de minería de datos para datos químicos". J Comput Aided Mol Des . 15 (2): 173–81. Código bibliográfico : 2001JCAMD..15..173K . doi : 10.1023 / A: 1008171016861 . PMID 11272703 . S2CID 3055046 .

[1]