La computación granular (GrC) es un paradigma de computación emergente de procesamiento de información que se refiere al procesamiento de entidades de información complejas llamadas " gránulos de información ", que surgen en el proceso de abstracción de datos y derivación de conocimiento a partir de información o datos. En términos generales, los gránulos de información son colecciones de entidades que normalmente se originan en el nivel numérico y se organizan juntas debido a su similitud , adyacencia funcional o física, indistinguibilidad, coherencia o similares.
En la actualidad, la computación granular es más una perspectiva teórica que un conjunto coherente de métodos o principios. Como perspectiva teórica, fomenta un enfoque de los datos que reconoce y explota el conocimiento presente en los datos en varios niveles de resolución o escalas. En este sentido, engloba todos los métodos que aportan flexibilidad y adaptabilidad en la resolución en la que se extrae y representa el conocimiento o la información.
Tipos de granulación
Como se mencionó anteriormente, la computación granular no es un algoritmo o proceso; no existe un método en particular que se llame "computación granular". Es más bien un enfoque para observar datos que reconoce cómo pueden aparecer diferentes e interesantes regularidades en los datos en diferentes niveles de granularidad, al igual que diferentes características se vuelven sobresalientes en imágenes de satélite de mayor o menor resolución. En una imagen satelital de baja resolución, por ejemplo, uno podría notar patrones de nubes interesantes que representan ciclones u otros fenómenos meteorológicos a gran escala, mientras que en una imagen de mayor resolución, uno pierde estos fenómenos atmosféricos a gran escala, pero en su lugar nota fenómenos a menor escala. , como el interesante patrón que tienen las calles de Manhattan . Lo mismo ocurre en general con todos los datos: en diferentes resoluciones o granularidades, surgen diferentes características y relaciones. El objetivo de la computación granular es intentar aprovechar este hecho para diseñar sistemas de razonamiento y aprendizaje automático más efectivos.
Hay varios tipos de granularidad que se encuentran a menudo en la minería de datos y el aprendizaje automático , y los revisamos a continuación:
Granulación de valor (discretización / cuantificación)
Un tipo de granulación es la cuantificación de variables. Es muy común que en aplicaciones de minería de datos o aprendizaje automático, la resolución de variables deba reducirse para extraer regularidades significativas. Un ejemplo de esto sería una variable como "temperatura exterior" (), que en una aplicación determinada puede registrarse con varios decimales de precisión (según el aparato sensor). Sin embargo, con el fin de extraer relaciones entre "temperatura exterior" y, digamos, "número de solicitudes de clubes de salud" (), generalmente será ventajoso cuantificar la "temperatura exterior" en un número menor de intervalos.
Motivaciones
Hay varias razones interrelacionadas para granular variables de esta manera:
- Según el conocimiento previo del dominio , no se espera que variaciones mínimas de temperatura (p. Ej., La diferencia entre 80-80,7 ° F (26,7-27,1 ° C)) puedan influir en los comportamientos que impulsan el número de solicitudes de clubes de salud. Por esta razón, cualquier "regularidad" que nuestros algoritmos de aprendizaje pudieran detectar a este nivel de resolución tendría que ser falsa , como un artefacto de sobreajuste. Por engrosamiento de la variable de temperatura en intervalos de la diferencia entre los que sí anticipamos (basado en el conocimiento previo) podría influir en el número de aplicaciones de centro de bienestar, eliminamos la posibilidad de detectar estos patrones espurias. Por tanto, en este caso, la reducción de la resolución es un método para controlar el sobreajuste .
- Al reducir el número de intervalos en la variable de temperatura (es decir, aumentar su tamaño de grano ), aumentamos la cantidad de datos de muestra indexados por cada designación de intervalo. Por lo tanto, al engrosar la variable, aumentamos el tamaño de la muestra y logramos una mejor estimación estadística. En este sentido, el aumento de la granularidad proporciona un antídoto contra la llamada maldición de la dimensionalidad , que se relaciona con la disminución exponencial del poder estadístico con el aumento del número de dimensiones o cardinalidad variable.
- Independientemente del conocimiento previo del dominio, es frecuente que existan regularidades significativas (es decir, que pueden detectarse mediante una metodología de aprendizaje determinada, lenguaje representativo, etc.) en un nivel de resolución y no en otro.
Por ejemplo, un alumno simple o un sistema de reconocimiento de patrones puede buscar extraer regularidades que satisfagan un umbral de probabilidad condicional como. En el caso especial donde, este sistema de reconocimiento detecta esencialmente la implicación lógica de la forma o, en palabras, "si , luego ". La capacidad del sistema para reconocer tales implicaciones (o, en general, las probabilidades condicionales que superan el umbral) depende parcialmente de la resolución con la que el sistema analiza las variables.
Como ejemplo de este último punto, considere el espacio de características que se muestra a la derecha. Cada una de las variables puede considerarse en dos resoluciones diferentes. Variable puede considerarse a una resolución alta (cuaternaria) en la que toma los cuatro valores o en una resolución más baja (binaria) en la que toma los dos valores . Del mismo modo, variable puede considerarse en una resolución alta (cuaternaria) o en una resolución más baja (binaria), donde toma los valores o , respectivamente. En alta resolución, no hay implicaciones detectables de la forma., ya que cada está asociado con más de uno , y así, para todos , . Sin embargo, en la resolución de variable baja (binaria), dos implicaciones bilaterales se vuelven detectables: y , ya que cada ocurre si y ocurre si . Por lo tanto, un sistema de reconocimiento de patrones que busque implicaciones de este tipo las encontraría en la resolución de la variable binaria, pero no las encontraría en la resolución de la variable cuaternaria más alta.
Problemas y métodos
No es factible probar exhaustivamente todas las posibles resoluciones de discretización en todas las variables para ver qué combinación de resoluciones produce resultados interesantes o significativos. En cambio, el espacio de características debe procesarse previamente (a menudo mediante un análisis de entropía de algún tipo) para que se pueda dar alguna orientación sobre cómo debe proceder el proceso de discretización. Además, en general, no se pueden lograr buenos resultados analizando ingenuamente y discretizando cada variable de forma independiente, ya que esto puede borrar las mismas interacciones que esperábamos descubrir.
Una muestra de artículos que abordan el problema de la discretización de variables en general, y la discretización de variables múltiples en particular, es la siguiente: Chiu, Wong & Cheung (1991) , Bay (2001) , Liu et al. (2002) , Wang y Liu (1998) , Zighed, Rabaséda y Rakotomalala (1998) , Catlett (1991) , Dougherty, Kohavi y Sahami (1995) , Monti y Cooper (1999) , Fayyad e Irani (1993) , Chiu, Cheung y Wong (1990) , Nguyen y Nguyen (1998) , Grzymala-Busse y Stefanowski (2001) , Ting (1994) , Ludl y Widmer (2000) , Pfahringer (1995) , An y Cercone (1999) , Chiu y Cheung (1989) , Chmielewski y Grzymala-Busse (1996) , Lee y Shin (1994) , Liu y Wellman (2002) , Liu y Wellman (2004) .
Granulación variable (agrupamiento / agregación / transformación)
La granulación variable es un término que podría describir una variedad de técnicas, la mayoría de las cuales tienen como objetivo reducir la dimensionalidad, la redundancia y los requisitos de almacenamiento. Aquí describimos brevemente algunas de las ideas y presentamos sugerencias para la literatura.
Transformación variable
Varios métodos clásicos, como el análisis de componentes principales , el escalado multidimensional , el análisis factorial y el modelado de ecuaciones estructurales , y sus parientes, pertenecen al género de "transformación de variables". También en esta categoría se encuentran áreas de estudio más modernas como la reducción de dimensionalidad , la búsqueda de proyecciones y el análisis de componentes independientes . El objetivo común de estos métodos en general es encontrar una representación de los datos en términos de nuevas variables, que son una transformación lineal o no lineal de las variables originales, y en las que surgen importantes relaciones estadísticas. Los conjuntos de variables resultantes son casi siempre más pequeños que el conjunto de variables original y, por lo tanto, se puede decir vagamente que estos métodos imponen una granulación en el espacio de características. Todos estos métodos de reducción de dimensionalidad se revisan en los textos estándar, como Duda, Hart y Stork (2001) , Witten y Frank (2005) y Hastie, Tibshirani y Friedman (2001) .
Agregación variable
Una clase diferente de métodos de granulación variable se deriva más de metodologías de agrupamiento de datos que de la teoría de sistemas lineales que informa los métodos anteriores. Se observó bastante temprano que se pueden considerar las variables relacionadas con la "agrupación" de la misma manera que se consideran los datos relacionados con la agrupación. En la agrupación de datos, uno identifica un grupo de entidades similares (utilizando una " medida de similitud " adecuada para el dominio - Martino, Giuliani & Rizzi (2018) ), y luego, en cierto sentido, reemplaza esas entidades con un prototipo de algún tipo. El prototipo puede ser el promedio simple de los datos en el grupo identificado o alguna otra medida representativa. Pero la idea clave es que en operaciones posteriores, podemos usar el prototipo único para el grupo de datos (junto con quizás un modelo estadístico que describa cómo se derivan los ejemplos del prototipo) para reemplazar el conjunto mucho más grande de ejemplos. Estos prototipos son generalmente tales que capturan la mayor parte de la información de interés relativa a las entidades.
De manera similar, es razonable preguntarse si un gran conjunto de variables podría agregarse a un conjunto más pequeño de variables prototipo que capturen las relaciones más destacadas entre las variables. Aunque se han propuesto métodos de agrupamiento de variables basados en la correlación lineal ( Duda, Hart y Stork 2001 ; Rencher 2002 ), métodos más poderosos de agrupamiento de variables se basan en la información mutua entre variables. Watanabe ha demostrado ( Watanabe 1960 ; Watanabe 1969 ) que para cualquier conjunto de variables se puede construir un árbol politómico (es decir, n-ario) que represente una serie de aglomeraciones de variables en las que la correlación "total" final entre el conjunto completo de variables es la suma de las correlaciones "parciales" exhibidas por cada subconjunto aglomerante (ver figura). Watanabe sugiere que un observador podría buscar dividir un sistema de tal manera que se minimice la interdependencia entre las partes "... como si estuvieran buscando una división natural o una grieta oculta".
Un enfoque práctico para construir un árbol de este tipo es elegir sucesivamente para la aglomeración las dos variables (variables atómicas o variables previamente aglomeradas) que tienen la información mutua por pares más alta ( Kraskov et al. 2003 ). El producto de cada aglomeración es una nueva variable (construida) que refleja la distribución conjunta local de las dos variables de aglomeración y, por lo tanto, posee una entropía igual a su entropía conjunta . (Desde un punto de vista de procedimiento, este paso de aglomeración implica reemplazar dos columnas en la tabla de valor de atributo, que representan las dos variables de aglomeración, con una sola columna que tiene un valor único para cada combinación única de valores en las columnas reemplazadas ( Kraskov et al. 2003 ). No se pierde información con una operación de este tipo; sin embargo, si uno está explorando los datos en busca de relaciones entre variables, generalmente no sería deseable fusionar variables redundantes de esta manera, ya que en tal contexto es probable que sea precisamente la redundancia o dependencia entre variables que es de interés, y una vez que se fusionan las variables redundantes, ya no se puede estudiar su relación entre sí.
Granulación del sistema (agregación)
En los sistemas de bases de datos , las agregaciones (ver, por ejemplo, agregación OLAP y sistemas de inteligencia empresarial ) dan como resultado la transformación de las tablas de datos originales (a menudo llamadas sistemas de información) en tablas con diferentes semánticas de filas y columnas, donde las filas corresponden a los grupos (gránulos) del original. las tuplas y las columnas expresan información agregada sobre los valores originales dentro de cada uno de los grupos. Dichas agregaciones generalmente se basan en SQL y sus extensiones. Los gránulos resultantes generalmente corresponden a los grupos de tuplas originales con los mismos valores (o rangos) en algunas columnas originales preseleccionadas.
También hay otros enfoques en los que los grupos se definen basándose, por ejemplo, en la adyacencia física de las filas. Por ejemplo, Infobright implementó un motor de base de datos en el que los datos se dividían en filas aproximadas , cada una de las cuales constaba de 64K de filas físicamente consecutivas (o casi consecutivas). Las filas aproximadas se etiquetaron automáticamente con información compacta sobre sus valores en columnas de datos, lo que a menudo implicaba relaciones de varias columnas y varias tablas. Resultó en una capa más alta de información granulada donde los objetos correspondían a filas y atributos aproximados, a varios aspectos de información aproximada. Las operaciones de la base de datos podrían ser respaldadas de manera eficiente dentro de un marco tan nuevo, con un acceso a los datos originales aún disponibles ( Slezak et al. 2013 )
.Granulación de conceptos (análisis de componentes)
Los orígenes de la ideología de la computación granular se encuentran en las literaturas de conjuntos aproximados y conjuntos difusos . Una de las ideas clave de la investigación de conjuntos aproximados, aunque de ninguna manera es exclusiva de ella, es que, en general, la selección de diferentes conjuntos de características o variables producirá diferentes granulaciones de conceptos . Aquí, como en la teoría elemental de conjuntos aproximados, por "concepto" nos referimos a un conjunto de entidades que son indistinguibles o indiscernibles para el observador (es decir, un concepto simple), o un conjunto de entidades que se compone de conceptos tan simples (es decir, un concepto complejo). En otras palabras, al proyectar un conjunto de datos ( sistema de atributos de valor ) sobre diferentes conjuntos de variables, reconocemos conjuntos alternativos de "conceptos" de clase de equivalencia en los datos, y estos diferentes conjuntos de conceptos en general serán propicios. a la extracción de diferentes relaciones y regularidades.
Granulación de clases de equivalencia
Lo ilustramos con un ejemplo. Considere el sistema de atributo-valor a continuación:
Ejemplo de sistema de información Objeto 1 2 0 1 1 1 2 0 1 1 2 0 0 1 0 0 0 1 2 1 2 1 0 2 1 0 0 1 2 2 2 0 0 1 0 0 1 2 2 1 2 1 0 2 2 2 0 0 1 0
Cuando el conjunto completo de atributos se considera, vemos que tenemos las siguientes siete clases de equivalencia o conceptos primitivos (simples):
Por lo tanto, los dos objetos dentro de la primera clase de equivalencia, , no se pueden distinguir entre sí en función de los atributos disponibles, y los tres objetos dentro de la segunda clase de equivalencia, , no se pueden distinguir entre sí en función de los atributos disponibles. Los cinco objetos restantes son cada uno discernible de todos los demás objetos. Ahora, imaginemos una proyección del sistema de valor de atributo sobre atributosolo, lo que representaría, por ejemplo, la vista de un observador que solo es capaz de detectar este único atributo. Entonces obtenemos la siguiente estructura de clases de equivalencia mucho más burda.
En cierto sentido, esta es la misma estructura que antes, pero con un menor grado de resolución (tamaño de grano más grande). Al igual que en el caso de la granulación de valores (discretización / cuantificación) , es posible que las relaciones (dependencias) puedan surgir en un nivel de granularidad que no están presentes en otro. Como ejemplo de esto, podemos considerar el efecto de la granulación de conceptos en la medida conocida como dependencia de atributos (un pariente más simple de la información mutua ).
Para establecer esta noción de dependencia (ver también conjuntos aproximados ), dejemos representan una granulación de concepto particular, donde cada es una clase de equivalencia de la estructura del concepto inducida por el conjunto de atributos . Por ejemplo, si el atributo establecido consta de atributo solo, como arriba, entonces la estructura del concepto estará compuesto por , , y . La dependencia del conjunto de atributos en otro conjunto de atributos , , es dado por
Es decir, para cada clase de equivalencia en , sumamos el tamaño de su "aproximación más baja" (ver conjuntos aproximados ) por los atributos en, es decir, . Más simplemente, esta aproximación es el número de objetos que en el conjunto de atributos puede identificarse positivamente como perteneciente al conjunto de objetivos . Agregado en todas las clases de equivalencia en, el numerador anterior representa el número total de objetos que, según el conjunto de atributos —Se puede categorizar positivamente de acuerdo con la clasificación inducida por atributos . Por lo tanto, la relación de dependencia expresa la proporción (dentro de todo el universo) de tales objetos clasificables, en un sentido capturando la "sincronización" de las dos estructuras de conceptos. y . La dependencia "se puede interpretar como una proporción de tales objetos en el sistema de información para la cual es suficiente conocer los valores de los atributos en para determinar los valores de los atributos en "(Ziarko y Shan 1995).
Habiendo sacado ahora las definiciones del camino, podemos hacer la simple observación de que la elección de la granularidad del concepto (es decir, la elección de los atributos) influirá en las dependencias detectadas entre los atributos. Considere nuevamente la tabla de valores de atributos de arriba:
Ejemplo de sistema de información Objeto 1 2 0 1 1 1 2 0 1 1 2 0 0 1 0 0 0 1 2 1 2 1 0 2 1 0 0 1 2 2 2 0 0 1 0 0 1 2 2 1 2 1 0 2 2 2 0 0 1 0
Considere la dependencia del conjunto de atributos en conjunto de atributos . Es decir, deseamos saber qué proporción de objetos se pueden clasificar correctamente en clases de basado en el conocimiento de . Las clases de equivalencia de y de se muestran a continuación.
Los objetos que se pueden categorizar definitivamente según la estructura del concepto Residencia en son los del set , y dado que hay seis de estos, la dependencia de en , . Esto podría considerarse una dependencia interesante por derecho propio, pero quizás en una aplicación de minería de datos en particular solo se deseen dependencias más fuertes.
Entonces podríamos considerar la dependencia del conjunto de atributos más pequeño en el conjunto de atributos . El movimiento de a induce un engrosamiento de la estructura de clases , como se verá en breve. Deseamos nuevamente saber qué proporción de objetos se pueden clasificar correctamente en las clases (ahora más grandes) de basado en el conocimiento de . Las clases de equivalencia del nuevo y de se muestran a continuación.
Claramente, tiene una granularidad más burda que antes. Los objetos que ahora se pueden categorizar definitivamente según la estructura del concepto Residencia en constituyen el universo completo , y por tanto la dependencia de en , . Es decir, conocimiento de la pertenencia según el conjunto de categorías. es adecuado para determinar la pertenencia a la categoría en con total certeza; En este caso podríamos decir que. Por lo tanto, al endurecer la estructura del concepto, pudimos encontrar una dependencia (determinista) más fuerte. Sin embargo, también notamos que las clases inducidas ende la reducción de resolución necesaria para obtener esta dependencia determinista son ahora ellos mismos grandes y pocos en número; como resultado, la dependencia que encontramos, aunque fuerte, puede ser menos valiosa para nosotros que la dependencia más débil encontrada anteriormente bajo la vista de mayor resolución de.
En general, no es posible probar todos los conjuntos de atributos para ver qué estructuras de conceptos inducidos producen las dependencias más fuertes y, por lo tanto, esta búsqueda debe guiarse con cierta inteligencia. Los artículos que tratan este tema, y otros relacionados con el uso inteligente de la granulación, son los de YY Yao y Lotfi Zadeh que se enumeran en las #Referencias a continuación.
Granulación de componentes
Se puede obtener otra perspectiva sobre la granulación de conceptos a partir del trabajo sobre modelos paramétricos de categorías. En el aprendizaje de modelos mixtos, por ejemplo, un conjunto de datos se explica como una mezcla de distribuciones gaussianas (u otras) distintas. Por lo tanto, una gran cantidad de datos se "reemplaza" por una pequeña cantidad de distribuciones. La elección del número de estas distribuciones y su tamaño puede verse nuevamente como un problema de granulación de conceptos . En general, un mejor ajuste a los datos se obtiene mediante un mayor número de distribuciones o parámetros, pero para extraer patrones significativos, es necesario restringir el número de distribuciones, lo que deliberadamente engrosa la resolución del concepto. Encontrar la resolución de concepto "correcta" es un problema delicado para el que se han propuesto muchos métodos (por ejemplo, AIC , BIC , MDL , etc.), y estos se consideran con frecuencia bajo la rúbrica de " regularización de modelos ".
Diferentes interpretaciones de la computación granular
La computación granular se puede concebir como un marco de teorías, metodologías, técnicas y herramientas que hacen uso de los gránulos de información en el proceso de resolución de problemas. En este sentido, la computación granular se utiliza como un término general para cubrir temas que se han estudiado en varios campos de forma aislada. Al examinar todos estos estudios existentes a la luz del marco unificado de la computación granular y extraer sus puntos en común, puede ser posible desarrollar una teoría general para la resolución de problemas.
En un sentido más filosófico, la computación granular puede describir una forma de pensar que se basa en la capacidad humana para percibir el mundo real bajo varios niveles de granularidad (es decir, abstracción) con el fin de abstraer y considerar solo aquellas cosas que sirven a un interés específico y para cambiar entre diferentes granularidades. Al enfocarse en diferentes niveles de granularidad, se pueden obtener diferentes niveles de conocimiento, así como una mayor comprensión de la estructura de conocimiento inherente. Por lo tanto, la computación granular es esencial en la resolución de problemas humanos y, por lo tanto, tiene un impacto muy significativo en el diseño y la implementación de sistemas inteligentes.
Ver también
- Conjuntos aproximados , discretización
- Sistemas y conjuntos difusos de tipo 2
Referencias
- An, Aijun; Cercone, Nick (1999), "Discretización de atributos continuos para aprender reglas de clasificación", en Ning Zhong; Lizhu Zhou (eds.), Methodologies for Knowledge Discovery and Data Mining: Proceedings of the Third Pacific-Asia Conference, PAKDD-99 , Lecture Notes in Computer Science, 1574 , Beijing, China , págs. 509–514, doi : 10.1007 / 3-540-48912-6_69 , ISBN 978-3-540-65866-5.
- Bargiela, A. y Pedrycz, W. (2003) Computación granular. Una introducción , Kluwer Academic Publishers
- Bay, Stephen D. (2001), "Discretización multivariante para minería de conjuntos", Knowledge and Information Systems , 3 (4): 491–512, CiteSeerX 10.1.1.217.921 , doi : 10.1007 / PL00011680.
- Catlett, J. (1991), "Sobre el cambio de atributos continuos en atributos discretos ordenados" , en Y. Kodratoff (ed.), Machine Learning — EWSL-91: European Working Session on Learning , Porto, Portugal , págs. 164-178.
- Chiu, David KY; Cheung, Benny (1989), "Discretización jerárquica de máxima entropía", en Ryszard Janicki; Waldemar W. Koczkodaj (eds.), Computación e información: Actas de la Conferencia Internacional sobre Computación e Información (ICCI '89) , Toronto, Ontario , Canadá: North-Holland, págs. 237–242.
- Chiu, David KY; Cheung, Benny; Wong, Andrew KC (1990), "Síntesis de información basada en la discretización jerárquica de máxima entropía", Journal of Experimental and Theoretical Artificial Intelligence , 2 (2): 117-129, doi : 10.1080 / 09528139008953718.
- Chiu, David KY; Wong, Andrew KC; Cheung, Benny (1991), "Descubrimiento de información a través de la síntesis y discretización jerárquica de máxima entropía", en Gregory Piatetsky-Shapiro; William J. Frawley (eds.), Descubrimiento del conocimiento en bases de datos , Cambridge, MA : MIT Press, págs. 126–140.
- Chmielewski, Michal R .; Grzymala-Busse, Jerzy W. (1996), "Discretización global de atributos continuos como preprocesamiento para el aprendizaje automático" (PDF) , International Journal of Approximate Reasoning , 15 (4): 319–331, doi : 10.1016 / s0888-613x ( 96) 00074-6.
- Dougherty, James; Kohavi, Ron; Sahami, Mehran (1995), " Discretización supervisada y no supervisada de características continuas" , en Armand Prieditis; Stuart Russell (eds.), Machine Learning: Proceedings of the Twelfth International Conference (ICML 1995) , Tahoe City, CA : Morgan Kaufmann, págs. 194–202.
- Duda, Richard O .; Hart, Peter E .; Stork, David G. (2001), Clasificación de patrones (2a ed.), Ciudad de Nueva York : John Wiley & Sons, ISBN 978-0-471-05669-0
- Fayyad, Usama M .; Irani, Keki B. (1993), "Discretización de múltiples intervalos de atributos de valor continuo para el aprendizaje de la clasificación", Actas de la Decimotercera Conferencia Conjunta Internacional sobre Inteligencia Artificial (IJCAI-93) , Chambéry, Francia , págs. 1022–1027.
- Grzymala-Busse, Jerzy W .; Stefanowski, Jerzy (2001), "Tres métodos de discretización para la inducción de reglas", International Journal of Intelligent Systems , 16 (1): 29–38, CiteSeerX 10.1.1.330.2975 , doi : 10.1002 / 1098-111X (200101) 16: 1 <29 :: AID-INT4> 3.0.CO; 2-0.
- Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2001), Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción , Ciudad de Nueva York : Springer, ISBN 978-0-387-84857-0
- Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G .; Grassberger, Peter (2003), Agrupación jerárquica basada en información mutua , arXiv : q-bio / 0311039 , Bibcode : 2003q.bio .... 11039K.
- Lee, Changhwan; Shin, Dong-Guk (1994), "Una discretización sensible al contexto de los atributos numéricos para el aprendizaje de la clasificación", en AG Cohn (ed.), Actas de la 11ª Conferencia Europea sobre Inteligencia Artificial (ECAI 94) , NL , págs. 428 –432.
- Liu, Chao-Lin; Wellman, Michael (2002), "Evaluación de redes bayesianas con métodos flexibles de abstracción del espacio de estado", International Journal of Approximate Reasoning , 30 (1): 1–39, CiteSeerX 10.1.1.127.7040 , doi : 10.1016 / S0888-613X (01) 00067-6.
- Liu, Chao-Lin; Wellman, Michael (2004), "Vinculación de relaciones probabilísticas en redes bayesianas utilizando influencias cualitativas: métodos y aplicaciones", International Journal of Approximate Reasoning , 36 (1): 31-73, doi : 10.1016 / j.ijar.2003.06.002.
- Liu, Huan; Hussain, Farhad; Tan, Chew Lim; Dasii, Manoranjan (2002), "Discretización: una técnica habilitadora", Minería de datos y descubrimiento del conocimiento , 6 (4): 393–423, doi : 10.1023 / A: 1016304305535.
- Ludl, Marcus-Christopher; Widmer, Gerhard (2000), "Discretización relativa no supervisada para la minería de reglas de asociación", en Djamel A. Zighed; Jan Komorowski; Jan Zytkow (eds.), Actas de la 4a Conferencia Europea sobre Principios de Minería de Datos y Descubrimiento del Conocimiento (PKDD 2000) , Lecture Notes in Computer Science, 1910 , Lyon, Francia , págs. 148-158, doi : 10.1007 / 3- 540-45372-5_15 , ISBN 978-3-540-41066-9.
- Monti, Stefano; Cooper, Gregory F. (1999), "Un modelo de variable latente para la discretización multivariante" , Incertidumbre 99: El 7mo Taller Internacional sobre Inteligencia Artificial y Estadística , Fort Lauderdale, FL..
- Martino, Alessio; Giuliani, Alessandro; Rizzi, Antonello (2018), "Técnicas de computación granular para problemas de reconocimiento de patrones bioinformáticos en espacios no métricos", en Pedrycz W .; Chen SM. (eds.), Computational Intelligence for Pattern Recognition , Studies in Computational Intelligence, 777 , Springer International Publishing, págs. 53–81, doi : 10.1007 / 978-3-319-89629-8_3 , ISBN 978-3-319-89628-1.
- Nguyen, Hung Son; Nguyen, Sinh Hoa (1998), "Métodos de discretización en la minería de datos", en Lech Polkowski; Andrzej Skowron (eds.), Rough Sets in Knowledge Discovery 1: Methodology and Applications , Heidelberg : Physica-Verlag, págs. 451–482.
- Pfahringer, Bernhard (1995), " Discretización de atributos continuos basada en compresión" , en Armand Prieditis; Stuart Russell (eds.), Machine Learning: Actas de la Duodécima Conferencia Internacional (ICML 1995) , Tahoe City, CA : Morgan Kaufmann, págs. 456–463.
- Rencher, Alvin C. (2002), Métodos de análisis multivariante , Ciudad de Nueva York : Wiley.
- Simon, Herbert A .; Ando, Albert (1963), "Agregación de variables en sistemas dinámicos", en Albert Ando; Franklin M. Fisher; Herbert A. Simon (eds.), Ensayos sobre la estructura de los modelos de ciencias sociales , Cambridge, MA: MIT Press, págs. 64-91
- Simon, Herbert A. (1996), "La arquitectura de la complejidad: sistemas jerárquicos", en Herbert A. Simon (ed.), The Sciences of the Artificial (2nd ed.), Cambridge, MA: MIT Press, págs. 183 –216
- Slezak, Dominik; Synak, Piotr; Wojna, Arkadiusz; Wroblewski, Jakub (2013), "Dos interpretaciones de aproximaciones generales relacionadas con bases de datos: organización de datos y ejecución de consultas", Fundamenta Informaticae , 127 (1–4): 445–459, doi : 10.3233 / FI-2013-920.
- Ting, Kai Ming (1994), Discretización de atributos de valor continuo y aprendizaje basado en instancias (Informe técnico No 491) , Sydney : Departamento de Ciencias de la Computación de Basser.
- Wang, Ke; Liu, Bing (1998), "Discretización simultánea de múltiples atributos" , en Springer (ed.), Actas de la 5ª Conferencia Internacional de la Cuenca del Pacífico sobre Inteligencia Artificial , Londres : Springer-Verlag, págs. 250–259.
- Watanabe, Satosi (1960), "Análisis teórico de la información de la correlación multivariante", IBM Journal of Research and Development , 4 (1): 66–82, doi : 10.1147 / rd.41.0066.
- Watanabe, Satosi (1969), Saber y adivinar: un estudio cuantitativo de inferencia e información , Ciudad de Nueva York : Wiley.
- Witten, Ian H .; Frank, Eibe (2005), Minería de datos: técnicas y herramientas prácticas de aprendizaje automático (2 ed.), Amsterdam : Morgan Kaufmann
- Yao, YY (2004) "A Partition Model of Granular Computing", Lecture Notes in Computer Science (por aparecer)
- Yao, YY (2001). "Sobre modelado de minería de datos con computación granular" . Actas de la 25ª Conferencia Anual Internacional de Aplicaciones y Software Informático (COMPSAC 2001) . págs. 638–643.
- Yao, Yiyu (2006). "Computación granular para minería de datos" (PDF) . En Dasarathy, Belur V. (ed.). Actas de la conferencia SPIE sobre minería de datos, detección de intrusiones, garantía de la información y seguridad de las redes de datos . Archivado desde el original (PDF) el 18 de abril de 2007.
- Yao, JT; Yao, YY (2002). "Inducción de reglas de clasificación por computación granular" (PDF) . Actas de la Tercera Conferencia Internacional sobre Rough Sets y Current Trends in Computing (TSCTC'02) . Londres, Reino Unido: Springer-Verlag. págs. 331–338.
- Zadeh, LA (1997) "Hacia una teoría de la granulación de información difusa y su centralidad en el razonamiento humano y la lógica difusa" , Conjuntos y sistemas difusos , 90: 111-127
- Zighed, DA; Rabaséda, S .; Rakotomalala, R. (1998), "FUSINTER: Un método para la discretización de atributos continuos" , International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems , 6 (3): 307–326, doi : 10.1142 / s0218488598000264.