Utilidad de categoría

La utilidad de categoría es una medida de la "bondad de categoría" definida en Gluck y Corter (1985) y Corter y Gluck (1992) . Intenta maximizar la probabilidad de que dos objetos de la misma categoría tengan valores de atributo en común y la probabilidad de que los objetos de diferentes categorías tengan valores de atributo diferentes. Se pretendía reemplazar medidas más limitadas de bondad de categoría como la " validez de la señal " ( Reed 1972 ; Rosch y Mervis 1975 ) y el "índice de colocación" ( Jones 1983 ). Proporciona una medida teórica de la información normativa de la ventaja predictivaganado por el observador que posee conocimiento de la estructura de categorías dada (es decir, las etiquetas de clases de instancias) sobre el observador que no posee conocimiento de la estructura de categorías. En este sentido, la motivación para la medida de la utilidad de la categoría es similar a la métrica de ganancia de información utilizada en el aprendizaje del árbol de decisiones . En ciertas presentaciones, también es formalmente equivalente a la información mutua , como se analiza a continuación. Una revisión de la utilidad de la categoría en su encarnación probabilístico, con aplicaciones a la máquina de aprendizaje , se proporciona en Witten y Frank (2005 , pp. 260-262).

Definición de la teoría de la probabilidad de la utilidad de categoría

La definición de la teoría de la probabilidad de la utilidad de categoría dada en Fisher (1987) y Witten y Frank (2005) es la siguiente:

{\ Displaystyle CU (C, F) = {\ tfrac {1} {p}} \ sum _ {c_ {j} \ in C} p (c_ {j}) \ left [\ sum _ {f_ {i} \ en F} \ sum _ {k = 1} ^ {m} p (f_ {ik} | c_ {j}) ^ {2} - \ sum _ {f_ {i} \ in F} \ sum _ {k = 1} ^ {m} p (f_ {ik}) ^ {2} \ right]}

dónde ${\ Displaystyle F = \ {f_ {i} \}, \ i = 1 \ ldots n}$ es un tamaño ${\ Displaystyle n \}$ conjunto de ${\ Displaystyle m \}$ -características generales, y ${\ Displaystyle C = \ {c_ {j} \} \ j = 1 \ ldots p}$ es un conjunto de ${\ Displaystyle p \}$ categorías. El termino ${\ Displaystyle p (f_ {ik}) \}$ designa la probabilidad marginal de que la característica ${\ Displaystyle f_ {i} \}$ toma valor ${\ Displaystyle k \}$ y el término ${\ Displaystyle p (f_ {ik} | c_ {j}) \}$ designa la categoría- probabilidad condicional de que la característica ${\ Displaystyle f_ {i} \}$ toma valor ${\ Displaystyle k \}$ dado que el objeto en cuestión pertenece a la categoría ${\ Displaystyle c_ {j} \}$ .

La motivación y el desarrollo de esta expresión para la categoría de utilidad y el papel del multiplicando ${\ Displaystyle \ textstyle {\ tfrac {1} {p}}}$ como un crudo control de sobreajuste, se da en las fuentes anteriores. Vagamente ( Fisher 1987 ), el término ${\ Displaystyle \ textstyle p (c_ {j}) \ sum _ {f_ {i} \ in F} \ sum _ {k = 1} ^ {m} p (f_ {ik} | c_ {j}) ^ { 2}}$ es el número esperado de valores de atributo que un observador puede adivinar correctamente utilizando una estrategia de coincidencia de probabilidad junto con el conocimiento de las etiquetas de categoría, mientras que ${\ Displaystyle \ textstyle p (c_ {j}) \ sum _ {f_ {i} \ in F} \ sum _ {k = 1} ^ {m} p (f_ {ik}) ^ {2}}$ es el número esperado de valores de atributo que un observador puede adivinar correctamente con la misma estrategia pero sin ningún conocimiento de las etiquetas de categoría. Por lo tanto, su diferencia refleja la ventaja relativa que obtiene el observador al tener conocimiento de la estructura de categorías.

Definición de la teoría de la información de la categoría de utilidad

La definición teórica de la información de la categoría de utilidad para un conjunto de entidades con tamaño ${\ Displaystyle n \}$ conjunto de características binarias ${\ Displaystyle F = \ {f_ {i} \}, \ i = 1 \ ldots n}$ y una categoría binaria ${\ Displaystyle C = \ {c, {\ bar {c}} \}}$ se da en Gluck y Corter (1985) de la siguiente manera:

{\ Displaystyle CU (C, F) = \ left [p (c) \ sum _ {i = 1} ^ {n} p (f_ {i} | c) \ log p (f_ {i} | c) + p ({\ bar {c}}) \ sum _ {i = 1} ^ {n} p (f_ {i} | {\ bar {c}}) \ log p (f_ {i} | {\ bar { c}}) \ derecha] - \ sum _ {i = 1} ^ {n} p (f_ {i}) \ log p (f_ {i})}

dónde ${\ Displaystyle p (c) \}$ es la probabilidad previa de que una entidad pertenezca a la categoría positiva ${\ Displaystyle c \}$ (en ausencia de información sobre funciones), ${\ Displaystyle p (f_ {i} | c) \}$ es la probabilidad condicional de que una entidad tenga una característica ${\ Displaystyle f_ {i} \}$ dado que la entidad pertenece a la categoría ${\ Displaystyle c \}$ , ${\ Displaystyle p (f_ {i} | {\ bar {c}})}$ es igualmente la probabilidad condicional de que una entidad tenga la característica ${\ Displaystyle f_ {i} \}$ dado que la entidad pertenece a la categoría ${\ Displaystyle {\ bar {c}}}$ , y ${\ Displaystyle p (f_ {i}) \}$ es la probabilidad previa de que una entidad posea una característica ${\ Displaystyle f_ {i} \}$ (en ausencia de información de categoría).

La intuición detrás de la expresión anterior es la siguiente: El término ${\ Displaystyle p (c) \ textstyle \ sum _ {i = 1} ^ {n} p (f_ {i} | c) \ log p (f_ {i} | c)}$ representa el costo (en bits) de codificar (o transmitir) de manera óptima la información de características cuando se sabe que los objetos a describir pertenecen a la categoría ${\ Displaystyle c \}$ . Del mismo modo, el término ${\ Displaystyle p ({\ bar {c}}) \ textstyle \ sum _ {i = 1} ^ {n} p (f_ {i} | {\ bar {c}}) \ log p (f_ {i} | {\ bar {c}})}$ representa el costo (en bits) de codificar (o transmitir) de manera óptima la información de características cuando se sabe que los objetos a describir pertenecen a la categoría ${\ Displaystyle {\ bar {c}}}$ . La suma de estos dos términos entre paréntesis es, por tanto, la media ponderada de estos dos costes. El término final, ${\ Displaystyle \ textstyle \ sum _ {i = 1} ^ {n} p (f_ {i}) \ log p (f_ {i})}$ , representa el costo (en bits) de codificar (o transmitir) de manera óptima la información de características cuando no hay información de categoría disponible. El valor de la utilidad de categoría será, en la formulación anterior, negativo (???).

Categoría de utilidad e información mutua

Gluck y Corter (1985) y Corter y Gluck (1992) mencionan que la categoría de utilidad es equivalente a la información mutua . Aquí hay una demostración simple de la naturaleza de esta equivalencia. Suponga un conjunto de entidades, cada una con el mismo ${\ Displaystyle n}$ características, es decir, conjunto de características ${\ Displaystyle F = \ {f_ {i} \}, \ i = 1 \ ldots n}$ , con cada variable característica que tiene cardinalidad ${\ Displaystyle m}$ . Es decir, cada característica tiene la capacidad de adoptar cualquiera de ${\ Displaystyle m}$ valores distintos (que no necesitan ordenarse; todas las variables pueden ser nominales); para el caso especial ${\ Displaystyle m = 2}$ estas características se considerarían binarias , pero de manera más general, para cualquier ${\ Displaystyle m}$ , las características son simplemente m-arias . Para los propósitos de esta demostración, sin pérdida de generalidad, el conjunto de características ${\ Displaystyle F}$ se puede reemplazar con una sola variable agregada ${\ Displaystyle F_ {a}}$ que tiene cardinalidad ${\ Displaystyle m ^ {n}}$ y adopta un valor único ${\ Displaystyle v_ {i}, \ i = 1 \ ldots m ^ {n}}$ correspondiente a cada combinación de características en el producto cartesiano ${\ Displaystyle \ otimes F}$ . (La ordinalidad no importa, porque la información mutua no es sensible a la ordinalidad). En lo que sigue, un término como ${\ Displaystyle p (F_ {a} = v_ {i})}$ o simplemente ${\ Displaystyle p (v_ {i})}$ se refiere a la probabilidad con la que ${\ Displaystyle F_ {a}}$ adopta el valor particular ${\ Displaystyle v_ {i}}$ . (Usando la variable de característica agregada ${\ Displaystyle F_ {a}}$ reemplaza múltiples sumas y simplifica la presentación que sigue).

Para esta demostración, suponga también una variable de categoría única ${\ Displaystyle C}$ , que tiene cardinalidad ${\ Displaystyle p}$ . Esto es equivalente a un sistema de clasificación en el que hay ${\ Displaystyle p}$ categorías que no se cruzan. En el caso especial de ${\ Displaystyle p = 2}$ están los casos de dos categorías discutidos anteriormente. De la definición de información mutua para variables discretas, la información mutua ${\ Displaystyle I (F_ {a}; C)}$ entre la variable de característica agregada ${\ Displaystyle F_ {a}}$ y la variable de categoría ${\ Displaystyle C}$ es dado por:

{\ Displaystyle I (F_ {a}; C) = \ sum _ {v_ {i} \ in F_ {a}} \ sum _ {c_ {j} \ in C} p (v_ {i}, c_ {j }) \ log {\ frac {p (v_ {i}, c_ {j})} {p (v_ {i}) \, p (c_ {j})}}}

dónde ${\ Displaystyle p (v_ {i})}$ es la probabilidad previa de la variable característica ${\ Displaystyle F_ {a}}$ adoptando valor ${\ Displaystyle v_ {i}}$ , ${\ Displaystyle p (c_ {j})}$ es la probabilidad marginal de la variable de categoría ${\ Displaystyle C}$ adoptando valor ${\ Displaystyle c_ {j}}$ , y ${\ Displaystyle p (v_ {i}, c_ {j})}$ es la probabilidad conjunta de variables ${\ Displaystyle F_ {a}}$ y ${\ Displaystyle C}$ adoptando simultáneamente esos valores respectivos. En términos de probabilidades condicionales, esto se puede reescribir (o definir) como

{\ Displaystyle {\ begin {alineado} I (F_ {a}; C) & = \ sum _ {v_ {i} \ in F_ {a}} \ sum _ {c_ {j} \ in C} p (v_ {i}, c_ {j}) \ log {\ frac {p (v_ {i} | c_ {j})} {p (v_ {i})}} \\ & = \ sum _ {v_ {i} \ en F_ {a}} \ sum _ {c_ {j} \ en C} p (v_ {i} | c_ {j}) p (c_ {j}) \ left [\ log p (v_ {i} | c_ {j}) - \ log p (v_ {i}) \ right] \\ & = \ sum _ {v_ {i} \ in F_ {a}} \ sum _ {c_ {j} \ in C} p (v_ {i} | c_ {j}) p (c_ {j}) \ log p (v_ {i} | c_ {j}) - \ sum _ {v_ {i} \ in F_ {a}} \ sum _ {c_ {j} \ in C} p (v_ {i} | c_ {j}) p (c_ {j}) \ log p (v_ {i}) \\ & = \ sum _ {v_ {i} \ en F_ {a}} \ sum _ {c_ {j} \ en C} p (v_ {i} | c_ {j}) p (c_ {j}) \ log p (v_ {i} | c_ {j }) - \ sum _ {v_ {i} \ in F_ {a}} \ sum _ {c_ {j} \ in C} p (v_ {i}, c_ {j}) \ log p (v_ {i} ) \\ & = \ sum _ {v_ {i} \ in F_ {a}} \ sum _ {c_ {j} \ in C} p (v_ {i} | c_ {j}) p (c_ {j} ) \ log p (v_ {i} | c_ {j}) - \ sum _ {v_ {i} \ in F_ {a}} \ log p (v_ {i}) \ sum _ {c_ {j} \ in C} p (v_ {i}, c_ {j}) \\ & = \ sum _ {v_ {i} \ in F_ {a}} \ sum _ {c_ {j} \ in C} p (v_ {i } | c_ {j}) p (c_ {j}) \ log p (v_ {i} | c_ {j}) - \ sum _ {v_ {i} \ in F_ {a}} p (v_ {i} ) \ log p (v_ {i}) \\\ end {alineado}}}

Si la definición original de la categoría de utilidad de arriba se reescribe con ${\ Displaystyle C = \ {c, {\ bar {c}} \}}$ ,

{\ Displaystyle CU (C, F) = \ sum _ {f_ {i} \ in F} \ sum _ {c_ {j} \ in C} p (f_ {i} | c_ {j}) p (c_ { j}) \ log p (f_ {i} | c_ {j}) - \ sum _ {f_ {i} \ in F} p (f_ {i}) \ log p (f_ {i})}

Esta ecuación claramente tiene la misma forma que la ecuación ( azul ) que expresa la información mutua entre el conjunto de características y la variable de categoría; la diferencia es que la suma ${\ Displaystyle \ textstyle \ sum _ {f_ {i} \ in F}}$ en la categoría, la ecuación de utilidad corre sobre variables binarias independientes ${\ Displaystyle F = \ {f_ {i} \}, \ i = 1 \ ldots n}$ , mientras que la suma ${\ Displaystyle \ textstyle \ sum _ {v_ {i} \ in F_ {a}}}$ en la información mutua corre sobre los valores del único ${\ Displaystyle m ^ {n}}$ -variable ${\ Displaystyle F_ {a}}$ . Las dos medidas son realmente equivalentes entonces solo cuando las características ${\ Displaystyle \ {f_ {i} \}}$ , son independientes (y asumiendo que los términos en la suma correspondiente a ${\ Displaystyle p ({\ bar {f_ {i}}})}$ también se añaden).

Insensibilidad de la utilidad de la categoría a la ordinalidad

Al igual que la información mutua, la utilidad de categoría no es sensible a ningún orden en los valores de las variables de características o categorías. Es decir, en lo que respecta a la utilidad de categoría, el conjunto de categorías {small,medium,large,jumbo}no es cualitativamente diferente del conjunto de categorías, {desk,fish,tree,mop}ya que la formulación de la utilidad de categoría no tiene en cuenta ningún orden de la variable de clase. De manera similar, una variable de característica que adopta valores {1,2,3,4,5}no es cualitativamente diferente de una variable de característica que adopta valores {fred,joe,bob,sue,elaine}. En lo que respecta a la utilidad de la categoría o la información mutua , todas las variables de categoría y característica son variables nominales. Por esta razón, la utilidad de la categoría no refleja ningún aspecto gestáltico de la "bondad de la categoría" que pueda basarse en tales efectos de ordenamiento. Un posible ajuste para esta insensibilidad a la ordinalidad viene dado por el esquema de ponderación descrito en el artículo para información mutua .

Categoría "bondad": modelos y filosofía

Esta sección proporciona algunos antecedentes sobre los orígenes y la necesidad de medidas formales de "bondad de categoría", como la utilidad de categoría, y parte de la historia que condujo al desarrollo de esta métrica en particular.

¿Qué hace una buena categoría?

Al menos desde la época de Aristóteles ha habido una tremenda fascinación en la filosofía por la naturaleza de los conceptos y los universales . ¿Qué tipo de entidad es un concepto como "caballo"? Tales abstracciones no designan a ningún individuo en particular en el mundo y, sin embargo, difícilmente podemos imaginar ser capaces de comprender el mundo sin su uso. ¿Tiene, por tanto, el concepto de "caballo" una existencia independiente fuera de la mente? Si es así, ¿cuál es el lugar de esta existencia independiente? La cuestión del locus fue un tema importante en el que las escuelas clásicas de Platón y Aristóteles diferían notoriamente. Sin embargo, estuvieron de acuerdo en que los universales sí tenían una existencia independiente de la mente. Por lo tanto, siempre hubo un hecho sobre qué conceptos y universales existen en el mundo.

A finales de la Edad Media (quizás comenzando con Occam , aunque Porphyry también hace un comentario mucho antes que indica cierta incomodidad con el status quo), sin embargo, la certeza que existía sobre este tema comenzó a erosionarse, y se volvió aceptable entre los llamados nominalistas y empiristas para considerar conceptos y universales como entidades estrictamente mentales o convenciones del lenguaje. En esta visión de los conceptos —que son construcciones puramente representativas— surge entonces una nueva pregunta: "¿Por qué poseemos un conjunto de conceptos en lugar de otro?" ¿Qué hace que un conjunto de conceptos sea "bueno" y otro conjunto de conceptos "malo"? Esta es una cuestión con la que los filósofos modernos y, posteriormente , los teóricos del aprendizaje automático y los científicos cognitivos, han luchado durante muchas décadas.

¿Para qué sirven los conceptos?

Un enfoque para responder a estas preguntas es investigar el "papel" o el "propósito" de los conceptos en la cognición. De ahí la respuesta a "¿Para qué sirven los conceptos en primer lugar?" por Mill y 1843/1936 , p. 425)y muchos otros es que la clasificación (concepción) es un precursor de la inducción : al imponer una categorización particular en el universo, un organismo adquiere la capacidad de lidiar con objetos o situaciones físicamente no idénticos de manera idéntica, obteniendo así una influencia predictiva sustancial ( Smith y Medin 1981 ; Harnad 2005 ). Como dice JS Mill ( Mill y 1843/1936 , págs. 466–468),

El problema general de la clasificación ... [es] disponer que las cosas se pensarán en tales grupos, y esos grupos en el orden que mejor conduzca al recuerdo y a la constatación de sus leyes ... [y ] uno de los usos de tal clasificación que al llamar la atención sobre las propiedades en las que se basa, y que, si la clasificación es buena, son marcas de muchas otras, facilita el descubrimiento de esas otras.

A partir de esta base, Mill llega a la siguiente conclusión, que presagia mucho pensamiento posterior sobre la bondad de categoría, incluida la noción de utilidad de categoría:

Los fines de la clasificación científica se responden mejor cuando los objetos se forman en grupos respecto de los cuales se pueden hacer un mayor número de proposiciones generales, y aquellas proposiciones más importantes, que las que se podrían hacer respecto a cualquier otro grupo en el que se pudieran distribuir las mismas cosas. Las propiedades, por tanto, de acuerdo con las cuales se clasifican los objetos deben ser, si es posible, las que son causantes de muchas otras propiedades; o, en todo caso, cuáles son marcas seguras de ellos.

Se puede comparar esto con la "hipótesis de la utilidad de la categoría" propuesta por Corter y Gluck (1992) : "Una categoría es útil en la medida en que se puede esperar que mejore la capacidad de una persona para predecir con precisión las características de las instancias de esa categoría. . " Mill parece estar sugiriendo aquí que la mejor estructura de categorías es aquella en la que las características (propiedades) del objeto son informativas al máximo sobre la clase del objeto y, simultáneamente, la clase del objeto es informativa al máximo sobre las características del objeto. En otras palabras, un esquema de clasificación útil es aquel en el que el conocimiento de categorías se puede usar para inferir con precisión las propiedades de los objetos, y el conocimiento de las propiedades se puede usar para inferir con precisión las clases de objetos. También se puede comparar esta idea con el criterio de contrapredicación de Aristóteles para los predicados definitorios, así como con la noción de conceptos descritos en el análisis formal de conceptos .

Intentos de formalización

Se han sugerido una variedad de medidas diferentes con el objetivo de capturar formalmente esta noción de "bondad de categoría", la más conocida de las cuales es probablemente la " validez de la señal ". Validez de pistas de una característica ${\ Displaystyle f_ {i} \}$ con respecto a la categoría ${\ Displaystyle c_ {j} \}$ se define como la probabilidad condicional de la categoría dada la característica ( Reed 1972 ; Rosch & Mervis 1975 ; Rosch 1978 ), ${\ Displaystyle p (c_ {j} | f_ {i}) \}$ , o como la desviación de la probabilidad condicional de la tasa base de la categoría ( Edgell 1993 ; Kruschke & Johansen 1999 ), ${\ Displaystyle p (c_ {j} | f_ {i}) - p (c_ {j}) \}$ . Claramente, estas medidas cuantifican solo la inferencia de una característica a otra categoría (es decir, la validez de la señal ), pero no de una categoría a otra, es decir, la validez de la categoría. ${\ Displaystyle p (f_ {i} | c_ {j}) \}$ . Además, si bien la validez de la señal originalmente tenía la intención de explicar la aparición demostrable de categorías básicas en la cognición humana (categorías de un nivel particular de generalidad que evidentemente son preferidas por los aprendices humanos), una serie de fallas importantes en la validez de la señal surgieron rápidamente en este respecto ( Jones 1983 ; Murphy 1982 ; Corter y Gluck 1992 , y otros).

Jones (1983) hizo un intento de abordar ambos problemas maximizando simultáneamente tanto la validez de características como la validez de categoría al definir el "índice de colocación" como el producto ${\ Displaystyle p (c_ {j} | f_ {i}) p (f_ {i} | c_ {j}) \}$ , pero esta construcción fue bastante ad hoc (ver Corter y Gluck 1992 ). La utilidad de categoría se introdujo como un refinamiento más sofisticado de la validez de la señal, que intenta cuantificar más rigurosamente el poder inferencial completo de una estructura de clases. Como se muestra arriba, en una vista determinada, la utilidad de la categoría es equivalente a la información mutua entre la variable de función y la variable de categoría. Se ha sugerido que las categorías que tienen la mayor utilidad de categoría general son aquellas que no solo son las "mejores" en un sentido normativo, sino también aquellas que los estudiantes humanos prefieren usar, por ejemplo, categorías "básicas" ( Corter y Gluck 1992 ). Otras medidas relacionadas de bondad de categoría son la "cohesión" ( Hanson y Bauer 1989 ; Gennari, Langley y Fisher 1989 ) y la "prominencia" ( Gennari 1989 ).

Aplicaciones

La utilidad de la categoría se utiliza como medida de evaluación de la categoría en el popular algoritmo de agrupación conceptual llamado COBWEB ( Fisher 1987 ).

Ver también

Abstracción
Aprendizaje de conceptos
Universales
Aprendizaje sin supervisión

Referencias

Corter, James E .; Gluck, Mark A. (1992), "Explicación de categorías básicas: previsibilidad e información de características" (PDF) , Psychological Bulletin , 111 (2): 291–303, doi : 10.1037 / 0033-2909.111.2.291 , archivado desde el original ( PDF) el 2011-08-10
Edgell, Stephen E. (1993), "Uso de información configuracional y dimensional", en N. John Castellan (ed.), Toma de decisiones individuales y grupales: Temas actuales , Hillsdale, Nueva Jersey : Lawrence Erlbaum, págs. 43–64
Fisher, Douglas H. (1987), "Adquisición de conocimientos mediante agrupación conceptual incremental", Machine Learning , 2 (2): 139-172, doi : 10.1007 / BF00114265
Gennari, John H. (1989), "Focused concept training", en Alberto Maria Segre (ed.), Proceedings of the Sixth International Workshop on Machine Learning , Ithaca, NY : Morgan Kaufmann, págs. 379–382
Gennari, John H .; Langley, Pat; Fisher, Doug (1989), "Modelos de formación de conceptos incrementales" , Inteligencia artificial , 40 (1-3): 11-61, doi : 10.1016 / 0004-3702 (89) 90046-5
Gluck, Mark A .; Corter, James E. (1985), "Información, incertidumbre y utilidad de las categorías", Programa de la Séptima Conferencia Anual de la Sociedad de Ciencias Cognitivas , págs. 283-287.
Hanson, Stephen José; Bauer, Malcolm (1989), "Agrupación conceptual, categorización y polimorfia", Aprendizaje automático , 3 (4): 343–372, doi : 10.1007 / BF00116838
Harnad, Stevan (2005), "Conocer es categorizar: la cognición es categorización" , en Henri Cohen & Claire Lefebvre (ed.), Handbook of Categorization in Cognitive Science , Amsterdam: Elsevier, págs. 19–43
Jones, Gregory V. (1983), "Identificación de categorías básicas", Psychological Bulletin , 94 (3): 423–428, doi : 10.1037 / 0033-2909.94.3.423
Kruschke, John K .; Johansen, Mark K. (1999), "Un modelo de aprendizaje de categorías probabilísticas", Journal of Experimental Psychology: Learning, Memory, and Cognition , 25 (5): 1083-1119, doi : 10.1037 / 0278-7393.25.5.1083 , PMID 10505339
Mill, John Stuart (1843), A System of Logic, Ratiocinative and Inductive: Being a Connected View of the Principles of Evidence and the Methods of Scientific Investigation , Londres: Longmans, Green and Co..
Murphy, Gregory L. (1982), "Validez de señal y niveles de categorización", Psychological Bulletin , 91 (1): 174-177, doi : 10.1037 / 0033-2909.91.1.174
Reed, Stephen K. (1972), "Reconocimiento y categorización de patrones", Psicología cognitiva , 3 (3): 382–407, doi : 10.1016 / 0010-0285 (72) 90014-x
Rosch, Eleanor (1978), "Principios de categorización", en Eleanor Rosch y Barbara B. Lloyd (ed.), Cognición y categorización , Hillsdale, Nueva Jersey : Lawrence Erlbaum, págs. 27–48
Rosch, Eleanor; Mervis, Carolyn B. (1975), "Semejanzas familiares: estudios en la estructura interna de las categorías", Psicología cognitiva , 7 (4): 573–605, doi : 10.1016 / 0010-0285 (75) 90024-9 , S2CID 17258322
Smith, Edward E .; Medin, Douglas L. (1981), Categorías y conceptos , Cambridge, MA : Harvard University Press
Witten, Ian H .; Frank, Eibe (2005), Minería de datos: técnicas y herramientas prácticas de aprendizaje automático , Ámsterdam: Morgan Kaufmann