Teorema del patito feo

El teorema del patito feo es un argumento que muestra que la clasificación no es realmente posible sin algún tipo de sesgo . Más particularmente, asume un número finito de propiedades combinables por conectivos lógicos y un número finito de objetos; afirma que dos objetos diferentes comparten el mismo número de propiedades ( extensivas ). El teorema lleva el nombre de la historia de Hans Christian Andersen de 1843 " El patito feo ", porque muestra que un patito es tan similar a un cisne como dos cisnes entre sí. Fue derivado por Satosi Watanabe en 1969.^[1]^{: 376–377}

Fórmula matemática

El ejemplo de Watanabe, usando objetos A , B , C y propiedades F ("primero"), W ("blanco"). "0", "1", " ¬ ", " ∧ ", " ∨ " y " ⊕ " denotan " falso ", " verdadero ", " no ", " y ", " o " y " exclusivo o " , respectivamente. Dado que F pasa a implicar W, cada predicado que se puede formar a partir de F y W coincide con otro, por lo que solo hay 8 predicados posibles extensionalmente distintos, cada uno de los cuales se muestra en una línea propia. Los patitos blancos A y B coinciden en 4 de ellos (línea 2, 3, 4, 8), pero también A y C (línea 3, 5, 7, 8), y también B y C (línea 1 , 3, 6, 8). ^[1]^{: 368}^[2]

Supongamos que hay n cosas en el universo y uno quiere ponerlas en clases o categorías. Uno no tiene ideas preconcebidas o sesgos sobre qué tipo de categorías son "naturales" o "normales" y cuáles no. Por lo tanto, hay que considerar todas las clases posibles que podrían ser, todas las formas posibles de hacer conjuntos a partir de los n objetos. Existen ${\ Displaystyle 2 ^ {n}}$ De esta manera, el tamaño del conjunto de potencia de n objetos. Uno puede usar eso para medir la similitud entre dos objetos: y vería cuántos conjuntos tienen en común. Sin embargo, no se puede. Dos objetos cualesquiera tienen exactamente el mismo número de clases en común si podemos formar cualquier clase posible, a saber ${\ Displaystyle 2 ^ {n-1}}$ (la mitad del total de clases que hay). Para ver que esto es así, uno puede imaginar que cada clase está representada por una cadena de n bits (o entero codificado en binario ), con un cero para cada elemento que no está en la clase y uno para cada elemento en la clase. Como uno encuentra, hay ${\ Displaystyle 2 ^ {n}}$ tales cadenas.

Como todas las opciones posibles de ceros y unos están ahí, dos posiciones de bits concordarán exactamente la mitad del tiempo. Uno puede elegir dos elementos y reordenar los bits para que sean los dos primeros, e imaginar los números ordenados lexicográficamente. El primero ${\ Displaystyle 2 ^ {n} / 2}$ los números tendrán el bit # 1 puesto a cero, y el segundo ${\ Displaystyle 2 ^ {n} / 2}$ lo tendrá configurado en uno. Dentro de cada uno de esos bloques, la parte superior ${\ Displaystyle 2 ^ {n} / 4}$ tendrá el bit # 2 puesto a cero y el otro ${\ Displaystyle 2 ^ {n} / 4}$ lo tendrán como uno, por lo que acuerdan dos bloques de ${\ Displaystyle 2 ^ {n} / 4}$ o en la mitad de todos los casos. No importa qué dos elementos elija uno. Entonces, si no tenemos un sesgo preconcebido sobre qué categorías son mejores, todo es igualmente similar (o igualmente diferente). El número de predicados satisfechos simultáneamente por dos elementos no idénticos es constante en todos esos pares. Por lo tanto, se necesita algún tipo de sesgo inductivo ^{[ cita requerida ]} para hacer juicios para preferir ciertas categorías sobre otras.

Funciones booleanas

Dejar ${\ Displaystyle x_ {1}, x_ {2}, \ dots, x_ {n}}$ ser un conjunto de vectores de ${\ Displaystyle k}$ booleanos cada uno. El patito feo es el vector que menos se parece a los demás. Dados los valores booleanos, esto se puede calcular utilizando la distancia de Hamming .

Sin embargo, la elección de características booleanas a considerar podría haber sido algo arbitraria. Quizás había características derivables de las características originales que fueron importantes para identificar al patito feo. El conjunto de valores booleanos en el vector se puede ampliar con nuevas características calculadas como funciones booleanas del ${\ Displaystyle k}$ características originales. La única forma canónica de hacer esto es extenderlo con todas las funciones booleanas posibles. Los vectores completados resultantes tienen ${\ Displaystyle 2 ^ {k}}$ características. El teorema del patito feo establece que no hay patito feo porque dos vectores completos cualesquiera serán iguales o diferirán exactamente en la mitad de las características.

Prueba. Sean xey dos vectores. Si son iguales, entonces sus vectores completos también deben ser iguales porque cualquier función booleana de x estará de acuerdo con la misma función booleana de y. Si xey son diferentes, entonces existe una coordenada ${\ Displaystyle i}$ donde el ${\ Displaystyle i}$ -th coordenada de ${\ Displaystyle x}$ difiere del ${\ Displaystyle i}$ -th coordenada de ${\ Displaystyle y}$ . Ahora las funciones completadas contienen todas las funciones booleanas en ${\ Displaystyle k}$ Variables booleanas, cada una exactamente una vez. Ver estas funciones booleanas como polinomios en ${\ Displaystyle k}$ variables sobre GF (2), segregar las funciones en pares ${\ Displaystyle (f, g)}$ dónde ${\ Displaystyle f}$ contiene la ${\ Displaystyle i}$ -ésima coordenada como un término lineal y ${\ Displaystyle g}$ es ${\ Displaystyle f}$ sin ese término lineal. Ahora, para cada par de esos ${\ Displaystyle (f, g)}$ , ${\ Displaystyle x}$ y ${\ Displaystyle y}$ acordará exactamente una de las dos funciones. Si están de acuerdo en uno, deben estar en desacuerdo con el otro y viceversa. (Se cree que esta prueba se debe a Watanabe).

Discusión

Una solución al teorema del patito feo ^{[ aclarar ]} sería introducir una restricción sobre cómo se mide la similitud limitando las propiedades involucradas en la clasificación, digamos entre A y B. Sin embargo, Medin et al. (1993) señalan que esto en realidad no resuelve el problema de la arbitrariedad o el sesgo, ya que en qué aspectos A es similar a B: “varía con el contexto y la tarea del estímulo, por lo que no hay una respuesta única a la pregunta de cuán similar es un objeto a otro ”. ^[3]^[5] Por ejemplo, "un barbero y una cebra serían más similares que un caballo y una cebra si la característica rayada tuviera el peso suficiente. Por supuesto, si estos pesos de características fueran fijos, entonces estas relaciones de similitud estarían restringidas ". Sin embargo, la propiedad "rayada" como una "corrección" o restricción de peso es arbitraria en sí misma, lo que significa: "a menos que uno pueda especificar tales criterios, entonces la afirmación de que la categorización se basa en la coincidencia de atributos es casi completamente vacía".

Stamos (2003) comentó que algunos juicios de similitud general no son arbitrarios en el sentido de que son útiles:

"Presumiblemente, los procesos perceptivos y conceptuales de las personas han evolucionado para que la información que es importante para las necesidades y objetivos humanos pueda aproximarse aproximadamente mediante una heurística de similitud ... Si estás en la jungla y ves un tigre pero decides no estereotipar (quizás porque cree que la similitud es un falso amigo), entonces probablemente será devorado. En otras palabras, en el mundo biológico, los estereotipos basados en juicios verídicos de similitud general resultan estadísticamente en una mayor supervivencia y éxito reproductivo ". ^[6]

A menos que algunas propiedades se consideren más destacadas, o 'ponderadas' más importantes que otras, todo parecerá igualmente similar, por lo que Watanabe (1986) escribió: “cualquier objeto, en la medida en que se distinga, es igualmente similar”. ^[7]

En un entorno más débil que asume infinitas propiedades, Murphy y Medin (1985) dan un ejemplo de dos cosas clasificadas putativas, ciruelas y cortadoras de césped:

"Supongamos que uno va a enumerar los atributos que las ciruelas y las cortadoras de césped tienen en común para juzgar su similitud. Es fácil ver que la lista podría ser infinita: ambos pesan menos de 10,000 kg (y menos de 10,001 kg), ambos no existía hace 10.000.000 años (y hace 10.000.001 años), ambos no pueden oír bien, ambos pueden dejarse de lado, ambos ocupan espacio, etc. Asimismo, la lista de diferencias podría ser infinita ... dos entidades cualesquiera pueden ser arbitrariamente similares o diferente al cambiar el criterio de lo que cuenta como un atributo relevante ". ^[8]

Según Woodward, ^[9] el teorema del patito feo está relacionado con la Ley de conservación de Schaffer para el rendimiento de generalización , que establece que todos los algoritmos para el aprendizaje de funciones booleanas a partir de ejemplos de entrada / salida tienen el mismo rendimiento de generalización general que la adivinación aleatoria. ^[10] Woodward generaliza este último resultado a funciones en dominios infinitos contables. ^[11]

Ver también

Sin almuerzo gratis en búsqueda y optimización
No hay teorema de almuerzo gratis
Identidad de indiscernibles : la clasificación (discernibilidad) es posible (con o sin sesgo ), pero no puede haber objetos o entidades separados que tengan todas sus propiedades en común.

Notas

↑ ^a ^b Satosi Watanabe (1969). Saber y adivinar: un estudio cuantitativo de inferencia e información . Nueva York: Wiley. ISBN 0-471-92130-0. LCCN 68-56165 .
^ X ₁ , x ₂ , x ₃ , y ₁ y y _{2 de} Watanabecorresponden a C , B , A , F y W, respectivamente.
^ Douglas L. Medin y RL Goldstone y Dedre Gentner (1993). "Respeto a la similitud". Revisión psicológica . 100 (2): 254–278. doi : 10.1037 / 0033-295x.100.2.254 .
^ Nelson Goodman (1972). "Siete restricciones sobre la similitud". En Nelson Goodman (ed.). Problemas y Proyectos . Nueva York: Bobs-Merril. págs. 437–446.
↑ El filósofo Nelson Goodman ^[4] llegó a la misma conclusión: "Pero la importancia es un asunto muy volátil, que varía con cada cambio de contexto e interés, y es bastante incapaz de apoyar las distinciones fijas que los filósofos tan a menudo buscan basarse en él". .
^ Stamos, DN (2003). El problema de las especies . Libros de Lexington. pag. 344.
^ Satosi Watanabe (1986). "Relatividad epistemológica" . Anales de la Asociación Japonesa de Filosofía de la Ciencia . 7 (1): 1-14. doi : 10.4288 / jafpos1956.7.1 .
^ Gregory L. Murphy y Douglas L. Medin (julio de 1985). "El papel de las teorías en la coherencia conceptual" (PDF) . Revisión psicológica . 92 (3): 289–316. doi : 10.1037 / 0033-295x.92.3.289 .
^ John R. Woodward (noviembre de 2009). "Funciones Computables e Incomputables y Algoritmos de Búsqueda" (PDF) . Congreso Internacional de Computación Inteligente y Sistemas Inteligentes . IEEE. págs. 871–875. doi : 10.1109 / ICICISYS.2009.5358045 . ISBN 978-1-4244-4754-1.Aquí: p. 874 lf
^ Cullen Schaffer (1994). "Una ley de conservación para el desempeño de la generalización" (PDF) . En Willian, H .; Cohen, W. (eds.). Actas de la Conferencia Internacional sobre Aprendizaje Automático de 1994 (San Mateo / CA) . Morgan Kaufmann. págs. 259-265.Aquí p. 260 lf
^ Woodward (2009), p. 875 lf

[Watanabe.1969-1] Satosi Watanabe (1969). Saber y adivinar: un estudio cuantitativo de inferencia e información . Nueva York: Wiley. ISBN 0-471-92130-0. LCCN 68-56165 .

[2] X ₁ , x ₂ , x ₃ , y ₁ y y _{2 de} Watanabecorresponden a C , B , A , F y W, respectivamente.

[3] Douglas L. Medin y RL Goldstone y Dedre Gentner (1993). "Respeto a la similitud". Revisión psicológica . 100 (2): 254–278. doi : 10.1037 / 0033-295x.100.2.254 .

[4] Nelson Goodman (1972). "Siete restricciones sobre la similitud". En Nelson Goodman (ed.). Problemas y Proyectos . Nueva York: Bobs-Merril. págs. 437–446.

[5] El filósofo Nelson Goodman ^[4] llegó a la misma conclusión: "Pero la importancia es un asunto muy volátil, que varía con cada cambio de contexto e interés, y es bastante incapaz de apoyar las distinciones fijas que los filósofos tan a menudo buscan basarse en él". .

[6] Stamos, DN (2003). El problema de las especies . Libros de Lexington. pag. 344.

[7] Satosi Watanabe (1986). "Relatividad epistemológica" . Anales de la Asociación Japonesa de Filosofía de la Ciencia . 7 (1): 1-14. doi : 10.4288 / jafpos1956.7.1 .

[8] Gregory L. Murphy y Douglas L. Medin (julio de 1985). "El papel de las teorías en la coherencia conceptual" (PDF) . Revisión psicológica . 92 (3): 289–316. doi : 10.1037 / 0033-295x.92.3.289 .

[Woodward.2009-9] John R. Woodward (noviembre de 2009). "Funciones Computables e Incomputables y Algoritmos de Búsqueda" (PDF) . Congreso Internacional de Computación Inteligente y Sistemas Inteligentes . IEEE. págs. 871–875. doi : 10.1109 / ICICISYS.2009.5358045 . ISBN 978-1-4244-4754-1.Aquí: p. 874 lf

[10] Cullen Schaffer (1994). "Una ley de conservación para el desempeño de la generalización" (PDF) . En Willian, H .; Cohen, W. (eds.). Actas de la Conferencia Internacional sobre Aprendizaje Automático de 1994 (San Mateo / CA) . Morgan Kaufmann. págs. 259-265.Aquí p. 260 lf

[11] Woodward (2009), p. 875 lf

[1]