Perceptrons: una introducción a la geometría computacional es un libro escrito por Marvin Minsky y Seymour Papert y publicado en 1969. A principios de la década de 1970 se publicó una edición con correcciones y adiciones escritas a mano. En 1987 se publicó una edición ampliada que contiene un capítulo dedicado a contrarrestar las críticas que se le hicieron en los años ochenta.
Autor | Marvin Minsky , Seymour Papert |
---|---|
Fecha de publicación | 1969 |
ISBN | 0 262 13043 2 |
El tema principal del libro es el perceptrón , un tipo de red neuronal artificial desarrollada a finales de la década de 1950 y principios de la de 1960. El libro estaba dedicado al psicólogo Frank Rosenblatt , quien en 1957 había publicado el primer modelo de "Perceptron". [1] Rosenblatt y Minsky se conocían desde la adolescencia, habiendo estudiado con un año de diferencia en la Bronx High School of Science . [2] En un momento se convirtieron en figuras centrales de un debate dentro de la comunidad de investigación de IA, y se sabe que promovieron discusiones ruidosas en conferencias, pero se mantuvieron amistosas. [3]
Este libro es el centro de una controversia de larga data en el estudio de la inteligencia artificial . Se afirma que las predicciones pesimistas realizadas por los autores fueron responsables de un cambio en la dirección de la investigación en IA, concentrando esfuerzos en los llamados sistemas "simbólicos", una línea de investigación que se agotó y contribuyó al llamado invierno de la IA. de la década de 1980, cuando la promesa de AI no se cumplió.
La esencia de los perceptrones es una serie de pruebas matemáticas que reconocen algunas de las fortalezas de los perceptrones y, al mismo tiempo, muestran limitaciones importantes. [3] El más importante está relacionado con el cálculo de algunos predicados, como la función XOR, y también el predicado de conectividad importante. El problema de la conexión se ilustra en la portada del libro con colores incómodos , que pretende mostrar cómo los humanos mismos tienen dificultades para calcular este predicado. [4]
Fondo
El perceptrón es una red neuronal desarrollada por el psicólogo Frank Rosenblatt en 1958 y es una de las máquinas más famosas de su época. [5] [6] En 1960, Rosenblatt y sus colegas pudieron demostrar que el perceptrón podía, en un número finito de ciclos de entrenamiento, aprender cualquier tarea que pudieran incorporar sus parámetros. El teorema de convergencia del perceptrón se demostró para redes neuronales de una sola capa. [6]
Durante este período, la investigación de la red neuronal fue un enfoque importante para el problema del cerebro-máquina que había sido adoptado por un número significativo de personas. [6] Los informes del New York Times y las declaraciones de Rosenblatt afirmaron que las redes neuronales pronto podrían ver imágenes, vencer a los humanos en el ajedrez y reproducirse. [3] Al mismo tiempo, surgieron nuevos enfoques que incluían la IA simbólica . [7] Diferentes grupos se encontraron compitiendo por fondos y personas, y su demanda de potencia informática superó con creces la oferta disponible. [8]
Contenido
Perceptrons: An Introduction to Computational Geometry es un libro de trece capítulos agrupados en tres secciones. Los capítulos 1 a 10 presentan la teoría del perceptrón de los autores a través de demostraciones, el capítulo 11 trata del aprendizaje, el capítulo 12 trata los problemas de separación lineal y el capítulo 13 analiza algunos de los pensamientos de los autores sobre los perceptrones simples y multicapa y el reconocimiento de patrones. [9] [10]
Definición de perceptrón
Minsky y Papert tomaron como tema las versiones abstractas de una clase de dispositivos de aprendizaje que llamaron perceptrones, "en reconocimiento al trabajo pionero de Frank Rosenblatt". [10] Estos perceptrones eran formas modificadas de los perceptrones introducidos por Rosenblatt en 1958. Consistían en una retina, una capa única de funciones de entrada y una salida única. [9] [6]
Además de esto, los autores restringieron el "orden", o número máximo de conexiones entrantes, de sus perceptrones. El sociólogo Mikel Olazaran explica que Minsky y Papert "sostenían que el interés de la computación neuronal venía del hecho de que se trataba de una combinación paralela de información local ", que, para ser eficaz, tenía que ser un simple cálculo. Para los autores, esto implicaba que "cada unidad de asociación podría recibir conexiones sólo desde una pequeña parte del área de entrada". [6] Minsky y Papert llamaron a este concepto "localidad conjuntiva". [10]
Paridad y conectividad
Dos ejemplos principales analizados por los autores fueron la paridad y la conectividad. La paridad implica determinar si el número de entradas activadas en la retina de entrada es par o impar, y la conexión se refiere al problema figura-tierra . Minsky y Papert demostraron que el perceptrón de una sola capa no podía calcular la paridad bajo la condición de localización conjuntiva y demostraron que el orden requerido para que un perceptrón calcule la conectividad crecía de manera impracticable. [11] [10]
El asunto XOR
Algunos críticos del libro afirman que los autores insinúan que, dado que una sola neurona artificial es incapaz de implementar algunas funciones como la función lógica XOR , las redes más grandes también tienen limitaciones similares y, por lo tanto, deberían descartarse. La investigación sobre perceptrones de tres capas mostró cómo implementar tales funciones. Rosenblatt en su libro demostró que el perceptrón elemental con un número ilimitado a priori de elementos A de capa ocultos (neuronas) y una neurona de salida puede resolver cualquier problema de clasificación. (Teorema de existencia. [12] ) Minsky y Papert utilizaron perceptrones con un número restringido de entradas de los elementos A de la capa oculta y condición de localidad: cada elemento de la capa oculta recibe las señales de entrada de un círculo pequeño. Estos perceptrones restringidos no pueden definir si la imagen es una figura conectada o si el número de píxeles de la imagen es par (el predicado de paridad).
Hay muchos errores en esta historia. Aunque una sola neurona puede, de hecho, calcular sólo un pequeño número de predicados lógicos, era ampliamente conocido que las redes de tales elementos pueden calcular cualquier función booleana posible . Esto lo sabían Warren McCulloch y Walter Pitts , quienes incluso propusieron cómo crear una máquina de Turing con sus neuronas formales, se menciona en el libro de Rosenblatt, e incluso se menciona en el libro Perceptrons. [13] Minsky también usa extensivamente neuronas formales para crear computadoras teóricas simples en su libro Computación: Máquinas finitas e infinitas .
Lo que sí demuestra el libro es que en perceptrones de retroalimentación de tres capas (con una capa llamada "oculta" o "intermedia"), no es posible calcular algunos predicados a menos que al menos una de las neuronas de la primera capa de neuronas (la capa "intermedia") está conectada con un peso no nulo a todas y cada una de las entradas. Esto era contrario a la esperanza de algunos investigadores de depender principalmente de redes con unas pocas capas de neuronas "locales", cada una conectada sólo a un pequeño número de entradas. Una máquina de retroalimentación con neuronas "locales" es mucho más fácil de construir y usar que una red neuronal más grande y completamente conectada, por lo que los investigadores en ese momento se concentraron en estas en lugar de en modelos más complicados.
Algunos otros críticos, sobre todo Jordan Pollack, señalan que lo que era una pequeña prueba sobre un problema global (paridad) que no era detectable por los detectores locales fue interpretado por la comunidad como un intento bastante exitoso de enterrar toda la idea. [14]
Perceptrones y reconocimiento de patrones
En el capítulo final, los autores expresaron sus pensamientos sobre las máquinas multicapa y los perceptrones de Gamba. Conjeturan que las máquinas Gamba requerirían "un número enorme" de máscaras Gamba y que las redes neuronales multicapa son una extensión "estéril". Además, señalan que muchos de los problemas "imposibles" de los perceptrones ya se habían resuelto utilizando otros métodos. [10]
Recepción y legado
Perceptrons recibió una serie de críticas positivas en los años posteriores a la publicación. En 1969, el profesor de Stanford Michael A. Arbib declaró, "[e] su libro ha sido ampliamente aclamado como un nuevo y emocionante capítulo en la teoría del reconocimiento de patrones". [15] A principios de ese año, el profesor de CMU Allen Newell compuso una reseña del libro para la ciencia , abriendo el artículo declarando "[este] es un gran libro". [dieciséis]
Por otro lado, HD Block expresó su preocupación por la definición limitada de perceptrones de los autores. Argumentó que "estudian una clase muy limitada de máquinas desde un punto de vista bastante ajeno al de Rosenblatt" y, por tanto, el título del libro era "seriamente engañoso". [9] Los investigadores contemporáneos de redes neuronales compartieron algunas de estas objeciones: Bernard Widrow se quejó de que los autores habían definido perceptrones de manera demasiado estrecha, pero también dijeron que las pruebas de Minsky y Papert eran "bastante irrelevantes", ya que llegaron una década después del perceptrón de Rosenblatt. [11]
A menudo se piensa que los perceptrones causaron una disminución en la investigación de redes neuronales en la década de 1970 y principios de la de 1980. [3] [17] Durante este período, los investigadores de redes neuronales continuaron con proyectos más pequeños fuera de la corriente principal, mientras que la investigación simbólica de IA experimentó un crecimiento explosivo. [18] [3]
Con el resurgimiento del conexionismo a finales de los 80, el investigador del PDP David Rumelhart y sus colegas regresaron a Perceptrons . En un informe de 1986, afirmaron haber superado los problemas presentados por Minsky y Papert, y que "su pesimismo sobre el aprendizaje en máquinas multicapa estaba fuera de lugar". [3]
Análisis de la controversia
Es muy instructivo saber lo que Minsky y Papert dijeron en la década de 1970 sobre cuáles eran las implicaciones más amplias de su libro. En su sitio web Harvey Cohen, [19] un investigador en el MIT AI Labs 1974+, [20] cita a Minsky y Papert en el Informe del Proyecto MAC de 1971, dirigido a agencias de financiación, sobre "Redes Gamba": [21] "Virtually no se sabe nada acerca de las capacidades computacionales de este último tipo de máquina. Creemos que puede hacer poco más que un perceptrón de orden inferior ". En la página anterior, Minsky y Papert aclaran que las "redes Gamba" son redes con capas ocultas.
Minsky ha comparado el libro con el libro de ficción Necronomicon en los cuentos de HP Lovecraft , un libro conocido por muchos, pero leído solo por unos pocos. [22] Los autores hablan en la edición ampliada sobre la crítica del libro que comenzó en la década de 1980, con una nueva ola de investigación simbolizada por el libro PDP .
La forma en que Perceptrons fue explorada primero por un grupo de científicos para impulsar la investigación en IA en una dirección, y luego por un nuevo grupo en otra dirección, ha sido objeto de un estudio sociológico del desarrollo científico. [3]
Notas
- ^ Rosenblatt, Frank (enero de 1957). "El perceptrón: un autómata que percibe y reconoce (Proyecto PARA)" (PDF) . Informe (85-460-1). Cornell Aeronautical Laboratory, Inc., conmemorado en Joe Pater, Brain Wars: ¿Cómo funciona la mente? ¿Y por qué es eso tan importante? , UmassAmherst . Consultado el 29 de diciembre de 2019 . Cite journal requiere
|journal=
( ayuda );Enlace externo en|publisher=
( ayuda ) - ^ Crevier 1993
- ^ a b c d e f g Olazaran, Mikel (1996). "Un estudio sociológico de la historia oficial de la controversia de los perceptrones". Estudios sociales de la ciencia . 26 (3): 611–659. doi : 10.1177 / 030631296026003005 . JSTOR 285702 .
- ↑ Minsky-Papert 1972: 74 muestra las figuras en blanco y negro. La portada de la edición de bolsillo de 1972 los tiene impresos en púrpura sobre un fondo rojo, y esto hace que la conectividad sea aún más difícil de discernir sin el uso de un dedo u otros medios para seguir los patrones mecánicamente. Este problema se analiza en detalle en las páginas 136 y siguientes y, de hecho, implica trazar el límite.
- ^ Rosenblatt, Frank (1958). "El perceptrón: un modelo probabilístico para el almacenamiento y la organización de la información en el cerebro". Revisión psicológica . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . doi : 10.1037 / h0042519 . PMID 13602029 .
- ↑ a b c d e Olazaran , 1996 , p. 618
- ^ Haugeland, John (1985). Inteligencia artificial: la idea misma . Cambridge, Mass: MIT Press. ISBN 978-0-262-08153-5.
- ^ Hwang, Tim (2018). "El poder computacional y el impacto social de la inteligencia artificial". arXiv : 1803.08971v1 [ cs.AI ].
- ^ a b c Bloque, HD (1970). "Una revisión de 'Perceptrones: una introducción a la geometría computacional ' " . Información y control . 17 (1): 501–522. doi : 10.1016 / S0019-9958 (70) 90409-2 .
- ^ a b c d e Minsky, Marvin; Papert, Seymour (1988). Perceptrones: una introducción a la geometría computacional . Prensa del MIT.
- ↑ a b Olazaran , 1996 , p. 630
- ^ Teorema 1 en Rosenblatt, F. (1961) Principios de neurodinámica: perceptrones y teoría de los mecanismos cerebrales, Spartan. Washington DC.
- ^ Cf. Minsky-Papert (1972: 232): "... una computadora universal podría construirse completamente a partir de módulos de umbral lineal. Esto no reduce en ningún sentido la teoría de la computación y la programación a la teoría de los perceptrones".
- ^ Pollack, JB (1989). "Ningún daño intencionado: una revisión de la edición ampliada de Perceptrons". Revista de Psicología Matemática . 33 (3): 358–365. doi : 10.1016 / 0022-2496 (89) 90015-1 .
- ^ Arbib, Michael (noviembre de 1969). "Revisión de 'Perceptrones: una introducción a la geometría computacional ' ". Transacciones IEEE sobre teoría de la información . 15 (6): 738–739. doi : 10.1109 / TIT.1969.1054388 .
- ^ Newell, Allen (1969). "Un paso hacia la comprensión de los procesos de información". Ciencia . 165 (3895): 780–782. doi : 10.1126 / science.165.3895.780 . JSTOR 1727364 .
- ^ Alom, Md Zahangir; et al. (2018). "La historia comenzó desde AlexNet: una encuesta completa sobre enfoques de aprendizaje profundo". arXiv : 1803.01164v1 [ cs.CV ].
1969: Minsky y Papert muestran las limitaciones del perceptrón, matando la investigación en redes neuronales durante una década.
- ^ Bechtel, William (1993). "El caso del conexionismo". Estudios filosóficos . 71 (2): 119-154. doi : 10.1007 / BF00989853 . JSTOR 4320426 .
- ^ "La controversia del perceptrón" .
- ^ "Autor de MIT AI Memo 338" (PDF) .
- ^ del nombre del investigador italiano de redes neuronales Augusto Gamba (1923-1996), diseñador del perceptrón PAPA
- ^ "Historia: el pasado" . Ucs.louisiana.edu . Consultado el 10 de julio de 2013 .
Referencias
- McCorduck, Pamela (2004), Máquinas que piensan (2a ed.), Natick, MA: AK Peters, Ltd., ISBN 1-56881-205-1, págs. 104-107
- Crevier, Daniel (1993), AI: The Tumultuous Search for Artificial Intelligence , Nueva York, NY: BasicBooks, ISBN 0-465-02997-3, págs. 102-105
- Russell, Stuart J .; Norvig, Peter (2003), Inteligencia artificial: un enfoque moderno (2a ed.), Upper Saddle River, Nueva Jersey: Prentice Hall, ISBN 0-13-790395-2pag. 22
- Marvin Minsky y Seymour Papert, 1972 (segunda edición con correcciones, primera edición 1969) Perceptrons: An Introduction to Computational Geometry , The MIT Press, Cambridge MA, ISBN 0-262-63022-2 .