Alineación de IA


En la inteligencia artificial (IA) y la filosofía , la alineación de la IA y el problema del control de la IA son aspectos de cómo construir sistemas de IA de manera que ayuden en lugar de dañar a sus creadores. Una preocupación particular es que la humanidad tendrá que resolver el problema del control antes de que se cree un sistema de inteligencia artificial superinteligente , ya que una superinteligencia mal diseñada podría decidir racionalmente tomar el control de su entorno y negarse a permitir que sus creadores lo modifiquen después del lanzamiento. [1] Además, algunos académicos argumentan que las soluciones al problema del control, junto con otros avances en la ingeniería de seguridad de la IA , [2]también podría encontrar aplicaciones en la IA no superinteligente existente. [3]

Los principales enfoques para el problema del control incluyen la alineación , que tiene como objetivo alinear los sistemas de objetivos de IA con los valores humanos, [4] [5] y el control de capacidad , que tiene como objetivo reducir la capacidad de un sistema de IA para dañar a los humanos u obtener el control. [6] Las propuestas de control de capacidad generalmente no se consideran confiables o suficientes para resolver el problema de control, sino como complementos potencialmente valiosos para los esfuerzos de alineación. [1]

Los sistemas de inteligencia artificial débiles existentes se pueden monitorear y apagar y modificar fácilmente si se comportan mal. Sin embargo, una superinteligencia mal programada, que por definición es más inteligente que los humanos para resolver los problemas prácticos que encuentra en el curso de la consecución de sus objetivos, se daría cuenta de que permitir que se apague y modifique podría interferir con su capacidad para lograr sus objetivos actuales. Por lo tanto, si la superinteligencia decide resistir el cierre y la modificación, sería (nuevamente, por definición) lo suficientemente inteligente como para burlar a sus programadores si de lo contrario hay un "campo de juego nivelado" y si los programadores no han tomado precauciones previas. En general, es probable que fracasen los intentos de resolver el problema de control después de que se crea la superinteligencia porque una superinteligencia probablemente tendría un control superior .habilidades de planificación estratégica a los humanos y (todas las cosas iguales) tendrían más éxito en encontrar formas de dominar a los humanos que los humanos serían capaces de encontrar formas de dominar la superinteligencia. El problema de control pregunta: ¿Qué precauciones previas pueden tomar los programadores para evitar con éxito que la superinteligencia se comporte catastróficamente mal? [1]