Inteligencia artificial explicable


La IA explicable ( XAI ) es la inteligencia artificial (IA) en la que los humanos pueden entender los resultados de la solución. Contrasta con el concepto de " caja negra " en el aprendizaje automático, donde incluso sus diseñadores no pueden explicar por qué una IA llegó a una decisión específica. [1] XAI puede ser una implementación del derecho social a la explicación . [2] XAI es relevante incluso si no existe ningún derecho legal o requisito reglamentario; por ejemplo, XAI puede mejorar la experiencia del usuariode un producto o servicio ayudando a los usuarios finales a confiar en que la IA está tomando buenas decisiones. De esta manera, el objetivo de XAI es explicar qué se ha hecho, qué se hace ahora mismo, qué se hará a continuación y desvelar la información en la que se basan las acciones. [3] Estas características permiten (i) confirmar el conocimiento existente (ii) cuestionar el conocimiento existente y (iii) generar nuevos supuestos. [4]

Los algoritmos utilizados en la IA se pueden diferenciar en algoritmos de aprendizaje automático (ML) de caja blanca y caja negra. Los modelos de caja blanca son modelos de ML que brindan resultados que son comprensibles para los expertos en el dominio. Los modelos de caja negra, por otro lado, son extremadamente difíciles de explicar y difícilmente pueden ser entendidos incluso por expertos en el dominio. [5] Se considera que los algoritmos XAI siguen los tres principios de transparencia, interpretabilidad y explicabilidad. La transparencia se da "si los procesos que extraen los parámetros del modelo de los datos de entrenamiento y generan etiquetas a partir de los datos de prueba pueden ser descritos y motivados por el diseñador del enfoque". [6] Interpretabilidad [7]describe la posibilidad de comprender el modelo ML y presentar la base subyacente para la toma de decisiones de una manera que sea comprensible para los humanos. [8] La explicabilidad es un concepto que se reconoce como importante, pero aún no se dispone de una definición conjunta. [6] Se sugiere que la explicabilidad en ML puede considerarse como “la colección de características del dominio interpretable, que han contribuido a que un ejemplo dado produzca una decisión (por ejemplo, clasificación o regresión)”. [9] Si los algoritmos cumplen con estos requisitos, proporcionan una base para justificar decisiones, rastrearlas y, por lo tanto, verificarlas, mejorar los algoritmos y explorar nuevos hechos. [10]

A veces también es posible lograr un resultado con alta precisión con un algoritmo ML de caja blanca que es interpretable en sí mismo. [11] Esto es especialmente importante en dominios como la medicina, la defensa, las finanzas y el derecho, donde es crucial comprender las decisiones y generar confianza en los algoritmos. [3]

Los sistemas de inteligencia artificial optimizan el comportamiento para satisfacer un sistema de objetivos matemáticamente especificado elegido por los diseñadores del sistema, como el comando "maximizar la precisión de evaluar qué tan positivas son las reseñas de películas en el conjunto de datos de prueba". La IA puede aprender reglas generales útiles del conjunto de pruebas, como "las reseñas que contienen la palabra 'horrible' probablemente sean negativas". Sin embargo, también puede aprender reglas inapropiadas, como "las reseñas que contienen ' Daniel Day-Lewis ' suelen ser positivas"; tales reglas pueden ser indeseables si se considera probable que no se generalicen fuera del conjunto de prueba, o si la gente considera que la regla es "engañosa" o "injusta".Un humano puede auditar las reglas en un XAI para tener una idea de la probabilidad de que el sistema se generalice a datos futuros del mundo real fuera del conjunto de prueba. [12]Esto es especialmente importante para las herramientas de inteligencia artificial desarrolladas para aplicaciones médicas porque el costo de las predicciones incorrectas suele ser alto. XAI podría aumentar la solidez de los algoritmos y aumentar la confianza de los médicos. [13]

La cooperación entre agentes , en este caso algoritmos y humanos, depende de la confianza. Si los humanos van a aceptar prescripciones algorítmicas, deben confiar en ellas. La incompletitud en la formalización de los criterios de confianza es una barrera para los enfoques de optimización sencillos. Por esa razón, la interpretabilidad y la explicabilidad se postulan como metas intermedias para verificar otros criterios. [14]