Equidad (aprendizaje automático)

En el aprendizaje automático , se dice que un algoritmo determinado es justo o imparcial si sus resultados son independientes de las variables dadas , especialmente las que se consideran sensibles, como los rasgos de los individuos que no deben correlacionarse con el resultado (es decir, género, etnia, orientación sexual, discapacidad, etc.).

Contexto

La investigación sobre la equidad en el aprendizaje automático es un tema relativamente reciente. De hecho, la mayoría de los artículos al respecto se han escrito en los últimos tres años. ^[1] Algunos de los hechos más importantes en este tema son los siguientes:

En 2018, IBM presentó AI Fairness 360, una biblioteca de Python con varios algoritmos para reducir el sesgo del software y aumentar su equidad. ^[2]^[3]
En 2018, Facebook hizo público el uso de una herramienta, Fairness Flow, para detectar sesgos en su IA. Sin embargo, el código fuente de la herramienta no es accesible y no se sabe si de hecho corrige el sesgo. ^[4]
En 2019, Google publicó un conjunto de herramientas en GitHub para estudiar los efectos de la equidad a largo plazo. ^[5]

Controversias

Los algoritmos utilizados para garantizar la equidad aún se están mejorando. Sin embargo, el principal avance en esta área es que algunas grandes corporaciones se están dando cuenta del impacto que la reducción del sesgo algorítmico podría tener en la sociedad.

Un ejemplo del controvertido uso de un algoritmo es la forma en que Facebook asigna artículos de noticias a los usuarios, que algunas personas se han quejado puede introducir sesgos políticos . Antes de las elecciones , algunos candidatos han intentado utilizar Facebook con fines de campaña, lo que puede convertirse en un área de disputa masiva.

Transparencia de algoritmos

Muchas personas se han quejado de que los algoritmos a menudo no se pueden inspeccionar como una forma de garantizar que funcionen de manera justa, lo que puede perjudicar a algunos usuarios.

Pero muchas empresas comerciales prefieren no revelar los detalles de los algoritmos que utilizan, ya que con frecuencia afirman que podría ayudar a las empresas rivales a beneficiarse de sus tecnologías.

Trascendencia

Si un algoritmo no funciona correctamente, los efectos en las personas pueden ser importantes y duraderos, por ejemplo, en lo que respecta a oportunidades de educación o empleo y acceso a servicios de crédito financiero.

Estándares internacionales

Debido a que los algoritmos cambian constantemente y a menudo son propietarios , existen pocos estándares reconocidos para su construcción u operación.

Eventualmente, los algoritmos pueden volverse más altamente regulados, pero actualmente, hay poca supervisión pública para ellos.

Criterios de equidad en problemas de clasificación

En los problemas de clasificación , un algoritmo aprende una función para predecir una característica discreta ${\ textstyle Y}$ , la variable objetivo, a partir de características conocidas ${\ textstyle X}$ . Modelamos ${\ textstyle A}$ como una variable aleatoria discreta que codifica algunas características contenidas o codificadas implícitamente en ${\ textstyle X}$ que consideramos como características sensibles (género, etnia, orientación sexual, etc.). Finalmente denotamos por ${\ textstyle R}$ la predicción del clasificador . Ahora definamos tres criterios principales para evaluar si un clasificador dado es justo, es decir, si sus predicciones no están influenciadas por algunas de estas variables sensibles. ^[6]

Independencia

Decimos las variables aleatorias ${\ textstyle (R, A)}$ satisfacer la independencia si las características sensibles ${\ textstyle A}$ son estadísticamente independientes de la predicción ${\ textstyle R}$ y escribimos ${\ textstyle R \ bot A}$ .

También podemos expresar esta noción con la siguiente fórmula:

{\ Displaystyle P (R = r | A = a) = P (R = r | A = b) \ quad \ forall r \ in R \ quad \ forall a, b \ in A}

Esto significa que la probabilidad de ser clasificado por el algoritmo en cada uno de los grupos es igual para dos individuos con diferentes características sensibles.

Se puede dar otra expresión equivalente para la independencia utilizando el concepto de información mutua entre variables aleatorias , definida como

{\ Displaystyle I (X, Y) = H (X) + H (Y) -H (X, Y)}

En esta fórmula,

{\ textstyle H}

de la variable aleatoria . Luego

{\ textstyle (R, A)}

satisfacer la independencia si

{\ textstyle H (R, A) = 0}

.

Una posible relajación de la definición de independencia nce incluye introducir una holgura positiva ${\ textstyle \ epsilon> 0}$ y viene dada por la fórmula:

{\ Displaystyle P (R = r | A = a) \ geq P (R = r | A = b) - \ epsilon \ quad \ forall r \ in R \ quad \ forall a, b \ in A}

Finalmente, otra posible relajación es requerir ${\ estilo de texto I (R, A) \ leq \ epsilon}$ .

Separación

Decimos las variables aleatorias ${\ textstyle (R, A, Y)}$ satisfacer la separación si las características sensibles ${\ textstyle A}$ son estadísticamente independientes de la predicción ${\ textstyle R}$ dado el valor objetivo ${\ textstyle Y}$ y escribimos ${\ textstyle R \ bot A | Y}$ .

También podemos expresar esta noción con la siguiente fórmula:

{\ Displaystyle P (R = r | Y = q, A = a) = P (R = r | Y = q, A = b) \ quad \ forall r \ in R \ quad q \ in Y \ quad \ forall a, b \ in A}

Esto significa que la probabilidad de ser clasificados por el algoritmo en cada uno de los grupos es igual para dos individuos con diferentes características sensibles dado que realmente pertenecen al mismo grupo (tienen la misma variable objetivo).

Otra expresión equivalente, en el caso de una tasa objetivo binaria, es que la tasa de verdaderos positivos y la tasa de falsos positivos son iguales (y por lo tanto la tasa de falsos negativos y la tasa de verdaderos negativos son iguales) para cada valor de las características sensibles:

{\ Displaystyle P (R = 1 | Y = 1, A = a) = P (R = 1 | Y = 1, A = b) \ quad \ forall a, b \ in A}

{\ Displaystyle P (R = 1 | Y = 0, A = a) = P (R = 1 | Y = 0, A = b) \ quad \ forall a, b \ in A}

Finalmente, otra posible relajación de las definiciones dadas es permitir que el valor de la diferencia entre tasas sea un número positivo menor que una holgura dada. ${\ textstyle \ epsilon> 0}$ , en lugar de igual a cero.

Suficiencia

Decimos las variables aleatorias ${\ textstyle (R, A, Y)}$ satisfacer la suficiencia si las características sensibles ${\ textstyle A}$ son estadísticamente independientes del valor objetivo ${\ textstyle Y}$ dada la predicción ${\ textstyle R}$ y escribimos ${\ textstyle Y \ bot A | R}$ .

También podemos expresar esta noción con la siguiente fórmula:

{\ Displaystyle P (Y = q | R = r, A = a) = P (Y = q | R = r, A = b) \ quad \ forall q \ in Y \ quad r \ in R \ quad \ forall a, b \ in A}

Esto significa que la probabilidad de estar realmente en cada uno de los grupos es igual para dos individuos con diferentes características sensibles dado que se predijo que pertenecían al mismo grupo.

Relaciones entre definiciones

Finalmente, resumimos algunos de los principales resultados que relacionan las tres definiciones dadas anteriormente:

Si ${\ textstyle A}$ y ${\ textstyle Y}$ no son estadísticamente independientes , entonces la suficiencia y la independencia no pueden sostenerse a la vez.
Asumiendo ${\ textstyle Y}$ es binario, si ${\ textstyle A}$ y ${\ textstyle Y}$ no son estadísticamente independientes , y ${\ textstyle R}$ y ${\ textstyle Y}$ tampoco son estadísticamente independientes , entonces la independencia y la separación no pueden sostenerse a la vez.
Si ${\ textstyle (R, A, Y)}$ como una distribución conjunta tiene probabilidad positiva para todos sus valores posibles y ${\ textstyle A}$ y ${\ textstyle Y}$ no son estadísticamente independientes , entonces la separación y la suficiencia no pueden sostenerse a la vez.

Métrica

La mayoría de las medidas estadísticas de equidad se basan en diferentes métricas, por lo que comenzaremos por definirlas. Cuando se trabaja con un clasificador binario , tanto la clase pronosticada como la real pueden tomar dos valores: positivo y negativo. Ahora comencemos a explicar las diferentes relaciones posibles entre el resultado predicho y el resultado real: ^[7]

Matriz de confusión

Verdadero positivo (TP) : el caso en el que tanto el resultado predicho como el real están en una clase positiva.
Verdadero negativo (TN) : el caso en el que tanto el resultado previsto como el resultado real se asignan a la clase negativa.
Falso positivo (FP) : un caso que se predice que caerá en una clase positiva asignada en el resultado real es negativo.
Falso negativo (FN) : un caso que se predice que estará en la clase negativa con un resultado real está en la clase positiva.

Estas relaciones se pueden representar fácilmente con una matriz de confusión , una tabla que describe la precisión de un modelo de clasificación. En esta matriz, las columnas y filas representan instancias de los casos predichos y reales, respectivamente.

Al usar estas relaciones, podemos definir múltiples métricas que luego se pueden usar para medir la equidad de un algoritmo:

Valor predicho positivo (VPP) : la fracción de casos positivos que se predijeron correctamente de todas las predicciones positivas. Por lo general, se denomina precisión y representa la probabilidad de una predicción positiva correcta. Viene dada por la siguiente fórmula:

{\ Displaystyle PPV = P (actual = + | predicción = +) = {\ frac {TP} {TP + FP}}}

Tasa de descubrimiento falso (FDR) : la fracción de predicciones positivas que fueron realmente negativas de todas las predicciones positivas. Representa la probabilidad de una predicción positiva errónea y viene dada por la siguiente fórmula:

{\ Displaystyle FDR = P (actual = - | predicción = +) = {\ frac {FP} {TP + FP}}}

Valor predicho negativo (VPN) : la fracción de casos negativos que se predijeron correctamente de todas las predicciones negativas. Representa la probabilidad de una predicción negativa correcta y viene dada por la siguiente fórmula:

{\ Displaystyle NPV = P (actual = - | predicción = -) = {\ frac {TN} {TN + FN}}}

Tasa de omisiones falsas (FOR) : la fracción de predicciones negativas que fueron realmente positivas de todas las predicciones negativas. Representa la probabilidad de una predicción negativa errónea y viene dada por la siguiente fórmula:

{\ Displaystyle FOR = P (actual = + | predicción = -) = {\ frac {FN} {TN + FN}}}

Tasa de verdaderos positivos (TPR) : la fracción de casos positivos que se predijeron correctamente de todos los casos positivos. Suele denominarse sensibilidad o recuerdo, y representa la probabilidad de que los sujetos positivos se clasifiquen correctamente como tales. Está dado por la fórmula:

{\ Displaystyle TPR = P (predicción = + | actual = +) = {\ frac {TP} {TP + FN}}}

Tasa de falsos negativos (FNR) : la fracción de casos positivos que se predijo incorrectamente que serían negativos de todos los casos positivos. Representa la probabilidad de que los sujetos positivos sean clasificados incorrectamente como negativos, y viene dada por la fórmula:

{\ Displaystyle FNR = P (predicción = - | actual = +) = {\ frac {FN} {TP + FN}}}

Tasa de verdaderos negativos (TNR) : la fracción de casos negativos que se predijeron correctamente de todos los casos negativos. Representa la probabilidad de que los sujetos negativos se clasifiquen correctamente como tales, y viene dada por la fórmula:

{\ Displaystyle TNR = P (predicción = - | actual = -) = {\ frac {TN} {TN + FP}}}

Tasa de falsos positivos (FPR) : la fracción de casos negativos que se predijo incorrectamente que serían positivos de todos los casos negativos. Representa la probabilidad de que los sujetos negativos se clasifiquen incorrectamente como positivos, y viene dada por la fórmula:

{\ Displaystyle FPR = P (predicción = + | actual = -) = {\ frac {FP} {TN + FP}}}

Otros criterios de equidad

Relación entre criterios de equidad como se muestra en Barocas et al. ^[6]

Los siguientes criterios pueden entenderse como medidas de las tres definiciones dadas en la primera sección, o como relajación de las mismas. En la tabla ^[6] de la derecha, podemos ver las relaciones entre ellos.

Para definir estas medidas específicamente, las dividiremos en tres grandes grupos como se hizo en Verma et al .: ^[7] definiciones basadas en un resultado predicho, en resultados pronosticados y reales, y definiciones basadas en probabilidades pronosticadas y el resultado real.

Trabajaremos con un clasificador binario y la siguiente notación: ${\ textstyle S}$ se refiere a la puntuación dada por el clasificador, que es la probabilidad de que un determinado sujeto esté en la clase positiva o negativa. ${\ textstyle R}$ representa la clasificación final predicha por el algoritmo, y su valor generalmente se deriva de ${\ textstyle S}$ , por ejemplo, será positivo cuando ${\ textstyle S}$ está por encima de un cierto umbral. ${\ textstyle Y}$ representa el resultado real, es decir, la clasificación real del individuo y, finalmente, ${\ textstyle A}$ denota los atributos sensibles de los sujetos.

Definiciones basadas en el resultado previsto

Las definiciones de esta sección se centran en un resultado previsto ${\ textstyle R}$ para diversas distribuciones de temas. Son las nociones de justicia más simples e intuitivas.

Equidad de grupo , también conocida como paridad estadística , paridad demográfica , tasa de aceptación y evaluación comparativa . Un clasificador satisface esta definición si los sujetos de los grupos protegidos y desprotegidos tienen la misma probabilidad de ser asignados a la clase de predicción positiva. Esto es, si se cumple la siguiente fórmula:

{\ Displaystyle P (R = + | A = a) = P (R = + | A = b) \ quad \ forall a, b \ in A}

Paridad estadística condicional . Básicamente consiste en la definición anterior, pero restringida solo a un subconjunto de instancias. En notación matemática esto sería:

{\ Displaystyle P (R = + | L = l, A = a) = P (R = + | L = l, A = b) \ quad \ forall a, b \ in A \ quad \ forall l \ in L }

Definiciones basadas en resultados pronosticados y reales

Estas definiciones no solo consideran el resultado previsto ${\ textstyle R}$ pero también compárelo con el resultado real ${\ textstyle Y}$ .

Paridad predictiva , también conocida como prueba de resultado . Un clasificador satisface esta definición si los sujetos de los grupos protegidos y desprotegidos tienen el mismo PPV. Esto es, si se cumple la siguiente fórmula:

{\ Displaystyle P (Y = + | R = +, A = a) = P (Y = + | R = +, A = b) \ quad \ forall a, b \ in A}

Matemáticamente, si un clasificador tiene el mismo PPV para ambos grupos, también tendrá el mismo FDR, satisfaciendo la fórmula:

{\ Displaystyle P (Y = - | R = +, A = a) = P (Y = - | R = +, A = b) \ quad \ forall a, b \ in A}

Equilibrio de la tasa de error falso positivo , también denominado igualdad predictiva . Un clasificador satisface esta definición si los sujetos de los grupos protegidos y desprotegidos tienen un FPR único. Esto es, si se cumple la siguiente fórmula:

{\ Displaystyle P (R = + | Y = -, A = a) = P (R = + | Y = -, A = b) \ quad \ forall a, b \ in A}

Matemáticamente, si un clasificador tiene FPR igual para ambos grupos, también tendrá TNR igual, satisfaciendo la fórmula:

{\ Displaystyle P (R = - | Y = -, A = a) = P (R = - | Y = -, A = b) \ quad \ forall a, b \ in A}

Saldo de la tasa de error falso negativo , también conocido como igualdad de oportunidades . Un clasificador satisface esta definición si los sujetos de los grupos protegidos y desprotegidos tienen FNR iguales. Esto es, si se cumple la siguiente fórmula:

{\ Displaystyle P (R = - | Y = +, A = a) = P (R = - | Y = +, A = b) \ quad \ forall a, b \ in A}

Matemáticamente, si un clasificador tiene FNR igual para ambos grupos, también tendrá TPR igual, satisfaciendo la fórmula:

{\ Displaystyle P (R = + | Y = +, A = a) = P (R = + | Y = +, A = b) \ quad \ forall a, b \ in A}

Probabilidades igualadas , también conocidas como igualdad de precisión de procedimiento condicional y maltrato desigual . Un clasificador satisface esta definición si los sujetos en los grupos protegidos y no protegidos tienen TPR igual y FPR igual, satisfaciendo la fórmula:

{\ Displaystyle P (R = + | Y = y, A = a) = P (R = + | Y = y, A = b) \ quad y \ in \ {+, - \} \ quad \ forall a, b \ in A}

Igualdad de precisión de uso condicional . Un clasificador satisface esta definición si los sujetos en los grupos protegidos y desprotegidos tienen el mismo VPP y el mismo VAN, satisfaciendo la fórmula:

{\ Displaystyle P (Y = y | R = y, A = a) = P (Y = y | R = y, A = b) \ quad y \ in \ {+, - \} \ quad \ forall a, b \ in A}

Igualdad de precisión global . Un clasificador satisface esta definición si el sujeto de los grupos protegido y desprotegido tiene la misma precisión de predicción, es decir, la probabilidad de que se le asigne un sujeto de una clase. Esto es, si satisface la siguiente fórmula:

{\ Displaystyle P (R = Y, A = a) = P (R = Y | A = b) \ quad \ forall a, b \ in A}

Igualdad de trato . Un clasificador satisface esta definición si los sujetos en los grupos protegidos y desprotegidos tienen una proporción igual de FN y FP, satisfaciendo la fórmula:

{\ Displaystyle {\ frac {FN_ {A = a}} {FP_ {A = a}}} = {\ frac {FN_ {A = b}} {FP_ {A = b}}}}

Definiciones basadas en probabilidades pronosticadas y resultado real

Estas definiciones se basan en el resultado real ${\ textstyle Y}$ y la puntuación de probabilidad predicha ${\ textstyle S}$ .

Prueba de equidad , también conocida como calibración o coincidencia de frecuencias condicionales . Un clasificador satisface esta definición si los individuos con el mismo puntaje de probabilidad predicho ${\ textstyle S}$ tienen la misma probabilidad de ser clasificados en la clase positiva cuando pertenecen al grupo protegido o no protegido:

{\ Displaystyle P (Y = + | S = s, A = a) = P (Y = + | S = s, A = b) \ quad \ forall s \ in S \ quad \ forall a, b \ in A }

La calibración del pozo es una extensión de la definición anterior. Establece que cuando los individuos dentro o fuera del grupo protegido tienen el mismo puntaje de probabilidad predicho ${\ textstyle S}$ deben tener la misma probabilidad de ser clasificados en la clase positiva, y esta probabilidad debe ser igual a ${\ textstyle S}$ :

{\ Displaystyle P (Y = + | S = s, A = a) = P (Y = + | S = s, A = b) = s \ quad \ forall s \ in S \ quad \ forall a, b \ en un}

Equilibrio de clase positiva . Un clasificador satisface esta definición si los sujetos que constituyen la clase positiva de los grupos protegidos y desprotegidos tienen el mismo puntaje promedio de probabilidad pronosticada. ${\ textstyle S}$ . Esto significa que el valor esperado de la puntuación de probabilidad para los grupos protegidos y desprotegidos con resultado real positivo ${\ textstyle Y}$ es lo mismo, satisfaciendo la fórmula:

{\ Displaystyle E (S | Y = +, A = a) = E (S | Y = +, A = b) \ quad \ forall a, b \ in A}

Saldo por clase negativa . Un clasificador satisface esta definición si los sujetos que constituyen la clase negativa de los grupos protegidos y desprotegidos tienen el mismo puntaje promedio de probabilidad pronosticada. ${\ textstyle S}$ . Esto significa que el valor esperado de la puntuación de probabilidad para los grupos protegidos y desprotegidos con resultado real negativo ${\ textstyle Y}$ es lo mismo, satisfaciendo la fórmula:

{\ Displaystyle E (S | Y = -, A = a) = E (S | Y = -, A = b) \ quad \ forall a, b \ in A}

Algoritmos

La equidad se puede aplicar a los algoritmos de aprendizaje automático de tres formas diferentes: preprocesamiento de datos , optimización durante el entrenamiento del software o resultados de posprocesamiento del algoritmo.

Preprocesamiento

Por lo general, el clasificador no es el único problema; el conjunto de datos también está sesgado. La discriminación de un conjunto de datos ${\ textstyle D}$ con respecto al grupo ${\ textstyle A = a}$ se puede definir de la siguiente manera:

{\ Displaystyle disc_ {A = a} (D) = {\ frac {| \ {X \ in D | X (A) \ neq a, X (Y) = + \} |} {| \ {X \ in D | X (A) \ neq a \} |}} - {\ frac {| \ {X \ in D | X (A) = a, X (Y) = + \} |} {| \ {X \ en D | X (A) = a \} |}}}

Es decir, una aproximación a la diferencia entre las probabilidades de pertenencia a la clase positiva dado que el sujeto tiene una característica protegida diferente de ${\ textstyle a}$ e igual a ${\ textstyle a}$ .

Los algoritmos que corrigen el sesgo en el preprocesamiento eliminan información sobre las variables del conjunto de datos que pueden resultar en decisiones injustas, mientras intentan alterar lo menos posible. Esto no es tan simple como eliminar la variable sensible, porque otros atributos pueden correlacionarse con la protegida.

Una forma de hacer esto es mapear a cada individuo en el conjunto de datos inicial a una representación intermedia en la que es imposible identificar si pertenece a un grupo protegido en particular mientras se mantiene la mayor cantidad de información posible. Luego, la nueva representación de los datos se ajusta para obtener la máxima precisión en el algoritmo.

De esta manera, los individuos se mapean en una nueva representación multivariable donde la probabilidad de que cualquier miembro de un grupo protegido sea mapeado a un cierto valor en la nueva representación es la misma que la probabilidad de un individuo que no pertenece al grupo protegido. . Luego, esta representación se usa para obtener la predicción para el individuo, en lugar de los datos iniciales. Como la representación intermedia se construye dando la misma probabilidad a los individuos dentro o fuera del grupo protegido, este atributo queda oculto al clasificador.

Un ejemplo se explica en Zemel et al. ^[8] donde se utiliza una variable aleatoria multinomial como representación intermedia. En el proceso, se alienta al sistema a preservar toda la información, excepto la que pueda llevar a decisiones sesgadas, y a obtener una predicción lo más precisa posible.

Por un lado, este procedimiento tiene la ventaja de que los datos preprocesados se pueden utilizar para cualquier tarea de aprendizaje automático. Además, no es necesario modificar el clasificador, ya que la corrección se aplica al conjunto de datos antes del procesamiento. Por otro lado, los otros métodos obtienen mejores resultados en precisión y equidad. ^[9]

Volver a pesar

Volver a pesar es un ejemplo de un algoritmo de preprocesamiento. La idea es asignar un peso a cada punto del conjunto de datos de manera que la discriminación ponderada sea 0 con respecto al grupo designado. ^[10]

Si el conjunto de datos ${\ textstyle D}$ fue imparcial la variable sensible ${\ textstyle A}$ y la variable objetivo ${\ textstyle Y}$ sería estadísticamente independiente y la probabilidad de la distribución conjunta sería el producto de las probabilidades como sigue:

{\ Displaystyle P_ {exp} (A = a \ wedge Y = +) = P (A = a) \ times P (Y = +) = {\ frac {| \ {X \ in D | X (A) = a \} |} {| D |}} \ veces {\ frac {| \ {X \ en D | X (Y) = + \} |} {| D |}}}

Sin embargo, en realidad, el conjunto de datos no es insesgado y las variables no son estadísticamente independientes, por lo que la probabilidad observada es:

{\ Displaystyle P_ {obs} (A = a \ wedge Y = +) = {\ frac {| \ {X \ in D | X (A) = a \ wedge X (Y) = + \} |} {| D |}}}

Para compensar el sesgo, el software agrega un peso , más bajo para los objetos favorecidos y más alto para los objetos desfavorecidos. Para cada ${\ textstyle X \ in D}$ obtenemos:

{\ Displaystyle W (X) = {\ frac {P_ {exp} (A = X (A) \ wedge Y = X (Y))} {P_ {obs} (A = X (A) \ wedge Y = X (Y))}}}

Cuando tenemos para cada ${\ textstyle X}$ un peso asociado ${\ textstyle W (X)}$ calculamos la discriminación ponderada con respecto al grupo ${\ textstyle A = a}$ como sigue:

{\ Displaystyle disc_ {A = a} (D) = {\ frac {\ sum W (X) X \ in \ {X \ in D | X (A) \ neq a, X (Y) = + \}} {\ sum W (X) X \ in \ {X \ in D | X (A) \ neq a \}}} - {\ frac {\ sum W (X) X \ in \ {X \ in D | X (A) = a, X (Y) = + \}} {\ sum W (X) X \ in \ {X \ in D | X (A) = a \}}}}

Se puede demostrar que después de volver a ponderar esta discriminación ponderada es 0.

Optimización en tiempo de entrenamiento

Otro enfoque es corregir el sesgo en el momento del entrenamiento. Esto se puede hacer agregando restricciones al objetivo de optimización del algoritmo. ^[11] Estas restricciones obligan al algoritmo a mejorar la equidad, manteniendo las mismas tasas de ciertas medidas para el grupo protegido y el resto de individuos. Por ejemplo, podemos agregar al objetivo del algoritmo la condición de que la tasa de falsos positivos sea la misma para los individuos del grupo protegido y los que están fuera del grupo protegido.

Las principales medidas utilizadas en este enfoque son la tasa de falsos positivos, la tasa de falsos negativos y la tasa general de clasificación errónea. Es posible agregar solo una o varias de estas restricciones al objetivo del algoritmo. Tenga en cuenta que la igualdad de tasas de falsos negativos implica la igualdad de tasas de verdaderos positivos, por lo que esto implica la igualdad de oportunidades. Después de agregar las restricciones al problema, puede volverse intratable, por lo que puede ser necesario relajarlas.

Esta técnica obtiene buenos resultados en la mejora de la equidad manteniendo una alta precisión y permite al programador elegir las medidas de equidad para mejorar. Sin embargo, cada tarea de aprendizaje automático puede necesitar que se aplique un método diferente y el código en el clasificador debe modificarse, lo que no siempre es posible. ^[9]

Debiasing adversario

Entrenamos dos clasificadores al mismo tiempo a través de algún método basado en gradientes (fe: descenso de gradientes ). El primero, el predictor intenta realizar la tarea de predecir ${\ textstyle Y}$ , la variable objetivo, dada ${\ textstyle X}$ , la entrada, modificando sus pesos ${\ textstyle W}$ para minimizar alguna función de pérdida ${\ textstyle L_ {P} ({\ hat {y}}, y)}$ . El segundo, el adversario intenta realizar la tarea de predecir ${\ textstyle A}$ , la variable sensible, dada ${\ textstyle {\ hat {Y}}}$ modificando sus pesos ${\ textstyle U}$ para minimizar alguna función de pérdida ${\ textstyle L_ {A} ({\ hat {a}}, a)}$ . ^[12]^[13]

Un punto importante aquí es que, para propagarse correctamente, ${\ textstyle {\ hat {Y}}}$ arriba debe referirse a la salida sin procesar del clasificador, no a la predicción discreta; por ejemplo, con una red neuronal artificial y un problema de clasificación, ${\ textstyle {\ hat {Y}}}$ podría referirse a la salida de la capa softmax .

Entonces actualizamos ${\ textstyle U}$ minimizar ${\ textstyle L_ {A}}$ en cada paso de entrenamiento según el gradiente ${\ textstyle \ nabla _ {U} L_ {A}}$ y modificamos ${\ textstyle W}$ según la expresión:

{\ Displaystyle \ nabla _ {W} L_ {P} -proj _ {\ nabla _ {W} L_ {A}} \ nabla _ {W} L_ {P} - \ alpha \ nabla _ {W} L_ {A} }

dónde

\alfa

es un hiperparámetro sintonizable que puede variar en cada paso de tiempo.

Representación gráfica de los vectores utilizados en el desvanecimiento adversarial como se muestra en Zhan et al. ^[12]

La idea intuitiva es que queremos que el predictor intente minimizar ${\ textstyle L_ {P}}$ (por lo tanto, el término ${\ textstyle \ nabla _ {W} L_ {P}}$ ) mientras que, al mismo tiempo, maximiza ${\ textstyle L_ {A}}$ (por lo tanto, el término ${\ textstyle - \ alpha \ nabla _ {W} L_ {A}}$ ), de modo que el adversario no pueda predecir la variable sensible de ${\ textstyle {\ hat {Y}}}$ .

El termino ${\ textstyle -proj _ {\ nabla _ {W} L_ {A}} \ nabla _ {W} L_ {P}}$ evita que el predictor se mueva en una dirección que ayude al adversario a disminuir su función de pérdida.

Se puede demostrar que entrenar un modelo de clasificación de predictores con este algoritmo mejora la paridad demográfica con respecto a entrenarlo sin el adversario .

Postprocesamiento

El método final intenta corregir los resultados de un clasificador para lograr la equidad. En este método, tenemos un clasificador que devuelve una puntuación para cada individuo y necesitamos hacer una predicción binaria para ellos. Es probable que los puntajes altos obtengan un resultado positivo, mientras que los puntajes bajos probablemente obtengan uno negativo, pero podemos ajustar el umbral para determinar cuándo responder afirmativamente como se desee. Tenga en cuenta que las variaciones en el valor umbral afectan la compensación entre las tasas de verdaderos positivos y verdaderos negativos.

Si la función de puntuación es justa en el sentido de que es independiente del atributo protegido, entonces cualquier elección del umbral también será justa, pero los clasificadores de este tipo tienden a estar sesgados, por lo que puede ser necesario un umbral diferente para cada grupo protegido. para lograr la equidad. ^[14] Una forma de hacer esto es trazar la tasa de verdaderos positivos contra la tasa de falsos negativos en varias configuraciones de umbral (esto se llama curva ROC) y encontrar un umbral donde las tasas para el grupo protegido y otros individuos sean iguales. ^[14]

Las ventajas del posprocesamiento incluyen que la técnica se puede aplicar después de cualquier clasificador, sin modificarlo, y tiene un buen desempeño en medidas de equidad. Las desventajas son la necesidad de acceder al atributo protegido en el tiempo de prueba y la falta de elección en el equilibrio entre precisión y equidad. ^[9]

Clasificación basada en opciones de rechazo

Dado un clasificador deje ${\ estilo de texto P (+ | X)}$ ser la probabilidad calculada por los clasificadores como la probabilidad de que la instancia ${\ textstyle X}$ pertenece a la clase positiva +. Cuándo ${\ estilo de texto P (+ | X)}$ está cerca de 1 o de 0, la instancia ${\ textstyle X}$ se especifica con un alto grado de certeza para pertenecer a la clase + o - respectivamente. Sin embargo cuando ${\ estilo de texto P (+ | X)}$ está más cerca de 0,5 la clasificación es menos clara. ^[15]

Decimos ${\ textstyle X}$ es una "instancia rechazada" si ${\ textstyle max (P (+ | X), 1-P (+ | X)) \ leq \ theta}$ con un cierto ${\ textstyle \ theta}$ tal que ${\ textstyle 0.5 <\ theta <1}$ .

El algoritmo de "ROC" consiste en clasificar las instancias no rechazadas siguiendo la regla anterior y las instancias rechazadas de la siguiente manera: si la instancia es un ejemplo de grupo privado ( ${\ Displaystyle X (A) = a}$ ) luego etiquételo como positivo; de lo contrario, etiquételo como negativo.

Podemos optimizar diferentes medidas de discriminación (enlace) como funciones de ${\ textstyle \ theta}$ para encontrar el óptimo ${\ textstyle \ theta}$ para cada problema y evitar convertirse en discriminatorio contra el grupo privilegiado. ^[15]

Ver también

Sesgo algorítmico
Aprendizaje automático

Referencias

^ Moritz Hardt, Berkeley . Consultado el 18 de diciembre de 2019.
^ "El kit de herramientas de código abierto IBM AI Fairness 360 agrega nuevas funcionalidades" . Tech Republic.
^ IBM AI Fairness 360 . Consultado el 18 de diciembre de 2019.
^ Fairness Flow el detector de sesgos de Facebook . Consultado el 28 de diciembre de 2019.
^ Gimnasio ML-Fairness . Consultado el 18 de diciembre de 2019.
^ a b c Solon Barocas; Moritz Hardt; Arvind Narayanan, Equidad y aprendizaje automático . Consultado el 15 de diciembre de 2019.
^ a b Sahil Verma; Julia Rubin, Explicación de las definiciones de equidad . Consultado el 15 de diciembre de 2019.
^ Richard Zemel; Yu (Ledell) Wu; Kevin Swersky; Toniann Pitassi; Cyntia Dwork, Learning Fair Representations . Consultado el 1 de diciembre de 2019.
^ a b c Ziyuan Zhong, Tutorial sobre equidad en el aprendizaje automático . Consultado el 1 de diciembre de 2019.
^ Faisal Kamiran; Toon Calders, Técnicas de preprocesamiento de datos para clasificación sin discriminación . Consultado el 17 de diciembre de 2019.
^ Muhammad Bilal Zafar; Isabel Valera; Manuel Gómez Rodríguez; Krishna P. Gummadi, Equidad más allá del trato desigual y el impacto desigual : clasificación de aprendizaje sin maltrato desigual . Consultado el 1 de diciembre de 2019.
^ a b Brian Hu Zhang; Blake Lemoine; Margaret Mitchell, Mitigación de sesgos no deseados con aprendizaje adversario . Consultado el 17 de diciembre de 2019.
^ Joyce Xu, Soluciones algorítmicas para sesgo algorítmico: una guía técnica . Consultado el 17 de diciembre de 2019.
^ a b Moritz Hardt; Eric Price; Nathan Srebro, Igualdad de oportunidades en el aprendizaje supervisado . Consultado el 1 de diciembre de 2019.
^ a b Faisal Kamiran; Asim Karim; Xiangliang Zhang, Teoría de la decisión para la clasificación consciente de la discriminación . Consultado el 17 de diciembre de 2019.

[Articles-1] Moritz Hardt, Berkeley . Consultado el 18 de diciembre de 2019.

[2] "El kit de herramientas de código abierto IBM AI Fairness 360 agrega nuevas funcionalidades" . Tech Republic.

[IBM-3] IBM AI Fairness 360 . Consultado el 18 de diciembre de 2019.

[Facebook-4] Fairness Flow el detector de sesgos de Facebook . Consultado el 28 de diciembre de 2019.

[Google-5] Gimnasio ML-Fairness . Consultado el 18 de diciembre de 2019.

[Barocas-6] Solon Barocas; Moritz Hardt; Arvind Narayanan, Equidad y aprendizaje automático . Consultado el 15 de diciembre de 2019.

[metrics_paper-7] Sahil Verma; Julia Rubin, Explicación de las definiciones de equidad . Consultado el 15 de diciembre de 2019.

[zemel-8] Richard Zemel; Yu (Ledell) Wu; Kevin Swersky; Toniann Pitassi; Cyntia Dwork, Learning Fair Representations . Consultado el 1 de diciembre de 2019.

[datascience-9] Ziyuan Zhong, Tutorial sobre equidad en el aprendizaje automático . Consultado el 1 de diciembre de 2019.

[reweighing-10] Faisal Kamiran; Toon Calders, Técnicas de preprocesamiento de datos para clasificación sin discriminación . Consultado el 17 de diciembre de 2019.

[zafar-11] Muhammad Bilal Zafar; Isabel Valera; Manuel Gómez Rodríguez; Krishna P. Gummadi, Equidad más allá del trato desigual y el impacto desigual : clasificación de aprendizaje sin maltrato desigual . Consultado el 1 de diciembre de 2019.

[adversarial1-12] Brian Hu Zhang; Blake Lemoine; Margaret Mitchell, Mitigación de sesgos no deseados con aprendizaje adversario . Consultado el 17 de diciembre de 2019.

[adversarial2-13] Joyce Xu, Soluciones algorítmicas para sesgo algorítmico: una guía técnica . Consultado el 17 de diciembre de 2019.

[hardt-14] Moritz Hardt; Eric Price; Nathan Srebro, Igualdad de oportunidades en el aprendizaje supervisado . Consultado el 1 de diciembre de 2019.

[roc-15] Faisal Kamiran; Asim Karim; Xiangliang Zhang, Teoría de la decisión para la clasificación consciente de la discriminación . Consultado el 17 de diciembre de 2019.

[1]