Tolerancia a errores (aprendizaje PAC)

En el aprendizaje de PAC , la tolerancia a errores se refiere a la capacidad de un algoritmo para aprender cuando los ejemplos recibidos se han corrompido de alguna manera. De hecho, este es un problema muy común e importante, ya que en muchas aplicaciones no es posible acceder a datos sin ruido. El ruido puede interferir con el proceso de aprendizaje en diferentes niveles: el algoritmo puede recibir datos que ocasionalmente se han etiquetado incorrectamente, o las entradas pueden tener información falsa, o la clasificación de los ejemplos puede haber sido adulterada maliciosamente.

Notación y el modelo de aprendizaje Valiant

A continuación, dejemos ${\ Displaystyle X}$ ser nuestro ${\ Displaystyle n}$ -espacio de entrada dimensional. Dejar ${\ Displaystyle {\ mathcal {H}}}$ ser una clase de funciones que deseamos usar para aprender un ${\ Displaystyle \ {0,1 \}}$ -función objetivo valorada ${\ Displaystyle f}$ definido sobre ${\ Displaystyle X}$ . Dejar ${\ Displaystyle {\ mathcal {D}}}$ ser la distribución de los insumos sobre ${\ Displaystyle X}$ . El objetivo de un algoritmo de aprendizaje ${\ Displaystyle {\ mathcal {A}}}$ es elegir la mejor función ${\ Displaystyle h \ in {\ mathcal {H}}}$ tal que minimiza ${\ error de estilo de pantalla (h) = P_ {x \ sim {\ mathcal {D}}} (h (x) \ neq f (x))}$ . Supongamos que tenemos una función ${\ tamaño de estilo de pantalla (f)}$ que puede medir la complejidad de ${\ Displaystyle f}$ . Dejar ${\ Displaystyle {\ text {Oracle}} (x)}$ ser un oráculo que, siempre que se llame, devuelva un ejemplo ${\ Displaystyle x}$ y su etiqueta correcta ${\ Displaystyle f (x)}$ .

Cuando ningún ruido corrompe los datos, podemos definir el aprendizaje en la configuración de Valiant : ^[1]^[2]

Definición: Decimos que ${\ Displaystyle f}$ se aprende de manera eficiente usando ${\ Displaystyle {\ mathcal {H}}}$ en la configuración de Valiant si existe un algoritmo de aprendizaje ${\ Displaystyle {\ mathcal {A}}}$ que tiene acceso a ${\ Displaystyle {\ text {Oracle}} (x)}$ y un polinomio ${\ Displaystyle p (\ cdot, \ cdot, \ cdot, \ cdot)}$ tal que para cualquier ${\ Displaystyle 0 <\ varepsilon \ leq 1}$ y ${\ Displaystyle 0 <\ delta \ leq 1}$ genera, en una serie de llamadas al oráculo delimitadas por ${\ Displaystyle p \ left ({\ frac {1} {\ varepsilon}}, {\ frac {1} {\ delta}}, n, {\ text {size}} (f) \ right)}$ , Una función ${\ Displaystyle h \ in {\ mathcal {H}}}$ que satisfaga con probabilidad al menos ${\ Displaystyle 1- \ delta}$ la condición ${\ Displaystyle {\ text {error}} (h) \ leq \ varepsilon}$ .

A continuación, definiremos la capacidad de aprendizaje de ${\ Displaystyle f}$ cuando los datos hayan sufrido alguna modificación. ^[3]^[4]^[5]

Ruido de clasificación

En el modelo de clasificación de ruido ^[6] una tasa de ruido ${\ Displaystyle 0 \ leq \ eta <{\ frac {1} {2}}}$ es presentado. Entonces, en lugar de ${\ Displaystyle {\ text {Oracle}} (x)}$ que devuelve siempre la etiqueta correcta de ejemplo ${\ Displaystyle x}$ , algoritmo ${\ Displaystyle {\ mathcal {A}}}$ solo puedo llamar a un oráculo defectuoso ${\ Displaystyle {\ text {Oracle}} (x, \ eta)}$ que volteará la etiqueta de ${\ Displaystyle x}$ con probabilidad ${\ Displaystyle \ eta}$ . Como en el caso Valiant, el objetivo de un algoritmo de aprendizaje ${\ Displaystyle {\ mathcal {A}}}$ es elegir la mejor función ${\ Displaystyle h \ in {\ mathcal {H}}}$ tal que minimiza ${\ error de estilo de pantalla (h) = P_ {x \ sim {\ mathcal {D}}} (h (x) \ neq f (x))}$ . En las aplicaciones, es difícil tener acceso al valor real de ${\ Displaystyle \ eta}$ , pero asumimos que tenemos acceso a su límite superior ${\ Displaystyle \ eta _ {B}}$ . ^[7] Tenga en cuenta que si permitimos que la tasa de ruido sea ${\ Displaystyle 1/2}$ , entonces el aprendizaje se vuelve imposible en cualquier cantidad de tiempo de cálculo, porque cada etiqueta no transmite información sobre la función objetivo.

Definición: Decimos que ${\ Displaystyle f}$ se aprende de manera eficiente usando ${\ Displaystyle {\ mathcal {H}}}$ en el modelo de clasificación de ruido si existe un algoritmo de aprendizaje ${\ Displaystyle {\ mathcal {A}}}$ que tiene acceso a ${\ Displaystyle {\ text {Oracle}} (x, \ eta)}$ y un polinomio ${\ Displaystyle p (\ cdot, \ cdot, \ cdot, \ cdot)}$ tal que para cualquier ${\ Displaystyle 0 \ leq \ eta \ leq {\ frac {1} {2}}}$ , ${\ Displaystyle 0 \ leq \ varepsilon \ leq 1}$ y ${\ Displaystyle 0 \ leq \ delta \ leq 1}$ genera, en una serie de llamadas al oráculo delimitadas por ${\ Displaystyle p \ left ({\ frac {1} {1-2 \ eta _ {B}}}, {\ frac {1} {\ varepsilon}}, {\ frac {1} {\ delta}}, n, tamaño (f) \ right)}$ , Una función ${\ Displaystyle h \ in {\ mathcal {H}}}$ que satisfaga con probabilidad al menos ${\ Displaystyle 1- \ delta}$ la condición ${\ error de estilo de pantalla (h) \ leq \ varepsilon}$ .

Aprendizaje de consultas estadísticas

El aprendizaje de consultas estadísticas ^[8] es un tipo de problema de aprendizaje activo en el que el algoritmo de aprendizaje ${\ Displaystyle {\ mathcal {A}}}$ puede decidir si solicitar información sobre la probabilidad ${\ Displaystyle P_ {f (x)}}$ que una función ${\ Displaystyle f}$ ejemplo de etiquetas correctamente ${\ Displaystyle x}$ , y recibe una respuesta precisa dentro de una tolerancia ${\ Displaystyle \ alpha}$ . Formalmente, siempre que el algoritmo de aprendizaje ${\ Displaystyle {\ mathcal {A}}}$ llama al oráculo ${\ Displaystyle {\ text {Oracle}} (x, \ alpha)}$ , recibe como probabilidad de retroalimentación ${\ Displaystyle Q_ {f (x)}}$ , tal que ${\ Displaystyle Q_ {f (x)} - \ alpha \ leq P_ {f (x)} \ leq Q_ {f (x)} + \ alpha}$ .

Definición: Decimos que ${\ Displaystyle f}$ se aprende de manera eficiente usando ${\ Displaystyle {\ mathcal {H}}}$ en el modelo de aprendizaje de consultas estadísticas si existe un algoritmo de aprendizaje ${\ Displaystyle {\ mathcal {A}}}$ que tiene acceso a ${\ Displaystyle {\ text {Oracle}} (x, \ alpha)}$ y polinomios ${\ Displaystyle p (\ cdot, \ cdot, \ cdot)}$ , ${\ Displaystyle q (\ cdot, \ cdot, \ cdot)}$ , y ${\ Displaystyle r (\ cdot, \ cdot, \ cdot)}$ tal que para cualquier ${\ Displaystyle 0 <\ varepsilon \ leq 1}$ la siguiente retención:

${\ Displaystyle {\ text {Oracle}} (x, \ alpha)}$ puede evaluar ${\ Displaystyle P_ {f (x)}}$ a tiempo ${\ Displaystyle q \ left ({\ frac {1} {\ varepsilon}}, n, tamaño (f) \ right)}$ ;
${\ Displaystyle {\ frac {1} {\ alpha}}}$ está delimitado por ${\ Displaystyle r \ left ({\ frac {1} {\ varepsilon}}, n, tamaño (f) \ right)}$
${\ Displaystyle {\ mathcal {A}}}$ genera un modelo ${\ Displaystyle h}$ tal que ${\ Displaystyle err (h) <\ varepsilon}$ , en una serie de llamadas al oráculo delimitadas por ${\ Displaystyle p \ left ({\ frac {1} {\ varepsilon}}, n, tamaño (f) \ right)}$ .

Tenga en cuenta que el parámetro de confianza ${\ Displaystyle \ delta}$ no aparece en la definición de aprendizaje. Esto se debe a que el propósito principal de ${\ Displaystyle \ delta}$ es permitir que el algoritmo de aprendizaje tenga una pequeña probabilidad de falla debido a una muestra no representativa. Desde ahora ${\ Displaystyle {\ text {Oracle}} (x, \ alpha)}$ siempre garantiza cumplir con el criterio de aproximación ${\ Displaystyle Q_ {f (x)} - \ alpha \ leq P_ {f (x)} \ leq Q_ {f (x)} + \ alpha}$ , la probabilidad de falla ya no es necesaria.

El modelo de consulta estadística es estrictamente más débil que el modelo PAC: cualquier clase que se pueda aprender con SQ de manera eficiente se puede aprender con PAC de manera eficiente en presencia de ruido de clasificación, pero existen problemas de aprendizaje con PAC eficientes, como la paridad, que no se pueden aprender con SQ de manera eficiente. ^[8]

Clasificación maliciosa

En el modelo de clasificación maliciosa ^[9], un adversario genera errores para frustrar el algoritmo de aprendizaje. Esta configuración describe situaciones de ráfaga de errores , que pueden ocurrir cuando durante un tiempo limitado el equipo de transmisión falla repetidamente. Formalmente, algoritmo ${\ Displaystyle {\ mathcal {A}}}$ llama a un oráculo ${\ Displaystyle {\ text {Oracle}} (x, \ beta)}$ que devuelve un ejemplo correctamente etiquetado ${\ Displaystyle x}$ extraído, como de costumbre, de la distribución ${\ Displaystyle {\ mathcal {D}}}$ sobre el espacio de entrada con probabilidad ${\ Displaystyle 1- \ beta}$ , pero vuelve con probabilidad ${\ Displaystyle \ beta}$ un ejemplo extraído de una distribución que no está relacionada con ${\ Displaystyle {\ mathcal {D}}}$ . Además, este ejemplo elegido maliciosamente puede ser seleccionado estratégicamente por un adversario que tenga conocimiento de ${\ Displaystyle f}$ , ${\ Displaystyle \ beta}$ , ${\ Displaystyle {\ mathcal {D}}}$ , o el progreso actual del algoritmo de aprendizaje.

Definición: dado un límite ${\ Displaystyle \ beta _ {B} <{\ frac {1} {2}}}$ por ${\ Displaystyle 0 \ leq \ beta <{\ frac {1} {2}}}$ , Nosotros decimos eso ${\ Displaystyle f}$ se aprende de manera eficiente usando ${\ Displaystyle {\ mathcal {H}}}$ en el modelo de clasificación maliciosa, si existe un algoritmo de aprendizaje ${\ Displaystyle {\ mathcal {A}}}$ que tiene acceso a ${\ Displaystyle {\ text {Oracle}} (x, \ beta)}$ y un polinomio ${\ Displaystyle p (\ cdot, \ cdot, \ cdot, \ cdot, \ cdot)}$ tal que para cualquier ${\ Displaystyle 0 <\ varepsilon \ leq 1}$ , ${\ Displaystyle 0 <\ delta \ leq 1}$ genera, en una serie de llamadas al oráculo delimitadas por ${\ displaystyle p \ left ({\ frac {1} {1 / 2- \ beta _ {B}}}, {\ frac {1} {\ varepsilon}}, {\ frac {1} {\ delta}} , n, tamaño (f) \ right)}$ , Una función ${\ Displaystyle h \ in {\ mathcal {H}}}$ que satisfaga con probabilidad al menos ${\ Displaystyle 1- \ delta}$ la condición ${\ error de estilo de pantalla (h) \ leq \ varepsilon}$ .

Errores en las entradas: ruido de atributo aleatorio no uniforme

En el modelo de ruido de atributo aleatorio no uniforme ^[10]^[11] , el algoritmo está aprendiendo una función booleana , un oráculo malicioso ${\ Displaystyle {\ text {Oracle}} (x, \ nu)}$ puede voltear cada uno ${\ Displaystyle i}$ -th bit de ejemplo ${\ Displaystyle x = (x_ {1}, x_ {2}, \ ldots, x_ {n})}$ independientemente con probabilidad ${\ Displaystyle \ nu _ {i} \ leq \ nu}$ .

Este tipo de error puede frustrar irreparablemente el algoritmo; de hecho, se cumple el siguiente teorema:

En la configuración de ruido de atributo aleatorio no uniforme, un algoritmo ${\ Displaystyle {\ mathcal {A}}}$ puede generar una función ${\ Displaystyle h \ in {\ mathcal {H}}}$ tal que ${\ error de estilo de pantalla (h) <\ varepsilon}$ sólo si ${\ Displaystyle \ nu <2 \ varepsilon}$ .

Ver también

Referencias

^ Valiant, LG (agosto de 1985). Aprendizaje de la disyunción de conjunciones . En IJCAI (págs. 560–566).
^ Valiente, Leslie G. "Una teoría de lo que se puede aprender". Comunicaciones del ACM 27.11 (1984): 1134-1142.
^ Laird, PD (1988). Aprendiendo de datos buenos y malos . Editores académicos de Kluwer.
^ Kearns, Michael. " Aprendizaje eficiente y tolerante al ruido a partir de consultas estadísticas ". Journal of the ACM 45.6 (1998): 983–1006.
^ Brunk, Clifford A. y Michael J. Pazzani. " Una investigación de algoritmos de aprendizaje de conceptos relacionales tolerantes al ruido ". Actas del VIII Taller Internacional de Aprendizaje Automático. 1991.
^ Kearns, MJ y Vazirani, UV (1994). Introducción a la teoría del aprendizaje computacional , capítulo 5. Prensa del MIT.
^ Angluin, D. y Laird, P. (1988). Aprendiendo de ejemplos ruidosos . Aprendizaje automático, 2 (4), 343–370.
↑ ^a ^b Kearns, M. (1998). [www.cis.upenn.edu/~mkearns/papers/sq-journal.pdf Aprendizaje eficiente y tolerante al ruido a partir de consultas estadísticas] . Revista de la ACM, 45 (6), 983–1006.
^ Kearns, M. y Li, M. (1993). [www.cis.upenn.edu/~mkearns/papers/malicious.pdf Aprendizaje en presencia de errores maliciosos] . SIAM Journal on Computing, 22 (4), 807–837.
^ Goldman, SA y Robert, H. (1991). Sloan. La dificultad del ruido de atributos aleatorios. Informe técnico WUCS 91 29, Universidad de Washington, Departamento de Ciencias de la Computación.
^ Sloan, RH (1989). Teoría del aprendizaje computacional: Nuevos modelos y algoritmos (Tesis doctoral, Instituto de Tecnología de Massachusetts).

[1] Valiant, LG (agosto de 1985). Aprendizaje de la disyunción de conjunciones . En IJCAI (págs. 560–566).

[2] Valiente, Leslie G. "Una teoría de lo que se puede aprender". Comunicaciones del ACM 27.11 (1984): 1134-1142.

[3] Laird, PD (1988). Aprendiendo de datos buenos y malos . Editores académicos de Kluwer.

[4] Kearns, Michael. " Aprendizaje eficiente y tolerante al ruido a partir de consultas estadísticas ". Journal of the ACM 45.6 (1998): 983–1006.

[5] Brunk, Clifford A. y Michael J. Pazzani. " Una investigación de algoritmos de aprendizaje de conceptos relacionales tolerantes al ruido ". Actas del VIII Taller Internacional de Aprendizaje Automático. 1991.

[kv-6] Kearns, MJ y Vazirani, UV (1994). Introducción a la teoría del aprendizaje computacional , capítulo 5. Prensa del MIT.

[7] Angluin, D. y Laird, P. (1988). Aprendiendo de ejemplos ruidosos . Aprendizaje automático, 2 (4), 343–370.

[kearns-8] Kearns, M. (1998). [www.cis.upenn.edu/~mkearns/papers/sq-journal.pdf Aprendizaje eficiente y tolerante al ruido a partir de consultas estadísticas] . Revista de la ACM, 45 (6), 983–1006.

[9] Kearns, M. y Li, M. (1993). [www.cis.upenn.edu/~mkearns/papers/malicious.pdf Aprendizaje en presencia de errores maliciosos] . SIAM Journal on Computing, 22 (4), 807–837.

[10] Goldman, SA y Robert, H. (1991). Sloan. La dificultad del ruido de atributos aleatorios. Informe técnico WUCS 91 29, Universidad de Washington, Departamento de Ciencias de la Computación.

[11] Sloan, RH (1989). Teoría del aprendizaje computacional: Nuevos modelos y algoritmos (Tesis doctoral, Instituto de Tecnología de Massachusetts).

[1]