Clasificador de bayes

En la clasificación estadística , el clasificador de Bayes minimiza la probabilidad de clasificación errónea. ^[1]

Definición

Supongamos un par ${\ Displaystyle (X, Y)}$ toma valores en ${\ Displaystyle \ mathbb {R} ^ {d} \ times \ {1,2, \ dots, K \}}$ , dónde ${\ Displaystyle Y}$ es la etiqueta de clase de ${\ Displaystyle X}$ . Esto significa que la distribución condicional de X , dado que la etiqueta Y toma el valor r viene dada por

{\ Displaystyle X \ mid Y = r \ sim P_ {r}}

por

{\ Displaystyle r = 1,2, \ dots, K}

dónde " ${\ Displaystyle \ sim}$ "significa" se distribuye como ", y donde ${\ Displaystyle P_ {r}}$ denota una distribución de probabilidad.

Un clasificador es una regla que asigna a una observación X = x una suposición o estimación de lo que fue realmente la etiqueta no observada Y = r . En términos teóricos, un clasificador es una función medible ${\ Displaystyle C: \ mathbb {R} ^ {d} \ to \ {1,2, \ dots, K \}}$ , con la interpretación de que C clasifica el punto x a la clase C ( x ). La probabilidad de clasificación errónea, o riesgo , de un clasificador C se define como

{\ Displaystyle {\ mathcal {R}} (C) = \ operatorname {P} \ {C (X) \ neq Y \}.}

El clasificador de Bayes es

{\ Displaystyle C ^ {\ text {Bayes}} (x) = {\ underset {r \ in \ {1,2, \ dots, K \}} {\ operatorname {argmax}}} \ operatorname {P} ( Y = r \ mid X = x).}

En la práctica, como en la mayoría de las estadísticas, las dificultades y sutilezas están asociadas con modelar las distribuciones de probabilidad de manera efectiva; en este caso, ${\ Displaystyle \ operatorname {P} (Y = r \ mid X = x)}$ . El clasificador de Bayes es un punto de referencia útil en la clasificación estadística .

El exceso de riesgo de un clasificador general. ${\ Displaystyle C}$ (posiblemente dependiendo de algunos datos de entrenamiento) se define como ${\ Displaystyle {\ mathcal {R}} (C) - {\ mathcal {R}} (C ^ {\ text {Bayes}}).}$ Por tanto, esta cantidad no negativa es importante para evaluar el rendimiento de diferentes técnicas de clasificación. Se dice que un clasificador es consistente si el exceso de riesgo converge a cero cuando el tamaño del conjunto de datos de entrenamiento tiende a infinito. ^[2]

Prueba de Optimidad

La prueba de que el clasificador de Bayes es óptimo y la tasa de error de Bayes es mínima procede de la siguiente manera.

Definir las variables: Riesgo ${\ Displaystyle R (h)}$ , Riesgo de Bayes ${\ displaystyle R ^ {*}}$ , todas las clases posibles a las que se pueden clasificar los puntos ${\ Displaystyle Y = \ {0,1 \}}$ . Sea la probabilidad posterior de un punto perteneciente a la clase 1 ${\ Displaystyle \ eta (x) = Pr (Y = 1 | X = x)}$ . Definir el clasificador ${\ Displaystyle {\ mathcal {h}} ^ {*}}$ como

${\ displaystyle {\ mathcal {h}} ^ {*} (x) = {\ begin {cases} 1 &, \ eta (x) \ geqslant 0.5 \\ 0 &, \ eta (x) <0.5 \ end {cases} }}$

Entonces tenemos los siguientes resultados:

(a) ${\ Displaystyle R (h ^ {*}) = R ^ {*}}$ , es decir ${\ Displaystyle h ^ {*}}$ es un clasificador de Bayes,

(b) Para cualquier clasificador ${\ Displaystyle h}$ , el exceso de riesgo satisface ${\ Displaystyle R (h) -R ^ {*} = 2 \ mathbb {E} _ {X} \ left [| \ eta (x) -0,5 | \ cdot \ mathbb {I} _ {\ left \ {h (X) \ neq h ^ {*} (X) \ derecha \}} \ derecha]}$

(C) ${\ Displaystyle R ^ {*} = \ mathbb {E} _ {X} \ left [\ min (\ eta (X), 1- \ eta (X)) \ right]}$

Prueba de (a): para cualquier clasificador ${\ Displaystyle h}$ , tenemos

${\ Displaystyle {\ begin {alineado} R (h) & = \ mathbb {E} _ {XY} \ left [\ mathbb {I} _ {\ left \ {h (X) \ neq Y \ right \}} \ right] \\ & = \ mathbb {E} _ {X} \ mathbb {E} _ {Y | X} [\ mathbb {I} _ {\ left \ {h (X) \ neq Y \ right \} }] \\ & = \ mathbb {E} _ {X} [\ eta (X) \ mathbb {I} _ {\ left \ {h (X) = 0 \ right \}} + (1- \ eta ( X)) \ mathbb {I} _ {\ left \ {h (X) = 1 \ right \}}] \ end {alineado}}}$

Darse cuenta de ${\ Displaystyle R (h)}$ se minimiza tomando ${\ Displaystyle \ forall x \ in X}$ ,

${\ displaystyle h (x) = {\ begin {cases} 1 &, \ eta (x) \ geqslant 1- \ eta (x) \\ 0 &, {\ text {de otro modo}} \ end {cases}}}$

Por tanto, el riesgo mínimo posible es el riesgo de Bayes, ${\ Displaystyle R ^ {*} = R (h ^ {*})}$ .

Prueba de (b):

${\ Displaystyle {\ begin {alineado} R (h) -R ^ {*} & = R (h) -R (h ^ {*}) \\ & = \ mathbb {E} _ {X} [\ eta (X) \ mathbb {I} _ {\ left \ {h (X) = 0 \ right \}} + (1- \ eta (X)) \ mathbb {I} _ {\ left \ {h (X) = 1 \ right \}} - \ eta (X) \ mathbb {I} _ {\ left \ {h ^ {*} (X) = 0 \ right \}} - (1- \ eta (X)) \ mathbb {I} _ {\ left \ {h ^ {*} (X) = 1 \ right \}}] \\ & = \ mathbb {E} _ {X} [| 2 \ eta (X) -1 | \ mathbb {I} _ {\ left \ {h (X) \ neq h ^ {*} (X) \ right \}}] \\ & = 2 \ mathbb {E} _ {X} [| \ eta ( X) -0.5 | \ mathbb {I} _ {\ left \ {h (X) \ neq h ^ {*} (X) \ right \}}] \ end {alineado}}}$

Prueba de (c):

${\ Displaystyle {\ begin {alineado} R (h ^ {*}) & = \ mathbb {E} _ {X} [\ eta (X) \ mathbb {I} _ {\ left \ {h ^ {*} (X) = 0 \ right \}} + (1- \ eta (X)) \ mathbb {I} _ {\ left \ {h * (X) = 1 \ right \}}] \\ & = \ mathbb {E} _ {X} [\ min (\ eta (X), 1- \ eta (X))] \ end {alineado}}}$

El caso general de que el clasificador de Bayes minimiza el error de clasificación cuando cada elemento puede pertenecer a cualquiera de las n categorías procede con expectativas elevadas de la siguiente manera.

${\ Displaystyle {\ begin {alineado} \ mathbb {E} (\ mathbb {I} _ {\ {y \ neq {\ hat {y}} \}}) & = \ mathbb {E} \ mathbb {E} \ left (\ mathbb {I} _ {\ {y \ neq {\ hat {y}} \}} | X = x \ right) \\ & = \ mathbb {E} \ left [Pr (Y = 1 | X = x) \ mathbb {I} _ {\ {{\ hat {y}} = 2,3, \ puntos, n \}} + Pr (Y = 2 | X = x) \ mathbb {I} _ { \ {{\ hat {y}} = 1,3, \ puntos, n \}} + \ puntos + Pr (Y = n | X = x) \ mathbb {I} _ {\ {{\ hat {y} } = 1,2,3, \ puntos, n-1 \}} \ derecha] \ end {alineado}}}$

Esto se minimiza clasificando

${\ Displaystyle h (x) = k, \ quad \ arg \ max _ {k} Pr (Y = k | X = x)}$

para cada observación x .

Ver también

Clasificador ingenuo de Bayes

Referencias

↑ Devroye, L .; Gyorfi, L. y Lugosi, G. (1996). Una teoría probabilística del reconocimiento de patrones . Saltador. ISBN 0-3879-4618-7.
^ Farago, A .; Lugosi, G. (1993). "Fuerte coherencia universal de clasificadores de redes neuronales" . Transacciones IEEE sobre teoría de la información . 39 (4): 1146-1151. doi : 10.1109 / 18.243433 .

[PTPR-1] Devroye, L .; Gyorfi, L. y Lugosi, G. (1996). Una teoría probabilística del reconocimiento de patrones . Saltador. ISBN 0-3879-4618-7.

[2] Farago, A .; Lugosi, G. (1993). "Fuerte coherencia universal de clasificadores de redes neuronales" . Transacciones IEEE sobre teoría de la información . 39 (4): 1146-1151. doi : 10.1109 / 18.243433 .

[1]