Teoría de Vapnik-Chervonenkis

La teoría de Vapnik-Chervonenkis (también conocida como teoría de VC ) fue desarrollada durante 1960-1990 por Vladimir Vapnik y Alexey Chervonenkis . La teoría es una forma de teoría del aprendizaje computacional , que intenta explicar el proceso de aprendizaje desde un punto de vista estadístico.

La teoría de CV está relacionada con la teoría del aprendizaje estadístico y con los procesos empíricos . Richard M. Dudley y Vladimir Vapnik , entre otros, han aplicado la teoría de CV a procesos empíricos .

Introducción

La teoría de VC cubre al menos cuatro partes (como se explica en The Nature of Statistical Learning Theory ^[1] ):

Teoría de la consistencia de los procesos de aprendizaje
- ¿Cuáles son las condiciones (necesarias y suficientes) para la coherencia de un proceso de aprendizaje basado en el principio empírico de minimización de riesgos ?
Teoría no asintótica de la tasa de convergencia de los procesos de aprendizaje
- ¿Qué tan rápido es la tasa de convergencia del proceso de aprendizaje?
Teoría del control de la capacidad de generalización de los procesos de aprendizaje.
- ¿Cómo se puede controlar la tasa de convergencia (la capacidad de generalización ) del proceso de aprendizaje?
Teoría de la construcción de máquinas de aprendizaje
- ¿Cómo se pueden construir algoritmos que puedan controlar la capacidad de generalización?

La teoría de VC es una rama importante de la teoría del aprendizaje estadístico . Una de sus principales aplicaciones en la teoría del aprendizaje estadístico es proporcionar condiciones de generalización para los algoritmos de aprendizaje. Desde este punto de vista, la teoría de CV se relaciona con la estabilidad , que es un enfoque alternativo para caracterizar la generalización.

Además, la teoría de VC y la dimensión de VC son instrumentales en la teoría de procesos empíricos , en el caso de procesos indexados por clases de VC. Podría decirse que estas son las aplicaciones más importantes de la teoría de VC y se emplean para demostrar la generalización. Se introducirán varias técnicas que se utilizan ampliamente en el proceso empírico y la teoría de CV. La discusión se basa principalmente en el libro Weak Convergence and Empirical Processes: With Applications to Statistics . ^[2]

Descripción general de la teoría de VC en procesos empíricos

Antecedentes de los procesos empíricos

Dejar ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ Ser elementos aleatorios definidos en un espacio medible. ${\ displaystyle ({\ mathcal {X}}, {\ mathcal {A}})}$ . Para cualquier medida ${\ displaystyle Q}$ en ${\ displaystyle ({\ mathcal {X}}, {\ mathcal {A}})}$ , y cualquier función medible ${\ Displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}$ , definir

{\ Displaystyle Qf = \ int fdQ}

Los problemas de mensurabilidad se ignorarán aquí, para obtener más detalles técnicos, consulte ^[3] . Dejar ${\ Displaystyle {\ mathcal {F}}}$ ser una clase de funciones medibles ${\ Displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}$ y definir:

{\ Displaystyle \ | Q \ | _ {\ mathcal {F}} = \ sup \ {\ vert Qf \ vert \: \ f \ in {\ mathcal {F}} \}.}

Definir la medida empírica

{\ Displaystyle \ mathbb {P} _ {n} = n ^ {- 1} \ sum _ {i = 1} ^ {n} \ delta _ {X_ {i}},}

donde $δ$ aquí representa la medida de Dirac . La medida empírica induce un mapa ${\ Displaystyle {\ mathcal {F}} \ to \ mathbf {R}}$ dada por:

{\ Displaystyle f \ mapsto \ mathbb {P} _ {n} f = {\ frac {1} {n}} (f (X_ {1}) + ... + f (X_ {n}))}

Ahora suponga que $P$ es la verdadera distribución subyacente de los datos, que se desconoce. La teoría de los procesos empíricos tiene como objetivo identificar clases ${\ Displaystyle {\ mathcal {F}}}$ para lo cual se cumplen afirmaciones como las siguientes:

ley uniforme de grandes números :
${\ Displaystyle \ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}} {\ underset {n} {\ to}} 0,}$

Es decir, como

{\ Displaystyle n \ to \ infty}

,

${\ Displaystyle \ left | {\ frac {1} {n}} (f (X_ {1}) + ... + f (X_ {n})) - \ int fdP \ right | \ to 0}$

uniformemente para todos

{\ Displaystyle f \ in {\ mathcal {F}}}

.

teorema del límite central uniforme :

{\ Displaystyle \ mathbb {G} _ {n} = {\ sqrt {n}} (\ mathbb {P} _ {n} -P) \ rightsquigarrow \ mathbb {G}, \ quad {\ text {in}} \ ell ^ {\ infty} ({\ mathcal {F}})}

En el primer caso ${\ Displaystyle {\ mathcal {F}}}$ se llama clase Glivenko-Cantelli , y en el último caso (bajo el supuesto ${\ Displaystyle \ forall x, \ sup \ nolimits _ {f \ in {\ mathcal {F}}} \ vert f (x) -Pf \ vert <\ infty}$ ) la clase ${\ Displaystyle {\ mathcal {F}}}$ se llama Donsker o $P$ -Donsker. Una clase de Donsker es Glivenko-Cantelli en probabilidad mediante una aplicación del teorema de Slutsky .

Estas afirmaciones son verdaderas para un solo ${\ Displaystyle f}$ , según los argumentos estándar LLN , CLT en condiciones de regularidad, y la dificultad en los procesos empíricos viene porque se están haciendo declaraciones conjuntas para todos ${\ Displaystyle f \ in {\ mathcal {F}}}$ . Entonces, intuitivamente, el conjunto ${\ Displaystyle {\ mathcal {F}}}$ no puede ser demasiado grande, y resulta que la geometría de ${\ Displaystyle {\ mathcal {F}}}$ juega un papel muy importante.

Una forma de medir el tamaño del conjunto de funciones ${\ Displaystyle {\ mathcal {F}}}$ es utilizar los llamados números de cobertura . El número de cobertura

{\ Displaystyle N (\ varepsilon, {\ mathcal {F}}, \ | \ cdot \ |)}

es el número mínimo de bolas ${\ Displaystyle \ {g: \ | gf \ | <\ varepsilon \}}$ necesario para cubrir el conjunto ${\ Displaystyle {\ mathcal {F}}}$ (aquí se asume obviamente que existe una norma subyacente sobre ${\ Displaystyle {\ mathcal {F}}}$ ). La entropía es el logaritmo del número de cobertura.

A continuación se proporcionan dos condiciones suficientes, bajo las cuales se puede probar que el conjunto ${\ Displaystyle {\ mathcal {F}}}$ es Glivenko-Cantelli o Donsker.

Una clase ${\ Displaystyle {\ mathcal {F}}}$ es $P$ -Glivenko-Cantelli si es $P$ -medible con envolvente $F$ tal que ${\ Displaystyle P ^ {\ ast} F <\ infty}$ y satisface:

{\ Displaystyle \ forall \ varepsilon> 0 \ quad \ sup \ nolimits _ {Q} N (\ varepsilon \ | F \ | _ {Q}, {\ mathcal {F}}, L_ {1} (Q)) < \ infty.}

La siguiente condición es una versión del célebre teorema de Dudley . Si ${\ Displaystyle {\ mathcal {F}}}$ es una clase de funciones tales que

{\ Displaystyle \ int _ {0} ^ {\ infty} \ sup \ nolimits _ {Q} {\ sqrt {\ log N \ left (\ varepsilon \ | F \ | _ {Q, 2}, {\ mathcal { F}}, L_ {2} (Q) \ right)}} d \ varepsilon <\ infty}

luego ${\ Displaystyle {\ mathcal {F}}}$ es $P$ -Donsker para cada medida de probabilidad $P$ tal que ${\ Displaystyle P ^ {\ ast} F ^ {2} <\ infty}$ . En la última integral, la notación significa

{\ Displaystyle \ | f \ | _ {Q, 2} = \ left (\ int | f | ^ {2} dQ \ right) ^ {\ frac {1} {2}}}

.

Simetrización

La mayoría de los argumentos sobre cómo unir el proceso empírico se basan en la simetrización, las desigualdades máximas y de concentración y el encadenamiento. La simetrización suele ser el primer paso de las pruebas y, dado que se utiliza en muchas pruebas de aprendizaje automático sobre funciones de pérdida empírica delimitadas (incluida la prueba de la desigualdad de VC que se analiza en la siguiente sección), se presenta aquí.

Considere el proceso empírico:

{\ Displaystyle f \ mapsto (\ mathbb {P} _ {n} -P) f = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} (f (X_ {i} ) -Pf)}

Resulta que hay una conexión entre lo empírico y el siguiente proceso simétrizado:

{\ Displaystyle f \ mapsto \ mathbb {P} _ {n} ^ {0} f = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (X_ {i})}

El proceso simétrizado es un proceso de Rademacher , condicionalmente en los datos ${\ Displaystyle X_ {i}}$ . Por tanto, es un proceso subgaussiano por la desigualdad de Hoeffding .

Lema (simetrización). Para cada no decreciente, convexo $Φ: R \to R$ y clase de funciones medibles ${\ Displaystyle {\ mathcal {F}}}$ ,

{\ Displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} \ Phi \ left (2 \ left \ | \ mathbb {P} _ {n} ^ {0} \ right \ | _ {\ mathcal {F}} \ right)}

La prueba del lema de simetrización se basa en la introducción de copias independientes de las variables originales. ${\ Displaystyle X_ {i}}$ (a veces denominado muestra fantasma ) y reemplazando la expectativa interna del LHS por estas copias. Después de una aplicación de la desigualdad de Jensen, se podrían introducir diferentes signos (de ahí el nombre de simetrización) sin cambiar la expectativa. La prueba se puede encontrar a continuación debido a su naturaleza instructiva.

[Prueba]

Presentar la "muestra fantasma" ${\ Displaystyle Y_ {1}, \ ldots, Y_ {n}}$ ser copias independientes de ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ . Para valores fijos de ${\ Displaystyle X_ {1}, \ ldots, X_ {n}}$ uno tiene:

{\ Displaystyle \ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}} = \ sup _ {f \ in {\ mathcal {F}}} {\ dfrac {1} {n }} \ left | \ sum _ {i = 1} ^ {n} f (X_ {i}) - \ mathbb {E} f (Y_ {i}) \ right | \ leq \ mathbb {E} _ {Y } \ sup _ {f \ in {\ mathcal {F}}} {\ dfrac {1} {n}} \ left | \ sum _ {i = 1} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right |}

Por tanto, por la desigualdad de Jensen :

{\ Displaystyle \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} _ {Y} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} f (X_ {i}) - f (Y_ {i}) \ right \ | _ {\ mathcal {F}} \ derecho)}

Teniendo expectativa con respecto a ${\ Displaystyle X}$ da:

{\ Displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} _ {X} \ mathbb {E } _ {Y} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} f (X_ {i}) - f (Y_ {i} ) \ derecha \ | _ {\ mathcal {F}} \ derecha)}

Tenga en cuenta que agregar un signo menos delante de un término ${\ Displaystyle f (X_ {i}) - f (Y_ {i})}$ no cambia el RHS, porque es una función simétrica de ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ . Por lo tanto, el RHS sigue siendo el mismo bajo "señal de perturbación":

{\ Displaystyle \ mathbb {E} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} e_ {i} \ left (f (X_ { i}) - f (Y_ {i}) \ derecha) \ derecha \ | _ {\ mathcal {F}} \ derecha)}

para cualquier ${\ Displaystyle (e_ {1}, e_ {2}, \ ldots, e_ {n}) \ in \ {- 1,1 \} ^ {n}}$ . Por lo tanto:

{\ Displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq \ mathbb {E} _ {\ varepsilon} \ mathbb { E} \ Phi \ left (\ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} \ left (f (X_ {i}) - f (Y_ {i}) \ derecha) \ derecha \ | _ {\ mathcal {F}} \ derecha)}

Finalmente, usando la desigualdad del primer triángulo y luego la convexidad de ${\ Displaystyle \ Phi}$ da:

{\ Displaystyle \ mathbb {E} \ Phi (\ | \ mathbb {P} _ {n} -P \ | _ {\ mathcal {F}}) \ leq {\ dfrac {1} {2}} \ mathbb { E} _ {\ varepsilon} \ mathbb {E} \ Phi \ left (2 \ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (X_ {i}) \ right \ | _ {\ mathcal {F}} \ right) + {\ dfrac {1} {2}} \ mathbb {E} _ {\ varepsilon} \ mathbb {E} \ Phi \ left (2 \ left \ | {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ varepsilon _ {i} f (Y_ {i}) \ right \ | _ {\ mathcal {F}} \ right)}

Donde las dos últimas expresiones en el RHS son iguales, que concluye la demostración.

Una forma típica de probar CLT empíricos, primero utiliza la simetrización para pasar el proceso empírico a ${\ Displaystyle \ mathbb {P} _ {n} ^ {0}}$ y luego argumentar condicionalmente sobre los datos, utilizando el hecho de que los procesos de Rademacher son procesos simples con buenas propiedades.

Conexión VC

Resulta que existe una conexión fascinante entre ciertas propiedades combinatorias del conjunto ${\ Displaystyle {\ mathcal {F}}}$ y los números de entropía. Los números de cobertura uniformes se pueden controlar mediante la noción de clases de conjuntos de Vapnik-Chervonenkis , o en breve, conjuntos de VC .

Considere una colección ${\ Displaystyle {\ mathcal {C}}}$ de subconjuntos del espacio muestral ${\ Displaystyle {\ mathcal {X}}}$ . ${\ Displaystyle {\ mathcal {C}}}$ se dice que elige un determinado subconjunto ${\ Displaystyle W}$ del conjunto finito ${\ Displaystyle S = \ {x_ {1}, \ ldots, x_ {n} \} \ subconjunto {\ mathcal {X}}}$ Si ${\ Displaystyle W = S \ cap C}$ para algunos ${\ Displaystyle C \ in {\ mathcal {C}}}$ . ${\ Displaystyle {\ mathcal {C}}}$ se dice que rompe $S$ si selecciona cada uno de sus $2 n$ subconjuntos. El índice VC (similar a la dimensión VC + 1 para un conjunto de clasificadores elegido apropiadamente) ${\ Displaystyle V ({\ mathcal {C}})}$ de ${\ Displaystyle {\ mathcal {C}}}$ es el $n$ más pequeño para el cual ningún conjunto de tamaño $n$ se rompe por ${\ Displaystyle {\ mathcal {C}}}$ .

El lema de Sauer luego establece que el número ${\ Displaystyle \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n})}$ de subconjuntos seleccionados por una clase VC ${\ Displaystyle {\ mathcal {C}}}$ satisface:

{\ Displaystyle \ max _ {x_ {1}, \ ldots, x_ {n}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n}) \ leq \ sum _ {j = 0} ^ {V ({\ mathcal {C}}) - 1} {n \ elija j} \ leq \ left ({\ frac {ne} {V ({\ mathcal {C}} ) -1}} \ right) ^ {V ({\ mathcal {C}}) - 1}}

Que es un polinomio ${\ Displaystyle O (n ^ {V ({\ mathcal {C}}) - 1})}$ de subconjuntos en lugar de un número exponencial. Intuitivamente, esto significa que un índice VC finito implica que ${\ Displaystyle {\ mathcal {C}}}$ tiene una estructura aparentemente simplista.

Se puede mostrar un límite similar (con una constante diferente, la misma tasa) para las llamadas clases de subgrafo de VC . Para una función ${\ Displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}$ el subgrafo es un subconjunto de ${\ Displaystyle {\ mathcal {X}} \ times \ mathbf {R}}$ tal que: ${\ Displaystyle \ {(x, t): t$ . Una coleccion de ${\ Displaystyle {\ mathcal {F}}}$ se llama una clase de subgrafo VC si todos los subgrafos forman una clase VC.

Considere un conjunto de funciones de indicador ${\ Displaystyle {\ mathcal {I}} _ {\ mathcal {C}} = \ {1_ {C}: C \ in {\ mathcal {C}} \}}$ en ${\ Displaystyle L_ {1} (Q)}$ para el tipo de medida empírica discreta $Q$ (o equivalentemente para cualquier medida de probabilidad $Q$ ). Entonces se puede demostrar que de manera bastante notable, para ${\ Displaystyle r \ geq 1}$ :

{\ Displaystyle N (\ varepsilon, {\ mathcal {I}} _ {\ mathcal {C}}, L_ {r} (Q)) \ leq KV ({\ mathcal {C}}) (4e) ^ {V ({\ mathcal {C}})} \ varepsilon ^ {- r (V ({\ mathcal {C}}) - 1)}}

Considere además el casco convexo simétrico de un conjunto ${\ Displaystyle {\ mathcal {F}}}$ : ${\ Displaystyle \ operatorname {sconv} {\ mathcal {F}}}$ siendo la colección de funciones de la forma ${\ Displaystyle \ sum _ {i = 1} ^ {m} \ alpha _ {i} f_ {i}}$ con ${\ Displaystyle \ sum _ {i = 1} ^ {m} | \ alpha _ {i} | \ leq 1}$ . Entonces sí

{\ Displaystyle N \ left (\ varepsilon \ | F \ | _ {Q, 2}, {\ mathcal {F}}, L_ {2} (Q) \ right) \ leq C \ varepsilon ^ {- V}}

lo siguiente es válido para el casco convexo de ${\ Displaystyle {\ mathcal {F}}}$ :

{\ Displaystyle \ log N \ left (\ varepsilon \ | F \ | _ {Q, 2}, \ operatorname {sconv} {\ mathcal {F}}, L_ {2} (Q) \ right) \ leq K \ varepsilon ^ {- {\ frac {2V} {V + 2}}}}

La consecuencia importante de este hecho es que

{\ displaystyle {\ frac {2V} {V + 2}}> 2,}

que es suficiente para que la integral de entropía converja, y por lo tanto la clase ${\ Displaystyle \ operatorname {sconv} {\ mathcal {F}}}$ va a ser $P$ -Donsker.

Finalmente, se considera un ejemplo de una clase de subgrafo VC. Cualquier espacio vectorial de dimensión finita ${\ Displaystyle {\ mathcal {F}}}$ de funciones medibles ${\ Displaystyle f: {\ mathcal {X}} \ to \ mathbf {R}}$ es el subgrafo VC del índice menor o igual que ${\ Displaystyle \ dim ({\ mathcal {F}}) + 2}$ .

[Prueba]

Llevar ${\ Displaystyle n = \ dim ({\ mathcal {F}}) + 2}$ puntos ${\ Displaystyle (x_ {1}, t_ {1}), \ ldots, (x_ {n}, t_ {n})}$ . Los vectores:

{\ Displaystyle (f (x_ {1}), \ ldots, f (x_ {n})) - (t_ {1}, \ ldots, t_ {n})}

están en un subespacio dimensional $n - 1$ de $R n$ . Tome $un \neq 0$ , un vector que es ortogonal a este subespacio. Por lo tanto:

{\ Displaystyle \ sum _ {a_ {i}> 0} a_ {i} (f (x_ {i}) - t_ {i}) = \ sum _ {a_ {i} <0} (- a_ {i} ) (f (x_ {i}) - t_ {i}), \ quad \ forall f \ in {\ mathcal {F}}}

Considere el conjunto ${\ Displaystyle S = \ {(x_ {i}, t_ {i}): a_ {i}> 0 \}}$ . Este conjunto no se puede seleccionar ya que si hay alguna ${\ Displaystyle f}$ tal que ${\ Displaystyle S = \ {(x_ {i}, t_ {i}): f (x_ {i})> t_ {i} \}}$ eso implicaría que el LHS es estrictamente positivo pero el RHS no es positivo.

Hay generalizaciones de la noción de clase de subgrafo VC, por ejemplo, existe la noción de pseudo-dimensión. El lector interesado puede consultar ^[4] .

Desigualdad de VC

Se considera una configuración similar, que es más común en el aprendizaje automático . Dejar ${\ Displaystyle {\ mathcal {X}}}$ es un espacio de características y ${\ Displaystyle {\ mathcal {Y}} = \ {0,1 \}}$ . Una función ${\ Displaystyle f: {\ mathcal {X}} \ to {\ mathcal {Y}}}$ se llama clasificador. Dejar ${\ Displaystyle {\ mathcal {F}}}$ ser un conjunto de clasificadores. De manera similar a la sección anterior, defina el coeficiente de rotura (también conocido como función de crecimiento):

{\ Displaystyle S ({\ mathcal {F}}, n) = \ max _ {x_ {1}, \ ldots, x_ {n}} | \ {(f (x_ {1}), \ ldots, f ( x_ {n})), f \ in {\ mathcal {F}} \} |}

Tenga en cuenta aquí que hay un intervalo de 1: 1 entre cada una de las funciones en ${\ Displaystyle {\ mathcal {F}}}$ y el conjunto en el que la función es 1. Por lo tanto, podemos definir ${\ Displaystyle {\ mathcal {C}}}$ para ser la colección de subconjuntos obtenidos del mapeo anterior para cada ${\ Displaystyle f \ in {\ mathcal {F}}}$ . Por lo tanto, en términos de la sección anterior, el coeficiente de rotura es precisamente

{\ Displaystyle \ max _ {x_ {1}, \ ldots, x_ {n}} \ Delta _ {n} ({\ mathcal {C}}, x_ {1}, \ ldots, x_ {n})}

.

Esta equivalencia junto con el Lema de Sauer implica que ${\ Displaystyle S ({\ mathcal {F}}, n)}$ va a ser polinomio en $n$ , para $n$ suficientemente grande siempre que la colección ${\ Displaystyle {\ mathcal {C}}}$ tiene un índice VC finito.

Dejar ${\ Displaystyle D_ {n} = \ {(X_ {1}, Y_ {1}), \ ldots, (X_ {n}, Y_ {m}) \}}$ es un conjunto de datos observado. Suponga que los datos son generados por una distribución de probabilidad desconocida. ${\ Displaystyle P_ {XY}}$ . Definir ${\ Displaystyle R (f) = P (f (X) \ neq Y)}$ para ser la pérdida 0/1 esperada . Por supuesto desde ${\ Displaystyle P_ {XY}}$ es desconocido en general, no se tiene acceso a ${\ Displaystyle R (f)}$ . Sin embargo, el riesgo empírico , dado por:

{\ Displaystyle {\ hat {R}} _ {n} (f) = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} \ mathbb {I} (f (X_ { i}) \ neq Y_ {i})}

ciertamente puede ser evaluado. Entonces uno tiene el siguiente teorema:

Teorema (desigualdad de CV)

Para la clasificación binaria y la función de pérdida 0/1 tenemos los siguientes límites de generalización:

{\ Displaystyle {\ begin {alineado} P \ left (\ sup _ {f \ in {\ mathcal {F}}} \ left | {\ hat {R}} _ {n} (f) -R (f) \ right |> \ varepsilon \ right) & \ leq 8S ({\ mathcal {F}}, n) e ^ {- n \ varepsilon ^ {2} / 32} \\\ mathbb {E} \ left [\ sup _ {f \ in {\ mathcal {F}}} \ left | {\ hat {R}} _ {n} (f) -R (f) \ right | \ right] & \ leq 2 {\ sqrt {\ dfrac {\ log S ({\ mathcal {F}}, n) + \ log 2} {n}}} \ end {alineado}}}

En palabras, la desigualdad de VC dice que a medida que aumenta la muestra, siempre que ${\ Displaystyle {\ mathcal {F}}}$ tiene una dimensión VC finita, el riesgo 0/1 empírico se convierte en un buen indicador del riesgo 0/1 esperado. Tenga en cuenta que ambos RHS de las dos desigualdades convergerán a 0, siempre que ${\ Displaystyle S ({\ mathcal {F}}, n)}$ crece polinomialmente en $n$ .

La conexión entre este marco y el marco del proceso empírico es evidente. Aquí se trata de un proceso empírico modificado

{\ Displaystyle \ left | {\ hat {R}} _ {n} -R \ right | _ {\ mathcal {F}}}

pero no sorprende que las ideas sean las mismas. La prueba de la (primera parte de) la desigualdad de VC se basa en la simetrización y luego argumenta condicionalmente en los datos utilizando desigualdades de concentración (en particular, la desigualdad de Hoeffding ). El lector interesado puede consultar el libro ^[5] Teoremas 12.4 y 12.5.

Referencias

^ Vapnik, Vladimir N (2000). La naturaleza de la teoría del aprendizaje estadístico . Ciencias de la información y estadística. Springer-Verlag . ISBN 978-0-387-98780-4.
Vapnik, Vladimir N (1989).Teoría del aprendizaje estadístico. Wiley-Interscience . ISBN 978-0-471-03003-4.
^van der Vaart, Aad W .; Wellner, Jon A. (2000). Convergencia débil y procesos empíricos: con aplicaciones a la estadística (2ª ed.). Saltador. ISBN 978-0-387-94640-5.
^Gyorfi, L .; Devroye, L .; Lugosi, G. (1996). Una teoría probabilística del reconocimiento de patrones (1ª ed.). Saltador. ISBN 978-0387946184.
Véanse las referencias en los artículos: Richard M. Dudley , procesos empíricos , Conjunto destrozado .
^Pollard, David (1990). Procesos empíricos: teoría y aplicaciones. Serie de conferencias regionales NSF-CBMS sobre probabilidad y estadística Volumen 2. ISBN 978-0-940600-16-4.
Bousquet, O .; Boucheron, S .; Lugosi, G. (2004). "Introducción a la teoría del aprendizaje estadístico". En O. Bousquet; U. von Luxburg; G. Ratsch (eds.). Conferencias avanzadas sobre aprendizaje automático . Apuntes de conferencias en Inteligencia Artificial. 3176 . Saltador. págs. 169–207.
Vapnik, V .; Chervonenkis, A. (2004). "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Teoría Probab. Apl . 16 (2): 264–280. doi : 10.1137 / 1116025 .