Función de crecimiento

La función de crecimiento , también llamada coeficiente de ruptura o número de ruptura , mide la riqueza de una familia determinada . Se utiliza especialmente en el contexto de la teoría del aprendizaje estadístico , donde mide la complejidad de una clase de hipótesis. El término "función de crecimiento" fue acuñado por Vapnik y Chervonenkis en su artículo de 1968, donde también demostraron muchas de sus propiedades. ^[1] Es un concepto básico en el aprendizaje automático . ^[2]^[3]

Definiciones

Definición de familia de conjuntos

Dejar ${\ Displaystyle H}$ ser una familia de conjuntos (un conjunto de conjuntos) y ${\ Displaystyle C}$ un conjunto. Su intersección se define como la siguiente familia de conjuntos:

{\ Displaystyle H \ cap C: = \ {h \ cap C \ mid h \ in H \}}

El tamaño de la intersección (también llamado índice ) de ${\ Displaystyle H}$ con respecto a ${\ Displaystyle C}$ es ${\ Displaystyle | H \ cap C |}$ . Si un conjunto ${\ Displaystyle C_ {m}}$ posee ${\ Displaystyle m}$ elementos, entonces el índice es como máximo ${\ Displaystyle 2 ^ {m}}$ . Si el índice es exactamente 2 ^m, entonces el conjunto ${\ Displaystyle C}$ se dice que está destrozado por ${\ Displaystyle H}$ , porque ${\ Displaystyle H \ cap C}$ contiene todos los subconjuntos de ${\ Displaystyle C}$ , es decir:

{\ Displaystyle | H \ cap C | = 2 ^ {| C |},}

La función de crecimiento mide el tamaño de ${\ Displaystyle H \ cap C}$ como una función de ${\ Displaystyle | C |}$ . Formalmente:

{\ Displaystyle \ operatorname {Crecimiento} (H, m): = \ max _ {C: | C | = m} | H \ cap C |}

Definición de clase de hipótesis

Equivalentemente, dejemos ${\ Displaystyle H}$ ser una clase de hipótesis (un conjunto de funciones binarias) y ${\ Displaystyle C}$ un juego con ${\ Displaystyle m}$ elementos. La restricción de ${\ Displaystyle H}$ a ${\ Displaystyle C}$ es el conjunto de funciones binarias en ${\ Displaystyle C}$ que se puede derivar de ${\ Displaystyle H}$ : ^[3]^{: 45}

{\ Displaystyle H_ {C}: = \ {(h (x_ {1}), \ ldots, h (x_ {m})) \ mid h \ in H, x_ {i} \ in C \}}

La función de crecimiento mide el tamaño de ${\ Displaystyle H_ {C}}$ como una función de ${\ Displaystyle | C |}$ : ^[3]^{: 49}

{\ Displaystyle \ operatorname {Crecimiento} (H, m): = \ max _ {C: | C | = m} | H_ {C} |}

Ejemplos de

1. El dominio es la línea real ${\ Displaystyle \ mathbb {R}}$ . El set-familia ${\ Displaystyle H}$ contiene todas las medias líneas (rayos) desde un número dado hasta el infinito positivo, es decir, todos los conjuntos de la forma ${\ Displaystyle \ {x> x_ {0} \ mid x \ in \ mathbb {R} \}}$ para algunos ${\ Displaystyle x_ {0} \ in \ mathbb {R}}$ . Para cualquier conjunto ${\ Displaystyle C}$ de ${\ Displaystyle m}$ números reales, la intersección ${\ Displaystyle H \ cap C}$ contiene ${\ Displaystyle m + 1}$ conjuntos: el conjunto vacío, el conjunto que contiene el elemento más grande de ${\ Displaystyle C}$ , el conjunto que contiene los dos elementos más grandes de ${\ Displaystyle C}$ , y así. Por lo tanto: ${\ Displaystyle \ operatorname {Crecimiento} (H, m) = m + 1}$ . ^[1]^{: Ej.1} Lo mismo es cierto si ${\ Displaystyle H}$ contiene medias líneas abiertas, medias líneas cerradas o ambas.

2. El dominio es el segmento ${\ Displaystyle [0,1]}$ . El set-familia ${\ Displaystyle H}$ contiene todos los conjuntos abiertos. Para cualquier conjunto finito ${\ Displaystyle C}$ de ${\ Displaystyle m}$ números reales, la intersección ${\ Displaystyle H \ cap C}$ contiene todos los subconjuntos posibles de ${\ Displaystyle C}$ . Existen ${\ Displaystyle 2 ^ {m}}$ tales subconjuntos, entonces ${\ Displaystyle \ operatorname {Crecimiento} (H, m) = 2 ^ {m}}$ . ^[1]^{: Ej. 2}

3. El dominio es el espacio euclidiano. ${\ Displaystyle \ mathbb {R} ^ {n}}$ . El set-familia ${\ Displaystyle H}$ contiene todos los medios espacios del formulario: ${\ Displaystyle x \ cdot \ phi \ geq 1}$ , dónde ${\ Displaystyle \ phi}$ es un vector fijo. Luego ${\ Displaystyle \ operatorname {Crecimiento} (H, m) = \ operatorname {Comp} (n, m)}$ , donde Comp es el número de componentes en una partición de un espacio de n dimensiones por m hiperplanos . ^[1]^{: Ej . 3}

4. El dominio es la línea real ${\ Displaystyle \ mathbb {R}}$ . El set-familia ${\ Displaystyle H}$ contiene todos los intervalos reales, es decir, todos los conjuntos de la forma ${\ Displaystyle \ {x \ in [x_ {0}, x_ {1}] | x \ in \ mathbb {R} \}}$ para algunos ${\ Displaystyle x_ {0}, x_ {1} \ in \ mathbb {R}}$ . Para cualquier conjunto ${\ Displaystyle C}$ de ${\ Displaystyle m}$ números reales, la intersección ${\ Displaystyle H \ cap C}$ contiene todas las ejecuciones de entre 0 y ${\ Displaystyle m}$ elementos consecutivos de ${\ Displaystyle C}$ . El número de carreras de este tipo es ${\ Displaystyle {m + 1 \ Choose 2} +1}$ , entonces ${\ Displaystyle \ operatorname {Crecimiento} (H, m) = {m + 1 \ choose 2} +1}$ .

Polinomio o exponencial

La propiedad principal que hace que la función de crecimiento sea interesante es que puede ser polinomial o exponencial, nada intermedio.

La siguiente es una propiedad del tamaño de la intersección: ^[1]^{: Lem.1}

Si, por algún conjunto ${\ Displaystyle C_ {m}}$ de tamaño ${\ Displaystyle m}$ , y para algunos ${\ Displaystyle n \ leq m}$ , ${\ Displaystyle | H \ cap C_ {m} | \ geq \ operatorname {Comp} (n, m)}$ -
entonces, existe un subconjunto ${\ Displaystyle C_ {n} \ subseteq C_ {m}}$ de tamaño ${\ Displaystyle n}$ tal que ${\ Displaystyle | H \ cap C_ {n} | = 2 ^ {n}}$ .

Esto implica la siguiente propiedad de la función de crecimiento. ^[1]^{: Th.1} Para cada familia ${\ Displaystyle H}$ hay dos casos:

El caso exponencial : ${\ Displaystyle \ operatorname {Crecimiento} (H, m) = 2 ^ {m}}$ idénticamente.
El caso del polinomio : ${\ Displaystyle \ operatorname {Crecimiento} (H, m)}$ está mayorizado por ${\ Displaystyle \ operatorname {Comp} (n, m) \ leq m ^ {n} +1}$ , dónde ${\ Displaystyle n}$ es el número entero más pequeño para el que ${\ Displaystyle \ operatorname {Crecimiento} (H, n) <2 ^ {n}}$ .

Otras propiedades

Límite superior trivial

Para cualquier finito ${\ Displaystyle H}$ :

{\ Displaystyle \ operatorname {Crecimiento} (H, m) \ leq | H |}

ya que para cada ${\ Displaystyle C}$ , el número de elementos en ${\ Displaystyle H \ cap C}$ es como máximo ${\ Displaystyle | H |}$ . Por lo tanto, la función de crecimiento es principalmente interesante cuando ${\ Displaystyle H}$ es infinito.

Límite superior exponencial

Para cualquier no vacío ${\ Displaystyle H}$ :

{\ Displaystyle \ operatorname {Crecimiento} (H, m) \ leq 2 ^ {m}}

Es decir, la función de crecimiento tiene un límite superior exponencial.

Decimos que un conjunto-familia ${\ Displaystyle H}$ rompe un conjunto ${\ Displaystyle C}$ si su intersección contiene todos los posibles subconjuntos de ${\ Displaystyle C}$ , es decir ${\ Displaystyle H \ cap C = 2 ^ {C}}$ . Si ${\ Displaystyle H}$ destroza ${\ Displaystyle C}$ de tamaño ${\ Displaystyle m}$ , luego ${\ Displaystyle \ operatorname {Crecimiento} (H, C) = 2 ^ {m}}$ , que es el límite superior.

Intersección cartesiana

Defina la intersección cartesiana de dos familias de conjuntos como:

{\ Displaystyle H_ {1} \ bigotimes H_ {2}: = \ {h_ {1} \ cap h_ {2} \ mid h_ {1} \ in H_ {1}, h_ {2} \ in H_ {2} \}}

.

Entonces: ^[2]^{: 57}

{\ Displaystyle \ operatorname {Crecimiento} (H_ {1} \ bigotimes H_ {2}, m) \ leq \ operatorname {Crecimiento} (H_ {1}, m) \ cdot \ operatorname {Crecimiento} (H_ {2}, metro)}

Unión

Por cada dos familias de conjuntos: ^[2]^{: 58}

{\ Displaystyle \ operatorname {Crecimiento} (H_ {1} \ cup H_ {2}, m) \ leq \ operatorname {Crecimiento} (H_ {1}, m) + \ operatorname {Crecimiento} (H_ {2}, m )}

Dimensión VC

La dimensión VC de ${\ Displaystyle H}$ se define según estos dos casos:

En el caso del polinomio , ${\ Displaystyle \ operatorname {VCDim} (H) = n-1}$ = el entero más grande ${\ Displaystyle d}$ para cual ${\ Displaystyle \ operatorname {Crecimiento} (H, d) = 2 ^ {d}}$ .
En el caso exponencial ${\ Displaystyle \ operatorname {VCDim} (H) = \ infty}$ .

Entonces ${\ Displaystyle \ operatorname {VCDim} (H) \ geq d}$ si y solo si ${\ Displaystyle \ operatorname {Crecimiento} (H, d) = 2 ^ {d}}$ .

La función de crecimiento puede considerarse como un refinamiento del concepto de dimensión VC. La dimensión VC solo nos dice si ${\ Displaystyle \ operatorname {Crecimiento} (H, d)}$ es igual o menor que ${\ Displaystyle 2 ^ {d}}$ , mientras que la función de crecimiento nos dice exactamente cómo ${\ Displaystyle \ operatorname {Crecimiento} (H, m)}$ cambia en función de ${\ Displaystyle m}$ .

Otra conexión entre la función de crecimiento y la dimensión VC viene dada por el lema de Sauer-Shelah : ^[3]^{: 49}

Si

{\ Displaystyle \ operatorname {VCDim} (H) = d}

, luego:

para todos

{\ Displaystyle m}

:

{\ Displaystyle \ operatorname {Crecimiento} (H, m) \ leq \ sum _ {i = 0} ^ {d} {m \ choose i}}

En particular,

para todos

{\ Displaystyle m> d + 1}

:

{\ Displaystyle \ operatorname {Crecimiento} (H, m) \ leq (em / d) ^ {d} = O (m ^ {d})}

así que cuando la dimensión VC es finita, la función de crecimiento crece polinomialmente con

{\ Displaystyle m}

.

Este límite superior es estrecho, es decir, para todos ${\ Displaystyle m> d}$ existe ${\ Displaystyle H}$ con dimensión VC ${\ Displaystyle d}$ tal que: ^[2]^{: 56}

{\ Displaystyle \ operatorname {Crecimiento} (H, m) = \ sum _ {i = 0} ^ {d} {m \ choose i}}

Entropía

Mientras que la función de crecimiento está relacionada con el tamaño máximo de la intersección, la entropía está relacionada con el tamaño medio de la intersección: ^[1]^{: 272-273}

{\ Displaystyle \ operatorname {Entropía} (H, m) = E_ {| C_ {m} | = m} {\ big [} \ log _ {2} (| H \ cap C_ {m} |) {\ big ]}}

El tamaño de la intersección tiene la siguiente propiedad. Para cada set-family ${\ Displaystyle H}$ :

{\ Displaystyle | H \ cap (C_ {1} \ cup C_ {2}) | \ leq | H \ cap C_ {1} | \ cdot | H \ cap C_ {2} |}

Por eso:

{\ Displaystyle \ operatorname {Entropía} (H, m_ {1} + m_ {2}) \ leq \ operatorname {Entropía} (H, m_ {1}) + \ operatorname {Entropía} (H, m_ {2}) }

Además, la secuencia ${\ Displaystyle \ operatorname {Entropía} (H, m) / m}$ converge a una constante ${\ Displaystyle c \ in [0,1]}$ Cuándo ${\ Displaystyle m \ to \ infty}$ .

Además, la variable aleatoria ${\ Displaystyle \ log _ {2} {| H \ cap C_ {m} | / m}}$ se concentra cerca ${\ Displaystyle c}$ .

Aplicaciones en teoría de probabilidades

Dejar ${\ Displaystyle \ Omega}$ ser un conjunto en el que una medida de probabilidad ${\ Displaystyle \ Pr}$ se define. Dejar ${\ Displaystyle H}$ ser familia de subconjuntos de ${\ Displaystyle \ Omega}$ (= una familia de eventos).

Supongamos que elegimos un conjunto ${\ Displaystyle C_ {m}}$ eso contiene ${\ Displaystyle m}$ elementos de ${\ Displaystyle \ Omega}$ , donde cada elemento se elige al azar de acuerdo con la medida de probabilidad ${\ Displaystyle P}$ , independientemente de los demás (es decir, con reemplazos). Para cada evento ${\ Displaystyle h \ in H}$ , comparamos las siguientes dos cantidades:

Su frecuencia relativa en ${\ Displaystyle C_ {m}}$ , es decir, ${\ Displaystyle | h \ cap C_ {m} | / m}$ ;
Su probabilidad ${\ Displaystyle \ Pr [h]}$ .

Nos interesa la diferencia, ${\ Displaystyle D (h, C_ {m}): = {\ big |} | h \ cap C_ {m} | / m- \ Pr [h] {\ big |}}$ . Esta diferencia satisface el siguiente límite superior:

{\ Displaystyle \ Pr \ left [\ forall h \ in H: D (h, C_ {m}) \ leq {\ sqrt {8 (\ ln \ operatorname {Growth} (H, 2m) + \ ln (4 / \ delta)) \ over m}} \ right] ~~~~> ~~~~ 1- \ delta}

que es equivalente a: ^[1]^{: Th.2}

{\ Displaystyle \ Pr {\ big [} \ forall h \ in H: D (h, C_ {m}) \ leq \ varepsilon {\ big]} ~~~~> ~~~~ 1-4 \ cdot \ nombre de operador {Crecimiento} (H, 2m) \ cdot \ exp (- \ varepsilon ^ {2} \ cdot m / 8)}

En palabras: la probabilidad de que para todos los eventos en ${\ Displaystyle H}$ , la frecuencia relativa está cerca de la probabilidad, está delimitada por una expresión que depende de la función de crecimiento de ${\ Displaystyle H}$ .

Un corolario de esto es que, si la función de crecimiento es polinomial en ${\ Displaystyle m}$ (es decir, existen algunos ${\ Displaystyle n}$ tal que ${\ Displaystyle \ operatorname {Crecimiento} (H, m) \ leq m ^ {n} +1}$ ), entonces la probabilidad anterior se aproxima a 1 cuando ${\ Displaystyle m \ to \ infty}$ . Es decir, la familia ${\ Displaystyle H}$ disfruta de una convergencia uniforme en probabilidad .

Referencias

^ ^a ^b ^c ^d ^e ^f ^g ^h Vapnik, VN; Chervonenkis, A. Ya. (1971). "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Teoría de la probabilidad y sus aplicaciones . 16 (2): 264. doi : 10.1137 / 1116025 . Esta es una traducción al inglés, por B. Seckler, del periódico ruso: "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Dokl. Akad. Nauk . 181 (4): 781. 1968. La traducción se reprodujo como: Vapnik, VN; Chervonenkis, A. Ya. (2015). "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Medidas de complejidad . pag. 11. doi : 10.1007 / 978-3-319-21852-6_3 . ISBN 978-3-319-21851-9.
^ ^a ^b ^c ^d Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Fundamentos del aprendizaje automático . Estados Unidos, Massachusetts: MIT Press. ISBN 9780262018258., especialmente la Sección 3.2
^ ^a ^b ^c d Shalev-Shwartz, Shai; Ben-David, Shai (2014). Comprensión del aprendizaje automático: de la teoría a los algoritmos . Prensa de la Universidad de Cambridge. ISBN 9781107057135.

[vc-1] ^ ^a ^b ^c ^d ^e ^f ^g ^h Vapnik, VN; Chervonenkis, A. Ya. (1971). "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Teoría de la probabilidad y sus aplicaciones . 16 (2): 264. doi : 10.1137 / 1116025 . Esta es una traducción al inglés, por B. Seckler, del periódico ruso: "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Dokl. Akad. Nauk . 181 (4): 781. 1968. La traducción se reprodujo como: Vapnik, VN; Chervonenkis, A. Ya. (2015). "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Medidas de complejidad . pag. 11. doi : 10.1007 / 978-3-319-21852-6_3 . ISBN 978-3-319-21851-9.

[book12-2] Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Fundamentos del aprendizaje automático . Estados Unidos, Massachusetts: MIT Press. ISBN 9780262018258., especialmente la Sección 3.2

[book14-3] Shalev-Shwartz, Shai; Ben-David, Shai (2014). Comprensión del aprendizaje automático: de la teoría a los algoritmos . Prensa de la Universidad de Cambridge. ISBN 9781107057135.

[1]