Modelo generativo

En la clasificación estadística , dos enfoques principales se denominan enfoque generativo y enfoque discriminativo . Estos clasificadores computan mediante diferentes enfoques, que difieren en el grado de modelado estadístico . La terminología es inconsistente, ^[a] pero se pueden distinguir tres tipos principales, siguiendo a Jebara (2004) :

Dada una variable observable X y una variable objetivo Y , un modelo generativo es un modelo estadístico de la distribución de probabilidad conjunta en X × Y , ${\ Displaystyle P (X, Y)}$ ; ^[1]
Un modelo discriminativo es un modelo de la probabilidad condicional del objetivo Y , dada una observación x , simbólicamente, ${\ Displaystyle P (Y | X = x)}$ ; y
Los clasificadores calculados sin utilizar un modelo de probabilidad también se denominan vagamente "discriminativos".

La distinción entre estas dos últimas clases no se hace de forma coherente; ^[2] Jebara (2004) se refiere a estas tres clases como aprendizaje generativo , aprendizaje condicional y aprendizaje discriminativo , pero Ng y Jordan (2002) solo distinguen dos clases, llamándolas clasificadores generativos (distribución conjunta) y clasificadores discriminativos (distribución condicional o sin distribución), sin distinguir entre las dos últimas clases. ^[3] De manera análoga, un clasificador basado en un modelo generativo es un clasificador generativo , mientras que un clasificador basado en un modelo discriminativo es un clasificador discriminativo , aunque este término también se refiere a clasificadores que no se basan en un modelo.

Los ejemplos estándar de cada uno, todos los cuales son clasificadores lineales , son:

clasificadores generativos:
- clasificador ingenuo de Bayes y
- análisis discriminante lineal
modelo discriminativo:
- Regresión logística

En aplicación a la clasificación, se desea pasar de una observación x a una etiqueta y (o distribución de probabilidad en las etiquetas). Se puede calcular esto directamente, sin utilizar una distribución de probabilidad ( clasificador sin distribución ); se puede estimar la probabilidad de una etiqueta dada una observación, ${\ Displaystyle P (Y | X = x)}$ ( modelo discriminativo ), y base de clasificación en eso; o se puede estimar la distribución conjunta ${\ Displaystyle P (X, Y)}$ ( modelo generativo ), a partir de eso se calcula la probabilidad condicional ${\ Displaystyle P (Y | X = x)}$ , y luego basar la clasificación en eso. Estos son cada vez más indirectos, pero cada vez más probabilísticos, lo que permite aplicar más conocimientos de dominio y teoría de la probabilidad. En la práctica, se utilizan diferentes enfoques, dependiendo del problema particular, y los híbridos pueden combinar las fortalezas de múltiples enfoques.

Definición

Una división alternativa los define simétricamente como:

un modelo generativo es un modelo de la probabilidad condicional del observable X , dado un objetivo y , simbólicamente, ${\ Displaystyle P (X | Y = y)}$ ^[4]
un modelo discriminativo es un modelo de la probabilidad condicional del objetivo Y , dada una observación x , simbólicamente, ${\ Displaystyle P (Y | X = x)}$ ^[5]

Independientemente de la definición precisa, la terminología es constitucional porque un modelo generativo se puede utilizar para "generar" instancias aleatorias ( resultados ), ya sea de una observación y un objetivo ${\ Displaystyle (x, y)}$ , o de una observación x dado un valor objetivo y , ^[4] mientras que un modelo discriminativo o clasificador discriminativo (sin un modelo) puede usarse para "discriminar" el valor de la variable objetivo Y , dada una observación x . ^[5] La diferencia entre " discriminar " (distinguir) y " clasificar " es sutil y no se distinguen de forma coherente. (El término "clasificador discriminativo" se convierte en pleonasmo cuando "discriminación" es equivalente a "clasificación").

El término "modelo generativo" también se utiliza para describir modelos que generan instancias de variables de salida de una manera que no tiene una relación clara con las distribuciones de probabilidad sobre muestras potenciales de variables de entrada. Las redes generativas antagónicas son ejemplos de esta clase de modelos generativos y se juzgan principalmente por la similitud de salidas particulares con entradas potenciales. Estos modelos no son clasificadores.

Relaciones entre modelos

En aplicación a la clasificación, el observable X es frecuentemente una variable continua , el objetivo Y es generalmente una variable discreta que consta de un conjunto finito de etiquetas y la probabilidad condicional ${\ Displaystyle P (Y | X)}$ también se puede interpretar como una función objetivo (no determinista) ${\ Displaystyle f \ colon X \ to Y}$ , considerando X como entradas e Y como salidas.

Dado un conjunto finito de etiquetas, las dos definiciones de "modelo generativo" están estrechamente relacionadas. Un modelo de distribución condicional ${\ Displaystyle P (X | Y = y)}$ es un modelo de distribución de cada etiqueta, y un modelo de distribución conjunta es equivalente a un modelo de distribución de valores de etiqueta ${\ Displaystyle P (Y)}$ , junto con la distribución de observaciones con una etiqueta, ${\ Displaystyle P (X | Y)}$ ; simbólicamente, ${\ displaystyle P (X, Y) = P (X | Y) P (Y).}$ Por lo tanto, aunque un modelo de distribución de probabilidad conjunta es más informativo que un modelo de distribución de etiqueta (pero sin sus frecuencias relativas), es un paso relativamente pequeño, por lo que no siempre se distinguen.

Dado un modelo de distribución conjunta, ${\ Displaystyle P (X, Y)}$ , la distribución de las variables individuales se puede calcular como distribuciones marginales ${\ Displaystyle P (X) = \ sum _ {y} P (X, Y = y)}$ y ${\ Displaystyle P (Y) = \ int _ {x} P (Y, X = x)}$ (considerando X como continua, por lo tanto integrando sobre ella, e Y como discreta, por lo tanto sumando sobre ella), y cualquier distribución condicional se puede calcular a partir de la definición de probabilidad condicional : ${\ displaystyle P (X | Y) = P (X, Y) / P (Y)}$ y ${\ Displaystyle P (Y | X) = P (X, Y) / P (X)}$ .

Dado un modelo de una probabilidad condicional y distribuciones de probabilidad estimadas para las variables X e Y , denotadas ${\ Displaystyle P (X)}$ y ${\ Displaystyle P (Y)}$ , se puede estimar la probabilidad condicional opuesta usando la regla de Bayes :

{\ Displaystyle P (X | Y) P (Y) = P (Y | X) P (X).}

Por ejemplo, dado un modelo generativo para ${\ Displaystyle P (X | Y)}$ , se puede estimar:

{\ Displaystyle P (Y | X) = P (X | Y) P (Y) / P (X),}

y dado un modelo discriminativo para ${\ Displaystyle P (Y | X)}$ , se puede estimar:

{\ Displaystyle P (X | Y) = P (Y | X) P (X) / P (Y).}

Tenga en cuenta que la regla de Bayes (calcular una probabilidad condicional en términos de la otra) y la definición de probabilidad condicional (calcular la probabilidad condicional en términos de la distribución conjunta) también se combinan con frecuencia.

Contraste con clasificadores discriminativos

Un algoritmo generativo modela cómo se generaron los datos para categorizar una señal. Hace la pregunta: según las suposiciones de mi generación, ¿qué categoría es más probable que genere esta señal? A un algoritmo discriminativo no le importa cómo se generaron los datos, simplemente categoriza una señal determinada. Entonces, los algoritmos discriminativos intentan aprender ${\ Displaystyle p (y | x)}$ directamente de los datos y luego intente clasificarlos. Por otro lado, los algoritmos generativos intentan aprender ${\ Displaystyle p (x, y)}$ que se puede transformar en ${\ Displaystyle p (y | x)}$ más tarde para clasificar los datos. Una de las ventajas de los algoritmos generativos es que puede utilizar ${\ Displaystyle p (x, y)}$ para generar nuevos datos similares a los datos existentes. Por otro lado, los algoritmos discriminativos generalmente brindan un mejor desempeño en las tareas de clasificación. ^[6]

A pesar de que los modelos discriminativos no necesitan modelar la distribución de las variables observadas, generalmente no pueden expresar relaciones complejas entre las variables observadas y objetivo. No necesariamente funcionan mejor que los modelos generativos en tareas de clasificación y regresión . Las dos clases se consideran complementarias o vistas diferentes del mismo procedimiento. ^[7]

Modelos generativos profundos

Con el surgimiento del aprendizaje profundo, se forma una nueva familia de métodos, llamados modelos generativos profundos (DGM), ^[8]^[9] mediante la combinación de modelos generativos y redes neuronales profundas. El truco de los DGM es que las redes neuronales utilizadas como modelos generativos tienen una cantidad de parámetros significativamente menor que la cantidad de datos utilizados para entrenarlos, por lo que los modelos se ven obligados a descubrir e internalizar de manera eficiente la esencia de los datos para generar eso.

Los DGM populares incluyen codificadores automáticos variacionales (VAE), redes adversas generativas (GAN) y modelos autoregresivos. Existe una tendencia a construir grandes modelos generativos profundos. ^[8] Por ejemplo, GPT-3 y su precursor GPT-2, ^[10] para modelos de lenguaje neuronal autorregresivo, BigGAN ^[11] y VQ-VAE ^[12] para generación de imágenes, Optimus ^[13] como el más grande Modelo de lenguaje VAE y jukebox como el modelo VAE más grande para la generación de música. ^[14]

Los MDE tienen muchas aplicaciones a corto plazo. Pero a la larga, tienen el potencial de aprender automáticamente las características naturales de un conjunto de datos, ya sean categorías o dimensiones o algo completamente diferente. ^[9]

Tipos

Modelos generativos

Los tipos de modelos generativos son:

Modelo de mezcla gaussiano (y otros tipos de modelo de mezcla )
Modelo de Markov oculto
Gramática probabilística libre de contexto
Red bayesiana (por ejemplo , bayes ingenuos , modelo autorregresivo )
Estimadores promediados de una dependencia
Asignación de Dirichlet latente
Máquina de Boltzmann (por ejemplo , máquina de Boltzmann restringida , red de creencias profundas )
Autoencoder variacional
Red de confrontación generativa
Modelo generativo basado en flujo
Modelo basado en energía

Si los datos observados son realmente muestreados del modelo generativo, entonces ajustar los parámetros del modelo generativo para maximizar la probabilidad de los datos es un método común. Sin embargo, dado que la mayoría de los modelos estadísticos son solo aproximaciones a la distribución verdadera , si la aplicación del modelo es inferir sobre un subconjunto de variables condicionadas a valores conocidos de otras, entonces se puede argumentar que la aproximación hace más suposiciones de las necesarias para resolver el problema. problema en cuestión. En tales casos, puede ser más preciso modelar las funciones de densidad condicional directamente usando un modelo discriminativo (ver más abajo), aunque los detalles específicos de la aplicación determinarán en última instancia qué enfoque es el más adecuado en cualquier caso particular.

Modelos discriminativos

algoritmo de k vecinos más cercanos
Regresión logística
Máquinas de vectores de soporte
Árboles de decisión
Bosque aleatorio
Modelos de Markov de máxima entropía
Campos aleatorios condicionales
Redes neuronales

Ejemplos de

Ejemplo simple

Suponga que los datos de entrada son ${\ Displaystyle x \ in \ {1,2 \}}$ , el conjunto de etiquetas para ${\ Displaystyle x}$ es ${\ Displaystyle y \ in \ {0,1 \}}$ , y existen los siguientes 4 puntos de datos: ${\ Displaystyle (x, y) = \ {(1,0), (1,1), (2,0), (2,1) \}}$

Para los datos anteriores, estimar la distribución de probabilidad conjunta ${\ Displaystyle p (x, y)}$ de la medida empírica será lo siguiente:

	${\ Displaystyle y = 0}$	${\ Displaystyle y = 1}$
${\ Displaystyle x = 1}$	${\ Displaystyle 4/9}$	${\ Displaystyle 1/9}$
${\ Displaystyle x = 2}$	${\ Displaystyle 2/9}$	${\ Displaystyle 2/9}$

tiempo ${\ Displaystyle p (y | x)}$ estará siguiendo:

	${\ Displaystyle y = 0}$	${\ Displaystyle y = 1}$
${\ Displaystyle x = 1}$	${\ Displaystyle 1/2}$	${\ Displaystyle 1/2}$
${\ Displaystyle x = 2}$	${\ Displaystyle 1}$	${\ displaystyle 0}$

Generación de texto

Shannon (1948) da un ejemplo en el que se usa una tabla de frecuencias de pares de palabras en inglés para generar una oración que comienza con "representa y rápidamente es un bien"; que no es el inglés correcto pero que se aproximará cada vez más a medida que la tabla se mueva de pares de palabras a tripletes de palabras, etc.

Ver también

Modelo discriminativo
Modelo grafico

Notas

^ Tres fuentes principales, Ng & Jordan 2002 , Jebara 2004 y Mitchell 2015 , dan diferentes divisiones y definiciones.

Referencias

^ Ng y Jordan (2002) : "Los clasificadores generativos aprenden un modelo de probabilidad conjunta, ${\ Displaystyle p (x, y)}$ , de las entradas xy la etiqueta y , y hacer sus predicciones utilizando las reglas de Bayes para calcular ${\ Displaystyle p (y | x)}$ y luego elegir la etiqueta más probable y .
^ Jebara 2004 , 2.4 Aprendizaje discriminativo: "Esta distinción entre aprendizaje condicional y aprendizaje discriminativo no es actualmente una convención bien establecida en el campo".
^ Ng & Jordan 2002 : "Los clasificadores discriminativos modelan la parte posterior ${\ Displaystyle p (y | x)}$ directamente, o aprenda un mapa directo de las entradas xa las etiquetas de la clase ".
^ a b Mitchell 2015 : "Podemos usar la regla de Bayes como base para diseñar algoritmos de aprendizaje (aproximadores de funciones), de la siguiente manera: Dado que deseamos aprender alguna función objetivo ${\ Displaystyle f \ colon X \ to Y}$ , o equivalente, ${\ Displaystyle P (Y | X)}$ , utilizamos los datos de entrenamiento para conocer estimaciones de ${\ Displaystyle P (X | Y)}$ y ${\ Displaystyle P (Y)}$ . Los nuevos ejemplos de X se pueden clasificar utilizando estas distribuciones de probabilidad estimadas, más la regla de Bayes. Este tipo de clasificador se llama clasificador generativo , porque podemos ver la distribución ${\ Displaystyle P (X | Y)}$ como la descripción de cómo generar instancias aleatorias X condicionada a que el atributo de destino Y .
^ a b Mitchell 2015 : "La regresión logística es un algoritmo de aproximación de funciones que utiliza datos de entrenamiento para estimar directamente ${\ Displaystyle P (Y | X)}$ , en contraste con Naive Bayes. En este sentido, la regresión logística a menudo se denomina clasificador discriminativo porque podemos ver la distribución ${\ Displaystyle P (Y | X)}$ como discriminando directamente el valor del valor objetivo Y para cualquier instancia dada X
^ Ng y Jordan, 2002
^ Obispo, CM; Lasserre, J. (24 de septiembre de 2007), "Generative or Discriminative? Getting the best of two worlds", en Bernardo, JM (ed.), Estadísticas Bayesianas 8: actas del VIII Encuentro Internacional de Valencia, 2-6 de junio de 2006 , Oxford University Press, págs. 3–23, ISBN 978-0-19-921465-5
^ a b "Ampliación: los investigadores avanzan en modelos generativos profundos a gran escala" . 9 de abril de 2020.
^ a b "Modelos generativos" . OpenAI . 16 de junio de 2016.
^ "Mejores modelos de lenguaje y sus implicaciones" . OpenAI . 14 de febrero de 2019.
^ Brock, Andrew; Donahue, Jeff; Simonyan, Karen (2018). "Entrenamiento GAN a gran escala para la síntesis de imágenes naturales de alta fidelidad". arXiv : 1809.11096 [ cs.LG ].
^ Razavi, Ali; Aaron van den Oord; Vinyals, Oriol (2019). "Generación de diversas imágenes de alta fidelidad con VQ-VAE-2". arXiv : 1906.00446 [ cs.LG ].
^ Li, Chunyuan; Gao, Xiang; Li, Yuan; Li, Xiujun; Peng, Baolin; Zhang, Yizhe; Gao, Jianfeng (2020). "Optimus: organización de oraciones a través del modelado pre-entrenado de un espacio latente". arXiv : 2004.04092 [ cs.CL ].
^ "Jukebox" . OpenAI . 30 de abril de 2020.

enlaces externos

Shannon, CE (1948). "Una teoría matemática de la comunicación" (PDF) . Revista técnica de Bell System . 27 (julio, octubre): 379–423, 623–656. doi : 10.1002 / j.1538-7305.1948.tb01338.x . hdl : 10338.dmlcz / 101429 .
Mitchell, Tom M. (2015). "3. Clasificadores generativos y discriminativos: Bayes ingenuo y regresión logística" (PDF) . Aprendizaje automático .
Ng, Andrew Y .; Jordan, Michael I. (2002). "En clasificadores discriminativos frente a generativos: una comparación de regresión logística y bayes ingenuos" (PDF) . Avances en sistemas de procesamiento de información neuronal .
Jebara, Tony (2004). Aprendizaje automático: discriminativo y generativo . Springer International Series en Ingeniería y Ciencias de la Computación. Académico Kluwer (Springer). ISBN 978-1-4020-7647-3.
Jebara, Tony (2002). Aprendizaje discriminativo, generativo e imitativo (Doctorado). Instituto de Tecnología de Massachusetts . hdl : 1721,1 / 8323 ., ( espejo , espejo ), publicado como libro (arriba)

[1] Tres fuentes principales, Ng & Jordan 2002 , Jebara 2004 y Mitchell 2015 , dan diferentes divisiones y definiciones.

[ngjordan2002generative-2] Ng y Jordan (2002) : "Los clasificadores generativos aprenden un modelo de probabilidad conjunta, ${\ Displaystyle p (x, y)}$ , de las entradas xy la etiqueta y , y hacer sus predicciones utilizando las reglas de Bayes para calcular ${\ Displaystyle p (y | x)}$ y luego elegir la etiqueta más probable y .

[3] Jebara 2004 , 2.4 Aprendizaje discriminativo: "Esta distinción entre aprendizaje condicional y aprendizaje discriminativo no es actualmente una convención bien establecida en el campo".

[4] Ng & Jordan 2002 : "Los clasificadores discriminativos modelan la parte posterior ${\ Displaystyle p (y | x)}$ directamente, o aprenda un mapa directo de las entradas xa las etiquetas de la clase ".

[mitchell2015generative-5] Mitchell 2015 : "Podemos usar la regla de Bayes como base para diseñar algoritmos de aprendizaje (aproximadores de funciones), de la siguiente manera: Dado que deseamos aprender alguna función objetivo ${\ Displaystyle f \ colon X \ to Y}$ , o equivalente, ${\ Displaystyle P (Y | X)}$ , utilizamos los datos de entrenamiento para conocer estimaciones de ${\ Displaystyle P (X | Y)}$ y ${\ Displaystyle P (Y)}$ . Los nuevos ejemplos de X se pueden clasificar utilizando estas distribuciones de probabilidad estimadas, más la regla de Bayes. Este tipo de clasificador se llama clasificador generativo , porque podemos ver la distribución ${\ Displaystyle P (X | Y)}$ como la descripción de cómo generar instancias aleatorias X condicionada a que el atributo de destino Y .

[mitchell2015discriminative-6] Mitchell 2015 : "La regresión logística es un algoritmo de aproximación de funciones que utiliza datos de entrenamiento para estimar directamente ${\ Displaystyle P (Y | X)}$ , en contraste con Naive Bayes. En este sentido, la regresión logística a menudo se denomina clasificador discriminativo porque podemos ver la distribución ${\ Displaystyle P (Y | X)}$ como discriminando directamente el valor del valor objetivo Y para cualquier instancia dada X

[7] Ng y Jordan, 2002

[8] Obispo, CM; Lasserre, J. (24 de septiembre de 2007), "Generative or Discriminative? Getting the best of two worlds", en Bernardo, JM (ed.), Estadísticas Bayesianas 8: actas del VIII Encuentro Internacional de Valencia, 2-6 de junio de 2006 , Oxford University Press, págs. 3–23, ISBN 978-0-19-921465-5

[auto1-9] "Ampliación: los investigadores avanzan en modelos generativos profundos a gran escala" . 9 de abril de 2020.

[auto-10] "Modelos generativos" . OpenAI . 16 de junio de 2016.

[11] "Mejores modelos de lenguaje y sus implicaciones" . OpenAI . 14 de febrero de 2019.

[12] Brock, Andrew; Donahue, Jeff; Simonyan, Karen (2018). "Entrenamiento GAN a gran escala para la síntesis de imágenes naturales de alta fidelidad". arXiv : 1809.11096 [ cs.LG ].

[13] Razavi, Ali; Aaron van den Oord; Vinyals, Oriol (2019). "Generación de diversas imágenes de alta fidelidad con VQ-VAE-2". arXiv : 1906.00446 [ cs.LG ].

[14] Li, Chunyuan; Gao, Xiang; Li, Yuan; Li, Xiujun; Peng, Baolin; Zhang, Yizhe; Gao, Jianfeng (2020). "Optimus: organización de oraciones a través del modelado pre-entrenado de un espacio latente". arXiv : 2004.04092 [ cs.CL ].

[15] "Jukebox" . OpenAI . 30 de abril de 2020.

[a]