Modelo discriminativo

Modelos discriminativas , también denominados como modelos condicionales , son una clase de modelos logísticos utilizados para la clasificación o regresión. Se distinguen fronteras de decisión a través de los datos observados, como pasa / no pasa, ganar / perder, / enfermo vivo / muerto o saludable.

Modelos discriminativos típicos incluyen regresión logística (LR), campos aleatorios condicionales (CRFs) (especificado sobre un grafo no dirigido), árboles de decisión , y muchos otros. Los enfoques típicos de modelos generativos incluyen clasificadores de Bayes ingenuos , modelos de mezcla gaussiana , autocodificadores variacionales , redes generativas adversarias y otros.

Definición

A diferencia de modelado generativo, que los estudios de la probabilidad conjunta ${\ Displaystyle P (x, y)}$ , Modelado discriminativo estudia la ${\ Displaystyle P (y | x)}$ o el mapa directo de la variable no observada dada (objetivo) ${\ Displaystyle x}$ una etiqueta de clase ${\ Displaystyle y}$ dependió de las variables observadas (muestras de entrenamiento). Por ejemplo, en el reconocimiento de objetos , ${\ Displaystyle x}$ es probable que sea un vector de píxeles sin procesar (o características extraídas de los píxeles sin procesar de la imagen). Dentro de un marco probabilístico, esto se hace mediante el modelado de la distribución de probabilidad condicional ${\ Displaystyle P (y | x)}$ , Que puede ser utilizado para predecir ${\ Displaystyle y}$ de ${\ Displaystyle x}$ . Tenga en cuenta que todavía hay una distinción entre el modelo condicional y el modelo discriminativo, aunque más a menudo se clasifican simplemente como modelo discriminativo.

modelo discriminativo pura vs. modelo condicional

A condicionales modelo modelos la distribución de probabilidad condicional, mientras que los tradicionales modelo pretende discriminativos para optimizar sobre la cartografía de la entrada alrededor de las mayoría de las muestras capacitados similares. ^[1]

Modelado discriminativo Típica aproxima ^[2]

El siguiente enfoque se basa en la suposición de que se le da el conjunto de datos de entrenamiento ${\ Displaystyle D = \ {(x_ {i}; y_ {i}) | i \ leq N \ in \ mathbb {Z} \}}$ , dónde ${\ Displaystyle y_ {i}}$ es la salida correspondiente para la entrada ${\ Displaystyle x_ {i}}$ .

Clasificador lineal

Tenemos la intención de utilizar la función ${\ Displaystyle f (x)}$ para simular el comportamiento de lo que observamos a partir del conjunto de datos de entrenamiento mediante el método del clasificador lineal . Utilizando el vector de características conjunta ${\ Displaystyle \ phi (x, y)}$ , la función de decisión se define como:

{\ Displaystyle f (x, w) = \ arg \ max _ {y} w ^ {T} \ phi (x, y)}

Según la interpretación de Memisevic, ^[2] ${\ Displaystyle w ^ {T} \ phi (x, y)}$ , cual es también ${\ Displaystyle c (x, y; w)}$ , Calcula una puntuación que mide la computabilidad de la entrada ${\ Displaystyle x}$ con la salida potencial ${\ Displaystyle y}$ . Entonces el ${\ Displaystyle \ arg \ máx}$ determina la clase con la puntuación más alta.

Regresión logística (LR)

Dado que la función de pérdida de 0-1 es uno usado comúnmente en la teoría de la decisión, la distribución de probabilidad condicional ${\ Displaystyle P (Y | x; w)}$ , dónde ${\ Displaystyle w}$ es un vector de parámetros para optimizar los datos de entrenamiento, podría reconsiderarse como sigue para el modelo de regresión logística:

{\ Displaystyle P (y | x; w) = {\ frac {1} {Z (x; w)}} \ exp (w ^ {T} \ phi (x, y))}

, con

{\ Displaystyle Z (x; w) = \ textstyle \ sum _ {y} \ Displaystyle \ exp (w ^ {T} \ phi (x, y))}

La ecuación anterior representa la regresión logística . Observe que una distinción importante entre modelos es su forma de introducir probabilidad posterior. La probabilidad posterior se infiere del modelo paramétrico. A continuación, podemos maximizar el parámetro siguiente ecuación:

{\ Displaystyle L (w) = \ textstyle \ sum _ {i} \ Displaystyle \ log p (y ^ {i} | x ^ {i}; w)}

También podría reemplazarse por la siguiente ecuación de pérdida logarítmica :

{\ Displaystyle l ^ {\ log} (x ^ {i}, y ^ {i}, C (x ^ {i}; w)) = - \ log p (y ^ {i} | x ^ {i} ; w) = \ log Z (x ^ {i}; w) -w ^ {T} \ phi (x ^ {i}, y ^ {i})}

Dado que la pérdida logarítmica es diferenciable, se puede utilizar un método basado en gradientes para optimizar el modelo. Se garantiza un óptimo global porque la función objetivo es convexa. El gradiente de probabilidad logarítmica está representado por:

{\ Displaystyle {\ frac {\ partial L (w)} {\ w parcial}} = \ estilo de texto \ sum _ {i} \ displaystyle \ phi (x ^ {i}, y ^ {i}) - E_ {p (y | x ^ {i}; w)} \ phi (x ^ {i}, y)}

dónde ${\ Displaystyle E_ {p (y | x ^ {i}; w)}}$ es la expectativa de ${\ Displaystyle p (y | x ^ {i}; w)}$ .

El método anterior proporcionará computación eficiente para el pequeño número relativo de clasificación.

Contraste con el modelo generativo

Contraste en enfoques

Digamos que se nos da el ${\ Displaystyle m}$ etiquetas de clase (clasificación) y ${\ Displaystyle n}$ las variables de características, ${\ Displaystyle Y: \ {y_ {1}, y_ {2}, \ ldots, y_ {m} \}, X: \ {x_ {1}, x_ {2}, \ ldots, x_ {n} \} }$ , como las muestras de entrenamiento.

Un modelo generativo toma la probabilidad conjunta ${\ Displaystyle P (x, y)}$ , dónde ${\ Displaystyle x}$ es la entrada y ${\ Displaystyle y}$ es la etiqueta, y predice la etiqueta conocida más posible ${\ Displaystyle {\ widetilde {y}} \ in Y}$ para la variable desconocida ${\ Displaystyle {\ widetilde {x}}}$ usando el teorema de Bayes . ^[3]

Los modelos discriminativos, a diferencia de los modelos generativos , no permiten generar muestras a partir de la distribución conjunta de las variables observadas y objetivo. Sin embargo, para tareas como la clasificación y la regresión que no requieren la distribución conjunta, los modelos discriminativos pueden producir un rendimiento superior (en parte porque tienen menos variables para calcular). ^[4]^[5]^[3] Por otro lado, los modelos generativos son típicamente más flexibles que los modelos discriminativos en la expresión de dependencias en tareas de aprendizaje complejas. Además, la mayoría de los modelos discriminativos están inherentemente supervisados y no pueden apoyar fácilmente el aprendizaje no supervisado . Los detalles específicos de la aplicación determinan en última instancia la idoneidad de seleccionar un modelo discriminativo frente a un modelo generativo.

Los modelos discriminativos y generativos también difieren en la introducción de la posibilidad posterior . ^[6] Para mantener la pérdida mínima esperada, debe adquirirse la minimización de la clasificación errónea de los resultados. En el modelo discriminativo, las probabilidades posteriores, ${\ Displaystyle P (y | x)}$ , Se infiere a partir de un modelo paramétrico, donde los parámetros provienen de los datos de entrenamiento. Puntos de estimación de los parámetros se obtienen de la maximización de la probabilidad o cálculo distribución sobre los parámetros. Por otro lado, considerando que los modelos generativos se enfocan en la probabilidad conjunta, la posibilidad posterior de clase ${\ Displaystyle P (k)}$ se considera en el teorema de Bayes , que es

{\ P displaystyle (y | x) = {\ frac {p (x | y) p (y)} {\ estilo de texto \ sum _ {i} p (x | i) p (i) \ displaystyle}} = { \ frac {p (x | y) p (y)} {p (x)}}}

. ^[6]

Ventajas y desventajas en la aplicación

En los experimentos repetidos, la regresión logística y de Bayes ingenuo se aplican aquí para diferentes modelos en la tarea de clasificación binaria, los resultados de aprendizaje discriminativo en errores asintóticos más bajos, mientras que los resultados en uno generativos errores asintóticos superiores más rápido. ^[3] Sin embargo, en el trabajo conjunto Ulusoy y de Bishop, Comparación de generativo y Técnicas discriminativas para la detección y clasificación de objetos , afirman que la declaración anterior es cierto sólo cuando el modelo es el adecuado para los datos (iethe distribución de datos se modela correctamente por el modelo generativo).

Ventajas

Las ventajas significativas de utilizar modelos discriminativos son:

Mayor precisión, que en su mayoría conduce a mejores resultados de aprendizaje.
Permite la simplificación de la entrada y proporciona un enfoque directo para ${\ Displaystyle P (y | x)}$
Ahorra recursos de cálculo
Genera errores asintóticos inferiores

En comparación con las ventajas de utilizar el modelado generativo:

Toma en consideración todos los datos, lo que podría resultar en un procesamiento más lento como una desventaja
Requiere menos muestras de entrenamiento
Un marco flexible que fácilmente podría cooperar con otras necesidades de la aplicación

Desventajas

El método de entrenamiento generalmente requiere múltiples técnicas de optimización numérica ^[1]
Del mismo modo por la definición, el modelo discriminativo necesitará la combinación de múltiples subtareas para un problema del mundo real compleja solución de ^[2]

Optimizaciones en aplicaciones

Dado que ambas ventajas y desventajas presentan en el doble sentido de la modelización, la combinación de ambos enfoques será un buen modelo en la práctica. Por ejemplo, en el artículo Marras' una articulación discriminativo generativo Modelo para deformable Modelo de construcción y clasificación , ^[7] , Medina et al aplicar la combinación de dos modelados sobre la clasificación frente a los modelos, y recibir una mayor precisión que el enfoque tradicional.

De manera similar, Kelm ^[8] también propuso la combinación de dos modelos para la clasificación de píxeles en su artículo Combinando métodos generativos y discriminativos para la clasificación de píxeles con el aprendizaje multicondicional .

Durante el proceso de extracción de las características discriminatorias antes de la agrupación, el análisis de componentes principales (PCA), aunque se usa comúnmente, no es un enfoque necesariamente discriminativo. En contraste, LDA es un uno discriminativo. ^[9] análisis discriminante lineal (LDA), proporciona una forma eficaz de eliminar la lista que desventaja anterior. Como sabemos, el modelo discriminativo necesita una combinación de múltiples subtareas antes de la clasificación, y LDA proporciona una solución adecuada a este problema al reducir la dimensión.

En Beyerlein papel 's, discriminativo combinación de modelos , ^[10] la combinación modelo discriminativo proporciona un nuevo enfoque en el reconocimiento de voz automático. No solo ayuda a optimizar la integración de varios tipos de modelos en una distribución de probabilidad posterior log-lineal. La combinación también tiene como objetivo minimizar la tasa de error de palabras empíricas de las muestras de entrenamiento.

En el artículo, un sistema unificado y discriminativo Modelo para la consulta de refinamiento, ^[11] Guo y sus socios utilizan un modelo unificado discriminativo en el refinamiento consulta mediante clasificador lineal, y obtener con éxito una tasa de precisión mucho mayor. El experimento que diseñan también considera el modelo generativo como una comparación con el modelo unificado. Justo como se esperaba en la aplicación en el mundo real, el modelo generativo realizar los más pobres en comparación con los otros modelos, incluyendo los modelos sin su mejora.

Tipos

Ejemplos de modelos discriminativos incluyen:

Regresión logística , un tipo de regresión lineal generalizada que se utiliza para predecir salidas binarias o categóricas (también conocidas como clasificadores de máxima entropía )
Impulso (meta-algoritmo)
campos aleatorios condicionales
Regresión lineal
Bosques aleatorios

Ver también

Modelo generativo

Referencias

^ Un b Ballesteros, Miguel. "Modelos discriminativas" (PDF) . Consultado el 28 de octubre de 2018 .^{[ enlace muerto permanente ]}
^ a b c Memisevic, Roland (21 de diciembre de 2006). "Una introducción al aprendizaje discriminativo estructurado" . Consultado el 29 de octubre de 2018 .
^ a b c Ng, Andrew Y .; Jordan, Michael I. (2001). Sobre clasificadores discriminativos versus generativos: una comparación de regresión logística y Bayes ingenuo .
^ Singla, Parag; Domingos, Pedro (2005). "Entrenamiento discriminativo de redes lógicas de Markov" . Actas de la 20a Conferencia Nacional sobre Inteligencia Artificial - Volumen 2 . AAAI'05. Pittsburgh, Pennsylvania: AAAI Press: 868-873. ISBN 978-1577352365.
^ J. Lafferty, A. McCallum, y F. Pereira. Los campos condicional aleatoria: modelos probabilísticos para la segmentación y etiquetado Datos de Secuencia. En ICML , 2001.
^ a b Ulusoy, Ilkay (mayo de 2016). "Comparación de generativo y Técnicas discriminativas para la detección y clasificación de objetos" (PDF) . Consultado el 30 de octubre de 2018 .
^ Marras, Ioannis (2017). "Un Conjunto discriminativo modelo generativo para deformable Modelo de construcción y Clasificación" (PDF) . Consultado el 5 de noviembre de 2018 .
^ Kelm, B. Michael. "Combinación de métodos generativos y discriminativos para la clasificación de píxeles con el aprendizaje multicondicional" (PDF) . Consultado el 5 de noviembre de 2018 .
^ Wang, Zhangyang (2015). "Un Marco conjunto Optimización de escasa Codificación y discriminativo Clustering" (PDF) . Consultado el 5 de noviembre de 2018 .
^ Beyerlein, Peter (1998). "Combinación de modelos discriminativo": 481-484. CiteSeerX 10.1.1.454.9567 . Cite journal requiere |journal=( ayuda )
^ Guo, Jiafeng. "Un modelo unificado y discriminativo para el refinamiento de consultas". Cite journal requiere |journal=( ayuda )

[:0-1] Un b Ballesteros, Miguel. "Modelos discriminativas" (PDF) . Consultado el 28 de octubre de 2018 .^{[ enlace muerto permanente ]}

[:1-2] Memisevic, Roland (21 de diciembre de 2006). "Una introducción al aprendizaje discriminativo estructurado" . Consultado el 29 de octubre de 2018 .

[:2-3] Ng, Andrew Y .; Jordan, Michael I. (2001). Sobre clasificadores discriminativos versus generativos: una comparación de regresión logística y Bayes ingenuo .

[4] Singla, Parag; Domingos, Pedro (2005). "Entrenamiento discriminativo de redes lógicas de Markov" . Actas de la 20a Conferencia Nacional sobre Inteligencia Artificial - Volumen 2 . AAAI'05. Pittsburgh, Pennsylvania: AAAI Press: 868-873. ISBN 978-1577352365.

[5] J. Lafferty, A. McCallum, y F. Pereira. Los campos condicional aleatoria: modelos probabilísticos para la segmentación y etiquetado Datos de Secuencia. En ICML , 2001.

[:3-6] Ulusoy, Ilkay (mayo de 2016). "Comparación de generativo y Técnicas discriminativas para la detección y clasificación de objetos" (PDF) . Consultado el 30 de octubre de 2018 .

[7] Marras, Ioannis (2017). "Un Conjunto discriminativo modelo generativo para deformable Modelo de construcción y Clasificación" (PDF) . Consultado el 5 de noviembre de 2018 .

[8] Kelm, B. Michael. "Combinación de métodos generativos y discriminativos para la clasificación de píxeles con el aprendizaje multicondicional" (PDF) . Consultado el 5 de noviembre de 2018 .

[9] Wang, Zhangyang (2015). "Un Marco conjunto Optimización de escasa Codificación y discriminativo Clustering" (PDF) . Consultado el 5 de noviembre de 2018 .

[10] Beyerlein, Peter (1998). "Combinación de modelos discriminativo": 481-484. CiteSeerX 10.1.1.454.9567 . Cite journal requiere |journal=( ayuda )

[11] Guo, Jiafeng. "Un modelo unificado y discriminativo para el refinamiento de consultas". Cite journal requiere |journal=( ayuda )

[1]