Clasificador cuadrático

En estadística , un clasificador cuadrático es un clasificador estadístico que utiliza una superficie de decisión cuadrática para separar las medidas de dos o más clases de objetos o eventos. Es una versión más general del clasificador lineal .

El problema de clasificación

La clasificación estadística considera un conjunto de vectores de observaciones x de un objeto o evento, cada uno de los cuales tiene un tipo conocido y . Este conjunto se conoce como conjunto de entrenamiento . El problema es entonces determinar, para un nuevo vector de observación dado, cuál debería ser la mejor clase. Para un clasificador cuadrático, se supone que la solución correcta es cuadrática en las medidas, por lo que y se decidirá en función de

{\ Displaystyle \ mathbf {x ^ {T} Ax} + \ mathbf {b ^ {T} x} + c}

En el caso especial en el que cada observación consta de dos medidas, esto significa que las superficies que separan las clases serán secciones cónicas ( es decir , una línea , un círculo o elipse , una parábola o una hipérbola ). En este sentido, podemos afirmar que un modelo cuadrático es una generalización del modelo lineal, y su uso se justifica por el deseo de ampliar la capacidad del clasificador para representar superficies de separación más complejas.

Análisis discriminante cuadrático

El análisis discriminante cuadrático (QDA) está estrechamente relacionado con el análisis discriminante lineal (LDA), donde se supone que las medidas de cada clase se distribuyen normalmente . ^[1] Sin embargo, a diferencia de LDA, en QDA no se asume que la covarianza de cada una de las clases sea idéntica. ^[2] Cuando el supuesto de normalidad es verdadero, la mejor prueba posible para la hipótesis de que una medida dada es de una clase dada es la prueba de razón de verosimilitud . Supongamos que solo hay dos grupos, con medias ${\ Displaystyle \ mu _ {0}, \ mu _ {1}}$ y matrices de covarianza ${\ Displaystyle \ Sigma _ {0}, \ Sigma _ {1}}$ correspondiente a ${\ Displaystyle y = 0}$ y ${\ Displaystyle y = 1}$ respectivamente. Entonces la razón de verosimilitud viene dada por

{\ Displaystyle {\ text {Proporción de probabilidad}} = {\ frac {{\ sqrt {2 \ pi | \ Sigma _ {1} |}} ^ {- 1} \ exp \ left (- {\ frac {1} {2}} (x- \ mu _ {1}) ^ {T} \ Sigma _ {1} ^ {- 1} (x- \ mu _ {1}) \ right)} {{\ sqrt {2 \ pi | \ Sigma _ {0} |}} ^ {- 1} \ exp \ left (- {\ frac {1} {2}} (x- \ mu _ {0}) ^ {T} \ Sigma _ { 0} ^ {- 1} (x- \ mu _ {0}) \ right)}} }>

por algún umbral ${\ Displaystyle t}$ . Después de alguna reordenación, se puede demostrar que la superficie de separación resultante entre las clases es cuadrática. Las estimaciones de la muestra del vector medio y las matrices de varianza-covarianza sustituirán las cantidades de población en esta fórmula.

Otro

Si bien QDA es el método más utilizado para obtener un clasificador, también son posibles otros métodos. Uno de estos métodos consiste en crear un vector de medición más largo a partir del anterior sumando todos los productos por pares de las mediciones individuales. Por ejemplo, el vector

{\ Displaystyle [x_ {1}, \; x_ {2}, \; x_ {3}]}

se convertiría

{\ Displaystyle [x_ {1}, \; x_ {2}, \; x_ {3}, \; x_ {1} ^ {2}, \; x_ {1} x_ {2}, \; x_ {1} } x_ {3}, \; x_ {2} ^ {2}, \; x_ {2} x_ {3}, \; x_ {3} ^ {2}].}

Encontrar un clasificador cuadrático para las medidas originales sería lo mismo que encontrar un clasificador lineal basado en el vector de medida expandido. Esta observación se ha utilizado para ampliar los modelos de redes neuronales; ^[3] el caso "circular", que corresponde a introducir solo la suma de términos cuadráticos puros ${\ Displaystyle \; x_ {1} ^ {2} + x_ {2} ^ {2} + x_ {3} ^ {2} + \ cdots \;}$ sin productos mezclados ${\ Displaystyle \; x_ {1} x_ {2}, \; x_ {1} x_ {3}, \; \ ldots \;}$ ), ha demostrado ser el compromiso óptimo entre ampliar el poder de representación del clasificador y controlar el riesgo de sobreajuste ( dimensión Vapnik-Chervonenkis ). ^[4]

Para los clasificadores lineales basados únicamente en productos escalares , estas medidas expandidas no tienen que calcularse realmente, ya que el producto escalar en el espacio de dimensiones superiores simplemente está relacionado con el del espacio original. Este es un ejemplo del llamado truco del núcleo , que se puede aplicar tanto al análisis discriminante lineal como a la máquina de vectores de soporte .

Referencias

^ Tharwat, Alaa (2016). "Clasificador de análisis discriminante lineal vs cuadrático: un tutorial" . Revista Internacional de Reconocimiento de Patrones Aplicados . 3 (2): 145. doi : 10.1504 / IJAPR.2016.079050 . ISSN 2049-887X .
^ "Análisis discriminante lineal y cuadrático · Guía de programación de UC Business Analytics R" . uc-r.github.io . Consultado el 29 de marzo de 2020 .
^ Portada TM (1965). "Propiedades geométricas y estadísticas de sistemas de desigualdades lineales con aplicaciones en el reconocimiento de patrones". Transacciones IEEE en computadoras electrónicas . EC-14 (3): 326–334. doi : 10.1109 / pgec.1965.264137 .
^ Ridella S, Rovetta S, Zunino R (1997). "Redes circulares de retropropagación para clasificación". Transacciones IEEE en redes neuronales . 8 (1): 84–97. doi : 10.1109 / 72.554194 . PMID 18255613 . href IEEE: [1] .

Fuentes:

Sathyanarayana, Shashi (2010). "Primer de reconocimiento de patrones II" . Proyecto de demostraciones Wolfram .

[1] Tharwat, Alaa (2016). "Clasificador de análisis discriminante lineal vs cuadrático: un tutorial" . Revista Internacional de Reconocimiento de Patrones Aplicados . 3 (2): 145. doi : 10.1504 / IJAPR.2016.079050 . ISSN 2049-887X .

[2] "Análisis discriminante lineal y cuadrático · Guía de programación de UC Business Analytics R" . uc-r.github.io . Consultado el 29 de marzo de 2020 .

[3] Portada TM (1965). "Propiedades geométricas y estadísticas de sistemas de desigualdades lineales con aplicaciones en el reconocimiento de patrones". Transacciones IEEE en computadoras electrónicas . EC-14 (3): 326–334. doi : 10.1109 / pgec.1965.264137 .

[4] Ridella S, Rovetta S, Zunino R (1997). "Redes circulares de retropropagación para clasificación". Transacciones IEEE en redes neuronales . 8 (1): 84–97. doi : 10.1109 / 72.554194 . PMID 18255613 . href IEEE: [1] .

[1]