Análisis discriminante lineal

El análisis discriminante lineal ( LDA ), el análisis discriminante normal ( NDA ) o el análisis de función discriminante es una generalización del discriminante lineal de Fisher , un método utilizado en estadística y otros campos, para encontrar una combinación lineal de características que caracterizan o separan dos o más clases. de objetos o eventos. La combinación resultante puede usarse como clasificador lineal o, más comúnmente, para la reducción de dimensionalidad antes de una clasificación posterior .

La LDA está estrechamente relacionada con el análisis de varianza (ANOVA) y el análisis de regresión , que también intentan expresar una variable dependiente como una combinación lineal de otras características o medidas. ^[1]^[2] Sin embargo, ANOVA usa variables independientes categóricas y una variable dependiente continua , mientras que el análisis discriminante tiene variables independientes continuas y una variable dependiente categórica ( es decir, la etiqueta de clase). ^[3] Regresión logística y regresión probit son más similares a LDA que ANOVA, ya que también explican una variable categórica por los valores de las variables independientes continuas. Estos otros métodos son preferibles en aplicaciones donde no es razonable suponer que las variables independientes están distribuidas normalmente, lo cual es un supuesto fundamental del método LDA.

LDA también está estrechamente relacionado con el análisis de componentes principales (PCA) y el análisis factorial, ya que ambos buscan combinaciones lineales de variables que expliquen mejor los datos. ^[4] LDA intenta explícitamente modelar la diferencia entre las clases de datos. El PCA, por el contrario, no tiene en cuenta ninguna diferencia de clase y el análisis factorial construye las combinaciones de características en función de las diferencias en lugar de las similitudes. El análisis discriminante también se diferencia del análisis factorial en que no es una técnica de interdependencia: se debe hacer una distinción entre variables independientes y variables dependientes (también llamadas variables de criterio).

LDA funciona cuando las mediciones realizadas en variables independientes para cada observación son cantidades continuas. Cuando se trata de variables independientes categóricas, la técnica equivalente es el análisis de correspondencia discriminante. ^[5]^[6]

El análisis discriminante se utiliza cuando los grupos se conocen a priori (a diferencia del análisis de conglomerados ). Cada caso debe tener una puntuación en una o más medidas predictoras cuantitativas y una puntuación en una medida de grupo. ^[7] En términos simples, el análisis de función discriminante es clasificación: el acto de distribuir cosas en grupos, clases o categorías del mismo tipo.

Historia

El análisis discriminante dicotómico original fue desarrollado por Sir Ronald Fisher en 1936. ^[8] Es diferente de un ANOVA o MANOVA , que se utiliza para predecir una (ANOVA) o múltiples (MANOVA) variables dependientes continuas mediante una o más variables categóricas independientes . El análisis de la función discriminante es útil para determinar si un conjunto de variables es eficaz para predecir la pertenencia a una categoría. ^[9]

LDA para dos clases

Considere un conjunto de observaciones (también llamadas características, atributos, variables o medidas) para cada muestra de un objeto o evento con clase conocida . Este conjunto de muestras se denomina conjunto de entrenamiento . El problema de clasificación es entonces encontrar un buen predictor para la clase de cualquier muestra de la misma distribución (no necesariamente del conjunto de entrenamiento) dada solo una observación . ^[10]^{: 338} ${\ Displaystyle {\ vec {x}}}$ ${\ Displaystyle y}$ ${\ Displaystyle y}$ ${\ Displaystyle {\ vec {x}}}$

LDA aborda el problema asumiendo que las funciones de densidad de probabilidad condicional y son ambas la distribución normal con parámetros de covarianza y media y , respectivamente. Bajo este supuesto, la solución óptima de Bayes es predecir puntos como pertenecientes a la segunda clase si el logaritmo de las razones de probabilidad es mayor que algún umbral T, de modo que: ${\ Displaystyle p ({\ vec {x}} | y = 0)}$ ${\ Displaystyle p ({\ vec {x}} | y = 1)}$ ${\ Displaystyle \ left ({\ vec {\ mu}} _ {0}, \ Sigma _ {0} \ right)}$ $\left({\vec {\mu }}_{1},\Sigma _{1}\right)$

({\vec {x}}-{\vec {\mu }}_{0})^{T}\Sigma _{0}^{-1}({\vec {x}}-{\vec {\mu }}_{0})+\ln |\Sigma _{0}|-({\vec {x}}-{\vec {\mu }}_{1})^{T}\Sigma _{1}^{-1}({\vec {x}}-{\vec {\mu }}_{1})-\ln |\Sigma _{1}|\ >\ T

Sin más suposiciones, el clasificador resultante se denomina QDA ( análisis discriminante cuadrático ).

En cambio, LDA hace el supuesto simplificador adicional de homocedasticidad ( es decir, que las covarianzas de clase son idénticas, por lo tanto ) y que las covarianzas tienen rango completo. En este caso, se cancelan varios términos: $\Sigma _{0}=\Sigma _{1}=\Sigma$

{\vec {x}}^{T}\Sigma _{0}^{-1}{\vec {x}}={\vec {x}}^{T}\Sigma _{1}^{-1}{\vec {x}}

{\vec {x}}^{T}{\Sigma _{i}}^{-1}{\vec {\mu }}_{i}={{\vec {\mu }}_{i}}^{T}{\Sigma _{i}}^{-1}{\vec {x}}

porque es hermitiano

\Sigma _{i}

y el criterio de decisión anterior se convierte en un umbral en el producto escalar

{\vec {w}}\cdot {\vec {x}}>c

para alguna constante de umbral c , donde

{\vec {w}}=\Sigma ^{-1}({\vec {\mu }}_{1}-{\vec {\mu }}_{0})

c={\vec {w}}\cdot {\frac {1}{2}}({\vec {\mu }}_{1}+{\vec {\mu }}_{0})

Esto significa que el criterio de que una entrada esté en una clase es puramente una función de esta combinación lineal de las observaciones conocidas. ${\vec {x}}$ $y$

A menudo es útil ver esta conclusión en términos geométricos: el criterio de que una entrada esté en una clase es puramente una función de proyección del punto del espacio multidimensional en el vector (por lo tanto, solo consideramos su dirección). En otras palabras, la observación pertenece a si el correspondiente se encuentra en un cierto lado de un hiperplano perpendicular a . La ubicación del avión está definida por el umbral c. ${\vec {x}}$ $y$ ${\vec {x}}$ ${\vec {w}}$ $y$ ${\vec {x}}$ ${\vec {w}}$

Supuestos

Los supuestos del análisis discriminante son los mismos que los de MANOVA. El análisis es bastante sensible a los valores atípicos y el tamaño del grupo más pequeño debe ser mayor que el número de variables predictoras. ^[7]

Normalidad multivariante : las variables independientes son normales para cada nivel de la variable de agrupación. ^[9]^[7]
Homogeneidad de varianza / covarianza ( homocedasticidad ): las varianzas entre las variables de grupo son las mismas en todos los niveles de predictores. Puede probarse con la estadística M de Box . ^[9] Sin embargo, se ha sugerido que se utilice el análisis discriminante lineal cuando las covarianzas sean iguales y que se pueda utilizar el análisis discriminante cuadrático cuando las covarianzas no sean iguales. ^[7]
Multicolinealidad : el poder predictivo puede disminuir con una mayor correlación entre las variables predictoras. ^[7]
Independencia : Se supone que los participantes se muestrean al azar, y se supone que la puntuación de un participante en una variable es independiente de las puntuaciones en esa variable para todos los demás participantes. ^[9]^[7]

Se ha sugerido que el análisis discriminante es relativamente robusto a ligeras violaciones de estos supuestos, ^[11] y también se ha demostrado que el análisis discriminante aún puede ser confiable cuando se utilizan variables dicotómicas (donde a menudo se viola la normalidad multivariante). ^[12]

Funciones discriminantes

El análisis discriminante funciona creando una o más combinaciones lineales de predictores, creando una nueva variable latente para cada función. Estas funciones se denominan funciones discriminantes. El número de funciones posibles es donde = número de grupos, o (el número de predictores), el que sea menor. La primera función creada maximiza las diferencias entre grupos en esa función. La segunda función maximiza las diferencias en esa función, pero tampoco debe estar correlacionada con la función anterior. Esto continúa con las funciones posteriores con el requisito de que la nueva función no se correlacione con ninguna de las funciones anteriores. $N_{g}-1$ $N_{g}$ $p$

Dado un grupo , con conjuntos de espacio muestral, existe una regla discriminante tal que si , entonces . Entonces, el análisis discriminante encuentra regiones "buenas" de para minimizar el error de clasificación, lo que conduce a un alto porcentaje correcto clasificado en la tabla de clasificación. ^[13] $j$ $\mathbb {R} _{j}$ $x\in \mathbb {R} _{j}$ $x\in j$ $\mathbb {R} _{j}$

A cada función se le asigna una puntuación discriminante ^{[ aclaración necesaria ]} para determinar qué tan bien predice la ubicación del grupo.

Coeficientes de correlación de estructura: La correlación entre cada predictor y la puntuación discriminante de cada función. Esta es una correlación de orden cero (es decir, no corregida para los otros predictores). ^[14]
Coeficientes estandarizados: el peso de cada predictor en la combinación lineal que es la función discriminante. Como en una ecuación de regresión, estos coeficientes son parciales (es decir, corregidos para los otros predictores). Indica la contribución única de cada predictor en la predicción de la asignación de grupos.
Funciones en los centroides de grupo: Se dan las puntuaciones discriminantes medias para cada variable de agrupación para cada función. Cuanto más separados estén los medios, menos error habrá en la clasificación.

Reglas de discriminación

Máxima probabilidad : asigna x al grupo que maximiza la densidad de población (grupo). ^[15]
Regla discriminante de Bayes: asigna x al grupo que maximiza , donde π _i representa la probabilidad previa de esa clasificación y representa la densidad de población. ^[15] $\pi _{i}f_{i}(x)$ $f_{i}(x)$
Regla discriminante lineal de Fisher : maximiza la relación entre SS _entre y SS _dentro , y encuentra una combinación lineal de los predictores para predecir el grupo. ^[15]

Autovalores

Un valor propio en el análisis discriminante es la raíz característica de cada función. ^{[ aclaración necesaria ]} Es una indicación de qué tan bien esa función diferencia a los grupos, donde cuanto mayor es el valor propio, mejor se diferencia la función. ^[7] Sin embargo, esto debe interpretarse con precaución, ya que los valores propios no tienen límite superior. ^[9]^[7] El valor propio se puede ver como una razón de SS _entre y SS _dentro como en ANOVA cuando la variable dependiente es la función discriminante, y los grupos son los niveles del IV ^{[ aclaración necesaria ]} .^[9] Esto significa que el valor propio más grande está asociado con la primera función, el segundo más grande con la segunda, etc.

Tamaño del efecto

Algunos sugieren el uso de valores propios como medidas del tamaño del efecto , sin embargo, esto generalmente no está respaldado. ^[9] En cambio, la correlación canónica es la medida preferida del tamaño del efecto. Es similar al valor propio, pero es la raíz cuadrada de la razón de SS _entre y SS _total . Es la correlación entre grupos y función. ^[9] Otra medida popular del tamaño del efecto es el porcentaje de varianza ^{[ aclaración necesaria ]} para cada función. Esto se calcula por: ( λ _x / Σλ _i ) X 100 donde λ _xes el valor propio de la función y Σ λ _i es la suma de todos los valores propios. Esto nos dice qué tan fuerte es la predicción para esa función en particular en comparación con las demás. ^{[9] El} porcentaje clasificado correctamente también se puede analizar como un tamaño del efecto. El valor kappa puede describir esto mientras corrige el acuerdo de azar. ^[9] Kappa normaliza en todas las categorías en lugar de estar sesgado por clases significativamente buenas o malas. ^{[ aclaración necesaria ]}^[16]

Análisis discriminante canónico para clases k

El análisis discriminante canónico (CDA) encuentra los ejes ( k - 1 coordenadas canónicas , siendo k el número de clases) que mejor separan las categorías. Estas funciones lineales no están correlacionadas y definen, en efecto, un espacio k - 1 óptimo a través de la nube n- dimensional de datos que separa mejor (las proyecciones en ese espacio de) los k grupos. Consulte " LDA multiclase " para obtener detalles a continuación.

Discriminante lineal de Fisher

Los términos discriminante lineal de Fisher y LDA a menudo se usan indistintamente, aunque el artículo original de Fisher ^{[1] en} realidad describe un discriminante ligeramente diferente, que no hace algunos de los supuestos de LDA como clases normalmente distribuidas o covarianzas de clases iguales .

Suponga que dos clases de observaciones tienen medias y covarianzas . Entonces la combinación lineal de características tendrá medias y varianzas para . Fisher definió la separación entre estas dos distribuciones como la relación entre la varianza entre las clases y la varianza dentro de las clases: ${\vec {\mu }}_{0},{\vec {\mu }}_{1}$ $\Sigma _{0},\Sigma _{1}$ ${\vec {w}}\cdot {\vec {x}}$ ${\vec {w}}\cdot {\vec {\mu }}_{i}$ ${\vec {w}}^{T}\Sigma _{i}{\vec {w}}$ $i=0,1$

S={\frac {\sigma _{\text{between}}^{2}}{\sigma _{\text{within}}^{2}}}={\frac {({\vec {w}}\cdot {\vec {\mu }}_{1}-{\vec {w}}\cdot {\vec {\mu }}_{0})^{2}}{{\vec {w}}^{T}\Sigma _{1}{\vec {w}}+{\vec {w}}^{T}\Sigma _{0}{\vec {w}}}}={\frac {({\vec {w}}\cdot ({\vec {\mu }}_{1}-{\vec {\mu }}_{0}))^{2}}{{\vec {w}}^{T}(\Sigma _{0}+\Sigma _{1}){\vec {w}}}}

Esta medida es, en cierto sentido, una medida de la relación señal / ruido para el etiquetado de clase. Se puede demostrar que la separación máxima se produce cuando

{\vec {w}}\propto (\Sigma _{0}+\Sigma _{1})^{-1}({\vec {\mu }}_{1}-{\vec {\mu }}_{0})

Cuando se cumplen los supuestos de LDA, la ecuación anterior es equivalente a LDA.

Discriminante lineal de Fisher visualizado como un eje

Asegúrese de notar que el vector es normal al hiperplano discriminante . Por ejemplo, en un problema bidimensional, la línea que mejor divide a los dos grupos es perpendicular a . ${\vec {w}}$ ${\vec {w}}$

Generalmente, los puntos de datos que se van a discriminar se proyectan sobre ; luego, el umbral que mejor separa los datos se elige a partir del análisis de la distribución unidimensional. No existe una regla general para el umbral. Sin embargo, si las proyecciones de puntos de ambas clases exhiben aproximadamente las mismas distribuciones, una buena elección sería el hiperplano entre las proyecciones de las dos medias, y . En este caso, el parámetro c en condición de umbral se puede encontrar explícitamente: ${\vec {w}}$ ${\vec {w}}\cdot {\vec {\mu }}_{0}$ ${\vec {w}}\cdot {\vec {\mu }}_{1}$ ${\vec {w}}\cdot {\vec {x}}>c$

c={\vec {w}}\cdot {\frac {1}{2}}({\vec {\mu }}_{0}+{\vec {\mu }}_{1})={\frac {1}{2}}{\vec {\mu }}_{1}^{T}\Sigma _{1}^{-1}{\vec {\mu }}_{1}-{\frac {1}{2}}{\vec {\mu }}_{0}^{T}\Sigma _{0}^{-1}{\vec {\mu }}_{0}

.

El método de Otsu está relacionado con el discriminante lineal de Fisher y fue creado para binarizar el histograma de píxeles en una imagen en escala de grises seleccionando de manera óptima el umbral de blanco y negro que minimiza la varianza dentro de la clase y maximiza la varianza entre clases dentro / entre las escalas de grises asignadas a negro y clases de píxeles blancos.

LDA multiclase

Visualización de ejes LDA uno versus todos para 4 clases en 3d

Proyecciones a lo largo de ejes discriminantes lineales para 4 clases

En el caso de que haya más de dos clases, el análisis utilizado en la derivación del discriminante de Fisher puede extenderse para encontrar un subespacio que parezca contener toda la variabilidad de la clase. ^[17] Esta generalización se debe a CR Rao . ^[18] Suponga que cada una de las clases C tiene una media y la misma covarianza . Entonces, la dispersión entre la variabilidad de clase puede definirse por la covarianza muestral de las medias de clase $\mu _{i}$ $\Sigma$

\Sigma _{b}={\frac {1}{C}}\sum _{i=1}^{C}(\mu _{i}-\mu )(\mu _{i}-\mu )^{T}

donde es la media de las medias de la clase. La separación de clases en una dirección en este caso vendrá dada por $\mu$ ${\vec {w}}$

S={\frac {{\vec {w}}^{T}\Sigma _{b}{\vec {w}}}{{\vec {w}}^{T}\Sigma {\vec {w}}}}

Esto significa que cuando es un vector propio de la separación será igual al valor propio correspondiente . ${\vec {w}}$ $\Sigma ^{-1}\Sigma _{b}$

Si es diagonalizable, la variabilidad entre características estará contenida en el subespacio generado por los autovectores correspondientes a los valores propios más grandes de C - 1 (ya que es de rango C - 1 como máximo). Estos autovectores se utilizan principalmente en la reducción de características, como en PCA. Los autovectores correspondientes a los autovalores más pequeños tenderán a ser muy sensibles a la elección exacta de los datos de entrenamiento y, a menudo, es necesario utilizar la regularización como se describe en la siguiente sección. $\Sigma ^{-1}\Sigma _{b}$ $\Sigma _{b}$

Si se requiere clasificación, en lugar de reducción de dimensiones , hay varias técnicas alternativas disponibles. Por ejemplo, las clases se pueden dividir y se puede utilizar un discriminante Fisher estándar o LDA para clasificar cada partición. Un ejemplo común de esto es "uno contra el resto", donde los puntos de una clase se colocan en un grupo y todo lo demás en el otro, y luego se aplica LDA. Esto dará como resultado clasificadores C, cuyos resultados se combinan. Otro método común es la clasificación por pares, donde se crea un nuevo clasificador para cada par de clases (dando C ( C - 1) / 2 clasificadores en total), con los clasificadores individuales combinados para producir una clasificación final.

LDA incremental

La implementación típica de la técnica LDA requiere que todas las muestras estén disponibles de antemano. Sin embargo, hay situaciones en las que el conjunto de datos completo no está disponible y los datos de entrada se observan como un flujo. En este caso, es deseable que la extracción de características de LDA tenga la capacidad de actualizar las características de LDA calculadas observando las nuevas muestras sin ejecutar el algoritmo en todo el conjunto de datos. Por ejemplo, en muchas aplicaciones en tiempo real, como la robótica móvil o el reconocimiento facial en línea, es importante actualizar las funciones LDA extraídas tan pronto como estén disponibles nuevas observaciones. Una técnica de extracción de características de LDA que puede actualizar las características de LDA simplemente observando nuevas muestras es un algoritmo de LDA incremental , y esta idea se ha estudiado ampliamente durante las últimas dos décadas.^[19] Chatterjee y Roychowdhury propusieron un algoritmo LDA autoorganizado incremental para actualizar las características de LDA. ^[20] En otro trabajo, Demir y Ozmehmet propusieron algoritmos de aprendizaje local en línea para actualizar las características de LDA de forma incremental utilizando la corrección de errores y las reglas de aprendizaje de Hebb. ^[21] Más tarde, Aliyari et al . algoritmos incrementales rápidos derivados para actualizar las características de LDA mediante la observación de las nuevas muestras. ^[19]

Uso práctico

En la práctica, no se conocen las medias ni las covarianzas de la clase. Sin embargo, pueden estimarse a partir del conjunto de entrenamiento. Se puede utilizar la estimación de máxima verosimilitud o la estimación máxima a posteriori en lugar del valor exacto en las ecuaciones anteriores. Aunque las estimaciones de la covarianza pueden considerarse óptimas en algún sentido, esto no significa que el discriminante resultante obtenido al sustituir estos valores sea óptimo en ningún sentido, incluso si la suposición de clases distribuidas normalmente es correcta.

Otra complicación al aplicar LDA y discriminante de Fisher a datos reales ocurre cuando el número de mediciones de cada muestra (es decir, la dimensionalidad de cada vector de datos) excede el número de muestras en cada clase. ^[4] En este caso, las estimaciones de covarianza no tienen rango completo, por lo que no se pueden invertir. Hay varias formas de lidiar con esto. Una es usar una pseudo inversa en lugar de la matriz inversa habitual en las fórmulas anteriores. Sin embargo, se puede lograr una mejor estabilidad numérica proyectando primero el problema en el subespacio abarcado por . ^[22] Otra estrategia para tratar el tamaño de muestra pequeño es utilizar un estimador de contracción de la matriz de covarianza, que se puede expresar matemáticamente como $\Sigma _{b}$

\Sigma =(1-\lambda )\Sigma +\lambda I\,

donde es la matriz de identidad y es la intensidad de contracción o el parámetro de regularización . Esto conduce al marco del análisis discriminante regularizado ^[23] o al análisis discriminante de contracción. ^[24] $I$ $\lambda$

Además, en muchos casos prácticos, los discriminantes lineales no son adecuados. LDA y el discriminante de Fisher se pueden ampliar para su uso en clasificación no lineal mediante el truco del núcleo . Aquí, las observaciones originales se mapean efectivamente en un espacio no lineal de mayor dimensión. La clasificación lineal en este espacio no lineal es equivalente a la clasificación no lineal en el espacio original. El ejemplo más utilizado de esto es el discriminante de núcleo de Fisher .

LDA se puede generalizar al análisis discriminante múltiple , donde c se convierte en una variable categórica con N estados posibles, en lugar de solo dos. De manera análoga, si las densidades condicionales de clase son normales con covarianzas compartidas, el estadístico suficiente para son los valores de N proyecciones, que son el subespacio atravesado por las N medias, afín proyectadas por la matriz de covarianza inversa. Estas proyecciones se pueden encontrar resolviendo un problema de valores propios generalizados $p({\vec {x}}\mid c=i)$ $P(c\mid {\vec {x}})$ , donde el numerador es la matriz de covarianza formada al tratar las medias como las muestras, y el denominador es la matriz de covarianza compartida. Consulte “ LDA multiclase ” más arriba para obtener más detalles.

Aplicaciones

Además de los ejemplos que se dan a continuación, LDA se aplica en el posicionamiento y la gestión de productos .

Predicción de quiebras

En la predicción de quiebras basada en ratios contables y otras variables financieras, el análisis discriminante lineal fue el primer método estadístico aplicado para explicar sistemáticamente qué empresas entraron en quiebra y cuáles sobrevivieron. A pesar de las limitaciones, incluyendo la no conformidad conocida de contabilidad proporciones para los supuestos de distribución normal de LDA, Edward Altman 's 1968 modelo sigue siendo un modelo líder en aplicaciones prácticas.

Reconocimiento facial

En el reconocimiento facial computarizado , cada rostro está representado por una gran cantidad de valores de píxeles. El análisis discriminante lineal se utiliza principalmente aquí para reducir el número de características a un número más manejable antes de la clasificación. Cada una de las nuevas dimensiones es una combinación lineal de valores de píxeles, que forman una plantilla. Las combinaciones lineales obtenidos utilizando discriminante lineal de Fisher se llaman Fisher enfrenta , mientras que los obtenidos utilizando el relacionada análisis de componentes principales se llaman autocaras .

Márketing

En marketing , el análisis discriminante se solía utilizar una vez para determinar los factores que distinguen a los diferentes tipos de clientes y / o productos sobre la base de encuestas u otras formas de datos recopilados. La regresión logística u otros métodos se utilizan ahora con mayor frecuencia. El uso del análisis discriminante en marketing se puede describir mediante los siguientes pasos:

Formule el problema y recopile datos: identifique los atributos destacados que utilizan los consumidores para evaluar los productos de esta categoría: utilice técnicas cuantitativas de investigación de mercados (como encuestas) para recopilar datos de una muestra de clientes potenciales sobre sus calificaciones de todos los atributos del producto. La etapa de recopilación de datos suele estar a cargo de profesionales de la investigación de mercados. Las preguntas de la encuesta le piden al encuestado que califique un producto del uno al cinco (o del 1 al 7, o del 1 al 10) en una variedad de atributos elegidos por el investigador. Se eligen entre cinco y veinte atributos. Podrían incluir cosas como: facilidad de uso, peso, precisión, durabilidad, colorido, precio o tamaño. Los atributos elegidos variarán en función del producto en estudio. Se hace la misma pregunta sobre todos los productos del estudio. Los datos de varios productos se codifican y se ingresan en un programa estadístico como R , SPSS o SAS. (Este paso es el mismo que en el análisis factorial).
Estime los coeficientes de la función discriminante y determine la significación estadística y la validez: elija el método de análisis discriminante adecuado. El método directo implica estimar la función discriminante de modo que todos los predictores se evalúen simultáneamente. El método paso a paso ingresa los predictores secuencialmente. El método de dos grupos debe usarse cuando la variable dependiente tiene dos categorías o estados. El método discriminante múltiple se utiliza cuando la variable dependiente tiene tres o más estados categóricos. Utilice Lambda de Wilkspara probar la significancia en SPSS o F stat en SAS. El método más común utilizado para probar la validez es dividir la muestra en una muestra de estimación o análisis y una muestra de validación o reserva. La muestra de estimación se utiliza para construir la función discriminante. La muestra de validación se utiliza para construir una matriz de clasificación que contiene el número de casos clasificados correctamente y clasificados incorrectamente. El porcentaje de casos clasificados correctamente se denomina tasa de aciertos .
Trace los resultados en un mapa bidimensional, defina las dimensiones e interprete los resultados. El programa estadístico (o un módulo relacionado) mapeará los resultados. El mapa trazará cada producto (generalmente en un espacio bidimensional). La distancia de los productos entre sí indica cuán diferentes son. Las dimensiones deben ser etiquetadas por el investigador. Esto requiere un juicio subjetivo y, a menudo, es un gran desafío. Ver mapeo perceptual .

Estudios biomédicos

La principal aplicación del análisis discriminante en medicina es la evaluación del estado de gravedad de un paciente y el pronóstico del resultado de la enfermedad. Por ejemplo, durante el análisis retrospectivo, los pacientes se dividen en grupos según la gravedad de la enfermedad: forma leve, moderada y grave. Luego se estudian los resultados de los análisis clínicos y de laboratorio con el fin de revelar variables estadísticamente diferentes en los grupos estudiados. Usando estas variables, se construyen funciones discriminantes que ayudan a clasificar objetivamente la enfermedad en un futuro paciente en forma leve, moderada o severa.

En biología, se utilizan principios similares para clasificar y definir grupos de diferentes objetos biológicos, por ejemplo, para definir tipos de fagos de Salmonella enteritidis basados en espectros infrarrojos de transformada de Fourier, ^[25] para detectar la fuente animal de Escherichia coli estudiando sus factores de virulencia ^[26] etc.

Ciencia de la Tierra

Este método se puede utilizar para separar las zonas de alteración ^{[ aclaración necesaria ]} . Por ejemplo, cuando se encuentran disponibles diferentes datos de varias zonas, el análisis discriminante puede encontrar el patrón dentro de los datos y clasificarlo de manera efectiva. ^[27]

Comparación con regresión logística

El análisis de funciones discriminantes es muy similar a la regresión logística y ambos pueden usarse para responder las mismas preguntas de investigación. ^[9] La regresión logística no tiene tantos supuestos y restricciones como el análisis discriminante. Sin embargo, cuando se cumplen los supuestos del análisis discriminante, es más poderoso que la regresión logística. ^[28] A diferencia de la regresión logística, el análisis discriminante se puede utilizar con tamaños de muestra pequeños. Se ha demostrado que cuando los tamaños de muestra son iguales y se mantiene la homogeneidad de varianza / covarianza, el análisis discriminante es más preciso. ^[7] A pesar de todas estas ventajas, la regresión logística no obstante se ha convertido en la opción común, ya que los supuestos del análisis discriminante rara vez se cumplen. ^[8]^[7]

Discriminante lineal en alta dimensión

Las anomalías geométricas en las grandes dimensiones conducen a la conocida maldición de la dimensionalidad . No obstante, la utilización adecuada de los fenómenos de concentración de medida puede facilitar el cálculo. ^[29] Un caso importante de estos fenómenos de bendición de dimensionalidad fue destacado por Donoho y Tanner: si una muestra es esencialmente de alta dimensión, entonces cada punto puede separarse del resto de la muestra por desigualdad lineal, con alta probabilidad, incluso para exponencialmente grandes muestras. ^[30] Estas desigualdades lineales se pueden seleccionar en la forma estándar (de Fisher) del discriminante lineal para una familia rica de distribución de probabilidad. ^[31] En particular, tales teoremas están probados paradistribuciones log-cóncavas que incluyen la distribución normal multidimensional (la prueba se basa en las desigualdades de concentración para medidas log-cóncavas ^[32] ) y para medidas de producto en un cubo multidimensional (esto se demuestra utilizando la desigualdad de concentración de Talagrand para espacios de probabilidad de producto). La separabilidad de datos mediante discriminantes lineales clásicos simplifica el problema de la corrección de errores para sistemas de inteligencia artificial en alta dimensión. ^[33]

Ver también

Procesamiento de datos
Aprendizaje del árbol de decisiones
Análisis factorial
Análisis discriminante de Kernel Fisher
Logit (para regresión logística )
Regresión lineal
Análisis discriminante múltiple
Escalamiento multidimensional
Reconocimiento de patrones
Regresión de preferencias
Clasificador cuadrático
Clasificación estadística

Referencias

↑ a b Fisher, RA (1936). "El uso de múltiples medidas en problemas taxonómicos" (PDF) . Anales de la eugenesia . 7 (2): 179–188. doi : 10.1111 / j.1469-1809.1936.tb02137.x . hdl : 2440/15227 .
^ McLachlan, GJ (2004). Análisis discriminante y reconocimiento estadístico de patrones . Wiley Interscience. ISBN 978-0-471-69115-0. Señor 1190469 .
^ Análisis de datos cuantitativos: una introducción para investigadores sociales, Debra Wetcher-Hendricks, p.288
^ a b Martínez, AM; Kak, AC (2001). "PCA versus LDA" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 23 (= 2): 228–233. doi : 10.1109 / 34.908974 .
^ Abdi, H. (2007) "Análisis de correspondencia discriminante". En: NJ Salkind (Ed.): Enciclopedia de medición y estadística . Thousand Oaks (CA): salvia. págs. 270-275.
↑ Perriere, G .; Thioulouse, J. (2003). "Uso de análisis discriminante de correspondencia para predecir la ubicación subcelular de proteínas bacterianas". Métodos y programas informáticos en biomedicina . 70 (2): 99–105. doi : 10.1016 / s0169-2607 (02) 00011-1 . PMID 12507786 .
^ a b c d e f g h i j BÖKEOĞLU ÇOKLUK, Ö, & BÜYÜKÖZTÜRK, Ş. (2008). Análisis de la función discriminante: concepto y aplicación . Eğitim araştırmaları dergisi, (33), 73-92.
^ a b Cohen y col. Análisis de correlación / regresión múltiple aplicada para las ciencias del comportamiento 3ª ed. (2003). Taylor & Francis Group.
↑ a b c d e f g h i j k Green, SB Salkind, NJ y Akey, TM (2008). Uso de SPSS para Windows y Macintosh: análisis y comprensión de datos . Nueva Jersey: Prentice Hall.
^ Venables, WN; Ripley, BD (2002). Estadística aplicada moderna con S (4ª ed.). Springer Verlag. ISBN 978-0-387-95457-8.
^ Lachenbruch, PA (1975). Análisis discriminante . Nueva York: Hafner
^ Klecka, William R. (1980). Análisis discriminante . Aplicaciones cuantitativas en la serie de ciencias sociales, No. 19. Thousand Oaks, CA: Sage Publications.
^ Hardle, W., Simar, L. (2007). Análisis estadístico multivariado aplicado . Springer Berlín Heidelberg. págs. 289-303.
^ Garson, GD (2008). Análisis de funciones discriminantes. https://web.archive.org/web/20080312065328/http://www2.chass.ncsu.edu/garson/pA765/discrim.htm .
↑ a b c Hardle, W., Simar, L. (2007). Análisis estadístico multivariado aplicado . Springer Berlín Heidelberg. págs. 289-303.
^ Israel, Steven A. (junio de 2006). "Métricas de rendimiento: cómo y cuándo". Geocarto International . 21 (2): 23–32. doi : 10.1080 / 10106040608542380 . ISSN 1010-6049 . S2CID 122376081 .
^ Garson, GD (2008). Análisis de funciones discriminantes. "Copia archivada" . Archivado desde el original el 12 de marzo de 2008 . Consultado el 4 de marzo de 2008 .CS1 maint: copia archivada como título ( enlace ) .
^ Rao, RC (1948). "La utilización de múltiples medidas en problemas de clasificación biológica". Revista de la Sociedad Real de Estadística, Serie B . 10 (2): 159-203. JSTOR 2983775 .
↑ a b Aliyari Ghassabeh, Youness; Rudzicz, Frank; Moghaddam, Hamid Abrishami (1 de junio de 2015). "Extracción de características LDA incremental rápida". Reconocimiento de patrones . 48 (6): 1999–2012. doi : 10.1016 / j.patcog.2014.12.012 .
^ Chatterjee, C .; Roychowdhury, vicepresidente (1 de mayo de 1997). "Sobre redes y algoritmos autoorganizados para características de separabilidad de clases". Transacciones IEEE en redes neuronales . 8 (3): 663–678. doi : 10.1109 / 72.572105 . ISSN 1045-9227 . PMID 18255669 .
^ Demir, GK; Ozmehmet, K. (1 de marzo de 2005). "Algoritmos de aprendizaje local en línea para análisis discriminante lineal". Reconocimiento de patrones. Lett . 26 (4): 421–431. doi : 10.1016 / j.patrec.2004.08.005 . ISSN 0167-8655 .
^ Yu, H .; Yang, J. (2001). "Un algoritmo LDA directo para datos de alta dimensión - con aplicación al reconocimiento facial". Reconocimiento de patrones . 34 (10): 2067–2069. CiteSeerX 10.1.1.70.3507 . doi : 10.1016 / s0031-3203 (00) 00162-x .
^ Friedman, JH (1989). "Análisis discriminante regularizado" (PDF) . Revista de la Asociación Estadounidense de Estadística . 84 (405): 165-175. CiteSeerX 10.1.1.382.2682 . doi : 10.2307 / 2289860 . JSTOR 2289860 . Señor 0999675 .
↑ Ahdesmäki, M .; Strimmer, K. (2010). "Selección de características en problemas de predicción ómica utilizando puntuaciones de gato y control de tasa de falso descubrimiento". Annals of Applied Statistics . 4 (1): 503–519. arXiv : 0903.2003 . doi : 10.1214 / 09-aoas277 . S2CID 2508935 .
^ Preisner, O; Guiomar, R; Machado, J; Menezes, JC; Lopes, JA (2010). "Aplicación de la quimiometría y espectroscopia infrarroja por transformada de Fourier para la diferenciación de tipos de fagos de Salmonella enterica serovar Enteritidis" . Appl Environ Microbiol . 76 (11): 3538–3544. doi : 10.1128 / aem.01589-09 . PMC 2876429 . PMID 20363777 .
^ David, DE; Lynne, AM; Han, J; Foley, SL (2010). "Evaluación del perfil del factor de virulencia en la caracterización de aislados veterinarios de Escherichia coli" . Appl Environ Microbiol . 76 (22): 7509–7513. doi : 10.1128 / aem.00726-10 . PMC 2976202 . PMID 20889790 .
^ Tahmasebi, P .; Hezarkhani, A .; Mortazavi, M. (2010). "Aplicación del análisis discriminante para la separación por alteración; depósito de cobre sungun, este de Azerbaiyán, Irán. Australiano" (PDF) . Revista de Ciencias Básicas y Aplicadas . 6 (4): 564–576.
^ Trevor Hastie; Robert Tibshirani; Jerome Friedman. Los elementos del aprendizaje estadístico. Minería de datos, inferencia y predicción (segunda ed.). Saltador. pag. 128.
^ Kainen PC (1997) Utilización de anomalías geométricas de alta dimensión: cuando la complejidad facilita el cálculo . En: Kárný M., Warwick K. (eds) Métodos intensivos por computadora en el control y procesamiento de señales: La maldición de la dimensionalidad, Springer, 1997, pp. 282-294.
^ Donoho, D., Tanner, J. (2009) Observó la universalidad de las transiciones de fase en geometría de alta dimensión, con implicaciones para el análisis de datos moderno y el procesamiento de señales , Phil. Trans. R. Soc. A 367, 4273–4293.
↑ Gorban, Alexander N .; Golubkov, Alexander; Grechuck, Bogdan; Mirkes, Evgeny M .; Tyukin, Ivan Y. (2018). "Corrección de sistemas de IA por discriminantes lineales: fundamentos probabilísticos". Ciencias de la información . 466 : 303–322. arXiv : 1811.05321 . doi : 10.1016 / j.ins.2018.07.040 . S2CID 52876539 .
^ Guédon, O., Milman, E. (2011) Interpolación de estimaciones de capa delgada y gran desviación aguda para medidas isotrópicas log-cóncavas , Geom. Funct. Anal. 21 (5), 1043-1068.
↑ Gorban, Alexander N .; Makarov, Valeri A .; Tyukin, Ivan Y. (julio de 2019). "La efectividad irrazonable de pequeños conjuntos neuronales en el cerebro de alta dimensión" . Reseñas de Física de la Vida . 29 : 55–88. arXiv : 1809.07656 . doi : 10.1016 / j.plrev.2018.09.005 . PMID 30366739 .

Otras lecturas

Duda, RO; Hart, PE; Stork, DH (2000). Clasificación de patrones (2ª ed.). Wiley Interscience. ISBN 978-0-471-05669-0. Señor 1802993 .
Hilbe, JM (2009). Modelos de regresión logística . Chapman & Hall / CRC Press. ISBN 978-1-4200-7575-5.
Mika, S .; et al. (1999). "Análisis discriminante de Fisher con granos". Redes neuronales para el procesamiento de señales IX: Actas del taller de la Sociedad de procesamiento de señales IEEE de 1999 (Cat. No.98TH8468) . Conferencia IEEE sobre redes neuronales para el procesamiento de señales IX . págs. 41–48. CiteSeerX 10.1.1.35.9904 . doi : 10.1109 / NNSP.1999.788121 . ISBN 978-0-7803-5673-3. S2CID 8473401 .
McFarland, H. Richard; Donald, St. P. Richards (2001). "Probabilidades exactas de clasificación errónea para funciones discriminantes cuadráticas normales enchufables. I. El caso de la igualdad de medias" . Revista de análisis multivariante . 77 (1): 21–53. doi : 10.1006 / jmva.2000.1924 .
McFarland, H. Richard; Donald, St. P. Richards (2002). "Probabilidades exactas de clasificación errónea para funciones discriminantes cuadráticas normales de plug-in. II. El caso heterogéneo" . Revista de análisis multivariante . 82 (2): 299–330. doi : 10.1006 / jmva.2001.2034 .
Haghighat, M .; Abdel-Mottaleb, M .; Alhalabi, W. (2016). "Análisis de correlación discriminante: fusión de nivel de característica en tiempo real para el reconocimiento biométrico multimodal" . Transacciones IEEE sobre seguridad y análisis forense de la información . 11 (9): 1984–1996. doi : 10.1109 / TIFS.2016.2569061 . S2CID 15624506 .

enlaces externos

Wikiversity tiene recursos de aprendizaje sobre el análisis de funciones discriminantes

Análisis de correlación discriminante (DCA) del artículo de Haghighat (ver arriba)
ALGLIB contiene la implementación de LDA de código abierto en C # / C ++ / Pascal / VBA.
LDA en Python : implementación de LDA en Python
Tutorial de LDA usando MS Excel
Estadísticas biomédicas. Análisis discriminante
StatQuest: Análisis discriminante lineal (LDA) explicado claramente en YouTube
Notas del curso, análisis de la función discriminante por G. David Garson, Universidad Estatal de Carolina del Norte
Tutorial de análisis discriminante en Microsoft Excel por Kardi Teknomo
Notas del curso, análisis de la función discriminante por David W. Stockburger, Universidad Estatal de Missouri
Análisis de función discriminante (DA) por John Poulsen y Aaron French, Universidad Estatal de San Francisco

[Fisher:1936-1] Fisher, RA (1936). "El uso de múltiples medidas en problemas taxonómicos" (PDF) . Anales de la eugenesia . 7 (2): 179–188. doi : 10.1111 / j.1469-1809.1936.tb02137.x . hdl : 2440/15227 .

[McLachlan:2004-2] McLachlan, GJ (2004). Análisis discriminante y reconocimiento estadístico de patrones . Wiley Interscience. ISBN 978-0-471-69115-0. Señor 1190469 .

[3] Análisis de datos cuantitativos: una introducción para investigadores sociales, Debra Wetcher-Hendricks, p.288

[Martinez:2001-4] Martínez, AM; Kak, AC (2001). "PCA versus LDA" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 23 (= 2): 228–233. doi : 10.1109 / 34.908974 .

[Abdi_2007-5] Abdi, H. (2007) "Análisis de correspondencia discriminante". En: NJ Salkind (Ed.): Enciclopedia de medición y estadística . Thousand Oaks (CA): salvia. págs. 270-275.

[Perriere_2003-6] Perriere, G .; Thioulouse, J. (2003). "Uso de análisis discriminante de correspondencia para predecir la ubicación subcelular de proteínas bacterianas". Métodos y programas informáticos en biomedicina . 70 (2): 99–105. doi : 10.1016 / s0169-2607 (02) 00011-1 . PMID 12507786 .

[buy-7] ^ a b c d e f g h i j BÖKEOĞLU ÇOKLUK, Ö, & BÜYÜKÖZTÜRK, Ş. (2008). Análisis de la función discriminante: concepto y aplicación . Eğitim araştırmaları dergisi, (33), 73-92.

[cohen-8] Cohen y col. Análisis de correlación / regresión múltiple aplicada para las ciencias del comportamiento 3ª ed. (2003). Taylor & Francis Group.

[green-9] ↑ a b c d e f g h i j k Green, SB Salkind, NJ y Akey, TM (2008). Uso de SPSS para Windows y Macintosh: análisis y comprensión de datos . Nueva Jersey: Prentice Hall.

[Venables:2002-10] Venables, WN; Ripley, BD (2002). Estadística aplicada moderna con S (4ª ed.). Springer Verlag. ISBN 978-0-387-95457-8.

[11] Lachenbruch, PA (1975). Análisis discriminante . Nueva York: Hafner

[12] Klecka, William R. (1980). Análisis discriminante . Aplicaciones cuantitativas en la serie de ciencias sociales, No. 19. Thousand Oaks, CA: Sage Publications.

[13] Hardle, W., Simar, L. (2007). Análisis estadístico multivariado aplicado . Springer Berlín Heidelberg. págs. 289-303.

[14] Garson, GD (2008). Análisis de funciones discriminantes. https://web.archive.org/web/20080312065328/http://www2.chass.ncsu.edu/garson/pA765/discrim.htm .

[har-15] Hardle, W., Simar, L. (2007). Análisis estadístico multivariado aplicado . Springer Berlín Heidelberg. págs. 289-303.

[16] Israel, Steven A. (junio de 2006). "Métricas de rendimiento: cómo y cuándo". Geocarto International . 21 (2): 23–32. doi : 10.1080 / 10106040608542380 . ISSN 1010-6049 . S2CID 122376081 .

[garson-17] Garson, GD (2008). Análisis de funciones discriminantes. "Copia archivada" . Archivado desde el original el 12 de marzo de 2008 . Consultado el 4 de marzo de 2008 .CS1 maint: copia archivada como título ( enlace ) .

[Rao:1948-18] Rao, RC (1948). "La utilización de múltiples medidas en problemas de clasificación biológica". Revista de la Sociedad Real de Estadística, Serie B . 10 (2): 159-203. JSTOR 2983775 .

[:0-19] Aliyari Ghassabeh, Youness; Rudzicz, Frank; Moghaddam, Hamid Abrishami (1 de junio de 2015). "Extracción de características LDA incremental rápida". Reconocimiento de patrones . 48 (6): 1999–2012. doi : 10.1016 / j.patcog.2014.12.012 .

[:1-20] Chatterjee, C .; Roychowdhury, vicepresidente (1 de mayo de 1997). "Sobre redes y algoritmos autoorganizados para características de separabilidad de clases". Transacciones IEEE en redes neuronales . 8 (3): 663–678. doi : 10.1109 / 72.572105 . ISSN 1045-9227 . PMID 18255669 .

[21] Demir, GK; Ozmehmet, K. (1 de marzo de 2005). "Algoritmos de aprendizaje local en línea para análisis discriminante lineal". Reconocimiento de patrones. Lett . 26 (4): 421–431. doi : 10.1016 / j.patrec.2004.08.005 . ISSN 0167-8655 .

[22] Yu, H .; Yang, J. (2001). "Un algoritmo LDA directo para datos de alta dimensión - con aplicación al reconocimiento facial". Reconocimiento de patrones . 34 (10): 2067–2069. CiteSeerX 10.1.1.70.3507 . doi : 10.1016 / s0031-3203 (00) 00162-x .

[Friedman:2001-23] Friedman, JH (1989). "Análisis discriminante regularizado" (PDF) . Revista de la Asociación Estadounidense de Estadística . 84 (405): 165-175. CiteSeerX 10.1.1.382.2682 . doi : 10.2307 / 2289860 . JSTOR 2289860 . Señor 0999675 .

[24] Ahdesmäki, M .; Strimmer, K. (2010). "Selección de características en problemas de predicción ómica utilizando puntuaciones de gato y control de tasa de falso descubrimiento". Annals of Applied Statistics . 4 (1): 503–519. arXiv : 0903.2003 . doi : 10.1214 / 09-aoas277 . S2CID 2508935 .

[25] Preisner, O; Guiomar, R; Machado, J; Menezes, JC; Lopes, JA (2010). "Aplicación de la quimiometría y espectroscopia infrarroja por transformada de Fourier para la diferenciación de tipos de fagos de Salmonella enterica serovar Enteritidis" . Appl Environ Microbiol . 76 (11): 3538–3544. doi : 10.1128 / aem.01589-09 . PMC 2876429 . PMID 20363777 .

[26] David, DE; Lynne, AM; Han, J; Foley, SL (2010). "Evaluación del perfil del factor de virulencia en la caracterización de aislados veterinarios de Escherichia coli" . Appl Environ Microbiol . 76 (22): 7509–7513. doi : 10.1128 / aem.00726-10 . PMC 2976202 . PMID 20889790 .

[27] Tahmasebi, P .; Hezarkhani, A .; Mortazavi, M. (2010). "Aplicación del análisis discriminante para la separación por alteración; depósito de cobre sungun, este de Azerbaiyán, Irán. Australiano" (PDF) . Revista de Ciencias Básicas y Aplicadas . 6 (4): 564–576.

[28] Trevor Hastie; Robert Tibshirani; Jerome Friedman. Los elementos del aprendizaje estadístico. Minería de datos, inferencia y predicción (segunda ed.). Saltador. pag. 128.

[29] Kainen PC (1997) Utilización de anomalías geométricas de alta dimensión: cuando la complejidad facilita el cálculo . En: Kárný M., Warwick K. (eds) Métodos intensivos por computadora en el control y procesamiento de señales: La maldición de la dimensionalidad, Springer, 1997, pp. 282-294.

[30] Donoho, D., Tanner, J. (2009) Observó la universalidad de las transiciones de fase en geometría de alta dimensión, con implicaciones para el análisis de datos moderno y el procesamiento de señales , Phil. Trans. R. Soc. A 367, 4273–4293.

[31] Gorban, Alexander N .; Golubkov, Alexander; Grechuck, Bogdan; Mirkes, Evgeny M .; Tyukin, Ivan Y. (2018). "Corrección de sistemas de IA por discriminantes lineales: fundamentos probabilísticos". Ciencias de la información . 466 : 303–322. arXiv : 1811.05321 . doi : 10.1016 / j.ins.2018.07.040 . S2CID 52876539 .

[32] Guédon, O., Milman, E. (2011) Interpolación de estimaciones de capa delgada y gran desviación aguda para medidas isotrópicas log-cóncavas , Geom. Funct. Anal. 21 (5), 1043-1068.

[GMT2019-33] Gorban, Alexander N .; Makarov, Valeri A .; Tyukin, Ivan Y. (julio de 2019). "La efectividad irrazonable de pequeños conjuntos neuronales en el cerebro de alta dimensión" . Reseñas de Física de la Vida . 29 : 55–88. arXiv : 1809.07656 . doi : 10.1016 / j.plrev.2018.09.005 . PMID 30366739 .

[1]

Control de autoridad
Bibliotecas nacionales	Estados Unidos
Otro	Microsoft académico 2