Regresión logística


En estadística , el modelo logístico (o modelo logit ) se utiliza para modelar la probabilidad de que exista una determinada clase o evento, como pasa / no pasa, gana / pierde, vivo / muerto o sano / enfermo. Esto se puede ampliar para modelar varias clases de eventos, como determinar si una imagen contiene un gato, un perro, un león, etc. A cada objeto que se detecte en la imagen se le asignará una probabilidad entre 0 y 1, con una suma de uno.

La regresión logística es un modelo estadístico que en su forma básica utiliza una función logística para modelar una variable dependiente binaria , aunque existen muchas extensiones más complejas . En el análisis de regresión , la regresión logística [1] (o regresión logit ) es la estimación de los parámetros de un modelo logístico (una forma de regresión binaria ). Matemáticamente, un modelo logístico binario tiene una variable dependiente con dos valores posibles, como pasa / no pasa, que está representado por una variable indicadora , donde los dos valores están etiquetados como "0" y "1". En el modelo logístico, ellog-odds (el logaritmo de las probabilidades ) para el valor etiquetado "1" es una combinación lineal de una o más variables independientes ("predictores"); cada una de las variables independientes puede ser una variable binaria (dos clases, codificadas por una variable indicadora) o una variable continua (cualquier valor real). La probabilidad correspondiente del valor etiquetado "1" puede variar entre 0 (ciertamente el valor "0") y 1 (ciertamente el valor "1"), de ahí el etiquetado; la función que convierte log-odds en probabilidad es la función logística, de ahí el nombre. La unidad de medida para la escala logarítmica de probabilidades se llama logit ,del registroistic un it , de ahí los nombres alternativos. También se pueden utilizar modelos análogos con una función sigmoidea diferente en lugar de la función logística, como el modelo probit ; la característica definitoria del modelo logístico es que el aumento de una de las variables independientes escala multiplicativamente las probabilidades del resultado dado a una tasa constante , y cada variable independiente tiene su propio parámetro; para una variable dependiente binaria, esto generaliza la razón de posibilidades .

En un modelo de regresión logística binaria, la variable dependiente tiene dos niveles ( categórica ). Los resultados con más de dos valores se modelan mediante regresión logística multinomial y, si las categorías múltiples están ordenadas , mediante regresión logística ordinal (por ejemplo, el modelo logístico ordinal de probabilidades proporcionales [2] ). El modelo de regresión logística en sí mismo simplemente modela la probabilidad de salida en términos de entrada y no realiza una clasificación estadística.(no es un clasificador), aunque puede usarse para hacer un clasificador, por ejemplo, eligiendo un valor de corte y clasificando las entradas con probabilidad mayor que el límite como una clase, por debajo del límite como la otra; esta es una forma común de hacer un clasificador binario . Los coeficientes generalmente no se calculan mediante una expresión de forma cerrada, a diferencia de los mínimos cuadrados lineales ; ver § Montaje del modelo . La regresión logística como modelo estadístico general fue originalmente desarrollada y popularizada principalmente por Joseph Berkson , [3] comenzando en Berkson (1944) , donde acuñó "logit"; ver § Historia .


Gráfico de una curva de regresión logística que muestra la probabilidad de aprobar un examen frente a las horas de estudio
Figura 1. La función logística estándar ; tenga en cuenta eso para todos .
Comparación de la función logística con una función probit inversa escalada (es decir, la CDF de la distribución normal ), comparando vs. , lo que hace que las pendientes sean las mismas en el origen. Esto muestra las colas más pesadas de la distribución logística.