Función de predicción lineal

En estadística y en aprendizaje automático , una función de predicción lineal es una función lineal ( combinación lineal ) de un conjunto de coeficientes y variables explicativas ( variables independientes ), cuyo valor se utiliza para predecir el resultado de una variable dependiente . ^[1] Este tipo de función generalmente viene en regresión lineal , donde los coeficientes se denominan coeficientes de regresión . Sin embargo, también ocurren en varios tipos de clasificadores lineales (por ejemplo , regresión logística , ^[2] perceptrones , ^[3] soportan máquinas vectoriales , ^[4] y análisis discriminante lineal ^[5] ), así como en varios otros modelos, como el análisis de componentes principales ^[6] y el análisis factorial . En muchos de estos modelos, los coeficientes se denominan "ponderaciones".

Definición

La forma básica de una función de predicción lineal ${\ Displaystyle f (i)}$ para el punto de datos i (que consta de p variables explicativas ), para i = 1, ..., n , es

{\ Displaystyle f (i) = \ beta _ {0} + \ beta _ {1} x_ {i1} + \ cdots + \ beta _ {p} x_ {ip},}

dónde ${\ Displaystyle x_ {ik}}$ , para k = 1, ..., p , es el valor de la k -ésima variable explicativa para el punto de datos i , y ${\ Displaystyle \ beta _ {0}, \ ldots, \ beta _ {p}}$ son los coeficientes ( coeficientes de regresión, ponderaciones, etc.) que indican el efecto relativo de una variable explicativa particular sobre el resultado .

Notaciones

Es común escribir la función de predicción en una forma más compacta de la siguiente manera:

Los coeficientes β ₀ , β ₁ , ..., β _p se agrupan en un solo vector β de tamaño p + 1.
Para cada punto de datos i , se agrega una pseudovariable explicativa adicional x _{i 0} , con un valor fijo de 1, correspondiente al coeficiente de intersección β ₀ .
Las variables explicativas resultantes x _i0 (= 1), x _{i 1} , ..., x _ip se agrupan en un solo vector x _i de tamaño p + 1.

Notación vectorial

Esto hace posible escribir la función de predicción lineal de la siguiente manera:

{\ Displaystyle f (i) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {x} _ {i}}

usando la notación para un producto escalar entre dos vectores.

Notación matricial

Una forma equivalente que utiliza la notación matricial es la siguiente:

{\ Displaystyle f (i) = {\ boldsymbol {\ beta}} ^ {\ mathrm {T}} \ mathbf {x} _ {i} = \ mathbf {x} _ {i} ^ {\ mathrm {T} } {\ boldsymbol {\ beta}}}

dónde ${\ displaystyle {\ boldsymbol {\ beta}}}$ y ${\ Displaystyle \ mathbf {x} _ {i}}$ se supone que son vectores de columna (p + 1) -por-1 , ${\ displaystyle {\ boldsymbol {\ beta}} ^ {\ mathrm {T}}}$ es la matriz de transposición de ${\ displaystyle {\ boldsymbol {\ beta}}}$ (entonces ${\ displaystyle {\ boldsymbol {\ beta}} ^ {\ mathrm {T}}}$ es un vector de fila de 1 por (p + 1) ), y ${\ Displaystyle {\ boldsymbol {\ beta}} ^ {\ mathrm {T}} \ mathbf {x} _ {i}}$ indica la multiplicación de matrices entre el vector de fila 1 por (p + 1) y el vector de columna (p + 1) por 1, lo que produce una matriz de 1 por 1 que se toma como escalar .

Regresión lineal

Un ejemplo del uso de una función de predicción lineal es la regresión lineal , donde cada punto de datos está asociado con un resultado continuo y _i , y la relación se escribe

{\ Displaystyle y_ {i} = f (i) + \ varepsilon _ {i} = {\ boldsymbol {\ beta}} ^ {\ mathrm {T}} \ mathbf {x} _ {i} \ + \ varepsilon _ {I},}

dónde ${\ Displaystyle \ varepsilon _ {i}}$ es un término de perturbación o variable de error : una variable aleatoria no observada que agrega ruido a la relación lineal entre la variable dependiente y la función de predicción.

Apilado

En algunos modelos (regresión lineal estándar, en particular), las ecuaciones para cada uno de los puntos de datos i = 1, ..., n se apilan juntas y se escriben en forma vectorial como

{\ Displaystyle \ mathbf {y} = \ mathbf {X} {\ boldsymbol {\ beta}} + {\ boldsymbol {\ varepsilon}}, \,}

dónde

{\ Displaystyle \ mathbf {y} = {\ begin {pmatrix} y_ {1} \\ y_ {2} \\\ vdots \\ y_ {n} \ end {pmatrix}}, \ quad \ mathbf {X} = {\ begin {pmatrix} \ mathbf {x} '_ {1} \\\ mathbf {x}' _ {2} \\\ vdots \\\ mathbf {x} '_ {n} \ end {pmatrix}} = {\ begin {pmatrix} x_ {11} & \ cdots & x_ {1p} \\ x_ {21} & \ cdots & x_ {2p} \\\ vdots & \ ddots & \ vdots \\ x_ {n1} & \ cdots & x_ {np} \ end {pmatrix}}, \ quad {\ boldsymbol {\ beta}} = {\ begin {pmatrix} \ beta _ {1} \\\ vdots \\\ beta _ {p} \ end {pmatrix }}, \ quad {\ boldsymbol {\ varepsilon}} = {\ begin {pmatrix} \ varepsilon _ {1} \\\ varepsilon _ {2} \\\ vdots \\\ varepsilon _ {n} \ end {pmatrix }}.}

La matriz X se conoce como matriz de diseño y codifica toda la información conocida sobre las variables independientes . Las variables ${\ Displaystyle \ varepsilon _ {i}}$ son variables aleatorias , que en la regresión lineal estándar se distribuyen de acuerdo con una distribución normal estándar ; expresan la influencia de cualquier factor desconocido en el resultado.

Esto hace posible encontrar coeficientes óptimos mediante el método de mínimos cuadrados utilizando operaciones matriciales simples. En particular, los coeficientes óptimos ${\ displaystyle {\ boldsymbol {\ hat {\ beta}}}}$ como se estima por mínimos cuadrados se puede escribir de la siguiente manera:

{\ displaystyle {\ boldsymbol {\ hat {\ beta}}} = (X ^ {\ mathrm {T}} X) ^ {- 1} X ^ {\ mathrm {T}} \ mathbf {y}.}

La matriz ${\ displaystyle (X ^ {\ mathrm {T}} X) ^ {- 1} X ^ {\ mathrm {T}}}$ se conoce como el pseudoinverso de X de Moore-Penrose . El uso de la matriz inversa en esta fórmula requiere que X sea de rango completo , es decir, no hay una multicolinealidad perfecta entre las diferentes variables explicativas (es decir, ninguna variable explicativa puede predecirse perfectamente a partir de las demás). En tales casos, la descomposición del valor singular se puede utilizar para calcular el pseudoinverso.

Las variables explicativas

Aunque se supone que los resultados (variables dependientes) que se van a predecir son variables aleatorias , las variables explicativas en sí mismas generalmente no se supone que sean aleatorias ^{[ cita requerida ]} . En cambio, se asume que son valores fijos, y se asume que cualquier variable aleatoria (por ejemplo, los resultados) está condicionada a ellos ^{[ cita requerida ]} . Como resultado, el analista de datos es libre de transformar las variables explicativas de formas arbitrarias, incluida la creación de múltiples copias de una variable explicativa determinada, cada una transformada con una función diferente. Otras técnicas comunes son crear nuevas variables explicativas en forma de variables de interacción tomando productos de dos (oa veces más) variables explicativas existentes.

Cuando se utiliza un conjunto fijo de funciones no lineales para transformar los valores de un punto de datos, estas funciones se conocen como funciones de base . Un ejemplo es la regresión polinomial , que utiliza una función de predicción lineal para ajustar una relación polinomial de grado arbitrario (hasta un orden determinado) entre dos conjuntos de puntos de datos (es decir, una única variable explicativa de valor real y una variable dependiente de valor real relacionada) , agregando múltiples variables explicativas correspondientes a varias potencias de la variable explicativa existente. Matemáticamente, la forma se ve así:

{\ Displaystyle y_ {i} = \ beta _ {0} + \ beta _ {1} x_ {i} + \ beta _ {2} x_ {i} ^ {2} + \ cdots + \ beta _ {p} x_ {i} ^ {p}.}

En este caso, para cada punto de datos i , se crea un conjunto de variables explicativas de la siguiente manera:

{\ Displaystyle (x_ {i1} = x_ {i}, \ quad x_ {i2} = x_ {i} ^ {2}, \ quad \ ldots, \ quad x_ {ip} = x_ {i} ^ {p}) )}

y luego se ejecuta la regresión lineal estándar . Las funciones base en este ejemplo serían

{\ Displaystyle {\ boldsymbol {\ phi}} (x) = (\ phi _ {1} (x), \ phi _ {2} (x), \ ldots, \ phi _ {p} (x)) = (x, x ^ {2}, \ ldots, x ^ {p}).}

Este ejemplo muestra que una función de predicción lineal en realidad puede ser mucho más poderosa de lo que parece: solo necesita ser lineal en los coeficientes . El modelo puede ajustar todo tipo de funciones no lineales de las variables explicativas.

No hay una necesidad particular de que las entradas a las funciones base sean univariadas o unidimensionales (o sus salidas, para el caso, aunque en tal caso, es probable que un valor de salida K -dimensional se trate como K salida escalar separada funciones de base). Un ejemplo de esto son las funciones de base radial (RBF), que calculan alguna versión transformada de la distancia a algún punto fijo:

{\ Displaystyle \ phi (\ mathbf {x}; \ mathbf {c}) = \ phi (|| \ mathbf {x} - \ mathbf {c} ||) = \ phi ({\ sqrt {(x_ {1 } -c_ {1}) ^ {2} + \ ldots + (x_ {K} -c_ {K}) ^ {2}}})}

Un ejemplo es el RBF gaussiano , que tiene la misma forma funcional que la distribución normal :

{\ Displaystyle \ phi (\ mathbf {x}; \ mathbf {c}) = e ^ {- b || \ mathbf {x} - \ mathbf {c} || ^ {2}}}

que cae rápidamente a medida que aumenta la distancia de c .

Un posible uso de los RBF es crear uno para cada punto de datos observado. Esto significa que el resultado de un RBF aplicado a un nuevo punto de datos será cercano a 0 a menos que el nuevo punto esté cerca del punto alrededor del cual se aplicó el RBF. Es decir, la aplicación de las funciones de base radial seleccionará el punto más cercano y dominará su coeficiente de regresión. El resultado será una forma de interpolación del vecino más cercano , donde las predicciones se hacen simplemente usando la predicción del punto de datos observado más cercano, posiblemente interpolando entre múltiples puntos de datos cercanos cuando todos están a distancias similares. Este tipo de método de predicción del vecino más cercano a menudo se considera diametralmente opuesto al tipo de predicción utilizado en la regresión lineal estándar: pero, de hecho, las transformaciones que se pueden aplicar a las variables explicativas en una función de predicción lineal son tan poderosas que incluso las más cercanas El método vecino se puede implementar como un tipo de regresión lineal.

Incluso es posible ajustar algunas funciones que parecen no lineales en los coeficientes transformando los coeficientes en nuevos coeficientes que sí parecen lineales. Por ejemplo, una función de la forma ${\ Displaystyle a + b ^ {2} x_ {i1} + {\ sqrt {c}} x_ {i2}}$ para coeficientes ${\ Displaystyle a, b, c}$ podría transformarse en la función lineal apropiada aplicando las sustituciones ${\ Displaystyle b '= b ^ {2}, c' = {\ sqrt {c}},}$ llevando a ${\ Displaystyle a + b'x_ {i1} + c'x_ {i2},}$ que es lineal. La regresión lineal y técnicas similares podrían aplicarse y, a menudo, aún encontrarán los coeficientes óptimos, pero sus estimaciones de error y demás serán incorrectas.

Las variables explicativas pueden ser de cualquier tipo : valores reales , binarias , categóricas , etc. La principal distinción es entre variables continuas (por ejemplo, ingresos, edad, presión arterial , etc.) y variables discretas (por ejemplo, sexo, raza, partido político , etc.) . etc.). Las variables discretas que se refieren a más de dos opciones posibles se codifican normalmente utilizando variables ficticias (o variables indicadoras ), es decir, se crean variables explicativas separadas que toman el valor 0 o 1 para cada valor posible de la variable discreta, con un 1 que significa "variable tiene el valor dado "y un 0 que significa" variable no tiene el valor dado ". Por ejemplo, una variable discreta de cuatro vías de tipo sanguíneo con los posibles valores "A, B, AB, O" se convertiría en variables ficticias bidireccionales separadas, "is-A, is-B, is-AB, is -O ", donde sólo uno de ellos tiene el valor 1 y todos los demás tienen el valor 0. Esto permite hacer coincidir coeficientes de regresión separados para cada valor posible de la variable discreta.

Tenga en cuenta que, para K categorías, no todas las K variables ficticias son independientes entre sí. Por ejemplo, en el ejemplo de tipo de sangre anterior, solo tres de las cuatro variables ficticias son independientes, en el sentido de que una vez que se conocen los valores de tres de las variables, la cuarta se determina automáticamente. Por lo tanto, solo es necesario codificar tres de las cuatro posibilidades como variables ficticias y, de hecho, si se codifican las cuatro posibilidades, el modelo general se vuelve no identificable . Esto causa problemas para varios métodos, como la solución simple de forma cerrada utilizada en la regresión lineal. La solución es evitar tales casos eliminando una de las variables ficticias y / o introducir una restricción de regularización (que requiere un método más poderoso, típicamente iterativo, para encontrar los coeficientes óptimos).

Ver también

Modelo lineal
Regresión lineal

Referencias

^ Majul, J. (1975). "Predicción lineal: una revisión tutorial". Actas del IEEE . 63 (4): 561–580. Código Bibliográfico : 1975IEEEP..63..561M . doi : 10.1109 / PROC.1975.9792 . ISSN 0018-9219 .
^ David A. Freedman (2009). Modelos estadísticos: teoría y práctica . Prensa de la Universidad de Cambridge . pag. 26 . Una ecuación de regresión simple tiene en el lado derecho una intersección y una variable explicativa con un coeficiente de pendiente. Una ecuación de regresión múltiple tiene dos o más variables explicativas en el lado derecho, cada una con su propio coeficiente de pendiente.
↑ Rosenblatt, Frank (1957), The Perceptron: un autómata que percibe y reconoce. Informe 85-460-1, Laboratorio Aeronáutico de Cornell.
^ Cortés, Corinna ; Vapnik, Vladimir N. (1995). "Redes de vectores de soporte" (PDF) . Aprendizaje automático . 20 (3): 273-297. CiteSeerX 10.1.1.15.9362 . doi : 10.1007 / BF00994018 .
^ McLachlan, GJ (2004). Análisis discriminante y reconocimiento estadístico de patrones . Wiley Interscience. ISBN 978-0-471-69115-0. Señor 1190469 .
^ Análisis de componentes principales de TI de Jolliffe, serie: Springer Series in Statistics, 2ª ed., Springer, NY, 2002, XXIX, 487 p. 28 ilus. ISBN 978-0-387-95442-4

[1] Majul, J. (1975). "Predicción lineal: una revisión tutorial". Actas del IEEE . 63 (4): 561–580. Código Bibliográfico : 1975IEEEP..63..561M . doi : 10.1109 / PROC.1975.9792 . ISSN 0018-9219 .

[Freedman09-2] David A. Freedman (2009). Modelos estadísticos: teoría y práctica . Prensa de la Universidad de Cambridge . pag. 26 . Una ecuación de regresión simple tiene en el lado derecho una intersección y una variable explicativa con un coeficiente de pendiente. Una ecuación de regresión múltiple tiene dos o más variables explicativas en el lado derecho, cada una con su propio coeficiente de pendiente.

[3] Rosenblatt, Frank (1957), The Perceptron: un autómata que percibe y reconoce. Informe 85-460-1, Laboratorio Aeronáutico de Cornell.

[CorinnaCortes-4] Cortés, Corinna ; Vapnik, Vladimir N. (1995). "Redes de vectores de soporte" (PDF) . Aprendizaje automático . 20 (3): 273-297. CiteSeerX 10.1.1.15.9362 . doi : 10.1007 / BF00994018 .

[McLachlan:2004-5] McLachlan, GJ (2004). Análisis discriminante y reconocimiento estadístico de patrones . Wiley Interscience. ISBN 978-0-471-69115-0. Señor 1190469 .

[Principal_Component_Analysis-6] Análisis de componentes principales de TI de Jolliffe, serie: Springer Series in Statistics, 2ª ed., Springer, NY, 2002, XXIX, 487 p. 28 ilus. ISBN 978-0-387-95442-4

[1]