Suavizar spline

Los splines de suavizado son estimaciones de funciones, ${\ Displaystyle {\ hat {f}} (x)}$ , obtenido de un conjunto de observaciones ruidosas ${\ Displaystyle y_ {i}}$ del objetivo ${\ Displaystyle f (x_ {i})}$ , con el fin de equilibrar una medida de bondad de ajuste de ${\ Displaystyle {\ hat {f}} (x_ {i})}$ a ${\ Displaystyle y_ {i}}$ con una medida derivada de la suavidad de ${\ Displaystyle {\ hat {f}} (x)}$ . Proporcionan un medio para suavizar los ruidos ${\ Displaystyle x_ {i}, y_ {i}}$ datos. El ejemplo más familiar es el spline de suavizado cúbico, pero hay muchas otras posibilidades, incluido el caso en el que ${\ Displaystyle x}$ es una cantidad vectorial.

Definición de spline cúbico

Dejar ${\ Displaystyle \ {x_ {i}, Y_ {i}: i = 1, \ dots, n \}}$ ser un conjunto de observaciones, modelado por la relación ${\ Displaystyle Y_ {i} = f (x_ {i}) + \ epsilon _ {i}}$ donde el ${\ Displaystyle \ epsilon _ {i}}$ son variables aleatorias independientes de media cero (generalmente se supone que tienen varianza constante). La estimación de spline de suavizado cúbico ${\ Displaystyle {\ hat {f}}}$ de la función ${\ Displaystyle f}$ se define como el minimizador (sobre la clase de funciones dos veces diferenciables) de ^[1]^[2]

{\ Displaystyle \ sum _ {i = 1} ^ {n} \ {Y_ {i} - {\ hat {f}} (x_ {i}) \} ^ {2} + \ lambda \ int {\ hat { f}} '' (x) ^ {2} \, dx.}

Observaciones:

${\ Displaystyle \ lambda \ geq 0}$ es un parámetro de suavizado que controla la compensación entre la fidelidad a los datos y la aspereza de la estimación de la función. Esto a menudo se estima mediante validación cruzada generalizada, ^[3] o por probabilidad marginal restringida (REML) que explota el vínculo entre el suavizado de splines y la estimación bayesiana (la penalización de suavizado puede verse como inducida por un previo en el ${\ Displaystyle f}$ ). ^[4]
La integral a menudo se evalúa en toda la línea real, aunque también es posible restringir el rango al de ${\ Displaystyle x_ {i}}$ .
Como ${\ Displaystyle \ lambda \ to 0}$ (sin suavizado), la spline de suavizado converge con la spline de interpolación .
Como ${\ Displaystyle \ lambda \ to \ infty}$ (suavizado infinito), la penalización por rugosidad se vuelve primordial y la estimación converge a una estimación de mínimos cuadrados lineales .
La penalización por rugosidad basada en la segunda derivada es la más común en la literatura estadística moderna, aunque el método puede adaptarse fácilmente a penalizaciones basadas en otras derivadas.
En la literatura antigua, con ordenados igualmente espaciados ${\ Displaystyle x_ {i}}$ , se utilizaron diferencias de segundo o tercer orden en la penalización, en lugar de derivadas. ^[5]
El objetivo de suavizado de suma de cuadrados penalizado se puede reemplazar por un objetivo de probabilidad penalizado en el que la suma de términos de cuadrados se reemplaza por otra medida de fidelidad a los datos basada en la probabilidad logarítmica. ^[1] El término de suma de cuadrados corresponde a la probabilidad penalizada con una suposición gaussiana en el ${\ Displaystyle \ epsilon _ {i}}$ .

Derivación del spline de suavizado cúbico

Es útil pensar en ajustar una spline de suavizado en dos pasos:

Primero, deriva los valores ${\ Displaystyle {\ hat {f}} (x_ {i}); i = 1, \ ldots, n}$ .
De estos valores, derivan ${\ Displaystyle {\ hat {f}} (x)}$ para todo x .

Ahora, trate el segundo paso primero.

Dado el vector ${\ Displaystyle {\ hat {m}} = ({\ hat {f}} (x_ {1}), \ ldots, {\ hat {f}} (x_ {n})) ^ {T}}$ de valores ajustados, la parte de suma de cuadrados del criterio de spline es fija. Solo queda minimizar ${\ Displaystyle \ int {\ hat {f}} '' (x) ^ {2} \, dx}$ , y el minimizador es una spline cúbica natural que interpola los puntos ${\ Displaystyle (x_ {i}, {\ hat {f}} (x_ {i}))}$ . Esta spline de interpolación es un operador lineal y se puede escribir en la forma

{\ Displaystyle {\ hat {f}} (x) = \ sum _ {i = 1} ^ {n} {\ hat {f}} (x_ {i}) f_ {i} (x)}

dónde ${\ Displaystyle f_ {i} (x)}$ son un conjunto de funciones de base spline. Como resultado, la penalización por rugosidad tiene la forma

{\ Displaystyle \ int {\ hat {f}} '' (x) ^ {2} dx = {\ hat {m}} ^ {T} A {\ hat {m}}.}

donde los elementos de A son ${\ Displaystyle \ int f_ {i} '' (x) f_ {j} '' (x) dx}$ . Las funciones base, y por tanto la matriz A , dependen de la configuración de las variables predictoras ${\ Displaystyle x_ {i}}$ , pero no en las respuestas ${\ Displaystyle Y_ {i}}$ o ${\ Displaystyle {\ hat {m}}}$ .

A es una matriz n × n dada por ${\ Displaystyle A = \ Delta ^ {T} W ^ {- 1} \ Delta}$ .

Δ es una matriz (n-2) × n de segundas diferencias con elementos:

${\ Displaystyle \ Delta _ {ii} = 1 / h_ {i}}$ , ${\ Displaystyle \ Delta _ {i, i + 1} = - 1 / h_ {i} -1 / h_ {i + 1}}$ , ${\ Displaystyle \ Delta _ {i, i + 2} = 1 / h_ {i + 1}}$

W es una matriz tri-diagonal simétrica (n-2) × (n-2) con elementos:

${\ Displaystyle W_ {i-1, i} = W_ {i, i-1} = h_ {i} / 6}$ , ${\ Displaystyle W_ {ii} = (h_ {i} + h_ {i + 1}) / 3}$ y ${\ Displaystyle h_ {i} = \ xi _ {i + 1} - \ xi _ {i}}$ , las distancias entre nudos sucesivos (ox valores).

Ahora volvamos al primer paso. La suma de cuadrados penalizada se puede escribir como

{\ Displaystyle \ {Y - {\ hat {m}} \} ^ {T} \ {Y - {\ hat {m}} \} + \ lambda {\ hat {m}} ^ {T} A {\ sombrero {m}},}

dónde ${\ Displaystyle Y = (Y_ {1}, \ ldots, Y_ {n}) ^ {T}}$ .

Minimizando sobre ${\ Displaystyle {\ hat {m}}}$ diferenciando contra ${\ Displaystyle {\ hat {m}}}$ . Esto resulta en: ${\ Displaystyle -2 \ {Y - {\ hat {m}} \} + 2 \ lambda A {\ hat {m}} = 0}$ ^[6] y ${\ Displaystyle {\ hat {m}} = (I + \ lambda A) ^ {- 1} Y.}$

El enfoque de De Boor

El enfoque de De Boor explota la misma idea, de encontrar un equilibrio entre tener una curva suave y estar cerca de los datos dados. ^[7]

${\ Displaystyle p \ sum _ {i = 1} ^ {n} \ left ({\ frac {Y_ {i} - {\ hat {f}} \ left (x_ {i} \ right)} {\ delta _ {i}}} \ right) ^ {2} + \ left (1-p \ right) \ int \ left ({\ hat {f}} ^ {\ left (m \ right)} \ left (x \ right ) \ right) ^ {2} \, dx}$

dónde ${\ Displaystyle p}$ es un parámetro llamado factor suave y pertenece al intervalo ${\ Displaystyle [0,1]}$ , y ${\ Displaystyle \ delta _ {i}; i = 1, \ dots, n}$ son las cantidades que controlan el grado de suavizado (representan el peso ${\ Displaystyle \ delta _ {i} ^ {- 2}}$ de cada punto ${\ Displaystyle Y_ {i}}$ ). En la práctica, dado que se utilizan principalmente splines cúbicos , ${\ Displaystyle m}$ es usualmente ${\ Displaystyle 2}$ . La solucion para ${\ Displaystyle m = 2}$ fue propuesto por Reinsch en 1967. ^[8] Para ${\ Displaystyle m = 2}$ , Cuándo ${\ Displaystyle p}$ enfoques ${\ Displaystyle 1}$ , ${\ Displaystyle {\ hat {f}}}$ converge al interpolante spline "natural" de los datos dados. ^[7] Como ${\ Displaystyle p}$ enfoques ${\ Displaystyle 0}$ , ${\ Displaystyle {\ hat {f}}}$ converge en una línea recta (la curva más suave). Dado que encontrar un valor adecuado de ${\ Displaystyle p}$ es una tarea de prueba y error, una constante redundante ${\ Displaystyle S}$ fue introducido por conveniencia. ^[8] ${\ Displaystyle S}$ se utiliza para determinar numéricamente el valor de ${\ Displaystyle p}$ para que la función ${\ Displaystyle {\ hat {f}}}$ cumple la siguiente condición:

${\ Displaystyle \ sum _ {i = 1} ^ {n} \ left ({\ frac {Y_ {i} - {\ hat {f}} \ left (x_ {i} \ right)} {\ delta _ { i}}} \ right) ^ {2} \ leq S}$

El algoritmo descrito por de Boor comienza con ${\ Displaystyle p = 0}$ y aumenta ${\ Displaystyle p}$ hasta que se cumpla la condición. ^[7] Si ${\ Displaystyle \ delta _ {i}}$ es una estimación de la desviación estándar para ${\ Displaystyle Y_ {i}}$ , el constante ${\ Displaystyle S}$ se recomienda elegir en el intervalo ${\ Displaystyle \ left [n - {\ sqrt {2n}}, n + {\ sqrt {2n}} \ right]}$ . Teniendo ${\ Displaystyle S = 0}$ significa que la solución es el interpolante spline "natural". ^[8] Incrementando ${\ Displaystyle S}$ significa que obtenemos una curva más suave alejándonos de los datos dados.

Splines multidimensionales

Hay dos clases principales de métodos para generalizar a partir del suavizado con respecto a un escalar. ${\ Displaystyle x}$ al suavizado con respecto a un vector ${\ Displaystyle x}$ . El primer enfoque simplemente generaliza la penalización por suavizado de splines al entorno multidimensional. Por ejemplo, si intenta estimar ${\ Displaystyle f (x, z)}$ podríamos usar la penalización de spline de placa delgada y encontrar el ${\ Displaystyle {\ hat {f}} (x, z)}$ minimizando

{\ Displaystyle \ sum _ {i = 1} ^ {n} \ {y_ {i} -f (x_ {i}, z_ {i}) \} ^ {2} + \ lambda \ int \ left [\ left ({\ frac {\ parcial ^ {2} f} {\ parcial x ^ {2}}} \ derecha) ^ {2} +2 \ izquierda ({\ frac {\ parcial ^ {2} f} {\ parcial x \ parcial z}} \ derecha) ^ {2} + \ izquierda ({\ frac {\ parcial ^ {2} f} {\ parcial z ^ {2}}} \ derecha) ^ {2} \ derecha] { \ textrm {d}} x \, {\ textrm {d}} z.}

El enfoque de la ranura de placa delgada se puede generalizar al suavizado con respecto a más de dos dimensiones y a otros órdenes de diferenciación en la penalización. ^[1] A medida que aumenta la dimensión, existen algunas restricciones sobre el orden más pequeño de diferencial que se puede usar, ^[1] pero en realidad el artículo original de Duchon, ^[9] da penalizaciones un poco más complicadas que pueden evitar esta restricción.

Las estrías de la placa delgada son isotrópicas, lo que significa que si giramos la ${\ Displaystyle x, z}$ sistema de coordenadas, la estimación no cambiará, pero también asumimos que el mismo nivel de suavizado es apropiado en todas las direcciones. Esto a menudo se considera razonable cuando se suaviza con respecto a la ubicación espacial, pero en muchos otros casos la isotropía no es una suposición apropiada y puede conducir a la sensibilidad a elecciones aparentemente arbitrarias de unidades de medida. Por ejemplo, si suaviza con respecto a la distancia y el tiempo un suavizante isotrópico dará resultados diferentes si la distancia se mide en metros y el tiempo en segundos, a lo que ocurrirá si cambiamos las unidades a centímetros y horas.

La segunda clase de generalizaciones para el suavizado multidimensional se ocupa directamente de este problema de invariancia de escala utilizando construcciones de splines de producto tensorial. ^[10]^[11]^[12] Tales splines tienen penalizaciones de suavizado con múltiples parámetros de suavizado, que es el precio que se debe pagar por no asumir que el mismo grado de suavidad es apropiado en todas las direcciones.

Métodos relacionados

El suavizado de splines está relacionado con, pero es distinto de:

Splines de regresión. En este método, los datos se ajustan a un conjunto de funciones de base spline con un conjunto reducido de nudos, típicamente por mínimos cuadrados. No se aplica ninguna penalización por rugosidad. (Consulte también splines de regresión adaptativa multivariante ).
Splines penalizados. Esto combina los nudos reducidos de las splines de regresión, con la penalización por rugosidad de suavizar las splines. ^[13]^[14]
Método de mapas elásticos para el aprendizaje múltiple . Este método combina la penalización por mínimos cuadrados por error de aproximación con la penalización por flexión y estiramiento del colector de aproximación y utiliza la discretización burda del problema de optimización; ver estrías de placa delgada .

Código fuente

El código fuente para el suavizado de splines se puede encontrar en los ejemplos del libro de Carl de Boor A Practical Guide to Splines . Los ejemplos están en el lenguaje de programación Fortran . Las fuentes actualizadas también están disponibles en el sitio oficial de Carl de Boor [1] .

Referencias

^ ^a ^b ^c ^d Verde, PJ; Silverman, BW (1994). Regresión no paramétrica y modelos lineales generalizados: un enfoque de penalización por rugosidad . Chapman y Hall.
^ Hastie, TJ; Tibshirani, RJ (1990). Modelos aditivos generalizados . Chapman y Hall. ISBN 978-0-412-34390-2.
^ Craven, P .; Wahba, G. (1979). "Suavizado de datos ruidosos con funciones spline". Numerische Mathematik . 31 (4): 377–403. doi : 10.1007 / bf01404567 .
^ Kimeldorf, GS; Wahba, G. (1970). "Una correspondencia entre la estimación bayesiana de procesos estocásticos y suavizado por splines" . Los Anales de Estadística Matemática . 41 (2): 495–502. doi : 10.1214 / aoms / 1177697089 .
^ Whittaker, ET (1922). "Sobre un nuevo método de graduación". Actas de la Sociedad Matemática de Edimburgo . 41 : 63–75.
^ Rodríguez, alemán (primavera de 2001). "Regresión de suavizado y no paramétrico" (PDF) . 2.3.1 Computación. pag. 12 . Consultado el 28 de agosto de 2017 .Mantenimiento de CS1: ubicación ( enlace )
^ a b c De Boor, C. (2001). Una guía práctica de splines (edición revisada) . Saltador. págs. 207–214. ISBN 978-0-387-90356-9.
^ a b c Reinsch, Christian H. (1967). "Suavizado por funciones de spline". Numerische Mathematik . 10 (3): 177–183. doi : 10.1007 / BF02162161 .
^ J. Duchon, 1976, Splines que minimizan las semi-normas invariantes de rotación en espacios de Sobolev. pp 85-100, en: Teoría constructiva de funciones de varias variables, Oberwolfach 1976, W. Schempp y K. Zeller , eds., Lecture Notes in Math., vol. 571, Springer, Berlín, 1977
^ Wahba, Grace. Modelos de spline para datos de observación . SIAM.
^ Gu, Chong (2013). Suavizar modelos de ANOVA de spline (2ª ed.) . Saltador.
^ Madera, SN (2017). Modelos aditivos generalizados: una introducción con R (2ª ed) . Chapman y Hall / CRC. ISBN 978-1-58488-474-3.
^ Eilers, PHC y Marx B. (1996). "Suavizado flexible con B-splines y penalizaciones". Ciencia estadística . 11 (2): 89-121.
^ Ruppert, David; Varita, MP; Carroll, RJ (2003). Regresión semiparamétrica . Prensa de la Universidad de Cambridge. ISBN 978-0-521-78050-6.

Otras lecturas

Wahba, G. (1990). Modelos de spline para datos de observación . SIAM, Filadelfia.
Green, PJ y Silverman, BW (1994). Regresión no paramétrica y modelos lineales generalizados . Prensa CRC.
De Boor, C. (2001). Una guía práctica de splines (edición revisada) . Saltador.

[GS-1] Verde, PJ; Silverman, BW (1994). Regresión no paramétrica y modelos lineales generalizados: un enfoque de penalización por rugosidad . Chapman y Hall.

[2] Hastie, TJ; Tibshirani, RJ (1990). Modelos aditivos generalizados . Chapman y Hall. ISBN 978-0-412-34390-2.

[3] Craven, P .; Wahba, G. (1979). "Suavizado de datos ruidosos con funciones spline". Numerische Mathematik . 31 (4): 377–403. doi : 10.1007 / bf01404567 .

[4] Kimeldorf, GS; Wahba, G. (1970). "Una correspondencia entre la estimación bayesiana de procesos estocásticos y suavizado por splines" . Los Anales de Estadística Matemática . 41 (2): 495–502. doi : 10.1214 / aoms / 1177697089 .

[5] Whittaker, ET (1922). "Sobre un nuevo método de graduación". Actas de la Sociedad Matemática de Edimburgo . 41 : 63–75.

[Rodriguez-6] Rodríguez, alemán (primavera de 2001). "Regresión de suavizado y no paramétrico" (PDF) . 2.3.1 Computación. pag. 12 . Consultado el 28 de agosto de 2017 .Mantenimiento de CS1: ubicación ( enlace )

[DeBoor2001-7] De Boor, C. (2001). Una guía práctica de splines (edición revisada) . Saltador. págs. 207–214. ISBN 978-0-387-90356-9.

[Reinsch1967-8] Reinsch, Christian H. (1967). "Suavizado por funciones de spline". Numerische Mathematik . 10 (3): 177–183. doi : 10.1007 / BF02162161 .

[9] J. Duchon, 1976, Splines que minimizan las semi-normas invariantes de rotación en espacios de Sobolev. pp 85-100, en: Teoría constructiva de funciones de varias variables, Oberwolfach 1976, W. Schempp y K. Zeller , eds., Lecture Notes in Math., vol. 571, Springer, Berlín, 1977

[Wahba1990-10] Wahba, Grace. Modelos de spline para datos de observación . SIAM.

[Gu2013-11] Gu, Chong (2013). Suavizar modelos de ANOVA de spline (2ª ed.) . Saltador.

[Wood2017-12] Madera, SN (2017). Modelos aditivos generalizados: una introducción con R (2ª ed) . Chapman y Hall / CRC. ISBN 978-1-58488-474-3.

[EilersMarx1996-13] Eilers, PHC y Marx B. (1996). "Suavizado flexible con B-splines y penalizaciones". Ciencia estadística . 11 (2): 89-121.

[14] Ruppert, David; Varita, MP; Carroll, RJ (2003). Regresión semiparamétrica . Prensa de la Universidad de Cambridge. ISBN 978-0-521-78050-6.

[1]