matriz Hessiana

En matemáticas , la matriz hessiana o hessiana es una matriz cuadrada de derivadas parciales de segundo orden de una función escalar o campo escalar . Describe la curvatura local de una función de muchas variables. La matriz de Hesse fue desarrollada en el siglo XIX por el matemático alemán Ludwig Otto Hesse y más tarde recibió su nombre. Hesse utilizó originalmente el término "determinantes funcionales".

Definiciones y propiedades

Suponga que $f : ℝ n \to ℝ$ es una función que toma como entrada un vector $x \in ℝ ny$ genera un escalar $f (x) \in ℝ$ . Si todas las segundas derivadas parciales de $f$ existen y son continuas en el dominio de la función, entonces la matriz hessiana $H$ de $f$ es una matriz cuadrada $n \times n$ , generalmente definida y organizada de la siguiente manera:

{\ Displaystyle \ mathbf {H} _ {f} = {\ begin {bmatrix} {\ dfrac {\ partial ^ {2} f} {\ partial x_ {1} ^ {2}}} & {\ dfrac {\ Parcial ^ {2} f} {\ Parcial x_ {1} \, \ Parcial x_ {2}}} & \ cdots & {\ dfrac {\ Parcial ^ {2} f} {\ Parcial x_ {1} \, \ Parcial x_ {n}}} \\ [2.2ex] {\ dfrac {\ Parcial ^ {2} f} {\ Parcial x_ {2} \, \ Parcial x_ {1}}} & {\ dfrac {\ Parcial ^ {2} f} {\ parcial x_ {2} ^ {2}}} & \ cdots & {\ dfrac {\ parcial ^ {2} f} {\ parcial x_ {2} \, \ parcial x_ {n}} } \\ [2.2ex] \ vdots & \ vdots & \ ddots & \ vdots \\ [2.2ex] {\ dfrac {\ parcial ^ {2} f} {\ parcial x_ {n} \, \ parcial x_ {1 }}} & {\ dfrac {\ parcial ^ {2} f} {\ parcial x_ {n} \, \ parcial x_ {2}}} & \ cdots & {\ dfrac {\ parcial ^ {2} f} { \ parcial x_ {n} ^ {2}}} \ end {bmatrix}},}

o, estableciendo una ecuación para los coeficientes usando índices i y j,

{\ Displaystyle (\ mathbf {H} _ {f}) _ {i, j} = {\ frac {\ parcial ^ {2} f} {\ parcial x_ {i} \, \ parcial x_ {j}}} .}

La matriz de Hesse es una matriz simétrica , ya que la hipótesis de continuidad de las segundas derivadas implica que el orden de diferenciación no importa ( teorema de Schwarz ).

El determinante de la matriz de Hesse se llama determinante de Hesse . ^[1]

La matriz hessiana de una función $f$ es la matriz jacobiana del gradiente de la función $f$ ; es decir: $H (f (x)) = J (\nabla f (x))$ .

Aplicaciones

Puntos de inflexión

Si $f$ es un polinomio homogéneo en tres variables, la ecuación $f = 0$ es la ecuación implícita de una curva proyectiva plana . Los puntos de inflexión de la curva son exactamente los puntos no singulares donde el determinante de Hesse es cero. Se deduce del teorema de Bézout que una curva plana cúbica tiene como máximo 9 puntos de inflexión, ya que el determinante de Hesse es un polinomio de grado 3.

Prueba de segunda derivada

La matriz de Hesse de una función convexa es semidefinida positiva . El refinamiento de esta propiedad nos permite probar si un punto crítico $x$ es un máximo local, un mínimo local o un punto de silla, de la siguiente manera:

Si el hessiano es positivo-definido en $x$ , entonces $f$ alcanza un mínimo local aislado en $x$ . Si el hessiano es definido negativo en $x$ , entonces $f$ alcanza un máximo local aislado en $x$ . Si el hessiano tiene valores propios positivos y negativos , entonces $x$ es un punto silla para $f$ . De lo contrario, la prueba no es concluyente. Esto implica que en un mínimo local el hessiano es positivo-semidefinito, y en un máximo local el hessiano es negativo-semidefinito.

Tenga en cuenta que para los hessianos positivo-semidefinito y negativo-semidefinito la prueba no es concluyente (un punto crítico donde el hessiano es semidefinido pero no definido puede ser un extremo local o un punto silla). Sin embargo, se puede decir más desde el punto de vista de la teoría Morse .

La prueba de la segunda derivada para funciones de una y dos variables es simple. En una variable, el hessiano contiene solo una segunda derivada; si es positivo, entonces $x$ es un mínimo local, y si es negativo, entonces $x$ es un máximo local; si es cero, la prueba no es concluyente. En dos variables, el determinante se puede utilizar, debido a que el factor determinante es el producto de los valores propios. Si es positivo, los valores propios son ambos positivos o negativos. Si es negativo, los dos valores propios tienen signos diferentes. Si es cero, entonces la prueba de la segunda derivada no es concluyente.

De manera equivalente, las condiciones de segundo orden que son suficientes para un mínimo o máximo local pueden expresarse en términos de la secuencia de los principales (arriba a la izquierda) menores (determinantes de submatrices) del hessiano; estas condiciones son un caso especial de las que se dan en la siguiente sección para hessianos con borde para optimización restringida, el caso en el que el número de restricciones es cero. En concreto, la condición suficiente para un mínimo es que todos estos menores principales sean positivos, mientras que la condición suficiente para un máximo es que los menores se alternen de signo, siendo el menor 1 × 1 negativo.

Puntos críticos

Si el gradiente (el vector de las derivadas parciales) de una función $f$ es cero en algún punto $x$ , entonces $f$ tiene un punto crítico (o punto estacionario ) en $x$ . El determinante del hessiano en $x$ se denomina, en algunos contextos, discriminante . Si este determinante es cero, entonces $x$ se llama un punto crítico degenerado de $f$ , o un punto crítico no Morse de $f$ . De lo contrario, no es degenerado y se denomina punto crítico Morse de $f$ .

La matriz de Hesse juega un papel importante en la teoría de Morse y la teoría de catástrofes , porque su núcleo y valores propios permiten la clasificación de los puntos críticos. ^[2]^[3]^[4]

El determinante de la matriz de Hesse, cuando se evalúa en un punto crítico de una función, es igual a la curvatura gaussiana de la función considerada como una variedad. Los autovalores del hessiano en ese punto son las principales curvaturas de la función, y los autovectores son las principales direcciones de curvatura. (Ver Curvatura gaussiana § Relación con las curvaturas principales ).

Usar en optimización

Las matrices hessianas se utilizan en problemas de optimización a gran escala dentro de los métodos de tipo Newton porque son el coeficiente del término cuadrático de una expansión local de Taylor de una función. Es decir,

{\ Displaystyle y = f (\ mathbf {x} + \ Delta \ mathbf {x}) \ approx f (\ mathbf {x}) + \ nabla f (\ mathbf {x}) \ Delta \ mathbf {x} + {\ frac {1} {2}} \, \ Delta \ mathbf {x} ^ {\ mathrm {T}} \ mathbf {H} (\ mathbf {x}) \, \ Delta \ mathbf {x}}

donde $\nabla f$ es el gradiente $(\partial f / \partial x 1, ..., \partial f / \partial x n)$ . Calcular y almacenar la matriz hessiana completa requiere memoria $Θ ( n 2 )$ , que es inviable para funciones de alta dimensión, como las funciones de pérdida de redes neuronales , campos aleatorios condicionales y otros modelos estadísticos con un gran número de parámetros. Para tales situaciones, se han desarrollado algoritmos de Newton truncado y cuasi Newton . La última familia de algoritmos utiliza aproximaciones al hessiano; Uno de los algoritmos cuasi-Newton más populares es BFGS . ^[5]

Tales aproximaciones pueden usar el hecho de que un algoritmo de optimización usa el hessiano solo como un operador lineal $H (v)$ , y proceda notando primero que el hessiano también aparece en la expansión local del gradiente:

{\ Displaystyle \ nabla f (\ mathbf {x} + \ Delta \ mathbf {x}) = \ nabla f (\ mathbf {x}) + \ mathbf {H} (\ mathbf {x}) \, \ Delta \ mathbf {x} + {\ mathcal {O}} (\ | \ Delta \ mathbf {x} \ | ^ {2})}

Dejando $Δ x = r v$ para algún escalar $r$ , esto da

{\ Displaystyle \ mathbf {H} (\ mathbf {x}) \, \ Delta \ mathbf {x} = \ mathbf {H} (\ mathbf {x}) r \ mathbf {v} = r \ mathbf {H} (\ mathbf {x}) \ mathbf {v} = \ nabla f (\ mathbf {x} + r \ mathbf {v}) - \ nabla f (\ mathbf {x}) + {\ mathcal {O}} ( r ^ {2}),}

es decir,

{\ Displaystyle \ mathbf {H} (\ mathbf {x}) \ mathbf {v} = {\ frac {1} {r}} {\ Bigl [} \ nabla f (\ mathbf {x} + r \ mathbf { v}) - \ nabla f (\ mathbf {x}) {\ Bigr]} + {\ mathcal {O}} (r)}

por tanto, si el gradiente ya está calculado, el hessiano aproximado puede calcularse mediante un número lineal (en el tamaño del gradiente) de operaciones escalares. (Aunque es simple de programar, este esquema de aproximación no es numéricamente estable ya que $r$ debe hacerse pequeño para evitar errores debido a la ${\ Displaystyle {\ mathcal {O}} (r)}$ término, pero disminuyéndolo pierde precisión en el primer término. ^[6] )

Otras aplicaciones

La matriz de Hesse se usa comúnmente para expresar operadores de procesamiento de imágenes en el procesamiento de imágenes y la visión por computadora (consulte el detector de manchas Laplaciano de Gauss (LoG), el determinante del detector de manchas y el espacio de escala de Hesse (DoH) ). La matriz de Hesse también se puede utilizar en análisis de modo normal para calcular las diferentes frecuencias moleculares en espectroscopía infrarroja . ^[7]

Generalizaciones

Arpillera bordeada

Se utiliza un arpillera con borde para la prueba de la segunda derivada en ciertos problemas de optimización restringida. Dada la función $f$ considerada anteriormente, pero agregando una función de restricción $g$ tal que $g (x) = c$ , el hessiano bordeado es el hessiano de la función de Lagrange ${\ Displaystyle \ Lambda (\ mathbf {x}, \ lambda) = f (\ mathbf {x}) + \ lambda [g (\ mathbf {x}) -c]}$ : ^[8]

{\ Displaystyle \ mathbf {H} (\ Lambda) = {\ begin {bmatrix} {\ dfrac {\ partial ^ {2} \ Lambda} {\ partial \ lambda ^ {2}}} & {\ dfrac {\ partial ^ {2} \ Lambda} {\ parcial \ lambda \ parcial \ mathbf {x}}} \\\ izquierda ({\ dfrac {\ parcial ^ {2} \ Lambda} {\ parcial \ lambda \ parcial \ mathbf {x }}} \ right) ^ {\ mathsf {T}} & {\ dfrac {\ partial ^ {2} \ Lambda} {\ partial \ mathbf {x} ^ {2}}} \ end {bmatrix}} = { \ begin {bmatrix} 0 & {\ dfrac {\ partial g} {\ partial x_ {1}}} & {\ dfrac {\ partial g} {\ partial x_ {2}}} & \ cdots & {\ dfrac {\ g parcial} {\ parcial x_ {n}}} \\ [2.2ex] {\ dfrac {\ g parcial} {\ parcial x_ {1}}} & {\ dfrac {\ parcial ^ {2} \ Lambda} { \ parcial x_ {1} ^ {2}}} y {\ dfrac {\ parcial ^ {2} \ Lambda} {\ parcial x_ {1} \, \ parcial x_ {2}}} y \ cdots & {\ dfrac {\ Particular ^ {2} \ Lambda} {\ Parcial x_ {1} \, \ Parcial x_ {n}}} \\ [2.2ex] {\ dfrac {\ Parcial g} {\ Parcial x_ {2}}} & {\ dfrac {\ parcial ^ {2} \ Lambda} {\ parcial x_ {2} \, \ parcial x_ {1}}} & {\ dfrac {\ parcial ^ {2} \ Lambda} {\ parcial x_ { 2} ^ {2}}} & \ cdots & {\ dfrac {\ parcial ^ {2} \ Lambda} {\ parcial x_ {2} \, \ parcial x_ {n}}} \\ [2.2ex] \ vdots & \ vdots & \ vdo ts & \ ddots & \ vdots \\ [2.2ex] {\ dfrac {\ Partical g} {\ Partical x_ {n}}} & {\ Dfrac {\ Partical ^ {2} \ Lambda} {\ Partical x_ {n } \, \ parciales x_ {1}}} & {\ dfrac {\ parciales ^ {2} \ Lambda} {\ parciales x_ {n} \, \ parciales x_ {2}}} & \ cdots & {\ dfrac { \ Particular ^ {2} \ Lambda} {\ Particular x_ {n} ^ {2}}} \ end {bmatrix}} = {\ begin {bmatrix} 0 & {\ dfrac {\ Partical g} {\ Partical \ mathbf { x}}} \\\ izquierda ({\ dfrac {\ g parcial} {\ parcial \ mathbf {x}}} \ derecha) ^ {\ mathsf {T}} & {\ dfrac {\ parcial ^ {2} \ Lambda} {\ partial \ mathbf {x} ^ {2}}} \ end {bmatrix}}}

Si hay, digamos, m restricciones, entonces el cero en la esquina superior izquierda es un bloque de ceros m × m , y hay m filas de borde en la parte superior y m columnas de borde a la izquierda.

Las reglas anteriores que establecen que los extremos se caracterizan (entre los puntos críticos con un hessiano no singular) por un hessiano definido positivo o definido negativo no pueden aplicarse aquí, ya que un hessiano bordeado no puede ser definido negativo ni definido positivo, como ${\ Displaystyle \ mathbf {z} ^ {\ mathsf {T}} \ mathbf {H} \ mathbf {z} = 0}$ Si ${\ Displaystyle \ mathbf {z}}$ es cualquier vector cuya única entrada distinta de cero sea la primera.

La prueba de la segunda derivada consiste aquí en restricciones de signo de los determinantes de un cierto conjunto de n - m submatrices de la arpillera bordeada. ^[9] Intuitivamente, uno puede pensar que las restricciones m reducen el problema a uno con n - m variables libres. (Por ejemplo, la maximización de $f (x 1, x 2, x 3)$ sujeta a la restricción $x 1 + x 2 + x 3 = 1$ se puede reducir a la maximización de $f (x 1, x 2, 1 - x 1 - x 2)$ sin restricción.)

Específicamente, las condiciones de signo se imponen en la secuencia de los principales menores principales (determinantes de las submatrices justificadas en la parte superior izquierda) de la arpillera delimitada, para la cual se descuidan los primeros 2 m principales menores principales, el menor más pequeño que consiste en el primer truncado. 2 m +1 filas y columnas, la siguiente formada por las primeras 2 m +2 filas y columnas truncadas , y así sucesivamente, siendo la última toda la arpillera bordeada; si 2 m +1 es mayor que n + m , entonces el menor principal principal más pequeño es el propio Hessiano. ^[10] Por lo tanto, hay n - m menores a considerar, cada uno evaluado en un punto específico se considera un candidato máximo o mínimo . Una condición suficiente para un máximo local es que estos menores se alternen en signo con el más pequeño que tenga el signo de (–1) ^{m +1} . Una condición suficiente para un mínimo local es que todos estos menores tengan el signo de (–1) ^m . (En el caso sin restricciones de m = 0, estas condiciones coinciden con las condiciones para que el hessiano sin fronteras sea definido negativo o definido positivo, respectivamente).

Funciones con valores vectoriales

Si $f$ es en cambio un campo vectorial $f : ℝ n \to ℝ m$ , es decir

{\ Displaystyle \ mathbf {f} (\ mathbf {x}) = {\ big (} f_ {1} (\ mathbf {x}), f_ {2} (\ mathbf {x}), \ dots, f_ { m} (\ mathbf {x}) {\ big)},}

entonces la colección de segundas derivadas parciales no es una matriz $n \times n$ , sino más bien un tensor de tercer orden . Esto se puede considerar como una matriz de $m$ matrices hessianas, una para cada componente de $f$ :

{\ Displaystyle \ mathbf {H} (\ mathbf {f}) = {\ big (} \ mathbf {H} (f_ {1}), \ mathbf {H} (f_ {2}), \ puntos, \ mathbf {H} (f_ {m}) {\ big)}.}

Este tensor degenera a la matriz de Hesse habitual cuando $m = 1$ .

Generalización al caso complejo

En el contexto de varias variables complejas , el hessiano puede generalizarse. Suponer ${\ Displaystyle f \ colon \ mathbb {C} ^ {n} \ longrightarrow \ mathbb {C}}$ y escribimos ${\ Displaystyle f \ left (z_ {1}, \ ldots, z_ {n} \ right)}$ . Entonces uno puede generalizar el hessiano a ${\ Displaystyle {\ frac {\ parcial ^ {2} f} {\ parcial z_ {i} \ parcial {\ overline {z_ {j}}}}}}$ . Tenga en cuenta que si ${\ Displaystyle f}$ satisface las condiciones de Cauchy-Riemann n-dimensionales , entonces la matriz compleja de Hesse es idénticamente cero.

Generalizaciones a variedades de Riemann

Dejar ${\ Displaystyle (M, g)}$ ser una variedad riemanniana y ${\ Displaystyle \ nabla}$ su conexión Levi-Civita . Dejar ${\ Displaystyle f: M \ to \ mathbb {R}}$ ser una función suave. Podemos definir el tensor de Hesse

{\ Displaystyle \ operatorname {Hess} (f) \ in \ Gamma (T ^ {*} M \ otimes T ^ {*} M)}

por

{\ Displaystyle \ operatorname {Hess} (f): = \ nabla \ nabla f = \ nabla df,}

donde hemos aprovechado que la primera derivada covariante de una función es la misma que su derivada ordinaria. Elegir coordenadas locales ${\ Displaystyle \ {x ^ {i} \}}$ obtenemos la expresión local para el hessiano como

{\ Displaystyle \ operatorname {Hess} (f) = \ nabla _ {i} \, \ partial _ {j} f \ dx ^ {i} \! \ otimes \! dx ^ {j} = \ left ({\ frac {\ parcial ^ {2} f} {\ parcial x ^ {i} \ parcial x ^ {j}}} - \ Gamma _ {ij} ^ {k} {\ frac {\ parcial f} {\ parcial x ^ {k}}} \ derecha) dx ^ {i} \ otimes dx ^ {j}}

dónde ${\ Displaystyle \ Gamma _ {ij} ^ {k}}$ son los símbolos de Christoffel de la conexión. Otras formas equivalentes para el hessiano están dadas por

{\ Displaystyle \ operatorname {Hess} (f) (X, Y) = \ langle \ nabla _ {X} \ operatorname {grad} f, Y \ rangle}

y

{\ Displaystyle \ operatorname {Hess} (f) (X, Y) = X (Yf) -df (\ nabla _ {X} Y).}

Ver también

El determinante de la matriz de Hesse es una covariante; ver invariante de una forma binaria
Identidad de polarización , útil para cálculos rápidos que involucran hessianos.
Matriz jacobiana
Ecuaciones de Hesse

Notas

^ Binmore, Ken ; Davies, Joan (2007). Conceptos y métodos de cálculo . Prensa de la Universidad de Cambridge. pag. 190. ISBN 978-0-521-77541-0. OCLC 717598615 .
^ Callahan, James J. (2010). Cálculo avanzado: una vista geométrica . Springer Science & Business Media. pag. 248. ISBN 978-1-4419-7332-0.
^ Casciaro, B .; Fortunato, D .; Francaviglia, M .; Masiello, A., eds. (2011). Desarrollos recientes en relatividad general . Springer Science & Business Media. pag. 178. ISBN 9788847021136.
^ Domenico PL Castrigiano; Sandra A. Hayes (2004). Teoría de la catástrofe . Westview Press. pag. 18. ISBN 978-0-8133-4126-2.
^ Nocedal, Jorge ; Wright, Stephen (2000). Optimización numérica . Springer Verlag. ISBN 978-0-387-98793-4.
^ Pearlmutter, Barak A. (1994). "Multiplicación exacta rápida por el arpillera" (PDF) . Computación neuronal . 6 (1): 147–160. doi : 10.1162 / neco.1994.6.1.147 .
^ Mott, Adam J .; Rez, Peter (24 de diciembre de 2014). "Cálculo de los espectros infrarrojos de proteínas" . Revista europea de biofísica . 44 (3): 103-112. doi : 10.1007 / s00249-014-1005-6 . ISSN 0175-7571 .
^ Hallam, Arne (7 de octubre de 2004). "Econ 500: métodos cuantitativos en análisis económico I" (PDF) . Estado de Iowa .
^ Neudecker, Heinz; Magnus, Jan R. (1988). Cálculo diferencial matricial con aplicaciones en estadística y econometría . Nueva York: John Wiley & Sons . pag. 136. ISBN 978-0-471-91516-4.
^ Chiang, Alpha C. (1984). Métodos Fundamentales de Economía Matemática (Tercera ed.). McGraw-Hill. pag. 386 . ISBN 978-0-07-010813-4.

Otras lecturas

Lewis, David W. (1991). Teoría de matrices . Singapur: World Scientific. ISBN 978-981-02-0689-5.
Magnus, Jan R .; Neudecker, Heinz (1999). "El Segundo Diferencial". Cálculo diferencial matricial: con aplicaciones en estadística y econometría (edición revisada). Nueva York: Wiley. págs. 99-115. ISBN 0-471-98633-X.

enlaces externos

"Arpillera de una función" , Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
Weisstein, Eric W. "Hessian" . MathWorld .

[1] Binmore, Ken ; Davies, Joan (2007). Conceptos y métodos de cálculo . Prensa de la Universidad de Cambridge. pag. 190. ISBN 978-0-521-77541-0. OCLC 717598615 .

[2] Callahan, James J. (2010). Cálculo avanzado: una vista geométrica . Springer Science & Business Media. pag. 248. ISBN 978-1-4419-7332-0.

[3] Casciaro, B .; Fortunato, D .; Francaviglia, M .; Masiello, A., eds. (2011). Desarrollos recientes en relatividad general . Springer Science & Business Media. pag. 178. ISBN 9788847021136.

[4] Domenico PL Castrigiano; Sandra A. Hayes (2004). Teoría de la catástrofe . Westview Press. pag. 18. ISBN 978-0-8133-4126-2.

[5] Nocedal, Jorge ; Wright, Stephen (2000). Optimización numérica . Springer Verlag. ISBN 978-0-387-98793-4.

[6] Pearlmutter, Barak A. (1994). "Multiplicación exacta rápida por el arpillera" (PDF) . Computación neuronal . 6 (1): 147–160. doi : 10.1162 / neco.1994.6.1.147 .

[7] Mott, Adam J .; Rez, Peter (24 de diciembre de 2014). "Cálculo de los espectros infrarrojos de proteínas" . Revista europea de biofísica . 44 (3): 103-112. doi : 10.1007 / s00249-014-1005-6 . ISSN 0175-7571 .

[8] Hallam, Arne (7 de octubre de 2004). "Econ 500: métodos cuantitativos en análisis económico I" (PDF) . Estado de Iowa .

[9] Neudecker, Heinz; Magnus, Jan R. (1988). Cálculo diferencial matricial con aplicaciones en estadística y econometría . Nueva York: John Wiley & Sons . pag. 136. ISBN 978-0-471-91516-4.

[10] Chiang, Alpha C. (1984). Métodos Fundamentales de Economía Matemática (Tercera ed.). McGraw-Hill. pag. 386 . ISBN 978-0-07-010813-4.

[1]