Principio de ortogonalidad

En estadística y procesamiento de señales , el principio de ortogonalidad es una condición necesaria y suficiente para la optimización de un estimador bayesiano . En términos generales, el principio de ortogonalidad dice que el vector de error del estimador óptimo (en un sentido de error cuadrático medio ) es ortogonal a cualquier estimador posible. El principio de ortogonalidad se establece más comúnmente para estimadores lineales, pero son posibles formulaciones más generales. Dado que el principio es una condición necesaria y suficiente para la optimización, se puede utilizar para encontrar el estimador del error cuadrático medio mínimo .

Principio de ortogonalidad para estimadores lineales

El principio de ortogonalidad se utiliza con mayor frecuencia en el marco de la estimación lineal. ^[1] En este contexto, sea x un vector aleatorio desconocido que se va a estimar basándose en el vector de observación y . Se desea construir un estimador lineal ${\ Displaystyle {\ hat {x}} = Hy + c}$ para alguna matriz H y vector c . Entonces, el principio de ortogonalidad establece que un estimador ${\ Displaystyle {\ hat {x}}}$ logra el error cuadrático medio mínimo si y solo si

${\ Displaystyle \ operatorname {E} \ {({\ hat {x}} - x) y ^ {T} \} = 0,}$ y
${\ Displaystyle \ operatorname {E} \ {{\ hat {x}} - x \} = 0.}$

Si X y Y tienen media cero, entonces es suficiente para requerir la primera condición.

Ejemplo

Suponga que x es una variable aleatoria gaussiana con media my varianza ${\ Displaystyle \ sigma _ {x} ^ {2}.}$ Supongamos también que observamos un valor ${\ Displaystyle y = x + w,}$ donde w es el ruido gaussiano que es independiente de x y tiene media 0 y varianza ${\ Displaystyle \ sigma _ {w} ^ {2}.}$ Deseamos encontrar un estimador lineal ${\ Displaystyle {\ hat {x}} = hy + c}$ minimizando el MSE. Sustituyendo la expresión ${\ Displaystyle {\ hat {x}} = hy + c}$ en los dos requisitos del principio de ortogonalidad, obtenemos

{\ Displaystyle 0 = \ operatorname {E} \ {({\ hat {x}} - x) y \}}

{\ Displaystyle 0 = \ operatorname {E} \ {(hx + hw + cx) (x + w) \}}

{\ Displaystyle 0 = h (\ sigma _ {x} ^ {2} + \ sigma _ {w} ^ {2}) + hm ^ {2} + cm- \ sigma _ {x} ^ {2} -m ^ {2}}

y

{\ Displaystyle 0 = \ operatorname {E} \ {{\ hat {x}} - x \}}

{\ Displaystyle 0 = \ operatorname {E} \ {hx + hw + cx \}}

{\ Displaystyle 0 = (h-1) m + c.}

Resolver estas dos ecuaciones lineales para h y c da como resultado

{\ Displaystyle h = {\ frac {\ sigma _ {x} ^ {2}} {\ sigma _ {x} ^ {2} + \ sigma _ {w} ^ {2}}}, \ quad c = { \ frac {\ sigma _ {w} ^ {2}} {\ sigma _ {x} ^ {2} + \ sigma _ {w} ^ {2}}} m,}

de modo que el estimador de error cuadrático medio mínimo lineal viene dado por

{\ Displaystyle {\ hat {x}} = {\ frac {\ sigma _ {x} ^ {2}} {\ sigma _ {x} ^ {2} + \ sigma _ {w} ^ {2}}} y + {\ frac {\ sigma _ {w} ^ {2}} {\ sigma _ {x} ^ {2} + \ sigma _ {w} ^ {2}}} m.}

Este estimador se puede interpretar como un promedio ponderado entre las mediciones ruidosas y y el valor esperado previo m . Si la variación del ruido ${\ Displaystyle \ sigma _ {w} ^ {2}}$ es baja en comparación con la varianza de la anterior ${\ Displaystyle \ sigma _ {x} ^ {2}}$ (correspondiente a una SNR alta ), la mayor parte del peso se asigna a las mediciones y , que se consideran más fiables que la información anterior. Por el contrario, si la varianza del ruido es relativamente mayor, entonces la estimación será cercana a m , ya que las mediciones no son lo suficientemente confiables como para superar la información anterior.

Por último, cabe destacar que debido a las variables x e y son conjunta de Gauss, el estimador de mínimos MSE es lineal. ^[2] Por lo tanto, en este caso, el estimador anterior minimiza el MSE entre todos los estimadores, no solo entre los estimadores lineales.

Formulación general

Dejar ${\ Displaystyle V}$ ser un espacio de Hilbert de variables aleatorias con un producto interno definido por ${\ Displaystyle \ langle x, y \ rangle = \ operatorname {E} \ {x ^ {H} y \}}$ . Suponer ${\ Displaystyle W}$ es un subespacio cerrado de ${\ Displaystyle V}$ , que representa el espacio de todos los estimadores posibles. Uno desea encontrar un vector ${\ Displaystyle {\ hat {x}} \ in W}$ que se aproximará a un vector ${\ Displaystyle x \ in V}$ . Más exactamente, uno quisiera minimizar el error cuadrático medio (MSE) ${\ Displaystyle \ operatorname {E} \ | x - {\ hat {x}} \ | ^ {2}}$ Entre ${\ Displaystyle {\ hat {x}}}$ y ${\ Displaystyle x}$ .

En el caso especial de los estimadores lineales descritos anteriormente, el espacio ${\ Displaystyle V}$ es el conjunto de todas las funciones de ${\ Displaystyle x}$ y ${\ Displaystyle y}$ , tiempo ${\ Displaystyle W}$ es el conjunto de estimadores lineales, es decir, funciones lineales de ${\ Displaystyle y}$ solo. Otros ajustes que pueden formularse de esta manera incluyen el subespacio de filtros lineales causales y el subespacio de todos los estimadores (posiblemente no lineales).

Geométricamente, podemos ver este problema por el siguiente caso simple donde ${\ Displaystyle W}$ es un subespacio unidimensional :

Queremos encontrar la aproximación más cercana al vector ${\ Displaystyle x}$ por un vector ${\ Displaystyle {\ hat {x}}}$ en el espacio ${\ Displaystyle W}$ . De la interpretación geométrica, es intuitivo que la mejor aproximación, o el error más pequeño, ocurre cuando el vector de error, ${\ Displaystyle e}$ , es ortogonal a los vectores en el espacio ${\ Displaystyle W}$ .

Más exactamente, el principio de ortogonalidad general establece lo siguiente: Dado un subespacio cerrado ${\ Displaystyle W}$ de estimadores dentro de un espacio de Hilbert ${\ Displaystyle V}$ y un elemento ${\ Displaystyle x}$ en ${\ Displaystyle V}$ , un elemento ${\ Displaystyle {\ hat {x}} \ in W}$ logra un mínimo de MSE entre todos los elementos en ${\ Displaystyle W}$ si y solo si ${\ Displaystyle \ operatorname {E} \ {(x - {\ hat {x}}) y ^ {T} \} = 0}$ para todos ${\ Displaystyle y \ en W.}$

Dicho de esta manera, este principio es simplemente un enunciado del teorema de la proyección de Hilbert . No obstante, el uso extensivo de este resultado en el procesamiento de señales ha dado lugar al nombre de "principio de ortogonalidad".

Una solución a los problemas de minimización de errores

La siguiente es una forma de encontrar el estimador de error cuadrático medio mínimo utilizando el principio de ortogonalidad.

Queremos poder aproximar un vector ${\ Displaystyle x}$ por

{\ Displaystyle x = {\ hat {x}} + e \,}

dónde

{\ Displaystyle {\ hat {x}} = \ sum _ {i} c_ {i} p_ {i}}

es la aproximación de ${\ Displaystyle x}$ como una combinación lineal de vectores en el subespacio ${\ Displaystyle W}$ abarcado por ${\ Displaystyle p_ {1}, p_ {2}, \ ldots.}$ Por lo tanto, queremos poder resolver los coeficientes, ${\ Displaystyle c_ {i}}$ , de modo que podamos escribir nuestra aproximación en términos conocidos.

Según el teorema de la ortogonalidad, la norma cuadrada del vector de error, ${\ Displaystyle \ left \ Vert e \ right \ Vert ^ {2}}$ , se minimiza cuando, para todo j ,

{\ Displaystyle \ left \ langle x- \ sum _ {i} c_ {i} p_ {i}, p_ {j} \ right \ rangle = 0.}

Desarrollando esta ecuación, obtenemos

{\ Displaystyle \ left \ langle x, p_ {j} \ right \ rangle = \ left \ langle \ sum _ {i} c_ {i} p_ {i}, p_ {j} \ right \ rangle = \ sum _ { i} c_ {i} \ left \ langle p_ {i}, p_ {j} \ right \ rangle.}

Si hay un número finito ${\ Displaystyle n}$ de vectores ${\ Displaystyle p_ {i}}$ , se puede escribir esta ecuación en forma de matriz como

{\ displaystyle {\ begin {bmatrix} \ left \ langle x, p_ {1} \ right \ rangle \\\ left \ langle x, p_ {2} \ right \ rangle \\\ vdots \\\ left \ langle x , p_ {n} \ right \ rangle \ end {bmatrix}} = {\ begin {bmatrix} \ left \ langle p_ {1}, p_ {1} \ right \ rangle & \ left \ langle p_ {2}, p_ {1} \ right \ rangle & \ cdots & \ left \ langle p_ {n}, p_ {1} \ right \ rangle \\\ left \ langle p_ {1}, p_ {2} \ right \ rangle & \ left \ langle p_ {2}, p_ {2} \ right \ rangle & \ cdots & \ left \ langle p_ {n}, p_ {2} \ right \ rangle \\\ vdots & \ vdots & \ ddots & \ vdots \ \\ left \ langle p_ {1}, p_ {n} \ right \ rangle & \ left \ langle p_ {2}, p_ {n} \ right \ rangle & \ cdots & \ left \ langle p_ {n}, p_ {n} \ right \ rangle \ end {bmatrix}} {\ begin {bmatrix} c_ {1} \\ c_ {2} \\\ vdots \\ c_ {n} \ end {bmatrix}}.}

Asumiendo el ${\ Displaystyle p_ {i}}$ son linealmente independientes , la matriz de Gramian se puede invertir para obtener

{\ displaystyle {\ begin {bmatrix} c_ {1} \\ c_ {2} \\\ vdots \\ c_ {n} \ end {bmatrix}} = {\ begin {bmatrix} \ left \ langle p_ {1} , p_ {1} \ right \ rangle & \ left \ langle p_ {2}, p_ {1} \ right \ rangle & \ cdots & \ left \ langle p_ {n}, p_ {1} \ right \ rangle \\ \ left \ langle p_ {1}, p_ {2} \ right \ rangle & \ left \ langle p_ {2}, p_ {2} \ right \ rangle & \ cdots & \ left \ langle p_ {n}, p_ { 2} \ right \ rangle \\\ vdots & \ vdots & \ ddots & \ vdots \\\ left \ langle p_ {1}, p_ {n} \ right \ rangle & \ left \ langle p_ {2}, p_ { n} \ right \ rangle & \ cdots & \ left \ langle p_ {n}, p_ {n} \ right \ rangle \ end {bmatrix}} ^ {- 1} {\ begin {bmatrix} \ left \ langle x, p_ {1} \ right \ rangle \\\ left \ langle x, p_ {2} \ right \ rangle \\\ vdots \\\ left \ langle x, p_ {n} \ right \ rangle \ end {bmatrix}} ,}

proporcionando así una expresión para los coeficientes ${\ Displaystyle c_ {i}}$ del estimador de error cuadrático medio mínimo.

Ver también

Notas

↑ Kay, p. 386
^ Consulte el artículo Error cuadrático medio mínimo .

Referencias

Kay, SM (1993). Fundamentos del procesamiento estadístico de señales: teoría de la estimación . Prentice Hall. ISBN 0-13-042268-1.
Luna, Todd K. (2000). Métodos y algoritmos matemáticos para el procesamiento de señales . Prentice Hall. ISBN 0-201-36186-8.

[1] Kay, p. 386

[2] Consulte el artículo Error cuadrático medio mínimo .

[1]