Teoría del campo de información

La teoría del campo de información (IFT) es una teoría de campo estadístico bayesiano relacionada con la reconstrucción de señales , la cosmografía y otras áreas relacionadas. ^[1]^[2] IFT resume la información disponible en un campo físico usando probabilidades bayesianas . Utiliza técnicas computacionales desarrolladas para la teoría cuántica de campos y la teoría estadística de campos para manejar el número infinito de grados de libertad de un campo y derivar algoritmos para el cálculo de los valores esperados del campo . Por ejemplo, la parte posterior El valor esperado de un campo generado por un proceso gaussiano conocido y medido por un dispositivo lineal con estadísticas de ruido gaussiano conocidas viene dado por un filtro de Wiener generalizado aplicado a los datos medidos. IFT extiende dicha fórmula de filtro conocida a situaciones con física no lineal , dispositivos no lineales , estadísticas de ruido o de campo no gaussianas , dependencia de las estadísticas de ruido de los valores de campo y parámetros de medición parcialmente desconocidos. Para ello utiliza diagramas de Feynman , ecuaciones de flujo de renormalización y otros métodos de la física matemática . ^[3]

Motivación

Los campos juegan un papel importante en la ciencia, la tecnología y la economía. Describen las variaciones espaciales de una cantidad, como la temperatura del aire, en función de la posición. Conocer la configuración de un campo puede ser de gran valor. Sin embargo, las mediciones de campos nunca pueden proporcionar la configuración precisa del campo con certeza. Los campos físicos tienen un número infinito de grados de libertad, pero los datos generados por cualquier dispositivo de medición son siempre finitos, proporcionando solo un número finito de restricciones en el campo. Por lo tanto, una deducción inequívoca de tal campo a partir de los datos de medición solo es imposible y solo queda la inferencia probabilística como un medio para hacer declaraciones sobre el campo. Afortunadamente, los campos físicos exhiben correlaciones y a menudo siguen leyes físicas conocidas. Esta información se fusiona mejor en la inferencia de campo para superar la falta de coincidencia de los grados de libertad de campo con los puntos de medición. Para manejar esto, se necesita una teoría de la información para los campos, y eso es lo que es la teoría de los campos de la información.

Conceptos

Inferencia bayesiana

${\ Displaystyle s (x)}$ es un valor de campo en una ubicación ${\ Displaystyle x \ in \ Omega}$ en un espacio ${\ Displaystyle \ Omega}$ . El conocimiento previo sobre el campo de señal desconocido. ${\ Displaystyle s}$ está codificado en la distribución de probabilidad ${\ Displaystyle {\ mathcal {P}} (s)}$ . Los datos ${\ Displaystyle d}$ proporciona información adicional sobre ${\ Displaystyle s}$ a través de la probabilidad ${\ Displaystyle {\ mathcal {P}} (d | s)}$ que se incorpora a la probabilidad posterior

{\ Displaystyle {\ mathcal {P}} (s | d) = {\ frac {{\ mathcal {P}} (d | s) \, {\ mathcal {P}} (s)} {{\ mathcal { P}} (d)}}}

según el teorema de Bayes .

Información Hamiltoniano

En IFT, el teorema de Bayes generalmente se reescribe en el lenguaje de una teoría de campo estadístico,

{\ Displaystyle {\ mathcal {P}} (s | d) = {\ frac {{\ mathcal {P}} (d, s)} {{\ mathcal {P}} (d)}} \ equiv {\ frac {e ^ {- {\ mathcal {H}} (d, s)}} {{\ mathcal {Z}} (d)}},}

con la información hamiltoniana definida como

{\ Displaystyle {\ mathcal {H}} (d, s) \ equiv - \ ln {\ mathcal {P}} (d, s) = - \ ln {\ mathcal {P}} (d | s) - \ ln {\ mathcal {P}} (s) \ equiv {\ mathcal {H}} (d | s) + {\ mathcal {H}} (s),}

el logaritmo negativo de la probabilidad conjunta de los datos y de la señal y con la función de partición bienestar

{\ Displaystyle {\ mathcal {Z}} (d) \ equiv {\ mathcal {P}} (d) = \ int {\ mathcal {D}} s \, {\ mathcal {P}} (d, s) .}

Esta reformulación del teorema de Bayes permite el uso de métodos de física matemática desarrollados para el tratamiento de teorías de campos estadísticos y teorías de campos cuánticos .

Campos

Como los campos tienen un número infinito de grados de libertad, la definición de probabilidades sobre espacios de configuraciones de campo tiene sutilezas. La identificación de campos físicos como elementos de espacios funcionales plantea el problema de que ninguna medida de Lebesgue se define sobre estos últimos y, por lo tanto, no se pueden definir densidades de probabilidad allí. Sin embargo, los campos físicos tienen mucha más regularidad que la mayoría de los elementos de los espacios funcionales, ya que son continuos y uniformes en la mayoría de sus ubicaciones. Por lo tanto, se pueden usar construcciones menos generales, pero suficientemente flexibles para manejar el número infinito de grados de libertad de un campo.

Un enfoque pragmático es considerar el campo discretizado en términos de píxeles. Cada píxel lleva un valor de campo único que se supone que es constante dentro del volumen de píxeles. Todos los enunciados sobre el campo continuo deben luego incorporarse a su representación de píxeles. De esta manera, se trata con espacios de campo de dimensión finita, sobre los cuales las densidades de probabilidad son bien definibles.

Para que esta descripción sea una teoría de campo adecuada, se requiere además que la resolución de píxeles ${\ Displaystyle \ Delta x}$ siempre se puede refinar, mientras que los valores esperados del campo discretizado ${\ Displaystyle s _ {\ Delta x}}$ convergen a valores finitos:

{\ Displaystyle \ langle f (s) \ rangle _ {(s | d)} \ equiv \ lim _ {\ Delta x \ rightarrow 0} \ int ds _ {\ Delta x} f (s _ {\ Delta x}) \ , {\ mathcal {P}} (s _ {\ Delta x}).}

Integrales de ruta

Si existe este límite, se puede hablar de la integral de espacio de configuración de campo o integral de ruta

{\ Displaystyle \ langle f (s) \ rangle _ {(s | d)} \ equiv \ int {\ mathcal {D}} s \, f (s) \, {\ mathcal {P}} (s). }

independientemente de la resolución, podría evaluarse numéricamente.

Prior gaussiano

El prior más simple para un campo es el de una distribución de probabilidad gaussiana de media cero

{\ Displaystyle {\ mathcal {P}} (s) = {\ mathcal {G}} (s, S) \ equiv {\ frac {1} {| 2 \ pi S |}} e ^ {- {\ frac {1} {2}} \, s ^ ​​{\ dagger} S ^ {- 1} \, s}.}

El determinante en el denominador podría estar mal definido en el límite del continuo

{\ Displaystyle \ Delta x \ rightarrow 0}

, sin embargo, todo lo que se necesita para que IFT sea consistente es que este determinante se puede estimar para cualquier representación de campo de resolución finita con

{\ Displaystyle \ Delta x> 0}

y que esto permite el cálculo de valores esperados convergentes.

Una distribución de probabilidad gaussiana requiere la especificación de la función de correlación de dos puntos de campo ${\ Displaystyle S \ equiv \ langle s \, s ^ {\ dagger} \ rangle _ {(s)}}$ con coeficientes

{\ Displaystyle S_ {xy} \ equiv \ langle s (x) \, {\ overline {s (y)}} \ rangle _ {(s)}}

y un producto escalar para campos continuos

{\ Displaystyle a ^ {\ dagger} b \ equiv \ int _ {\ Omega} dx \, {\ overline {a (x)}} \, b (x),}

con respecto al cual la covarianza del campo de señal inverso

{\ Displaystyle S ^ {- 1}}

está construido, es decir

{\ Displaystyle (S ^ {- 1} S) _ {xy} \ equiv \ int _ {\ Omega} dz \, (S ^ {- 1}) _ {xz} S_ {zy} = \ mathbb {1} _ {xy} \ equiv \ delta (xy).}

La información previa correspondiente que lee Hamiltonian

{\ Displaystyle {\ mathcal {H}} (s) = - \ ln {\ mathcal {G}} (s, S) = {\ frac {1} {2}} \, s ^ ​​{\ dagger} S ^ {-1} \, s + {\ frac {1} {2}} \, \ ln | 2 \ pi S |.}

Ecuación de medida

Los datos de medición ${\ Displaystyle d}$ fue generado con la probabilidad ${\ Displaystyle {\ mathcal {P}} (d | s)}$ . En caso de que el instrumento fuera lineal, una ecuación de medición de la forma

{\ Displaystyle d = R \, s + n}

se puede dar, en el que

{\ Displaystyle R}

es la respuesta del instrumento, que describe cómo los datos en promedio reaccionan a la señal, y

{\ Displaystyle n}

es el ruido, simplemente la diferencia entre los datos

{\ Displaystyle d}

y respuesta de señal lineal

{\ Displaystyle R \, s}

. Es esencial tener en cuenta que la respuesta traduce el vector de señal de dimensión infinita en el espacio de datos de dimensión finita. En componentes esto dice

{\ Displaystyle d_ {i} = \ int _ {\ Omega} dx \, R_ {ix} \, s_ {x} + n_ {i},}

donde también se introdujo una notación de componentes vectoriales para vectores de señales y datos.

Si el ruido sigue una señal independiente de cero, media estadística gaussiana con covarianza ${\ Displaystyle N}$ , ${\ Displaystyle {\ mathcal {P}} (n | s) = {\ mathcal {G}} (n, N),}$ entonces la probabilidad también es gaussiana,

{\ Displaystyle {\ mathcal {P}} (d | s) = {\ mathcal {G}} (dR \, s, N),}

y la información de probabilidad hamiltoniana es

{\ Displaystyle {\ mathcal {H}} (d | s) = - \ ln {\ mathcal {G}} (dR \, s, N) = {\ frac {1} {2}} \, (dR \ , s) ^ {\ daga} N ^ {- 1} \, (dR \, s) + {\ frac {1} {2}} \, \ ln | 2 \ pi N |.}

Una medición lineal de una señal gaussiana, sujeta a ruido gaussiano e independiente de la señal, conduce a un IFT libre.

Teoría libre

Hamiltoniano libre

La información conjunta hamiltoniana del escenario gaussiano descrito anteriormente es

{\ Displaystyle {\ begin {alineado} {\ mathcal {H}} (d, s) & = {\ mathcal {H}} (d | s) + {\ mathcal {H}} (s) \\ & { \ widehat {=}} {\ frac {1} {2}} \, (dR \, s) ^ {\ dagger} N ^ {- 1} \, (dR \, s) + {\ frac {1} {2}} \, s ^ ​​{\ dagger} S ^ {- 1} \, s \\ & {\ widehat {=}} {\ frac {1} {2}} \, \ left [s ^ {\ puñal} \ underbrace {(S ^ {- 1} + R ^ {\ dagger} N ^ {- 1} R)} _ {D ^ {- 1}} \, ss ^ {\ dagger} \ underbrace {R ^ {\ dagger} N ^ {- 1} d} _ {j} - \ underbrace {d ^ {\ dagger} N ^ {- 1} R} _ {j ^ {\ dagger}} \, s \ right] \ \ & \ equiv {\ frac {1} {2}} \, \ left [s ^ {\ dagger} D ^ {- 1} ss ^ {\ dagger} jj ^ {\ dagger} s \ right] \\ & = {\ frac {1} {2}} \, \ left [s ^ {\ dagger} D ^ {- 1} ss ^ {\ dagger} D ^ {- 1} \ underbrace {D \, j} _ { m} - \ underbrace {j ^ {\ dagger} D} _ {m ^ {\ dagger}} \, D ^ {- 1} s \ right] \\ & {\ widehat {=}} {\ frac {1 } {2}} \, (sm) ^ {\ dagger} D ^ {- 1} (sm), \ end {alineado}}}

dónde

{\ displaystyle {\ widehat {=}}}

denota igualdad hasta constantes irrelevantes, que, en este caso, significa expresiones que son independientes de

{\ Displaystyle s}

. De esto se desprende claramente que el posterior debe ser un gaussiano con media

{\ Displaystyle m}

y varianza

{\ Displaystyle D}

,

{\ Displaystyle {\ mathcal {P}} (s | d) \ propto e ^ {- {\ mathcal {H}} (d, s)} \ propto e ^ {- {\ frac {1} {2}} \, (sm) ^ {\ dagger} D ^ {- 1} (sm)} \ propto {\ mathcal {G}} (sm, D)}

donde se mantiene la igualdad entre los lados derecho e izquierdo ya que ambas distribuciones están normalizadas,

{\ Displaystyle \ int {\ mathcal {D}} s \, {\ mathcal {P}} (s | d) = 1 = \ int {\ mathcal {D}} s \, {\ mathcal {G}} ( sm, D)}

.

Filtro de Wiener generalizado

La media posterior

{\ Displaystyle m = D \, j = (S ^ {- 1} + R ^ {\ dagger} N ^ {- 1} R) ^ {- 1} R ^ {\ dagger} N ^ {- 1} d }

también se conoce como la solución de filtro de Wiener generalizada y la covarianza de incertidumbre

{\ Displaystyle D = (S ^ {- 1} + R ^ {\ dagger} N ^ {- 1} R) ^ {- 1}}

como la variación de Wiener.

En IFT, ${\ Displaystyle j = R ^ {\ dagger} N ^ {- 1} d}$ se llama fuente de información, ya que actúa como un término fuente para excitar el campo (conocimiento), y ${\ Displaystyle D}$ el propagador de información, ya que propaga información de un lugar a otro en

{\ Displaystyle m_ {x} = \ int _ {\ Omega} dy \, D_ {xy} j_ {y}.}

Teoría interactiva

Hamiltoniano interactivo

Si se viola cualquiera de los supuestos que conducen a la teoría libre, IFT se convierte en una teoría interactiva, con términos que son de orden superior al cuadrático en el campo de la señal. Esto sucede cuando la señal o el ruido no siguen las estadísticas gaussianas, cuando la respuesta no es lineal, cuando el ruido depende de la señal o cuando la respuesta o las covarianzas son inciertas.

En este caso, la información hamiltoniana podría ampliarse en una serie Taylor - Fréchet ,

{\ Displaystyle {\ mathcal {H}} (d, \, s) = \ underbrace {{\ frac {1} {2}} s ^ {\ dagger} D ^ {- 1} sj ^ {\ dagger} s + {\ mathcal {H}} _ {0}} _ {= {\ mathcal {H}} _ {\ text {free}} (d, \, s)} + \ underbrace {\ sum _ {n = 3} ^ {\ infty} {\ frac {1} {n!}} \ Lambda _ {x_ {1} ... x_ {n}} ^ {(n)} s_ {x_ {1}} ... s_ { x_ {n}}} _ {= {\ mathcal {H}} _ {\ text {int}} (d, \, s)},}

dónde

{\ Displaystyle {\ mathcal {H}} _ {\ text {gratis}} (d, \, s)}

es el hamiltoniano libre, que solo conduciría a un posterior gaussiano, y

{\ Displaystyle {\ mathcal {H}} _ {\ text {int}} (d, \, s)}

es el hamiltoniano que interactúa, que codifica correcciones no gaussianas. Los coeficientes de Taylor de primer y segundo orden a menudo se identifican con la fuente de información (negativa)

{\ Displaystyle -j}

y propagador de información

{\ Displaystyle D}

, respectivamente. Los coeficientes más altos

{\ Displaystyle \ Lambda _ {x_ {1} ... x_ {n}} ^ {(n)}}

están asociados con auto-interacciones no lineales.

Campo clásico

El campo clásico ${\ Displaystyle s _ {\ text {cl}}}$ minimiza la información hamiltoniana,

{\ Displaystyle \ left. {\ frac {\ partial {\ mathcal {H}} (d, s)} {\ partial s}} \ right | _ {s = s _ {\ text {cl}}} = 0, }

y por tanto maximiza la parte posterior:

{\ estilo de visualización \ izquierda. {\ frac {\ parcial {\ mathcal {P}} (s | d)} {\ parcial s}} \ derecha | _ {s = s _ {\ text {cl}}} = \ izquierda . {\ frac {\ parcial} {\ parcial s}} \, {\ frac {e ^ {- {\ mathcal {H}} (d, s)}} {{\ mathcal {Z}} (d)} } \ right | _ {s = s _ {\ text {cl}}} = - {\ mathcal {P}} (d, s) \, \ underbrace {\ left. {\ frac {\ partial {\ mathcal {H }} (d, s)} {\ parcial s}} \ right | _ {s = s _ {\ text {cl}}}} _ {= 0} = 0}

El campo clásico

{\ Displaystyle s _ {\ text {cl}}}

es por tanto el estimador máximo a posteriori del problema de inferencia de campo.

Filtro crítico

El problema del filtro de Wiener requiere la correlación de dos puntos ${\ Displaystyle S \ equiv \ langle s \, s ^ {\ dagger} \ rangle _ {(s)}}$ de un campo por conocer. Si es desconocido, debe inferirse junto con el campo en sí. Esto requiere la especificación de un hiperprior ${\ Displaystyle {\ mathcal {P}} (S)}$ . A menudo, se puede suponer una homogeneidad estadística (invariancia de traducción), lo que implica que ${\ Displaystyle S}$ es diagonal en el espacio de Fourier (para ${\ Displaystyle \ Omega = \ mathbb {R} ^ {u}}$ ser un ${\ Displaystyle u}$ espacio cartesiano dimensional ). En este caso, solo el espectro de potencia espacial de Fourier ${\ Displaystyle P_ {s} ({\ vec {k}})}$ necesita ser inferido. Dada una suposición adicional de isotropía estadística, este espectro depende solo de la longitud ${\ Displaystyle k = | {\ vec {k}} |}$ del vector de Fourier ${\ Displaystyle {\ vec {k}}}$ y solo un espectro unidimensional ${\ Displaystyle P_ {s} (k)}$ tiene que ser determinado. La covarianza del campo anterior se lee luego en coordenadas espaciales de Fourier ${\ Displaystyle S _ {{\ vec {k}} {\ vec {q}}} = (2 \ pi) ^ {u} \ delta ({\ vec {k}} - {\ vec {q}}) \ , P_ {s} (k)}$ .

Si el anterior en ${\ Displaystyle P_ {s} (k)}$ es plana, la probabilidad conjunta de datos y espectro es

{\ Displaystyle {\ begin {alineado} {\ mathcal {P}} (d, P_ {s}) & = \ int {\ mathcal {D}} s \, {\ mathcal {P}} (d, s, P_ {s}) \\ & = \ int {\ mathcal {D}} s \, {\ mathcal {P}} (d | s, P_ {s}) \, {\ mathcal {P}} (s | P_ {s}) \, {\ mathcal {P}} (P_ {s}) \\ & \ propto \ int {\ mathcal {D}} s \, {\ mathcal {G}} (d-Rs, N ) \, {\ mathcal {G}} (s, S) \\ & \ propto {\ frac {1} {| S | ^ {\ frac {1} {2}}}} \ int {\ mathcal {D }} s \, \ exp \ left [- {\ frac {1} {2}} \ left (s ^ {\ dagger} D ^ {- 1} sj ^ {\ dagger} ss ^ {\ dagger} j \ derecha) \ derecha] \\ & \ propto {\ frac {| D | ^ {\ frac {1} {2}}} {| S | ^ {\ frac {1} {2}}}} \ exp \ izquierda [{\ frac {1} {2}} j ^ {\ dagger} D \, j \ right], \ end {alineado}}}

donde la notación del propagador de información

{\ Displaystyle D = (S ^ {- 1} + R ^ {\ dagger} N ^ {- 1} R) ^ {- 1}}

y fuente

{\ Displaystyle j = R ^ {\ dagger} N ^ {- 1} d}

del problema del filtro de Wiener se utilizó de nuevo. La información correspondiente hamiltoniana es

{\ Displaystyle {\ mathcal {H}} (d, P_ {s}) \; {\ widehat {=}} \; {\ frac {1} {2}} \ left [\ ln | S \, D ^ {-1} | -j ^ {\ dagger} D \, j \ right] = {\ frac {1} {2}} \ mathrm {Tr} \ left [\ ln \ left (S \, D ^ {- 1} \ derecha) -j \, j ^ {\ dagger} D \ derecha],}

dónde

{\ displaystyle {\ widehat {=}}}

denota igualdad hasta constantes irrelevantes (aquí: constante con respecto a

{\ Displaystyle P_ {s}}

). Minimizando esto con respecto a

{\ Displaystyle P_ {s}}

, para obtener su máximo estimador de espectro de potencia a posteriori, produce

{\ Displaystyle {\ begin {alineado} {\ frac {\ parcial {\ mathcal {H}} (d, P_ {s})} {\ parcial P_ {s} (k)}} & = {\ frac {1 } {2}} \ mathrm {Tr} \ left [D \, S ^ {- 1} \, {\ frac {\ parcial \ left (S \, D ^ {- 1} \ right)} {\ parcial P_ {s} (k)}} - j \, j ^ {\ daga} {\ frac {\ parcial D} {\ parcial P_ {s} (k)}} \ derecha] \\ & = {\ frac {1 } {2}} \ mathrm {Tr} \ left [D \, S ^ {- 1} \, {\ frac {\ parcial \ left (1 + S \, R ^ {\ dagger} N ^ {- 1} R \ right)} {\ parcial P_ {s} (k)}} + j \, j ^ {\ dagger} D \, {\ frac {\ parcial D ^ {- 1}} {\ parcial P_ {s} (k)}} \, D \ right] \\ & = {\ frac {1} {2}} \ mathrm {Tr} \ left [D \, S ^ {- 1} \, {\ frac {\ parcial S} {\ parcial P_ {s} (k)}} R ^ {\ daga} N ^ {- 1} R + m \, m ^ {\ daga} \, {\ frac {\ parcial S ^ {- 1 }} {\ parcial P_ {s} (k)}} \ right] \\ & = {\ frac {1} {2}} \ mathrm {Tr} \ left [\ left (R ^ {\ dagger} N ^ {-1} R \, D \, S ^ {- 1} -S ^ {- 1} m \, m ^ {\ dagger} \, S ^ {- 1} \ right) \, {\ frac {\ parcial S} {\ parcial P_ {s} (k)}} \ derecha] \\ & = {\ frac {1} {2}} \ int \ left ({\ frac {dq} {2 \ pi}} \ derecha) ^ {u} \ int \ left ({\ frac {dq '} {2 \ pi}} \ right) ^ {u} \ left (\ left (D ^ {- 1} -S ^ {- 1} \ right) \, D \, S ^ {- 1} -S ^ {- 1} m \, m ^ {\ dagger} \, S ^ {- 1} \ right) _ {{\ vec {q}} {\ vec {q}} '} \, {\ fr ac {\ parcial (2 \ pi) ^ {u} \ delta ({\ vec {q}} - {\ vec {q}} ') \, P_ {s} (q)} {\ parcial P_ {s} (k)}} \\ & = {\ frac {1} {2}} \ int \ left ({\ frac {dq} {2 \ pi}} \ right) ^ {u} \ left (S ^ {- 1} -S ^ {- 1} D \, S ^ {- 1} -S ^ {- 1} m \, m ^ {\ dagger} \, S ^ {- 1} \ right) _ {{\ vec {q}} {\ vec {q}}} \, \ delta (kq) \\ & = {\ frac {1} {2}} \ mathrm {Tr} \ left \ {S ^ {- 1} \ left [S- \ left (D + m \, m ^ {\ dagger} \ right) \ right] \, S ^ {- 1} \ mathbb {P} _ {k} \ right \} \\ & = {\ frac {\ mathrm {Tr} \ left [\ mathbb {P} _ {k} \ right]} {2 \, P_ {s} (k)}} - {\ frac {\ mathrm {Tr} \ left [\ izquierda (D + m \, m ^ {\ dagger} \ right) \, \ mathbb {P} _ {k} \ right]} {2 \, \ left [P_ {s} (k) \ right] ^ { 2}}} = 0, \ end {alineado}}}

donde significa el filtro Wiener

{\ Displaystyle m = D \, j}

y el proyector de banda espectral

{\ Displaystyle (\ mathbb {P} _ {k}) _ {{\ vec {q}} {\ vec {q}} '} \ equiv (2 \ pi) ^ {u} \ delta ({\ vec { q}} - {\ vec {q}} ') \, \ delta (| {\ vec {q}} | -k)}

fueron introducidos. Este último conmuta con

{\ Displaystyle S ^ {- 1}}

, desde

{\ Displaystyle (S ^ {- 1}) _ {{\ vec {k}} {\ vec {q}}} = (2 \ pi) ^ {u} \ delta ({\ vec {k}} - { \ vec {q}}) \, [P_ {s} (k)] ^ {- 1}}

es diagonal en el espacio de Fourier. Por tanto, el estimador máximo a posteriori para el espectro de potencia es

{\ Displaystyle P_ {s} (k) = {\ frac {\ mathrm {Tr} \ left [\ left (m \, m ^ {\ dagger} + D \ right) \, \ mathbb {P} _ {k } \ right]} {\ mathrm {Tr} \ left [\ mathbb {P} _ {k} \ right]}}.}

Tiene que calcularse iterativamente, como

{\ Displaystyle m = D \, j}

y

{\ Displaystyle D = (S ^ {- 1} + R ^ {\ dagger} N ^ {- 1} R) ^ {- 1}}

Dependen ambos de

{\ Displaystyle P_ {s}}

ellos mismos. En un enfoque empírico de Bayes , la estimación

{\ Displaystyle P_ {s}}

se tomaría como dado. Como consecuencia, la estimación media posterior del campo de señal es la correspondiente

{\ Displaystyle m}

y su incertidumbre la correspondiente

{\ Displaystyle D}

en la aproximación empírica de Bayes.

El filtro no lineal resultante se denomina filtro crítico . ^[4] La generalización de la fórmula de estimación del espectro de potencia como

{\ Displaystyle P_ {s} (k) = {\ frac {\ mathrm {Tr} \ left [\ left (m \, m ^ {\ dagger} + \ delta \, D \ right) \, \ mathbb {P } _ {k} \ right]} {\ mathrm {Tr} \ left [\ mathbb {P} _ {k} \ right]}}}

exhibe unos umbrales de percepción para

{\ Displaystyle \ delta <1}

, lo que significa que la variación de los datos en una banda de Fourier tiene que superar el nivel de ruido esperado en un cierto umbral antes de la reconstrucción de la señal.

{\ Displaystyle m}

se vuelve distinto de cero para esta banda. Siempre que la varianza de los datos excede este umbral ligeramente, la reconstrucción de la señal salta a un nivel de excitación finito, similar a una transición de fase de primer orden en sistemas termodinámicos. Para filtrar con

{\ Displaystyle \ delta = 1}

La percepción de la señal comienza de forma continua tan pronto como la variación de los datos supera el nivel de ruido. La desaparición de la percepción discontinua en

{\ Displaystyle \ delta = 1}

es similar a un sistema termodinámico que atraviesa un punto crítico . De ahí el nombre de filtro crítico.

El filtro crítico, las extensiones del mismo a las mediciones no lineales y la inclusión de espectros previos no planos, permitió la aplicación de IFT a problemas de inferencia de señales del mundo real, para los cuales la covarianza de la señal generalmente se desconoce a priori.

Ejemplos de aplicación de IFT

Imagen radiointerferométrica de radiogalaxias en el cúmulo de galaxias Abell 2219. Las imágenes fueron construidas por retroproyección de datos (arriba), el algoritmo CLEAN (medio) y el algoritmo RESOLVE (abajo). Los flujos negativos y, por lo tanto, no físicos se muestran en blanco.

El filtro de Wiener generalizado, que surge en IFT libre, se usa ampliamente en el procesamiento de señales. Se derivaron algoritmos basados explícitamente en IFT para varias aplicaciones. Muchos de ellos se implementan utilizando la biblioteca de teoría de campos de información numérica (NIFTy).

D³PO es un código para la reducción de ruido , la descomposición y la descomposición de las observaciones de fotones . Reconstruye imágenes de eventos de conteo de fotones individuales teniendo en cuenta las estadísticas de Poisson de los conteos y una función de respuesta del instrumento. Divide la emisión del cielo en una imagen de emisión difusa y una de fuentes puntuales, explotando las diferentes estructuras de correlación y estadísticas de los dos componentes para su separación. D³PO se ha aplicado a los datos de los satélites Fermi y RXTE .
RESOLVE es un algoritmo bayesiano para imágenes de síntesis de apertura en radioastronomía. RESOLVE es similar a D³PO, pero asume una verosimilitud gaussiana y una función de respuesta espacial de Fourier. Se ha aplicado a datos de Very Large Array .
PySESA es un marco de Python para el análisis espectral espacialmente explícito para el análisis espectral espacialmente explícito de nubes de puntos y datos geoespaciales.

Teoría avanzada

Se pueden utilizar muchas técnicas de la teoría cuántica de campos para abordar problemas de IFT, como los diagramas de Feynman, las acciones efectivas y el formalismo del operador de campo.

Diagramas de Feynman

Los primeros tres diagramas de Feynman contribuyen a la estimación media posterior de un campo. Una línea expresa un propagador de información, un punto al final de una línea a una fuente de información y un vértice a un término de interacción. El primer diagrama codifica el filtro de Wiener, el segundo una corrección no lineal y el tercero una corrección de incertidumbre del filtro de Wiener.

En caso de que los coeficientes de interacción ${\ Displaystyle \ Lambda ^ {(n)}}$ en una expansión Taylor - Fréchet de la información hamiltoniana

{\ Displaystyle {\ mathcal {H}} (d, \, s) = \ underbrace {{\ frac {1} {2}} s ^ {\ dagger} D ^ {- 1} sj ^ {\ dagger} s + {\ mathcal {H}} _ {0}} _ {= {\ mathcal {H}} _ {\ text {free}} (d, \, s)} + \ underbrace {\ sum _ {n = 3} ^ {\ infty} {\ frac {1} {n!}} \ Lambda _ {x_ {1} ... x_ {n}} ^ {(n)} s_ {x_ {1}} ... s_ { x_ {n}}} _ {= {\ mathcal {H}} _ {\ text {int}} (d, \, s)},}

son pequeños, la función de partición de registros o la energía libre de Helmholtz ,

{\ Displaystyle \ ln {\ mathcal {Z}} (d) = \ ln \ int {\ mathcal {D}} s \, e ^ {- {\ mathcal {H}} (d, s)} = \ sum _ {c \ in C} c}

se puede expandir asintóticamente en términos de estos coeficientes. El hamiltoniano libre especifica la media

{\ Displaystyle m = D \, j}

y varianza

{\ Displaystyle D}

de la distribución gaussiana

{\ Displaystyle {\ mathcal {G}} (sm, D)}

sobre el que se integra la expansión. Esto conduce a una suma sobre el conjunto

{\ Displaystyle C}

de todos los diagramas de Feynman conectados . A partir de la energía libre de Helmholtz, cualquier momento conectado del campo se puede calcular mediante

{\ Displaystyle \ langle s_ {x_ {1}} \ ldots s_ {x_ {n}} \ rangle _ {(s | d)} ^ {\ text {c}} = {\ frac {\ parcial ^ {n} \ ln {\ mathcal {Z}}} {\ parcial j_ {x_ {1}} \ ldots \ parcial j_ {x_ {n}}}}.}

Las situaciones en las que existen pequeños parámetros de expansión que son necesarios para que dicha expansión diagramática converja están dadas por campos de señal casi gaussianos, donde la no gaussianidad de las estadísticas de campo conduce a pequeños coeficientes de interacción

{\ Displaystyle \ Lambda ^ {(n)}}

. Por ejemplo, las estadísticas del Fondo de microondas cósmico son casi gaussianas, con pequeñas cantidades de no gaussianidades que se cree que se sembraron durante la época inflacionaria en el Universo Temprano .

Acción eficaz

Para tener cifras estables para los problemas de IFT, se necesita un campo funcional que, si se minimiza, proporcione el campo medio posterior. Tal se da por la acción efectiva o energía libre de Gibbs de un campo. La energía libre de Gibbs ${\ Displaystyle G}$ se puede construir a partir de la energía libre de Helmholtz mediante una transformación de Legendre . En IFT, está dado por la diferencia de la energía de información interna

{\ Displaystyle U = \ langle {\ mathcal {H}} (d, s) \ rangle _ {{\ mathcal {P}} '(s | d')}}

y la entropía de Shannon

{\ Displaystyle {\ mathcal {S}} = - \ int {\ mathcal {D}} s \, {\ mathcal {P}} '(s | d') \, \ ln {\ mathcal {P}} ' (s | d ')}

para la temperatura

{\ Displaystyle T = 1}

, donde una aproximación posterior gaussiana

{\ Displaystyle {\ mathcal {P}} '(s | d') = {\ mathcal {G}} (sm, D)}

se utiliza con los datos aproximados

{\ Displaystyle d '= (m, D)}

que contiene la media y la dispersión del campo. ^[5]

La energía libre de Gibbs es entonces

{\ Displaystyle {\ begin {alineado} G (m, D) & = U (m, D) -T \, {\ mathcal {S}} (m, D) \\ & = \ langle {\ mathcal {H }} (d, s) + \ ln {\ mathcal {P}} '(s | d') \ rangle _ {{\ mathcal {P}} '(s | d')} \\ & = \ int { \ mathcal {D}} s \, {\ mathcal {P}} '(s | d') \, \ ln {\ frac {{\ mathcal {P}} '(s | d')} {{\ mathcal {P}} (d, s)}} \\ & = \ int {\ mathcal {D}} s \, {\ mathcal {P}} '(s | d') \, \ ln {\ frac {{ \ mathcal {P}} '(s | d')} {{\ mathcal {P}} (s | d) \, {\ mathcal {P}} (d)}} \\ & = \ int {\ mathcal {D}} s \, {\ mathcal {P}} '(s | d') \, \ ln {\ frac {{\ mathcal {P}} '(s | d')} {{\ mathcal {P }} (s | d)}} - \ ln \, {\ mathcal {P}} (d) \\ & = {\ text {KL}} ({\ mathcal {P}} '(s | d') || {\ mathcal {P}} (s | d)) - \ ln {\ mathcal {Z}} (d), \ end {alineado}}}

la divergencia Kullback-Leibler

{\ Displaystyle {\ text {KL}} ({\ mathcal {P}} ', {\ mathcal {P}})}

entre aproximada y posterior exacta más la energía libre de Helmholtz. Como este último no depende de los datos aproximados

{\ Displaystyle d '= (m, D)}

, minimizar la energía libre de Gibbs equivale a minimizar la divergencia de Kullback-Leibler entre posterior aproximada y exacta. Por lo tanto, el enfoque de acción efectiva de IFT es equivalente a los métodos bayesianos variacionales , que también minimizan la divergencia de Kullback-Leibler entre posteriores aproximados y exactos.

Minimizar la energía libre de Gibbs proporciona aproximadamente el campo medio posterior

{\ Displaystyle \ langle s \ rangle _ {(s | d)} = \ int {\ mathcal {D}} s \, s \, {\ mathcal {P}} (s | d),}

mientras que minimizar la información hamiltoniana proporciona el máximo campo a posteriori. Como se sabe que el último sobreajusta el ruido, el primero suele ser un mejor estimador de campo.

Formalismo del operador

El cálculo de la energía libre de Gibbs requiere el cálculo de integrales gaussianas sobre un hamiltoniano de información, ya que la energía de información interna es

{\ Displaystyle U (m, D) = \ langle {\ mathcal {H}} (d, s) \ rangle _ {{\ mathcal {P}} '(s | d')} = \ int {\ mathcal { D}} s \, {\ mathcal {H}} (d, s) \, {\ mathcal {G}} (sm, D).}

Dichas integrales se pueden calcular mediante un formalismo de operador de campo, ^[6] en el que

{\ Displaystyle O_ {m} = m + D \, {\ frac {\ mathrm {d}} {\ mathrm {d} m}}}

es el operador de campo. Esto genera la expresión de campo

{\ Displaystyle s}

dentro de la integral si se aplica a la función de distribución gaussiana,

{\ Displaystyle {\ begin {alineado} O_ {m} \, {\ mathcal {G}} (sm, D) & = (m + D \, {\ frac {\ mathrm {d}} {\ mathrm {d } m}}) \, {\ frac {1} {| 2 \ pi D | ^ {\ frac {1} {2}}}} \, \ exp \ left [- {\ frac {1} {2} } (sm) ^ {\ dagger} D ^ {- 1} (sm) \ right] \\ & = (m + D \, D ^ {- 1} (sm)) \, {\ frac {1} { | 2 \ pi D | ^ {\ frac {1} {2}}}} \, \ exp \ left [- {\ frac {1} {2}} (sm) ^ {\ dagger} D ^ {- 1 } (sm) \ right] \\ & = s \, {\ mathcal {G}} (sm, D), \ end {alineado}}}

y cualquier potencia superior del campo si se aplica varias veces,

{\ Displaystyle {\ begin {alineado} (O_ {m}) ^ {n} \, {\ mathcal {G}} (sm, D) & = s ^ {n} \, {\ mathcal {G}} ( sm, D). \ end {alineado}}}

Si la información hamiltoniana es analítica, todos sus términos se pueden generar a través del operador de campo

{\ Displaystyle {\ mathcal {H}} (d, O_ {m}) \, {\ mathcal {G}} (sm, D) = {\ mathcal {H}} (d, s) \, {\ mathcal {G}} (sm, D).}

Como el operador de campo no depende del campo

{\ Displaystyle s}

en sí mismo, se puede sacar de la ruta integral de la construcción de energía de información interna,

{\ Displaystyle U (m, D) = \ int {\ mathcal {D}} s \, {\ mathcal {H}} (d, O_ {m}) \, {\ mathcal {G}} (sm, D ) = {\ mathcal {H}} (d, O_ {m}) \ int {\ mathcal {D}} s \, {\ mathcal {G}} (sm, D) = {\ mathcal {H}} ( d, O_ {m}) \, 1_ {m},}

dónde

{\ Displaystyle 1_ {m} = 1}

debe considerarse como un funcional que siempre devuelve el valor

{\ Displaystyle 1}

independientemente del valor de su entrada

{\ Displaystyle m}

. La expresión resultante se puede calcular conmutando el aniquilador de campo medio

{\ Displaystyle D \, {\ frac {\ mathrm {d}} {\ mathrm {d} m}}}

a la derecha de la expresión, donde desaparecen desde

{\ Displaystyle {\ frac {\ mathrm {d}} {\ mathrm {d} m}} \, 1_ {m} = 0}

. El aniquilador de campo medio

{\ Displaystyle D \, {\ frac {\ mathrm {d}} {\ mathrm {d} m}}}

conmuta con el campo medio como

{\ Displaystyle \ left [D \, {\ frac {\ mathrm {d}} {\ mathrm {d} m}}, m \ right] = D \, {\ frac {\ mathrm {d}} {\ mathrm {d} m}} \, mm \, D \, {\ frac {\ mathrm {d}} {\ mathrm {d} m}} = D + m \, D \, {\ frac {\ mathrm {d }} {\ mathrm {d} m}} - m \, D \, {\ frac {\ mathrm {d}} {\ mathrm {d} m}} = D.}

Mediante el uso del formalismo del operador de campo, se puede calcular la energía libre de Gibbs, lo que permite la inferencia (aproximada) del campo medio posterior mediante una minimización funcional numérica robusta.

Historia

El libro de Norbert Wiener ^[7] podría considerarse como uno de los primeros trabajos sobre inferencia de campo. El uso de integrales de ruta para la inferencia de campo fue propuesto por varios autores, por ejemplo, Edmund Bertschinger ^[8] o William Bialek y A. Zee. ^[9] Jörg Lemm hizo explícita la conexión de la teoría de campos y el razonamiento bayesiano. ^[10] El término teoría del campo de información fue acuñado por Torsten Enßlin. ^[11] Consulte la última referencia para obtener más información sobre la historia de IFT.

Ver también

Inferencia bayesiana
Modelado jerárquico bayesiano
Proceso gaussiano
Inferencia estadística

Referencias

^ Enßlin, Torsten (2013). "Teoría del campo de información". Actas de la conferencia AIP . 1553 (1): 184-191. arXiv : 1301.2556 . Código Bibliográfico : 2013AIPC.1553..184E . doi : 10.1063 / 1.4819999 .
^ Enßlin, Torsten A. (2019). "Teoría de la información por campos". Annalen der Physik . 531 (3): 1800127. arXiv : 1804.03350 . Código bibliográfico : 2019AnP ... 53100127E . doi : 10.1002 / yp.201800127 .
^ "Teoría del campo de información" . Sociedad Max Planck . Consultado el 13 de noviembre de 2014 .
^ Enßlin, Torsten A .; Frommert, Mona (19 de mayo de 2011). "Reconstrucción de señales con espectros desconocidos en teoría de campos de información con incertidumbre de parámetros". Physical Review D . 83 (10): 105014. arXiv : 1002.2928 . Código Bibliográfico : 2011PhRvD..83j5014E . doi : 10.1103 / PhysRevD.83.105014 .
^ Enßlin, Torsten A. (2010). "Inferencia con mínima energía libre de Gibbs en la teoría del campo de información". Revisión E física . 82 (5): 051112. arXiv : 1004.2868 . Código Bibliográfico : 2010PhRvE..82e1112E . doi : 10.1103 / physreve.82.051112 . PMID 21230442 .
^ Leike, Reimar H .; Enßlin, Torsten A. (16 de noviembre de 2016). "Cálculo de operadores para la teoría de campos de información". Revisión E física . 94 (5): 053306. arXiv : 1605.00660 . Código bibliográfico : 2016PhRvE..94e3306L . doi : 10.1103 / PhysRevE.94.053306 . PMID 27967173 .
^ (1894-1964), Wiener, Norbert (1964). Extrapolación, interpolación y suavizado de series de tiempo estacionarias con aplicaciones de ingeniería (Quinta edición de la imprenta). Cambridge, Mass .: Technology Press del Instituto de Tecnología de Massachusetts. ISBN 0262730057. OCLC 489911338 .CS1 maint: nombres numéricos: lista de autores ( enlace )
^ Bertschinger, Edmund (diciembre de 1987). "Métodos de ruta integral para perturbaciones de densidad primordial - Muestreo de campos aleatorios gaussianos restringidos". El diario astrofísico . 323 : L103 – L106. Código Bibliográfico : 1987ApJ ... 323L.103B . doi : 10.1086 / 185066 . ISSN 0004-637X .
^ Bialek, William; Zee, A. (26 de septiembre de 1988). "Comprensión de la eficiencia de la percepción humana". Cartas de revisión física . 61 (13): 1512-1515. Código Bibliográfico : 1988PhRvL..61.1512B . doi : 10.1103 / PhysRevLett.61.1512 . PMID 10038817 .
^ C., Lemm, Jörg (2003). Teoría del campo bayesiano . Baltimore, Maryland: Prensa de la Universidad Johns Hopkins. ISBN 9780801872204. OCLC 52762436 .
^ Enßlin, Torsten A .; Frommert, Mona; Kitaura, Francisco S. (9 de noviembre de 2009). "Teoría del campo de información para la reconstrucción de perturbaciones cosmológicas y análisis de señales no lineales". Physical Review D . 80 (10): 105005. arXiv : 0806.3474 . Código Bibliográfico : 2009PhRvD..80j5005E . doi : 10.1103 / PhysRevD.80.105005 .

[1] Enßlin, Torsten (2013). "Teoría del campo de información". Actas de la conferencia AIP . 1553 (1): 184-191. arXiv : 1301.2556 . Código Bibliográfico : 2013AIPC.1553..184E . doi : 10.1063 / 1.4819999 .

[2] Enßlin, Torsten A. (2019). "Teoría de la información por campos". Annalen der Physik . 531 (3): 1800127. arXiv : 1804.03350 . Código bibliográfico : 2019AnP ... 53100127E . doi : 10.1002 / yp.201800127 .

[3] "Teoría del campo de información" . Sociedad Max Planck . Consultado el 13 de noviembre de 2014 .

[4] Enßlin, Torsten A .; Frommert, Mona (19 de mayo de 2011). "Reconstrucción de señales con espectros desconocidos en teoría de campos de información con incertidumbre de parámetros". Physical Review D . 83 (10): 105014. arXiv : 1002.2928 . Código Bibliográfico : 2011PhRvD..83j5014E . doi : 10.1103 / PhysRevD.83.105014 .

[5] Enßlin, Torsten A. (2010). "Inferencia con mínima energía libre de Gibbs en la teoría del campo de información". Revisión E física . 82 (5): 051112. arXiv : 1004.2868 . Código Bibliográfico : 2010PhRvE..82e1112E . doi : 10.1103 / physreve.82.051112 . PMID 21230442 .

[6] Leike, Reimar H .; Enßlin, Torsten A. (16 de noviembre de 2016). "Cálculo de operadores para la teoría de campos de información". Revisión E física . 94 (5): 053306. arXiv : 1605.00660 . Código bibliográfico : 2016PhRvE..94e3306L . doi : 10.1103 / PhysRevE.94.053306 . PMID 27967173 .

[7] (1894-1964), Wiener, Norbert (1964). Extrapolación, interpolación y suavizado de series de tiempo estacionarias con aplicaciones de ingeniería (Quinta edición de la imprenta). Cambridge, Mass .: Technology Press del Instituto de Tecnología de Massachusetts. ISBN 0262730057. OCLC 489911338 .CS1 maint: nombres numéricos: lista de autores ( enlace )

[8] Bertschinger, Edmund (diciembre de 1987). "Métodos de ruta integral para perturbaciones de densidad primordial - Muestreo de campos aleatorios gaussianos restringidos". El diario astrofísico . 323 : L103 – L106. Código Bibliográfico : 1987ApJ ... 323L.103B . doi : 10.1086 / 185066 . ISSN 0004-637X .

[9] Bialek, William; Zee, A. (26 de septiembre de 1988). "Comprensión de la eficiencia de la percepción humana". Cartas de revisión física . 61 (13): 1512-1515. Código Bibliográfico : 1988PhRvL..61.1512B . doi : 10.1103 / PhysRevLett.61.1512 . PMID 10038817 .

[10] C., Lemm, Jörg (2003). Teoría del campo bayesiano . Baltimore, Maryland: Prensa de la Universidad Johns Hopkins. ISBN 9780801872204. OCLC 52762436 .

[11] Enßlin, Torsten A .; Frommert, Mona; Kitaura, Francisco S. (9 de noviembre de 2009). "Teoría del campo de información para la reconstrucción de perturbaciones cosmológicas y análisis de señales no lineales". Physical Review D . 80 (10): 105005. arXiv : 0806.3474 . Código Bibliográfico : 2009PhRvD..80j5005E . doi : 10.1103 / PhysRevD.80.105005 .

[1]