Función de partición (matemáticas)

La función de partición o integral de configuración , tal como se utiliza en la teoría de la probabilidad , la teoría de la información y los sistemas dinámicos , es una generalización de la definición de una función de partición en mecánica estadística . Es un caso especial de una constante de normalización en la teoría de la probabilidad, para la distribución de Boltzmann . La función de partición se produce en muchos problemas de la teoría de la probabilidad porque, en situaciones en las que existe una simetría natural, su medida de probabilidad asociada , la medida de Gibbs , tiene la propiedad de Markov.. Esto significa que la función de partición ocurre no solo en sistemas físicos con simetría de traducción, sino también en entornos tan variados como redes neuronales (la red Hopfield ) y aplicaciones como genómica , lingüística de corpus e inteligencia artificial , que emplean redes de Markov y Markov. redes lógicas . La medida de Gibbs es también la única medida que tiene la propiedad de maximizar la entropía para un valor esperado fijo de la energía; esto subyace en la aparición de la función de partición en los métodos de máxima entropía y los algoritmos derivados de ellos.

La función de partición une muchos conceptos diferentes y, por lo tanto, ofrece un marco general en el que se pueden calcular muchos tipos diferentes de cantidades. En particular, muestra cómo calcular los valores esperados y las funciones de Green , formando un puente hacia la teoría de Fredholm . También proporciona un escenario natural para el enfoque de la geometría de la información a la teoría de la información, donde la métrica de información de Fisher puede entenderse como una función de correlación derivada de la función de partición; pasa a definir una variedad riemanniana .

Cuando la configuración de las variables aleatorias está en el espacio proyectivo complejo o en el espacio proyectivo de Hilbert , geometrizado con la métrica Fubini-Study , se obtiene la teoría de la mecánica cuántica y, en general, la teoría cuántica de campos . En estas teorías, la función de partición se explota en gran medida en la formulación de la integral de ruta , con gran éxito, lo que lleva a muchas fórmulas casi idénticas a las analizadas aquí. Sin embargo, debido a que el espacio de medida subyacente tiene un valor complejo, a diferencia del simplex de valor real de la teoría de la probabilidad, aparece un factor adicional de i en muchas fórmulas. El seguimiento de este factor es problemático y no se realiza aquí. Este artículo se centra principalmente en la teoría clásica de la probabilidad, donde la suma de probabilidades es uno.

Definición

Dado un conjunto de variables aleatorias ${\ Displaystyle X_ {i}}$ tomando valores ${\ Displaystyle x_ {i}}$ , y algún tipo de función potencial o hamiltoniana ${\ Displaystyle H (x_ {1}, x_ {2}, \ dots)}$ , la función de partición se define como

{\ Displaystyle Z (\ beta) = \ sum _ {x_ {i}} \ exp \ left (- \ beta H (x_ {1}, x_ {2}, \ dots) \ right)}

Se entiende que la función H es una función de valor real en el espacio de estados ${\ Displaystyle \ {X_ {1}, X_ {2}, \ cdots \}}$ , tiempo ${\ Displaystyle \ beta}$ es un parámetro libre de valor real (convencionalmente, la temperatura inversa ). La suma sobre el ${\ Displaystyle x_ {i}}$ se entiende que es una suma de todos los valores posibles que cada una de las variables aleatorias ${\ Displaystyle X_ {i}}$ puede tomar. Por tanto, la suma debe ser reemplazada por una integral cuando el ${\ Displaystyle X_ {i}}$ son continuos, en lugar de discretos. Así, se escribe

{\ Displaystyle Z (\ beta) = \ int \ exp \ left (- \ beta H (x_ {1}, x_ {2}, \ dots) \ right) \, dx_ {1} \, dx_ {2} \ cdots}

para el caso de variación continua ${\ Displaystyle X_ {i}}$ .

Cuando H es un observable , como una matriz de dimensión finita o un operador espacial de Hilbert de dimensión infinita o un elemento de un álgebra de estrellas C , es común expresar la suma como una traza , de modo que

{\ Displaystyle Z (\ beta) = \ operatorname {tr} \ left (\ exp \ left (- \ beta H \ right) \ right)}

Cuando H es de dimensión infinita, entonces, para que la notación anterior sea válida, el argumento debe ser de clase de rastreo , es decir, de una forma tal que la suma exista y esté acotada.

El número de variables ${\ Displaystyle X_ {i}}$ no necesita ser contable , en cuyo caso las sumas deben ser reemplazadas por integrales funcionales . Aunque hay muchas notaciones para integrales funcionales, una común sería

{\ Displaystyle Z = \ int {\ mathcal {D}} \ varphi \ exp \ left (- \ beta H [\ varphi] \ right)}

Tal es el caso de la función de partición en la teoría cuántica de campos .

Una modificación común y útil a la función de partición es introducir funciones auxiliares. Esto permite, por ejemplo, utilizar la función de partición como función generadora de funciones de correlación . Esto se analiza con mayor detalle a continuación.

El parámetro β

El rol o significado del parámetro ${\ Displaystyle \ beta}$ puede entenderse de diversas formas. En termodinámica clásica, es una temperatura inversa . De manera más general, se diría que es la variable que se conjuga a alguna función (arbitraria) ${\ Displaystyle H}$ de las variables aleatorias ${\ Displaystyle X}$ . La palabra conjugar aquí se usa en el sentido de coordenadas generalizadas conjugadas en la mecánica de Lagrange , por lo tanto, apropiadamente ${\ Displaystyle \ beta}$ es un multiplicador de Lagrange . No es raro que se le llame fuerza generalizada . Todos estos conceptos tienen en común la idea de que un valor debe mantenerse fijo, mientras que otros, interconectados de alguna manera complicada, pueden variar. En el caso actual, el valor que debe mantenerse fijo es el valor esperado de ${\ Displaystyle H}$ , incluso tantas distribuciones de probabilidad diferentes pueden dar lugar a exactamente este mismo valor (fijo).

Para el caso general, se considera un conjunto de funciones ${\ Displaystyle \ {H_ {k} (x_ {1}, \ cdots) \}}$ que cada uno depende de las variables aleatorias ${\ Displaystyle X_ {i}}$ . Estas funciones se eligen porque uno quiere mantener constantes sus valores esperados, por una razón u otra. Para restringir los valores esperados de esta manera, se aplica el método de los multiplicadores de Lagrange . En el caso general, los métodos de máxima entropía ilustran la forma en que se hace esto.

Algunos ejemplos específicos están en orden. En problemas de termodinámica básica, cuando se usa el conjunto canónico , el uso de un solo parámetro ${\ Displaystyle \ beta}$ refleja el hecho de que solo hay un valor esperado que debe mantenerse constante: la energía libre (debido a la conservación de la energía ). Para problemas de química que involucran reacciones químicas, el gran conjunto canónico proporciona la base adecuada y hay dos multiplicadores de Lagrange. Una es mantener constante la energía y otra, la fugacidad , es mantener constante el recuento de partículas (ya que las reacciones químicas implican la recombinación de un número fijo de átomos).

Para el caso general, uno tiene

{\ Displaystyle Z (\ beta) = \ sum _ {x_ {i}} \ exp \ left (- \ sum _ {k} \ beta _ {k} H_ {k} (x_ {i}) \ right)}

con ${\ Displaystyle \ beta = (\ beta _ {1}, \ beta _ {2}, \ cdots)}$ un punto en un espacio.

Para una colección de observables ${\ Displaystyle H_ {k}}$ , uno escribiría

{\ Displaystyle Z (\ beta) = \ operatorname {tr} \ left [\, \ exp \ left (- \ sum _ {k} \ beta _ {k} H_ {k} \ right) \ right]}

Como antes, se presume que el argumento de tr es una clase de rastreo .

La medida de Gibbs correspondiente proporciona una distribución de probabilidad tal que el valor esperado de cada ${\ Displaystyle H_ {k}}$ es un valor fijo. Más precisamente, uno tiene

{\ Displaystyle {\ frac {\ parcial} {\ parcial \ beta _ {k}}} \ izquierda (- \ log Z \ derecha) = \ langle H_ {k} \ rangle = \ mathrm {E} \ izquierda [H_ {k} \ right]}

con los corchetes angulares ${\ Displaystyle \ langle H_ {k} \ rangle}$ que denota el valor esperado de ${\ Displaystyle H_ {k}}$ , y ${\ Displaystyle \ mathrm {E} [\;]}$ siendo una notación alternativa común. A continuación se ofrece una definición precisa de este valor esperado.

Aunque el valor de ${\ Displaystyle \ beta}$ se toma comúnmente como real, no tiene por qué serlo, en general; esto se discute en la sección Normalización a continuación. Los valores de ${\ Displaystyle \ beta}$ puede entenderse como las coordenadas de puntos en un espacio; este espacio es de hecho una variedad , como se esboza a continuación. El estudio de estos espacios como múltiples constituye el campo de la geometría de la información .

Simetría

La función potencial en sí misma comúnmente toma la forma de una suma:

{\ Displaystyle H (x_ {1}, x_ {2}, \ dots) = \ sum _ {s} V (s) \,}

donde la suma sobre s es una suma sobre algún subconjunto del conjunto de potencias P ( X ) del conjunto ${\ Displaystyle X = \ lbrace x_ {1}, x_ {2}, \ dots \ rbrace}$ . Por ejemplo, en mecánica estadística , como el modelo de Ising , la suma es sobre pares de vecinos más cercanos. En la teoría de la probabilidad, como las redes de Markov , la suma podría estar sobre las camarillas de un gráfico; entonces, para el modelo de Ising y otros modelos de celosía , las camarillas máximas son los bordes.

El hecho de que la función potencial pueda escribirse como una suma generalmente refleja el hecho de que es invariante bajo la acción de una simetría de grupo , como la invariancia traslacional . Estas simetrías pueden ser discretas o continuas; se materializan en las funciones de correlación para las variables aleatorias (discutidas a continuación). Así, una simetría en el hamiltoniano se convierte en una simetría de la función de correlación (y viceversa).

Esta simetría tiene una interpretación de importancia crítica en la teoría de la probabilidad: implica que la medida de Gibbs tiene la propiedad de Markov ; es decir, es independiente de las variables aleatorias de cierta manera o, de manera equivalente, la medida es idéntica en las clases de equivalencia de la simetría. Esto conduce a la aparición generalizada de la función de partición en problemas con la propiedad de Markov, como las redes de Hopfield .

Como medida

El valor de la expresión

{\ Displaystyle \ exp \ left (- \ beta H (x_ {1}, x_ {2}, \ dots) \ right)}

puede interpretarse como una probabilidad de que una configuración específica de valores ${\ Displaystyle (x_ {1}, x_ {2}, \ dots)}$ ocurre en el sistema. Así, dada una configuración específica ${\ Displaystyle (x_ {1}, x_ {2}, \ dots)}$ ,

{\ Displaystyle P (x_ {1}, x_ {2}, \ dots) = {\ frac {1} {Z (\ beta)}} \ exp \ left (- \ beta H (x_ {1}, x_ { 2}, \ puntos) \ derecha)}

es la probabilidad de la configuración ${\ Displaystyle (x_ {1}, x_ {2}, \ dots)}$ que ocurre en el sistema, que ahora está correctamente normalizado para que ${\ Displaystyle 0 \ leq P (x_ {1}, x_ {2}, \ dots) \ leq 1}$ , y tal que la suma de todas las configuraciones sea uno. Como tal, se puede entender que la función de partición proporciona una medida (una medida de probabilidad ) en el espacio de probabilidad ; formalmente, se llama la medida de Gibbs . Generaliza los conceptos más estrechos del gran conjunto canónico y el conjunto canónico en mecánica estadística.

Existe al menos una configuración ${\ Displaystyle (x_ {1}, x_ {2}, \ dots)}$ para lo cual se maximiza la probabilidad; esta configuración se denomina convencionalmente estado fundamental . Si la configuración es única, se dice que el estado fundamental no es degenerado y que el sistema es ergódico ; de lo contrario, el estado fundamental es degenerado . El estado fundamental puede conmutar o no con los generadores de la simetría; si conmuta, se dice que es una medida invariante . Cuando no conmuta, se dice que la simetría se rompe espontáneamente .

Las condiciones bajo las cuales existe un estado fundamental y es único están dadas por las condiciones de Karush-Kuhn-Tucker ; estas condiciones se usan comúnmente para justificar el uso de la medida de Gibbs en problemas de máxima entropía. ^{[ cita requerida ]}

Normalización

Los valores tomados por ${\ Displaystyle \ beta}$ dependen del espacio matemático sobre el que varía el campo aleatorio. Por lo tanto, los campos aleatorios de valor real toman valores en un simplex : esta es la forma geométrica de decir que la suma de probabilidades debe sumar uno. Para la mecánica cuántica, las variables aleatorias se extienden sobre el espacio proyectivo complejo (o el espacio de Hilbert proyectivo de valor complejo ), donde las variables aleatorias se interpretan como amplitudes de probabilidad . El énfasis aquí está en la palabra proyectiva , ya que las amplitudes todavía están normalizadas a uno. La normalización para la función potencial es el jacobiano para el espacio matemático apropiado: es 1 para probabilidades ordinarias e i para el espacio de Hilbert; así, en la teoría cuántica de campos , uno ve ${\ Displaystyle itH}$ en el exponencial, en lugar de ${\ Displaystyle \ beta H}$ . La función de partición se explota en gran medida en la formulación integral de trayectoria de la teoría cuántica de campos, con gran efecto. La teoría allí es casi idéntica a la que se presenta aquí, aparte de esta diferencia, y el hecho de que generalmente se formula en el espacio-tiempo de cuatro dimensiones, más que de una manera general.

Valores de expectativa

La función de partición se usa comúnmente como una función generadora de probabilidad para los valores esperados de varias funciones de las variables aleatorias. Entonces, por ejemplo, tomando ${\ Displaystyle \ beta}$ como un parámetro ajustable, entonces la derivada de ${\ Displaystyle \ log (Z (\ beta))}$ con respecto a ${\ Displaystyle \ beta}$

{\ Displaystyle \ mathbf {E} [H] = \ langle H \ rangle = - {\ frac {\ partial \ log (Z (\ beta))} {\ partial \ beta}}}

da el (valor esperado) promedio de H . En física, esto se llamaría la energía promedio del sistema.

Dada la definición de la medida de probabilidad anterior, el valor esperado de cualquier función f de las variables aleatorias X ahora se puede escribir como se esperaba: entonces, para X con valores discretos , se escribe

{\ Displaystyle {\ begin {alineado} \ langle f \ rangle & = \ sum _ {x_ {i}} f (x_ {1}, x_ {2}, \ dots) P ​​(x_ {1}, x_ {2 }, \ puntos) \\ & = {\ frac {1} {Z (\ beta)}} \ sum _ {x_ {i}} f (x_ {1}, x_ {2}, \ puntos) \ exp \ izquierda (- \ beta H (x_ {1}, x_ {2}, \ puntos) \ derecha) \ end {alineado}}}

La notación anterior es estrictamente correcta para un número finito de variables aleatorias discretas, pero debería considerarse algo "informal" para las variables continuas; correctamente, las sumas anteriores deben reemplazarse con las notaciones del álgebra sigma subyacente que se usa para definir un espacio de probabilidad . Dicho esto, las identidades continúan siendo válidas cuando se formulan correctamente en un espacio de medida .

Así, por ejemplo, la entropía viene dada por

{\ Displaystyle {\ begin {alineado} S & = - k_ {B} \ langle \ ln P \ rangle \\ & = - k_ {B} \ sum _ {x_ {i}} P (x_ {1}, x_ { 2}, \ dots) \ ln P (x_ {1}, x_ {2}, \ dots) \\ & = k_ {B} (\ beta \ langle H \ rangle + \ log Z (\ beta)) \ end {alineado}}}

La medida de Gibbs es la distribución estadística única que maximiza la entropía para un valor esperado fijo de la energía; esto subyace a su uso en métodos de máxima entropía .

Geometría de la información

Los puntos ${\ Displaystyle \ beta}$ puede entenderse que forma un espacio, y concretamente, una multiplicidad . Por tanto, es razonable preguntarse por la estructura de esta variedad; esta es la tarea de la geometría de la información .

Múltiples derivadas con respecto a los multiplicadores de Lagrange dan lugar a una matriz de covarianza semidefinida positiva

{\ Displaystyle g_ {ij} (\ beta) = {\ frac {\ parcial ^ {2}} {\ parcial \ beta ^ {i} \ parcial \ beta ^ {j}}} \ left (- \ log Z ( \ beta) \ right) = \ langle \ left (H_ {i} - \ langle H_ {i} \ rangle \ right) \ left (H_ {j} - \ langle H_ {j} \ rangle \ right) \ rangle}

Esta matriz es semidefinida positiva y puede interpretarse como un tensor métrico , específicamente, una métrica de Riemann . Equipar el espacio de los multiplicadores de Lagrange con una métrica de esta manera lo convierte en una variedad de Riemann . ^[1] El estudio de tales variedades se conoce como geometría de la información ; la métrica anterior es la métrica de información de Fisher . Aquí, ${\ Displaystyle \ beta}$ sirve como una coordenada en el colector. Es interesante comparar la definición anterior con la información más simple de Fisher , de la que se inspira.

Que lo anterior define la métrica de información de Fisher se puede ver fácilmente sustituyendo explícitamente el valor esperado:

{\ Displaystyle {\ begin {alineado} g_ {ij} (\ beta) & = \ langle \ left (H_ {i} - \ langle H_ {i} \ rangle \ right) \ left (H_ {j} - \ langle H_ {j} \ rangle \ right) \ rangle \\ & = \ sum _ {x} P (x) \ left (H_ {i} - \ langle H_ {i} \ rangle \ right) \ left (H_ {j } - \ langle H_ {j} \ rangle \ right) \\ & = \ sum _ {x} P (x) \ left (H_ {i} + {\ frac {\ parcial \ log Z} {\ parcial \ beta _ {i}}} \ derecha) \ izquierda (H_ {j} + {\ frac {\ parcial \ log Z} {\ parcial \ beta _ {j}}} \ derecha) \\ & = \ sum _ {x } P (x) {\ frac {\ parciales \ log P (x)} {\ parciales \ beta ^ {i}}} {\ frac {\ parciales \ log P (x)} {\ parciales \ beta ^ {j }}} \\\ end {alineado}}}

donde hemos escrito ${\ Displaystyle P (x)}$ por ${\ Displaystyle P (x_ {1}, x_ {2}, \ dots)}$ y se entiende que la suma está sobre todos los valores de todas las variables aleatorias ${\ Displaystyle X_ {k}}$ . Para las variables aleatorias de valores continuos, las sumas se reemplazan por integrales, por supuesto.

Curiosamente, la métrica de información de Fisher también puede entenderse como la métrica euclidiana de espacio plano , después de un cambio apropiado de variables, como se describe en el artículo principal al respecto. Cuando el ${\ Displaystyle \ beta}$ tienen valores complejos, la métrica resultante es la métrica Fubini-Study . Cuando se escribe en términos de estados mixtos , en lugar de estados puros , se conoce como la métrica de Bures .

Funciones de correlación

Introduciendo funciones auxiliares artificiales ${\ Displaystyle J_ {k}}$ en la función de partición, se puede utilizar para obtener el valor esperado de las variables aleatorias. Así, por ejemplo, escribiendo

{\ Displaystyle {\ begin {alineado} Z (\ beta, J) & = Z (\ beta, J_ {1}, J_ {2}, \ dots) \\ & = \ sum _ {x_ {i}} \ exp \ left (- \ beta H (x_ {1}, x_ {2}, \ dots) + \ sum _ {n} J_ {n} x_ {n} \ right) \ end {alineado}}}

uno entonces tiene

{\ Displaystyle \ mathbf {E} [x_ {k}] = \ langle x_ {k} \ rangle = \ left. {\ frac {\ partial} {\ partial J_ {k}}} \ log Z (\ beta, J) \ derecha | _ {J = 0}}

como el valor esperado de ${\ Displaystyle x_ {k}}$ . En la formulación integral de trayectoria de la teoría cuántica de campos , estas funciones auxiliares se denominan comúnmente campos fuente .

Múltiples diferenciaciones conducen a las funciones de correlación conectadas de las variables aleatorias. Por tanto, la función de correlación ${\ Displaystyle C (x_ {j}, x_ {k})}$ entre variables ${\ Displaystyle x_ {j}}$ y ${\ Displaystyle x_ {k}}$ es dado por:

{\ Displaystyle C (x_ {j}, x_ {k}) = \ left. {\ frac {\ parcial} {\ parcial J_ {j}}} {\ frac {\ parcial} {\ parcial J_ {k}} } \ log Z (\ beta, J) \ right | _ {J = 0}}

Integrales gaussianas

Para el caso donde H se puede escribir como una forma cuadrática que involucra un operador diferencial , es decir, como

{\ Displaystyle H = {\ frac {1} {2}} \ sum _ {n} x_ {n} Dx_ {n}}

entonces puede entenderse que la función de partición es una suma o integral sobre los gaussianos. La función de correlación ${\ Displaystyle C (x_ {j}, x_ {k})}$ puede entenderse que es la función de Green para el operador diferencial (y que en general da lugar a la teoría de Fredholm ). En el contexto de la teoría cuántica de campos, estas funciones se denominan propagadores ; los correlacionadores de orden superior se denominan funciones de n puntos; trabajar con ellos define la acción efectiva de una teoría.

Cuando las variables aleatorias son anti desplazamientos números de Grassmann , a continuación, la función de partición se puede expresar como un determinante del operador D . Esto se hace escribiéndolo como una integral de Berezin (también llamada integral de Grassmann).

Propiedades generales

Las funciones de partición se utilizan para discutir la escala crítica , la universalidad y están sujetas al grupo de renormalización .

Ver también

Familia exponencial
Función de partición (mecánica estadística)
Campo aleatorio de Markov

Referencias

^ Ladrones, Gavin E. (2007). "Medición de la longitud termodinámica". Phys. Rev. Lett. 99 (10): 100602. arXiv : 0706.0559 . Código bibliográfico : 2007PhRvL..99j0602C . doi : 10.1103 / PhysRevLett.99.100602 .

[1] Ladrones, Gavin E. (2007). "Medición de la longitud termodinámica". Phys. Rev. Lett. 99 (10): 100602. arXiv : 0706.0559 . Código bibliográfico : 2007PhRvL..99j0602C . doi : 10.1103 / PhysRevLett.99.100602 .