指数型分布族 (統計)

1 指数分布族

指数型分布族とは、 $\theta = (\theta_1,\dots,\theta_n)$ でパラメータ付けされた確率分布の族 $\{\Pr(A;\theta)\}_\theta$ であり、 更に確率密度が以下の形を持つような物を指す。

d\Pr(\omega;\theta) &= \frac1{N(\theta)} e^{-\theta\cdot \hat Q} d\mu(\omega), \\ N(\theta) &= \int_{\Omega} e^{-\theta\cdot \hat Q} d\mu(\omega).

但し、$\mu$ は測度。$\hat Q = (\hat Q_1(\omega), \dots, \hat Q_n(\omega))$ は確率変数。$N(\theta)$ は規格化。

2 最大エントロピー原理

指数型分布族は 「$\langle \hat Q\rangle = (\langle \hat Q_1\rangle, \dots, \langle \hat Q_n\rangle) = Q$ を与えた時にそれを実現するエントロピーを最大化する確率分布」と解釈することができる。 以下具体的にそれを見ていく事にする。

2.1 定義: 情報量

何か新しい情報を得た時に得られる "情報量" を先ず定義する。 或る試行で事象$E$が起こったという情報を得るときの情報量は $I(E) := -\ln \Pr(E)$ で定義される。

説明

例えば前日の天気予報で今日が晴れの確率が1%で雨の確率が99%だったとする。 窓を開けて今日の天気を確認するという試行を考える。 もし窓を開けて雨だったら予想通りなので新しい情報を得たとは言いにくい。 窓を開けて晴れだったら何か予想外のことがあったということなので新しい情報を得たと言える。 ここで、情報量$I$をその事が実現する確率 $\Pr(E)$ を使って定義したい。 つまり、$I=I[\Pr(E)]$。 特に、確率の大きい(=ありふれた)情報ほど情報量が小さく、 確率の小さい(=珍しい)情報ほど情報量が大きくなるようにしたい。

更に、独立事象$A$,$B$を観測する場合を考える。 $A$かつ$B$を観測する情報量$I[\Pr(A\cap B)] = I[\Pr(A)\cdot \Pr(B)]$は、 $A$と$B$を別々に観測して得る情報量の和 $I[\Pr(A)]+I[\Pr(B)]$ であって欲しい。 これを満たす関数 $I[p]$ は $I[p] = C \ln p$ の形でなければならない。 特に、確率が大きいほど情報量が小さくなるようにしたいので $C<0$ である。 ここでは $C=-1$ に取る事にするが、実はこの選び方は自由である。 正の定数倍の自由度がある。

2.2 定義: エントロピー

エントロピーは何らかの観測をする時に得られる情報量の期待値として定義される。 Shanonエントロピーを以下の様に定義する。

S = \langle I(E)\rangle = -\int_\Omega d\mu(\omega) p(\omega) \ln p(\omega).

説明

観測対象が離散集合 $\{E_i\}_i$ の場合には、 各事象の確率 $\{p_i\}_i$ を使って、 素朴には以下の様に定義すれば良い。

S = \langle I(E)\rangle = -\sum_i p_i \ln p_i

観測対象が連続集合の場合には、確率測度 $\Pr$ に対して、

S &= \langle I(E)\rangle = -\int_\Omega dX p(X) \ln p(X).

とすれば良い様な気がする。 但し、確率密度 $p(X) := d\Pr(X)/dX$ は $X$ を変数を見た時の確率密度である。 この定義だと積分測度$dX$が変数$X$の取り方(空間$\Omega$の中の座標の入れ方)に依存している。 つまり$p(X)$も積分測度に依存している。積分測度$d\mu$に対する依存性をより明示的に表せば、

S &= -\int_{\Omega} d\mu \frac{d\Pr}{d\mu} \ln \frac{d\Pr}{d\mu} \\ &= -\int_{\Omega} d\Pr \ln \frac{d\Pr}{d\mu} \\ &= -D_{KL}(\Pr\|\mu)

になる。因みに、$D_{KL}$ はカルバック・ライブラー情報量 (KLダイバージェンス) と呼ばれるものである。

2.3 最大エントロピー原理

最大エントロピー原理 [1-4] は、 未知の確率分布 $p(X)$ について、 特定の条件(制約)が分かっている際に、 確率分布を一意に定めるために使う考え方である: 即ち、指定した制約の下でエントロピーが最大になる様に確率分布を定める。

説明

これが意味するところは、 「$X$ を測定する事によって得ることができる情報量を最大化するように確率分布を定める」という事である。 言い換えれば「既に持っている情報量ができるだけ少なくなるように分布を定める」という事になる。 指定の制約の下で最も "偏見のない" 確率分布をこうして定める。

例えば、或る試行によって結果が $r=1,2,3$ の何れかを取るとして、 事前に何の情報もなかったとすると、 取り敢えず何れも 1/3 の等確率で生起する($p_1 = p_2 = p_3 = 1/3$)と定めるのが適当であるように思われる。 これは丁度 $S = -\sum_{r=1}^3 p_r \ln p_r$ を最大化する確率分布になっている。

ラグランジュの未定乗数法を用いれば、具体的に上記の確率分布を求めることができる。 未知変数は $\{p_i\}_{i=1}^3$ で、制約は規格化 $\sum_{i=1}^3 p_i=1$ である。 関数 $F(\{p_i\},\lambda) = S - \lambda (\sum_{i=1}^3 p_i - 1)$ を最大化すれば良い。 $0 = \frac{\partial F}{\partial p_i} = -\ln p_i - 1-\lambda$ より、 $p_1 = p_2 = p_3 = e^{-1-\lambda} = \mathrm{const}$ であり、 $0 = \frac{\partial F}{\partial\lambda} = \sum_{i=1}^3 p_i - 1$ より、 停留点が $p_1 = p_2 = p_3 = 1/3$ と定まる。 実際にこれが最大値を与えることを示すことができる (省略)。

但し、エントロピーの定義は一般には $S = -\sum_{r=1}^3 \mu_r p_r \ln p_r$ の形で好きに定めることができ、 特に $\mu_r$ の定め方によって結果は異なってくる事に注意する。

2.4 確率変数の期待値が既知のとき

確率変数 $\hat Q=(\hat Q_1,\dots,\hat Q_n)$ の期待値が既知の時の確率分布を最大エントロピー原理に従って求めてみる。 確率分布に対する制約は以下の様に書かれる。

1 &= \int d\mu(\omega) p(\omega), \\ Q_i &= \langle \hat Q_i\rangle = \int d\mu(\omega) p(\omega) \hat Q_i(\omega),\quad\text{for $i=1,\dots,n$}.

ラグランジュの未定乗数 $\theta = (\theta_1,\dots,\theta_n)$ と $\lambda$ を導入して、 最大化関数を以下の様に定める。

F[p, \lambda, \theta] &= S - \lambda \int d\mu(\omega) p(\omega) - \theta\cdot\langle \hat Q\rangle \\ &= -\int d\mu(\omega) p(\omega)[\ln p(\omega) + \lambda + \theta\cdot\hat Q].

停留点に対する条件

0 &= \frac{\delta F}{\delta p(\omega)} = \mu(\omega) [\ln p(\omega) + \lambda + \theta\cdot \hat Q(\omega) + 1]

より $N = e^{1+\lambda}$ を導入すれば、

p(\omega) &= \frac1N e^{- \theta\cdot \hat Q(X)}

の形を得る。$\theta(Q)$ は $Q=\langle\hat Q\rangle$ を満たす様に調整するパラメータと見ることができ、 原理的には制約を逆に解く事によって $Q$ から計算できる。 然し、多くの場合それは簡単ではないので、 確率分布を $Q$ ではなく $\theta$ でパラメータ付けられた物と考える。 この時、ここで得られる分布は指数型分布族を為す。

2.5 例

既に簡単に見たが、制約が(規格化以外に)ない場合は一様分布が得られる。 但し、"一様"とはエントロピーを定義する際の積分測度の上で一様であるという事を意味する。

期待値を制約として与えると指数分布が得られる。

期待値と分散を制約として与えるとガウス分布が得られる。 つまり、ガウス分布は指定の期待値と分散を実現する分布でエントロピーを最大化するものと見られる。

3 統計集団 (statistical ensemble)

統計力学において統計集団とは要するに微視的状態の確率分布の事である。 何れも最大エントロピー原理による指数型分布族として解釈することができる。

3.1 小正準集団 (microcanonical ensemble)

これは条件として微視的エネルギー及びその他の量を固定して ($d\mu = \delta(\hat E -E)\delta(\hat N - N)\frac{dx^3dp^3}{h^3}$)、 その他には制約を置かない。測度として位相体積 $dx^3dp^3$ を選ぶのは、通常、時間発展が位相体積を保存する (Liouville の定理) ことと、 長時間待って位相空間の点が十分混合されるとこれについて一様になるだろうという議論の下で正当化される。 他に制約がないのでエントロピー最大化によって確率密度は $\mu$ 上の一様分布となる (等重率の原理)。

d\Pr &= \frac1W d\mu

となり、規格化定数 $W(E,N)$ は状態数 である。エントロピーを定義通りに計算すると

S &= \ln W

となる。

3.2 正準集団 (canonical ensemble)

エネルギーについての条件を緩めて、エネルギー期待値を制約として与える。 基準の測度は $d\mu = \delta(\hat N - N)\frac{dx^3dp^3}{h^3}$ であり、 最大エントロピー原理により得られる確率測度は、

d\Pr &= \frac1Z e^{-\beta \hat E} d\mu

エネルギー期待値に対するラグランジュ乗数 $\beta = 1/T$ は温度の逆数になっている。 規格化定数 $Z(T, N)$ は分配関数と呼ぶ。 エントロピーを定義から計算すると、

S &= \ln Z + \beta E, \\ \ln Z &= -\beta (E - TS).

ここで熱力学的関係式 $E - TS = F$ を思い出せば、 実は $\ln Z$ がヘルムホルツの自由エネルギーに関係する事が分かる。

F = -\frac1\beta \ln Z.

3.3 大正準集団 (grand canonical ensemble)

エネルギーも粒子数も期待値で与えられる場合を考える。 基準の測度は $d\mu = \frac{dx^3dp^3}{h^3}$ であり、 最大エントロピー原理により得られる確率測度は、

d\Pr &= \frac1\Xi e^{-\beta (\hat E - \mu \hat N)} d\mu.

ラグランジュ乗数 $\beta = 1/T, \alpha = \beta\mu$ は 温度 $T$ と化学ポテンシャル $\mu$ に対応する。 規格化定数 $\Xi(T, \mu)$ は分配関数と呼ぶ。 エントロピーを定義から計算すると、

S &= \ln\Xi + \beta(E - \mu N), \\ \ln\Xi &= -\beta (E - TS - \mu N) = \beta pV = -\beta\Omega

となり、$\ln \Xi$ はグランドポテンシャル $\Omega$ または圧力に対応すると分かる。

\Omega(T,\mu) = -p(T,\mu)V = -\frac1\beta \ln \Xi(T,\mu).

Copyright © 2018, @akinomyoga Issue PR