はじめに

　『ベイズ推論による機械学習入門』(MLSシリーズ)の独学時のノートです。各種のモデルやアルゴリズムについて「数式・プログラム・図」を用いて解説します。
　本の補助として読んでください。

　この記事では、平均が未知の多次元ガウス分布に対するベイズ推論の数式の行間を埋めます。

【前節の内容】

【他の節の内容】

【この節の内容】

3.4.1 多次元ガウス分布のベイズ推論の導出：平均が未知の場合

　多次元ガウスモデル(multivariate Gaussian model)に対するベイズ推論(Bayesian inference)を導出する。この記事では、生成分布の平均パラメータ(mean parameter)が未知の場合を扱う。平均が未知の多次元ガウスモデルでは、尤度関数を多次元ガウス分布(multivariate Gaussian distribution・多変量正規分布・multivariate Normal distribution)、事前分布を多次元ガウス分布とする。
　多次元ガウスモデルについては「3.4.0：多次元ガウスモデルの生成モデルの導出【緑ベイズ入門のノート】 - からっぽのしょこ」、多次元ガウス分布については「多次元ガウス分布の定義式 - からっぽのしょこ」を参照のこと。

事後分布の導出

　まずは、平均が未知の多次元ガウス分布のパラメータ $\boldsymbol{\mu}$ の事後分布(posterior distribution)を導出する。

　観測データ $\mathbf{X}$ が与えられた(条件とする)下でのパラメータ $\boldsymbol{\mu}$ の条件付き分布(事後分布)を求める。精度パラメータ $\boldsymbol{\Lambda}$ は与えられている(既知)とする。

$\displaystyle \begin{align} p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \frac{ p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) }{ p(\mathbf{X} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) } \\ &\propto p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) \\ &= \left\{ \prod_{n=1}^N p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \right\} p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) \\ &= \left\{ \prod_{n=1}^N \mathcal{N}(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}) \right\} \mathcal{N}(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}^{-1}) \tag{3.98} \end{align}$

途中式の途中式(クリックで展開)

1: ベイズの定理 $p(y \mid x) = \frac{p(x \mid y) p(y)}{p(x)}$ より、観測変数 $\mathbf{X}$ を条件に移した式を立てる。

　事後分布は、 $\mathbf{X}, \boldsymbol{\mu}$ の結合分布と $\mathbf{X}$ の周辺分布を用いて、次のようにも求められる。

$\displaystyle \begin{aligned} p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \frac{ p(\mathbf{X}, \boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) }{ p(\mathbf{X} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) } \\ &= \frac{ p(\mathbf{X}, \boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) }{ \int p(\mathbf{X}, \boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) \mathrm{d} \boldsymbol{\mu} } \\ &= \frac{ p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) }{ \int p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) \mathrm{d} \boldsymbol{\mu} } \end{aligned}$

　1行目では、条件付き分布 $p(y \mid x) = \frac{p(x, y)}{p(x)}$ より、 $\mathbf{X}$ を条件に移している。
　2行目では、周辺化 $p(y) = \int p(x, y) \mathrm{d} x$ した $\boldsymbol{\mu}$ を明示している。
　3行目では、 $\mathbf{X}, \boldsymbol{\mu}$ の依存関係に従い項を分割している。
　生成モデル(結合分布)については「生成モデルの導出」を参照のこと。

2: $\boldsymbol{\mu}$ と無関係な項を省く。
3: 観測データ集合 $\mathbf{X}$ の生成確率を、各データ $\mathbf{x}_n$ の生成確率の積に分解する。
4: 平均が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガウス分布に置き換える。

　周辺分布(分母)は $\boldsymbol{\mu}$ に影響しないため省いて、比例関係のみに注目する。省略した項については、最後に正規化することで対応できる。

　両辺の対数をとり、指数部分の計算を分かりやすくして、 $\boldsymbol{\mu}$ に関して式を整理する。

$\displaystyle \begin{aligned} \ln p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \ln \Bigl( \frac{ \left\{ \prod_{n=1}^N p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \right\} p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) }{ p(\mathbf{X} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) } \Bigr) \\ &= \ln \Bigl( \prod_{n=1}^N p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr) + \ln p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) - \ln p(\mathbf{X} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) \\ &= \sum_{n=1}^N \ln p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) + \ln p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) + \mathrm{const.} \\ &= \sum_{n=1}^N \ln \mathcal{N}(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}) + \ln \mathcal{N}(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}^{-1}) + \mathrm{const.} \end{aligned}$

途中式の途中式(クリックで展開)

1: 式(3.98)に関して、対数をとった式を立てる。
2-3: 自然対数の性質 $\ln(x y) = \ln x + \ln y$ 、 $\ln \frac{x}{y} = \ln x - \ln y$ より、分数の項を展開する。

　対数の性質より、総乗 $\prod_n$ の対数をとると、対数の総和 $\sum_n$ になる。

$\displaystyle \begin{aligned} \ln p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) &= \ln \Bigl( \prod_{n=1}^N p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr) \\ &= \ln \Bigl( p(\mathbf{x}_1 \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) * p(\mathbf{x}_2 \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) * \cdots * p(\mathbf{x}_N \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr) \\ &= \ln p(\mathbf{x}_1 \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) + \ln p(\mathbf{x}_2 \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) + \cdots + \ln p(\mathbf{x}_N \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \\ &= \sum_{n=1}^N \ln p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \end{aligned}$

3: $\boldsymbol{\mu}$ と無関係な項を $\mathrm{const.}$ とおく。
4: 平均が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガウス分布に置き換える。

　 $\boldsymbol{\mu}$ に影響しない項を $\mathrm{const.}$ とおく。省略した項については、最後に正規化することで対応できる。

　右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

$\displaystyle \begin{align} \ln p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \sum_{n=1}^N \ln \left( \Bigl( \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{1}{2} (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_n - \boldsymbol{\mu}) \Bigr) \right) \\ &\quad + \ln \left( \Bigl( \frac{|\boldsymbol{\Lambda}_{\mu}|}{(2 \pi)^D} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{1}{2} (\boldsymbol{\mu} - \mathbf{m})^{\top} \boldsymbol{\Lambda}_{\mu} (\boldsymbol{\mu} - \mathbf{m}) \Bigr) \right) + \mathrm{const.} \\ &= \sum_{n=1}^N \left\{ \frac{1}{2} \ln \Bigl( \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D} \Bigr) - \frac{1}{2} (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_n - \boldsymbol{\mu}) \right\} \\ &\quad + \frac{1}{2} \ln \Bigl( \frac{|\boldsymbol{\Lambda}_{\mu}|}{(2 \pi)^D} \Bigr) - \frac{1}{2} (\boldsymbol{\mu} - \mathbf{m})^{\top} \boldsymbol{\Lambda}_{\mu} (\boldsymbol{\mu} - \mathbf{m}) + \mathrm{const.} \\ &= - \frac{1}{2} \sum_{n=1}^N (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_n - \boldsymbol{\mu}) \\ &\quad - \frac{1}{2} (\boldsymbol{\mu} - \mathbf{m})^{\top} \boldsymbol{\Lambda}_{\mu} (\boldsymbol{\mu} - \mathbf{m}) + \mathrm{const.} \\ &= - \frac{1}{2} \sum_{n=1}^N \Bigl\{ \mathbf{x}_n^{\top} \boldsymbol{\Lambda} \mathbf{x}_n - \mathbf{x}_n^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu} - \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_n + \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu} \Bigr\} \\ &\quad - \frac{1}{2} \Bigl\{ \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}_{\mu} \boldsymbol{\mu} - \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}_{\mu} \mathbf{m} - \mathbf{m}^{\top} \boldsymbol{\Lambda}_{\mu} \boldsymbol{\mu} + \mathbf{m}^{\top} \boldsymbol{\Lambda}_{\mu} \mathbf{m} \Bigr\} + \mathrm{const.} \\ &= - \frac{1}{2} \Biggl\{ N \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu} + \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}_{\mu} \boldsymbol{\mu} - 2 \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \sum_{n=1}^N \mathbf{x}_n - 2 \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}_{\mu} \mathbf{m} \Biggr\} + \mathrm{const.} \\ &= - \frac{1}{2} \left\{ \boldsymbol{\mu}^{\top} (N \boldsymbol{\Lambda} + \boldsymbol{\Lambda}_{\mu}) \boldsymbol{\mu} - 2 \boldsymbol{\mu}^{\top} \left( \boldsymbol{\Lambda} \sum_{n=1}^N \mathbf{x}_n + \boldsymbol{\Lambda}_{\mu} \mathbf{m} \right) \right\} + \mathrm{const.} \tag{3.99} \end{align}$

途中式の途中式(クリックで展開)

1: 尤度関数はガウス分布、事前分布はガウス分布を仮定しているので、それぞれ定義式に置き換える。

$\displaystyle \begin{align} p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) &= \mathcal{N}(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}) \tag{3.96}\\ &= \sqrt{ \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D} } \exp \Bigl( - \frac{1}{2} (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_n - \boldsymbol{\mu}) \Bigr) \\ p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \mathcal{N}(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}^{-1}) \tag{3.97}\\ &= \sqrt{ \frac{|\boldsymbol{\Lambda}_{\mu}|}{(2 \pi)^D} } \exp \Bigl( - \frac{1}{2} (\boldsymbol{\mu} - \mathbf{m})^{\top} \boldsymbol{\Lambda}_{\mu} (\boldsymbol{\mu} - \mathbf{m}) \Bigr) \end{align}$

　ルートを指数で表すと $\sqrt{x} = x^{\frac{1}{2}}$ である。

2: 自然対数の性質 $\ln(x y) = \ln x + \ln y$ 、 $\ln x^y = y \ln x$ 、対数と指数の関係 $\ln (\exp (x)) = x$ より、定義式の項を展開する。
3: $- \frac{1}{2}$ を $\Sigma_n$ の外に出す。
4: 転置の性質 $(\mathbf{A} + \mathbf{B})^{\top} = (\mathbf{A}^{\top} + \mathbf{B}^{\top})$ より、二次形式を展開する。
5: 二次形式の性質(スカラの転置・転置の性質) $(\mathbf{a}^{\top} \mathbf{B} \mathbf{c})^{\top} = \mathbf{c}^{\top} \mathbf{B}^{\top} \mathbf{a}$ より、 $\mathbf{x}_n^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu} = \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_n$ 、 $\boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}_{\mu} \mathbf{m} = \mathbf{m}^{\top} \boldsymbol{\Lambda}_{\mu} \boldsymbol{\mu}$ なので、確率変数と平均ベクトルの二次形式の項をまとめる。ただし、精度行列は対称行列なので、 $\boldsymbol{\Lambda}^{\top} = \boldsymbol{\Lambda}$ である。
5: $n$ に関する総和 $\sum_n$ の波括弧を展開する。 $n$ と無関係な項は $N$ 倍 $\sum_{n=1}^N a = N a$ となる。
6: $\boldsymbol{\mu}^{\top} \boldsymbol{\mu}, \boldsymbol{\mu}$ の項をそれぞれまとめる。

　 $\sum_{n=1}^N \mathbf{x}_n$ は、次の $D$ 次元ベクトルである。

$\displaystyle \sum_{n=1}^N \mathbf{x}_n = \begin{bmatrix} \sum_{n=1}^N x_{n,1} \\ \vdots \\ \sum_{n=1}^N x_{n,D} \end{bmatrix}$

　適宜、 $\boldsymbol{\mu}$ に影響しない項を $\mathrm{const.}$ にまとめていく。

　事後分布の式(3.99)について、次のようにおく。

$\displaystyle \begin{align} \tilde{\mathbf{m}} &= \boldsymbol{\Lambda} \sum_{n=1}^N \mathbf{x}_n + \boldsymbol{\Lambda}_{\mu} \mathbf{m} \\ \hat{\boldsymbol{\Lambda}} &= N \boldsymbol{\Lambda} + \boldsymbol{\Lambda}_{\mu} \tag{3.102} \end{align}$

　式(3.99)について、 $\tilde{\mathbf{m}}, \hat{\boldsymbol{\Lambda}}$ で置き換えて、 $\boldsymbol{\mu}$ に関して式を整理する。

$\displaystyle \begin{align} \ln p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= - \frac{1}{2} \left\{ \boldsymbol{\mu}^{\top} \hat{\boldsymbol{\Lambda}} \boldsymbol{\mu} - 2 \boldsymbol{\mu}^{\top} \tilde{\mathbf{m}} \right\} + \mathrm{const.} \\ &= - \frac{1}{2} \left\{ \boldsymbol{\mu}^{\top} \hat{\boldsymbol{\Lambda}} \boldsymbol{\mu} - 2 \boldsymbol{\mu}^{\top} \tilde{\mathbf{m}} + \tilde{\mathbf{m}}^{\top} \hat{\boldsymbol{\Lambda}}^{-1} \tilde{\mathbf{m}} - \tilde{\mathbf{m}}^{\top} \hat{\boldsymbol{\Lambda}}^{-1} \tilde{\mathbf{m}} \right\} + \mathrm{const.} \\ &= - \frac{1}{2} \left\{ \boldsymbol{\mu}^{\top} \hat{\boldsymbol{\Lambda}} \boldsymbol{\mu} - 2 \boldsymbol{\mu}^{\top} \hat{\boldsymbol{\Lambda}} \hat{\boldsymbol{\Lambda}}^{-1} \tilde{\mathbf{m}} + \tilde{\mathbf{m}}^{\top} \hat{\boldsymbol{\Lambda}}^{-1} \hat{\boldsymbol{\Lambda}} \hat{\boldsymbol{\Lambda}}^{-1} \tilde{\mathbf{m}} \right\} + \frac{1}{2} \tilde{\mathbf{m}}^{\top} \hat{\boldsymbol{\Lambda}}^{-1} \tilde{\mathbf{m}} + \mathrm{const.} \\ &= - \frac{1}{2} \left\{ \boldsymbol{\mu}^{\top} \hat{\boldsymbol{\Lambda}} \boldsymbol{\mu} - 2 \boldsymbol{\mu}^{\top} \hat{\boldsymbol{\Lambda}} \hat{\boldsymbol{\Lambda}}^{-1} \tilde{\mathbf{m}} + (\hat{\boldsymbol{\Lambda}}^{-1} \tilde{\mathbf{m}})^{\top} \hat{\boldsymbol{\Lambda}} \hat{\boldsymbol{\Lambda}}^{-1} \tilde{\mathbf{m}} \right\} + \mathrm{const.} \tag{1} \end{align}$

途中式の途中式(クリックで展開)

1: 式(3.99)に式(3.102)を代入する。
2: 波括弧内に $\tilde{\mathbf{m}}^{\top} \hat{\boldsymbol{\Lambda}}^{-1} \tilde{\mathbf{m}} - \tilde{\mathbf{m}}^{\top} \hat{\boldsymbol{\Lambda}}^{-1} \tilde{\mathbf{m}} = 0$ を加える。
3: 逆行列の性質(精度行列と分散共分散行列の関係)より、単位行列(精度行列と分散共分散行列の積) $\hat{\boldsymbol{\Lambda}} \hat{\boldsymbol{\Lambda}}^{-1} = \mathbf{I}_D$ を掛ける。
3: 波括弧内の4つ目の項を括弧の外に出す。
4: 転置の性質 $(\mathbf{A} \mathbf{b})^{\top} = \mathbf{b}^{\top} \mathbf{A}^{\top}$ より、項の一部を転置する。ただし、分散共分散行列は対称行列なので、 $(\hat{\boldsymbol{\Lambda}}^{-1})^{\top} = \hat{\boldsymbol{\Lambda}}^{-1}$ である。

　ガウス分布の定義式の形状となるように、平方完成による式変形を行った。

　事後分布の式(1)について、次のようにおく。

$\displaystyle \begin{align} \hat{\mathbf{m}} &= \hat{\boldsymbol{\Lambda}}_{\mu}^{-1} \tilde{\mathbf{m}} \\ &= \hat{\boldsymbol{\Lambda}}_{\mu}^{-1} \left( \boldsymbol{\Lambda} \sum_{n=1}^N \mathbf{x}_n + \boldsymbol{\Lambda}_{\mu} \mathbf{m} \right) \tag{3.103} \end{align}$

　式(1)について、 $\hat{\mathbf{m}}, \hat{\boldsymbol{\Lambda}}_{\mu}$ で置き換える。

$\displaystyle \begin{align} \ln p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= - \frac{1}{2} \Bigl\{ \boldsymbol{\mu}^{\top} \hat{\boldsymbol{\Lambda}} \boldsymbol{\mu} - 2 \boldsymbol{\mu}^{\top} \hat{\boldsymbol{\Lambda}} \hat{\mathbf{m}} + \hat{\mathbf{m}}^{\top} \hat{\boldsymbol{\Lambda}} \hat{\mathbf{m}} \Bigr\} + \mathrm{const.} \tag{3.101}\\ &= - \frac{1}{2} \Bigl\{ \boldsymbol{\mu}^{\top} \hat{\boldsymbol{\Lambda}} \boldsymbol{\mu} - \boldsymbol{\mu}^{\top} \hat{\boldsymbol{\Lambda}} \hat{\mathbf{m}} - \hat{\mathbf{m}}^{\top} \hat{\boldsymbol{\Lambda}} \boldsymbol{\mu} + \hat{\mathbf{m}}^{\top} \hat{\boldsymbol{\Lambda}} \hat{\mathbf{m}} \Bigr\} + \mathrm{const.} \\ &= - \frac{1}{2} (\boldsymbol{\mu} - \hat{\mathbf{m}})^{\top} \hat{\boldsymbol{\Lambda}} (\boldsymbol{\mu} - \hat{\mathbf{m}}) + \mathrm{const.} \end{align}$

途中式の途中式(クリックで展開)

1: 式(1)に式(3.103)を代入する。
2: 二次形式の性質より、 $\boldsymbol{\mu}^{\top} \hat{\boldsymbol{\Lambda}} \hat{\mathbf{m}} = \hat{\mathbf{m}}^{\top} \hat{\boldsymbol{\Lambda}} \boldsymbol{\mu}$ なので、確率変数と平均ベクトルの二次形式の項を分割する。
3: 波括弧全体を二次形式に変形する。

　さらに、 $\ln$ を外して $\mathrm{const.}$ を正規化項に置き換える(正規化する)と、事後分布は式の形状から、パラメータ $\hat{\mathbf{m}}, \hat{\boldsymbol{\Lambda}}_{\mu}$ の $D$ 次元ガウス分布であることが分かる。

$\displaystyle \begin{align} p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \mathrm{C}_{\mathcal{N}}(\hat{\mathbf{m}}, \hat{\boldsymbol{\Lambda}}_{\mu}) \exp \Bigl( - \frac{1}{2} (\boldsymbol{\mu} - \hat{\mathbf{m}})^{\top} \hat{\boldsymbol{\Lambda}}_{\mu} (\boldsymbol{\mu} - \hat{\mathbf{m}}) \Bigr) \\ &= \sqrt{ \frac{|\hat{\boldsymbol{\Lambda}}_{\mu}|}{(2 \pi)^D} } \exp \Bigl( - \frac{1}{2} (\boldsymbol{\mu} - \hat{\mathbf{m}})^{\top} \hat{\boldsymbol{\Lambda}}_{\mu} (\boldsymbol{\mu} - \hat{\mathbf{m}}) \Bigr) \\ &= \mathcal{N}(\boldsymbol{\mu} \mid \hat{\mathbf{m}}, \hat{\boldsymbol{\Lambda}}_{\mu}^{-1}) \tag{3.100} \end{align}$

　 $\boldsymbol{\mu}$ の事後分布の式が得られた。
　ここで、 $\mathrm{C}_{\mathcal{N}}(\hat{\mathbf{m}}, \hat{\boldsymbol{\Lambda}}_{\mu})$ はガウス分布(事後分布)の正規化項である。
　また、式(3.102)と(3.103)が、事後分布のパラメータ(超パラメータ) $\hat{\mathbf{m}}, \hat{\boldsymbol{\Lambda}}_{\mu}$ の計算式(更新式)である。

　以上で、平均が未知の多次元ガウスモデルにおける事後分布を導出した。

スポンサードリンク

予測分布の計算

　次は、平均が未知の多次元ガウス分布に従う未観測データ $\mathbf{x}_{*} = (x_{*,1}, \cdots, x_{*,D})^{\top}$ の予測分布(predict distribution)を導出する。

事前分布による予測分布

　事前分布(観測データによる学習を行っていない $\boldsymbol{\mu}$ の分布)を用いた予測分布(事前予測分布)を求める。

$\displaystyle \begin{align} p(\mathbf{x}_{*} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \int p(\mathbf{x}_{*}, \boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) \mathrm{d} \boldsymbol{\mu} \\ &= \int p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) \mathrm{d} \boldsymbol{\mu} \\ &= \int \mathcal{N}(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}) \mathcal{N}(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}^{-1}) \mathrm{d} \boldsymbol{\mu} \tag{2} \end{align}$

途中式の途中式(クリックで展開)

1: 未知変数 $\mathbf{x}_{*}$ とパラメータ $\boldsymbol{\mu}$ の結合分布に対して、 $\boldsymbol{\mu}$ を周辺化した式を立てる。
2: 依存関係のある $\mathbf{x}_{*}, \boldsymbol{\mu}$ の項を分割する。
3: 平均が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガウス分布に置き換える。

　事前予測分布は、未知のデータ $\mathbf{x}_{*}$ の生成分布(3.96)と、パラメータ $\boldsymbol{\mu}$ の事前分布(3.97)を用いた、 $\mathbf{x}_{*}$ の周辺分布である。

　積分の計算を避けるため式(2)は直接用いずに、ベイズの定理を用いて、 $\mathbf{x}_{*}$ と $\boldsymbol{\mu}$ の関係を考える。

$\displaystyle \begin{align} p(\boldsymbol{\mu} \mid \mathbf{x}_{*}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \frac{ p(\mathbf{x}_{*}, \boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) }{ \int p(\mathbf{x}_{*}, \boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) \mathrm{d} \boldsymbol{\mu} } \\ &= \frac{ p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) }{ p(\mathbf{x}_{*} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) } \tag{3} \end{align}$

　左辺の項は、1つのデータ $\mathbf{x}_{*}$ が与えられた下での $\boldsymbol{\mu}$ の条件付き分布(事後分布)と言える。つまり、 $N$ 個のデータ $\mathbf{X}$ が与えられた下での条件付き分布(事後分布)の式(3.100)と、同様の手順で求められる(同様のパラメータになる)。
　そこで、 $\mathbf{X}$ による事後分布のパラメータの式(3.102)と式(3.103)を用いて、 $N = 1, \mathbf{X} = \{\mathbf{x}_{*}\}$ より、次のようにおく。

$\displaystyle \begin{aligned} \boldsymbol{\Lambda}_{x_{*}} &= \boldsymbol{\Lambda} + \boldsymbol{\Lambda}_{\mu} \\ \mathbf{m}_{x_{*}} &= \boldsymbol{\Lambda}_{x_{*}}^{-1} ( \boldsymbol{\Lambda} \mathbf{x}_{*} + \boldsymbol{\Lambda}_{\mu} \mathbf{m} ) \\ &= ( \boldsymbol{\Lambda} + \boldsymbol{\Lambda}_{\mu} )^{-1} ( \boldsymbol{\Lambda} \mathbf{x}_{*} + \boldsymbol{\Lambda}_{\mu} \mathbf{m} ) \end{aligned} \tag{3.106}$

　 $\mathbf{x}_{*}$ による事後分布は、パラメータ $\mathbf{m}_{x_{*}}, \boldsymbol{\Lambda}_{x_{*}}$ の $D$ 次元ガウス分布となる。

$\displaystyle \begin{align} p(\boldsymbol{\mu} \mid \mathbf{x}_{*}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \sqrt{ \frac{|\boldsymbol{\Lambda}_{x_{*}}|}{(2 \pi)^D} } \exp \Bigl( - \frac{1}{2} (\boldsymbol{\mu} - \mathbf{m}_{x_{*}})^{\top} \boldsymbol{\Lambda}_{x_{*}} (\boldsymbol{\mu} - \mathbf{m}_{x_{*}}) \Bigr) \\ &= \mathcal{N}(\boldsymbol{\mu} \mid \mathbf{m}_{x_{*}}, \boldsymbol{\Lambda}_{x_{*}}^{-1}) \tag{3.105} \end{align}$

　 $\mathbf{x}_{*}$ による $\boldsymbol{\mu}$ の事後分布の式が得られた。

　 $\mathbf{x}_{*}$ による事後分布の式(3)について、指数部分の計算を分かりやすくするため、両辺の対数をとる。

$\displaystyle \begin{aligned} \ln p(\boldsymbol{\mu} \mid \mathbf{x}_{*}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \ln \Bigl( \frac{ p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) }{ p(\mathbf{x}_{*} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) } \Bigr) \\ &= \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) + \ln p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) - \ln p(\mathbf{x}_{*} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) \end{aligned}$

　予測分布に関して式を整理する。

$\displaystyle \begin{align} \ln p(\mathbf{x}_{*} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) + \ln p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) - \ln p(\boldsymbol{\mu} \mid \mathbf{x}_{*}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) \\ &= \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) - \ln p(\boldsymbol{\mu} \mid \mathbf{x}_{*}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) + \mathrm{const.} \tag{3.104}\\ &= \ln \mathcal{N}(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}) - \ln \mathcal{N}(\boldsymbol{\mu} \mid \mathbf{m}_{x_{*}}, \boldsymbol{\Lambda}_{x_{*}}^{-1}) + \mathrm{const.} \end{align}$

　 $\mathbf{x}_{*}$ に影響しない項を $\mathrm{const.}$ とおく。省略した項については、最後に正規化することで対応できる。

　右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

$\displaystyle \begin{align} \ln p(\mathbf{x}_{*} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \ln \left( \Bigl( \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_{*} - \boldsymbol{\mu}) \Bigr) \right) \\ &\quad - \ln \left( \Bigl( \frac{|\boldsymbol{\Lambda}_{x_{*}}|}{(2 \pi)^D} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{1}{2} (\boldsymbol{\mu} - \mathbf{m}_{x_{*}})^{\top} \boldsymbol{\Lambda}_{x_{*}} (\boldsymbol{\mu} - \mathbf{m}_{x_{*}}) \Bigr) \right) + \mathrm{const.} \\ &= \frac{1}{2} \ln \Bigl( \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D} \Bigr) - \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_{*} - \boldsymbol{\mu}) \\ &\quad - \frac{1}{2} \ln \Bigl( \frac{|\boldsymbol{\Lambda}_{x_{*}}|}{(2 \pi)^D} \Bigr) + \frac{1}{2} (\boldsymbol{\mu} - \mathbf{m}_{x_{*}})^{\top} \boldsymbol{\Lambda}_{x_{*}} (\boldsymbol{\mu} - \mathbf{m}_{x_{*}}) + \mathrm{const.} \\ &= - \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_{*} - \boldsymbol{\mu}) \\ &\quad - \frac{1}{2} \Bigl\{ - (\boldsymbol{\mu} - \mathbf{m}_{x_{*}})^{\top} \boldsymbol{\Lambda}_{x_{*}} (\boldsymbol{\mu} - \mathbf{m}_{x_{*}}) \Bigr\} + \mathrm{const.} \\ &= - \frac{1}{2} \Bigl\{ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} - \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu} - \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} + \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu} \Bigr\} \\ &\quad - \frac{1}{2} \Bigl\{ - \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}_{x_{*}} \boldsymbol{\mu} + \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}_{x_{*}} \mathbf{m}_{x_{*}} + \mathbf{m}_{x_{*}}^{\top} \boldsymbol{\Lambda}_{x_{*}} \boldsymbol{\mu} - \mathbf{m}_{x_{*}}^{\top} \boldsymbol{\Lambda}_{x_{*}} \mathbf{m}_{x_{*}} \Bigr\} + \mathrm{const.} \\ &= - \frac{1}{2} \Bigl\{ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} - 2 \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} \Bigr\} \\ &\quad - \frac{1}{2} \Bigl\{ 2 \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}_{x_{*}} \mathbf{m}_{x_{*}} - \mathbf{m}_{x_{*}}^{\top} \boldsymbol{\Lambda}_{x_{*}} \mathbf{m}_{x_{*}} \Bigr\} + \mathrm{const.} \tag{4} \end{align}$

途中式の途中式(クリックで展開)

1: 尤度関数はガウス分布(3.96)を仮定しており、未知変数による事後分布はガウス分布(3.105)になるので、それぞれ定義式に置き換える。
2: 自然対数の性質より、定義式の項を展開する。
3: $-\frac{1}{2}$ を括り出す。
4: 二次形式を展開する。
5: 二次形式の性質より、 $\mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu} = \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}$ 、 $\boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}_{x_{*}} \mathbf{m}_{x_{*}} = \mathbf{m}_{x_{*}}^{\top} \boldsymbol{\Lambda}_{x_{*}} \boldsymbol{\mu}$ なので、確率変数と平均ベクトルの二次形式の項をまとめる。

　適宜、 $\mathbf{x}_{*}$ に影響しない項を $\mathrm{const.}$ にまとめていく。パラメータの計算式(3.106)より、 $\boldsymbol{\Lambda}_{x_{*}}$ は $\mathbf{x}_{*}$ に影響しない( $\boldsymbol{\Lambda}_{x_{*}}$ の式に $\mathbf{x}_{*}$ を含まない)。
　 $\mathbf{m}_{x_{*}}, \boldsymbol{\Lambda}_{x_{*}}$ に式(3.106)を代入して、 $\mathbf{x}_{*}$ に関して式を整理する。

$\displaystyle \begin{align} \ln p(\mathbf{x}_{*} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= - \frac{1}{2} \Bigl\{ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} - 2 \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} \Bigr\} \\ &\quad - \frac{1}{2} \Biggl\{ 2 \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}_{x_{*}} \boldsymbol{\Lambda}_{x_{*}}^{-1} ( \boldsymbol{\Lambda} \mathbf{x}_{*} + \boldsymbol{\Lambda}_{\mu} \mathbf{m} ) - \Bigl\{ \boldsymbol{\Lambda}_{x_{*}}^{-1} ( \boldsymbol{\Lambda} \mathbf{x}_{*} + \boldsymbol{\Lambda}_{\mu} \mathbf{m} ) \Bigr\}^{\top} \boldsymbol{\Lambda}_{x_{*}} \boldsymbol{\Lambda}_{x_{*}}^{-1} ( \boldsymbol{\Lambda} \mathbf{x}_{*} + \boldsymbol{\Lambda}_{\mu} \mathbf{m} ) \Biggr\} + \mathrm{const.} \\ &= - \frac{1}{2} \Bigl\{ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} - 2 \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} \Bigr\} \\ &\quad - \frac{1}{2} \Bigl\{ 2 \boldsymbol{\mu}^{\top} ( \boldsymbol{\Lambda} \mathbf{x}_{*} + \boldsymbol{\Lambda}_{\mu} \mathbf{m} ) - ( \boldsymbol{\Lambda} \mathbf{x}_{*} + \boldsymbol{\Lambda}_{\mu} \mathbf{m} )^{\top} \boldsymbol{\Lambda}_{x_{*}}^{-1} ( \boldsymbol{\Lambda} \mathbf{x}_{*} + \boldsymbol{\Lambda}_{\mu} \mathbf{m} ) \Bigr\} + \mathrm{const.} \\ &= - \frac{1}{2} \Bigl\{ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} - 2 \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} \Bigr\} \\ &\quad - \frac{1}{2} \Bigl\{ 2 \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} + 2 \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}_{\mu} \mathbf{m} - (\boldsymbol{\Lambda} \mathbf{x}_{*})^{\top} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda} \mathbf{x}_{*} - (\boldsymbol{\Lambda} \mathbf{x}_{*})^{\top} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda}_{\mu} \mathbf{m} - (\boldsymbol{\Lambda}_{\mu} \mathbf{m})^{\top} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda} \mathbf{x}_{*} - (\boldsymbol{\Lambda}_{\mu} \mathbf{m})^{\top} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda}_{\mu} \mathbf{m} \Bigr\} + \mathrm{const.} \\ &= - \frac{1}{2} \Bigl\{ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} + 2 \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}_{\mu} \mathbf{m} - \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda} \mathbf{x}_{*} - \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda}_{\mu} \mathbf{m} - \mathbf{m}^{\top} \boldsymbol{\Lambda}_{\mu} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda} \mathbf{x}_{*} - \mathbf{m}^{\top} \boldsymbol{\Lambda}_{\mu} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda}_{\mu} \mathbf{m} \Bigr\} + \mathrm{const.} \\ &= - \frac{1}{2} \Bigl\{ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} - \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda} \mathbf{x}_{*} - 2 \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda}_{\mu} \mathbf{m} \Bigr\} + \mathrm{const.} \\ &= - \frac{1}{2} \Bigl\{ \mathbf{x}_{*}^{\top} \Bigl\{ \boldsymbol{\Lambda} - \boldsymbol{\Lambda} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda} \Bigr\} \mathbf{x}_{*} - 2 \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda}_{\mu} \mathbf{m} \Bigr\} + \mathrm{const.} \\ &= - \frac{1}{2} \Biggl\{ \mathbf{x}_{*}^{\top} \Bigl\{ \boldsymbol{\Lambda} - \boldsymbol{\Lambda} (\boldsymbol{\Lambda} + \boldsymbol{\Lambda}_{\mu})^{-1} \boldsymbol{\Lambda} \Bigr\} \mathbf{x}_{*} - 2 \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} (\boldsymbol{\Lambda} + \boldsymbol{\Lambda}_{\mu})^{-1} \boldsymbol{\Lambda}_{\mu} \mathbf{m} \Biggr\} + \mathrm{const.} \tag{3.107} \end{align}$

途中式の途中式(クリックで展開)

1: 式(4)の $\mathbf{m}_{x_{*}}$ に式(3.106)を代入する。
2: 逆行列の性質より、精度行列の項が消える。
2: 波括弧を転置する。
3: 二次形式を展開する。
4: 丸括弧を転置する。
5: 二次形式の性質より、 $\mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda}_{\mu} \mathbf{m} = \mathbf{m}^{\top} \boldsymbol{\Lambda}_{\mu} \boldsymbol{\Lambda}_{x_{*}}^{-1} \boldsymbol{\Lambda} \mathbf{x}_{*}$ なので、確率変数と平均ベクトルの二次形式の項をまとめる。
6: $\mathbf{x}_{*}^{\top} \mathbf{x}_{*}, \mathbf{x}_{*}$ の項をそれぞれまとめる。
7: $\boldsymbol{\Lambda}_{x_{*}}$ に式(3.106)を代入する。

　予測分布の式(3.107)について、次のようにおく。

$\displaystyle \begin{align} \tilde{\boldsymbol{\mu}}_{*} &= \boldsymbol{\Lambda} (\boldsymbol{\Lambda} + \boldsymbol{\Lambda}_{\mu})^{-1} \boldsymbol{\Lambda}_{\mu} \mathbf{m} \\ \boldsymbol{\Lambda}_{*} &= \boldsymbol{\Lambda} - \boldsymbol{\Lambda} (\boldsymbol{\Lambda} + \boldsymbol{\Lambda}_{\mu})^{-1} \boldsymbol{\Lambda} \\ &= (\boldsymbol{\Lambda}^{-1} + \boldsymbol{\Lambda}_{\mu}^{-1})^{-1} \tag{3.109} \end{align}$

途中式の途中式(クリックで展開)

1: 式(3.107)の項を $\boldsymbol{\Lambda}_{*}$ とおく。
2: $\boldsymbol{\Lambda}_{*}$ の式全体を変形する。

　ウッドベリーの公式(A.7)の $\mathbf{U}, \mathbf{V}$ を単位行列 $\mathbf{I}$ とすると、次の式になる。

$\displaystyle \begin{align} && ( \mathbf{A} + \mathbf{U} \mathbf{B} \mathbf{V} )^{-1} &= \mathbf{A}^{-1} - \mathbf{A}^{-1} \mathbf{U} ( \mathbf{B}^{-1} + \mathbf{V} \mathbf{A}^{-1} \mathbf{U} )^{-1} \mathbf{V} \mathbf{A}^{-1} \tag{A.7}\\ \Rightarrow && (\mathbf{A} + \mathbf{B})^{-1} &= \mathbf{A}^{-1} - \mathbf{A}^{-1} ( \mathbf{B}^{-1} + \mathbf{A}^{-1} )^{-1} \mathbf{A}^{-1} \end{align}$

　 $\mathbf{A}^{-1} = \boldsymbol{\Lambda}$ 、 $\mathbf{B}^{-1} = \boldsymbol{\Lambda}_{\mu}$ ( $\mathbf{A} = \boldsymbol{\Sigma}$ 、 $\mathbf{B} = \boldsymbol{\Sigma}_{\mu}$ )として、右辺の式から左辺の式に変形する。

　式(3.107)について、 $\tilde{\boldsymbol{\mu}}_{*}, \boldsymbol{\Lambda}_{*}$ で置き換えて、平方完成を行う。

$\displaystyle \begin{align} \ln p(\mathbf{x}_{*} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= - \frac{1}{2} \Biggl\{ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}_{*} \mathbf{x}_{*} - 2 \mathbf{x}_{*}^{\top} \tilde{\boldsymbol{\mu}}_{*} \Biggr\} + \mathrm{const.} \\ &= - \frac{1}{2} \Biggl\{ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}_{*} \mathbf{x}_{*} - 2 \mathbf{x}_{*}^{\top} \tilde{\boldsymbol{\mu}}_{*} + \tilde{\boldsymbol{\mu}}_{*}^{\top} \boldsymbol{\Lambda}_{*}^{-1} \tilde{\boldsymbol{\mu}}_{*} - \tilde{\boldsymbol{\mu}}_{*}^{\top} \boldsymbol{\Lambda}_{*}^{-1} \tilde{\boldsymbol{\mu}}_{*} \Biggr\} + \mathrm{const.} \\ &= - \frac{1}{2} \Biggl\{ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}_{*} \mathbf{x}_{*} - 2 \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}_{*} \boldsymbol{\Lambda}_{*}^{-1} \tilde{\boldsymbol{\mu}}_{*} + \tilde{\boldsymbol{\mu}}_{*}^{\top} \boldsymbol{\Lambda}_{*}^{-1} \boldsymbol{\Lambda}_{*} \boldsymbol{\Lambda}_{*}^{-1} \tilde{\boldsymbol{\mu}}_{*} \Biggr\} + \frac{1}{2} \tilde{\boldsymbol{\mu}}_{*}^{\top} \boldsymbol{\Lambda}_{*}^{-1} \tilde{\boldsymbol{\mu}}_{*} + \mathrm{const.} \\ &= - \frac{1}{2} \Biggl\{ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}_{*} \mathbf{x}_{*} - 2 \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}_{*} \boldsymbol{\Lambda}_{*}^{-1} \tilde{\boldsymbol{\mu}}_{*} + (\boldsymbol{\Lambda}_{*}^{-1} \tilde{\boldsymbol{\mu}}_{*})^{\top} \boldsymbol{\Lambda}_{*} \boldsymbol{\Lambda}_{*}^{-1} \tilde{\boldsymbol{\mu}}_{*} \Biggr\} + \mathrm{const.} \tag{5} \end{align}$

途中式の途中式(クリックで展開)

1: 式(3.107)に式(3.109)を代入する。
2: 波括弧内に $\tilde{\boldsymbol{\mu}}_{*}^{\top} \boldsymbol{\Lambda}_{*}^{-1} \tilde{\boldsymbol{\mu}}_{*} - \tilde{\boldsymbol{\mu}}_{*}^{\top} \boldsymbol{\Lambda}_{*}^{-1} \tilde{\boldsymbol{\mu}}_{*} = 0$ を加える。
3: 逆行列の性質より、 $\boldsymbol{\Lambda}_{*} \boldsymbol{\Lambda}_{*}^{-1} = \mathbf{I}_D$ を掛ける。
3: 波括弧内の4つ目の項を括弧の外に出する。
4: 転置の性質 $(\mathbf{A} \mathbf{b})^{\top} = \mathbf{b}^{\top} \mathbf{A}^{\top}$ より、項の一部を転置する。ただし、分散共分散行列は対称行列なので、 $(\boldsymbol{\Lambda}_{*}^{-1})^{\top} = \boldsymbol{\Lambda}_{*}^{-1}$ である。

　予測分布の式(5)について、次のようにおく。

$\displaystyle \begin{align} \boldsymbol{\mu}_{*} &= \boldsymbol{\Lambda}_{*}^{-1} \tilde{\boldsymbol{\mu}}_{*} \\ &= \boldsymbol{\Lambda}_{*}^{-1} \boldsymbol{\Lambda} (\boldsymbol{\Lambda} + \boldsymbol{\Lambda}_{\mu})^{-1} \boldsymbol{\Lambda}_{\mu} \mathbf{m} \\ &= \boldsymbol{\Lambda}_{*}^{-1} (\boldsymbol{\Lambda}^{-1} + \boldsymbol{\Lambda}_{\mu}^{-1})^{-1} \mathbf{m} \\ &= \boldsymbol{\Lambda}_{*}^{-1} \boldsymbol{\Lambda}_{*} \mathbf{m} \\ &= \mathbf{m} \tag{3.110} \end{align}$

途中式の途中式(クリックで展開)

1: 式(5)の項を $\boldsymbol{\mu}_{*}$ とおく。
2: $\boldsymbol{\mu}_{*}$ に式(3.109)を代入する。
3: $\boldsymbol{\mu}_{*}$ の式の項を変形する。

　「The Matrix Cookbook」の式(163)を用いる。

$\displaystyle (\mathbf{A}^{-1} + \mathbf{B}^{-1})^{-1} = \mathbf{A} (\mathbf{A} + \mathbf{B})^{-1} \mathbf{B} \tag{163}$

　 $\mathbf{A} = \boldsymbol{\Lambda}$ 、 $\mathbf{B} = \boldsymbol{\Lambda}_{\mu}$ として、右辺の式から左辺の式に変形する。

4: 式(3.109)より、 $\boldsymbol{\Lambda}_{*}$ に置き換える。
5: 逆行列の性質より、 $\boldsymbol{\Lambda}_{*}$ の項が消える。

　式(5)について、 $\boldsymbol{\mu}_{*}, \boldsymbol{\Lambda}_{*}$ で置き換える。

途中式の途中式(クリックで展開)

1: 式(5)に式(3.110)を代入する。
2: 二次形式の性質より、 $\mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}_{*} \boldsymbol{\mu}_{*} = \boldsymbol{\mu}_{*}^{\top} \boldsymbol{\Lambda}_{*} \mathbf{x}_{*}$ なので、確率変数と平均ベクトルの二次形式の項を分割する。
3: 波括弧全体を二次形式に変形する。

　さらに、 $\ln$ を外して $\mathrm{const.}$ を正規化項に置き換える(正規化する)と、予測分布は式の形状から、パラメータ $\boldsymbol{\mu}_{*}, \boldsymbol{\Lambda}_{*}$ の $D$ 次元ガウス分布であることが分かる。

$\displaystyle \begin{align} p(\mathbf{x}_{*}) &= \mathrm{C}_{\mathcal{N}}(\boldsymbol{\mu}_{*}, \boldsymbol{\Lambda}_{*}) \exp \Bigl( - \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu}_{*})^{\top} \boldsymbol{\Lambda}_{*} (\mathbf{x}_{*} - \boldsymbol{\mu}_{*}) \Bigr) \\ &= \sqrt{ \frac{|\boldsymbol{\Lambda}_{*}|}{(2 \pi)^D} } \exp \Bigl( - \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu}_{*})^{\top} \boldsymbol{\Lambda}_{*} (\mathbf{x}_{*} - \boldsymbol{\mu}_{*}) \Bigr) \\ &= \mathcal{N}(\mathbf{x}_{*} \mid \boldsymbol{\mu}_{*}, \boldsymbol{\Lambda}_{*}^{-1}) \tag{3.108} \end{align}$

　 $\mathbf{x}_{*}$ の事前予測分布は式が得られた。
　ここで、 $\mathrm{C}_\mathcal{N}(\boldsymbol{\mu}_{*}, \boldsymbol{\Lambda}_{*})$ は、ガウス分布(事前予測分布)の正規化項である。
　また、式(3.)が、予測分布のパラメータ $\boldsymbol{\mu}_{*}, \boldsymbol{\Lambda}_{*}$ の計算式である。

事後分布による予測分布

　予測分布の計算に事前分布 $p(\boldsymbol{\mu} \mid \mathbf{m}, \boldsymbol{\Lambda}_{\mu})$ を用いて、観測データ $\mathbf{X}$ による学習を行っていない予測分布(事前予測分布) $p(\mathbf{x}_{*} \mid \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu})$ (のパラメータ $\boldsymbol{\mu}_{*}, \boldsymbol{\Lambda}_{*}$ )を求めた。事後分布 $p(\boldsymbol{\mu} \mid \mathbf{X}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu})$ を用いると、観測データ $\mathbf{X}$ によって学習した予測分布(事後予測分布) $p(\mathbf{x}_{*} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu})$ (のパラメータ $\hat{\boldsymbol{\mu}}_{*}, \hat{\boldsymbol{\Lambda}}_{*}$ )を求められる。

$\displaystyle \begin{align} p(\mathbf{x}_{*} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \int p(\mathbf{x}_{*}, \boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) \mathrm{d} \boldsymbol{\mu} \\ &= \int p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\mu} \mid \mathbf{X}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) \mathrm{d} \boldsymbol{\mu} \\ &= \int \mathcal{N}(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}) \mathcal{N}(\boldsymbol{\mu} \mid \hat{\mathbf{m}}, \hat{\boldsymbol{\Lambda}}_{\mu}^{-1}) \mathrm{d} \boldsymbol{\mu} \tag{2'} \end{align}$

途中式の途中式(クリックで展開)

1: 観測変数 $\mathbf{X}$ を条件として、未知変数 $\mathbf{x}_{*}$ とパラメータ $\boldsymbol{\mu}$ の結合分布に対して、 $\boldsymbol{\mu}$ を周辺化した式を立てる。
2: 依存関係のある $\mathbf{x}_{*}, \boldsymbol{\mu}$ の項を分割する。
3: 平均が未知のガウスモデルの定義より、尤度関数をガウス分布、事後分布をガウス分布に置き換える。

　事後予測分布は、未知のデータ $\mathbf{x}_{*}$ の生成分布(3.96)と、パラメータ $\boldsymbol{\mu}$ の事後分布(3.100)を用いた、 $\mathbf{x}_{*}$ の周辺分布である。

　事後分布は事前分布と同じくガウス分布なので、事前予測分布の式(3.108)と、同様の手順で事後予測分布の式も求められる。
　そこで、事前予測分布のパラメータ $\boldsymbol{\mu}_{*}, \boldsymbol{\Lambda}_{*}$ の式(3.109)と式(3.110)を構成する事前分布のパラメータ $\mathbf{m}, \boldsymbol{\Lambda}_{\mu}$ について、事後分布のパラメータ $\hat{\mathbf{m}}, \hat{\boldsymbol{\Lambda}}_{\mu}$ の式(3.102)と式(3.103)に置き換えたものを事後予測分布のパラメータ $\hat{\boldsymbol{\mu}}_{*}, \hat{\boldsymbol{\Lambda}}_{*}$ とおく。

$\displaystyle \begin{align} \hat{\boldsymbol{\Lambda}}_{*} &= \Bigl( \boldsymbol{\Lambda}^{-1} + \hat{\boldsymbol{\Lambda}}_{\mu}^{-1} \Bigr)^{-1} \\ &= \Bigl\{ \boldsymbol{\Lambda}^{-1} + (N \boldsymbol{\Lambda} + \boldsymbol{\Lambda}_{\mu})^{-1} \Bigr\}^{-1} \tag{3.109'}\\ \hat{\boldsymbol{\mu}}_{*} &= \hat{\mathbf{m}} \\ &= \hat{\boldsymbol{\Lambda}}_{\mu}^{-1} \left( \boldsymbol{\Lambda} \sum_{n=1}^N \mathbf{x}_n + \boldsymbol{\Lambda}_{\mu} \mathbf{m} \right) \tag{3.110'} \end{align}$

　予測分布の式()についても置き換える(同様の手順で導出する)と、パラメータ $\hat{\boldsymbol{\mu}}_{*}, \hat{\boldsymbol{\Lambda}}_{*}$ の $D$ 次元ガウス分布となる。

$\displaystyle \begin{align} p(\mathbf{x}_{*} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \boldsymbol{\Lambda}_{\mu}) &= \sqrt{ \frac{|\hat{\boldsymbol{\Lambda}}_{*}|}{(2 \pi)^D} } \exp \Bigl( - \frac{1}{2} (\boldsymbol{\mu} - \hat{\mathbf{m}}_{*})^{\top} \hat{\boldsymbol{\Lambda}}_{*} (\boldsymbol{\mu} - \hat{\mathbf{m}}_{*}) \Bigr) \\ &= \mathcal{N}(\mathbf{x}_{*} \mid \hat{\boldsymbol{\mu}}_{*}, \hat{\boldsymbol{\Lambda}}_{*}^{-1}) \tag{3.108'} \end{align}$

　 $\mathbf{x}_{*}$ の事後予測分布の式が得られた。
　また、式(')が、予測分布のパラメータ $\hat{\boldsymbol{\mu}}_{*}, \hat{\boldsymbol{\Lambda}}_{*}$ の計算式(更新式)である。

　以上で、平均が未知の多次元ガウスモデルにおける事後予測分布を導出した。

　この記事では、平均が未知の場合の多次元ガウス分布に対するベイズ推論を導出した。次の記事では、実装する。

参考文献

作者:須山敦志
講談社

　最後の最後でちょろっとカンニングしちゃいました。Julia使いの方はこちらのブログを是非どうぞ。

tpt-ochanomizu.github.io

K.B.Petersen, M.S.Pedersen. The Matrix Cookbook. Technical University of Denmark, 2012.

おわりに

　行列計算を見ても発作が起きなくなったので、飛ばしていた多次元ガウス分布の推論に取り組み始めました。そして本当に解けた！本当に成長したなぁと自画自賛しています。
　とはいえ、行列計算時の転置と逆行列の扱いにかなり難儀しました。何だか凄くアクロバットな変形をしましたね。

　近頃はPythonでDL入門してますが、MLSシリーズの新刊も出たことだし、年内にはこの本をやり切ってML入門を修了したいなぁ思ってますがはてさて。

　2020年9月11日は、ハロー！プロジェクトのグループ「Juice=Juice」のメジャーデビュー7周年記念日！

　おめでとうございます！！！！！！！！！！

2021/04/10：加筆修正しました。その際にRで実装編と記事を分割しました。
2026.01.24：加筆修正しました。

　たぶん久し振りの行列計算なので、不定期の復習のつもりで書き直しています。行列計算の式変形よりも、多次元になったことで変数やパラメータのLaTeXコマンドの文字列がどれも増えてしまうことの方が作業としては億劫かもしれません。
　作業のペースは上がってる気がするのでこのまま頑張ります。

　今回の改修では、1次元ガウス分布のときと同様に、本では若干天下り的に登場するガウス事後分布やガウス予測分布に関して、わざわざ平方完成を行ってガウス分布の式を導出する流れに構成を変更しました。愚直に行間を埋めていくのをコンセプトとして書いているのですが、段々と書いてある文章そのものすら書き換え始めていますね。
　不必要に読むのが面倒になったかと思いますが、書くのも面倒だったので、頑張って読んでください。
　一度くらいは省略せずに地道にやってみるのが理解の助けになるものと思って取り組んでいます、たぶんきっと根拠はないけどそんな気がしています。

【次節の内容】