はじめに

　『ベイズ推論による機械学習入門』(MLSシリーズ)の独学時のノートです。各種のモデルやアルゴリズムについて「数式・プログラム・図」を用いて解説します。
　本の補助として読んでください。

　この記事では、精度が未知の多次元ガウス分布に対するベイズ推論の数式の行間を埋めます。

【前節の内容】

【他の節の内容】

【この節の内容】

3.4.2 多次元ガウス分布のベイズ推論の導出：精度が未知の場合

　多次元ガウスモデル(multivariate Gaussian model)に対するベイズ推論(Bayesian inference)を導出する。この記事では、生成分布の精度パラメータ(precision parameter)が未知の場合を扱う。精度が未知の多次元ガウスモデルでは、尤度関数を多次元ガウス分布(multivariate Gaussian distribution・多変量正規分布・multivariate Normal distribution)、事前分布をウィシャート分布(Wishart distribution)とする。
　多次元ガウスモデルについては「3.4.0：多次元ガウスモデルの生成モデルの導出【緑ベイズ入門のノート】 - からっぽのしょこ」、多次元ガウス分布については「多次元ガウス分布の定義式 - からっぽのしょこ」を参照のこと。

事後分布の導出

　まずは、精度が未知の多次元ガウス分布のパラメータ $\boldsymbol{\Lambda}$ の事後分布(posterior distribution)を導出する。
　ウィシャート分布については「ウィシャート分布の定義式 - からっぽのしょこ」を参照のこと。

　観測データ $\mathbf{X}$ が与えられた(条件とする)下でのパラメータ $\boldsymbol{\Lambda}$ の条件付き分布(事後分布)を求める。平均パラメータ $\boldsymbol{\mu}$ は与えられている(既知)とする。

$\displaystyle \begin{align} p(\boldsymbol{\Lambda} \mid \mathbf{X}, \boldsymbol{\mu}, \nu, \mathbf{W}) &= \frac{ p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) }{ p(\mathbf{X} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) } \\ &\propto p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) \\ &= \left\{ \prod_{n=1}^N p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \right\} p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) \\ &= \left\{ \prod_{n=1}^N \mathcal{N}(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}) \right\} \mathcal{W}(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) \tag{1} \end{align}$

途中式の途中式(クリックで展開)

1: ベイズの定理 $p(y \mid x) = \frac{p(x \mid y) p(y)}{p(x)}$ より、観測変数 $\mathbf{X}$ を条件に移した式を立てる。

　事後分布は、 $\mathbf{X}, \boldsymbol{\Lambda}$ の結合分布と $\mathbf{X}$ の周辺分布を用いて、次のようにも求められる。

$\displaystyle \begin{aligned} p(\boldsymbol{\Lambda} \mid \mathbf{X}, \boldsymbol{\mu}, \nu, \mathbf{W}) &= \frac{ p(\mathbf{X}, \boldsymbol{\Lambda} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) }{ p(\mathbf{X} \mid \boldsymbol{\Lambda}, \nu, \mathbf{W}) } \\ &= \frac{ p(\mathbf{X}, \boldsymbol{\Lambda} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) }{ \int p(\mathbf{X}, \boldsymbol{\Lambda} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) \mathrm{d} \boldsymbol{\Lambda} } \\ &= \frac{ p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) }{ \int p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) \mathrm{d} \boldsymbol{\Lambda} } \end{aligned}$

　1行目では、条件付き分布 $p(y \mid x) = \frac{p(x, y)}{p(x)}$ より、 $\mathbf{X}$ を条件に移している。
　2行目では、周辺化 $p(y) = \int p(x, y) \mathrm{d} x$ した $\boldsymbol{\Lambda}$ を明示している。
　3行目では、 $\mathbf{X}, \boldsymbol{\Lambda}$ の依存関係に従い項を分割している。
　生成モデル(結合分布)については「生成モデルの導出」を参照のこと。

2: $\boldsymbol{\Lambda}$ と無関係な項を省く。
3: 観測データ集合 $\mathbf{X}$ の生成確率を、各データ $\mathbf{x}_n$ の生成確率の積に分解する。
4: 平均が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をウィシャート分布に置き換える。

　周辺分布(分母)は $\boldsymbol{\Lambda}$ に影響しないため省いて、比例関係のみに注目する。省略した項については、最後に正規化することで対応できる。

　両辺の対数をとり、指数部分の計算を分かりやすくして、 $\boldsymbol{\Lambda}$ に関して式を整理する。

$\displaystyle \begin{align} \ln p(\boldsymbol{\Lambda} \mid \mathbf{X}, \boldsymbol{\mu}, \nu, \mathbf{W}) &= \ln \Bigl( \frac{ \left\{ \prod_{n=1}^N p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \right\} p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) }{ p(\mathbf{X} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) } \Bigr) \\ &= \ln \Bigl( \prod_{n=1}^N p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr) + \ln p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) - \ln p(\mathbf{X} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) \\ &= \sum_{n=1}^N \ln p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) + p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) + \mathrm{const.} \\ &= \sum_{n=1}^N \ln \mathcal{N}(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}) + \ln \mathcal{W}(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) + \mathrm{const.} \tag{3.113} \end{align}$

途中式の途中式(クリックで展開)

1: 式(1)に関して、対数をとった式を立てる。
2-3: 自然対数の性質 $\ln(x y) = \ln x + \ln y$ 、 $\ln \frac{x}{y} = \ln x - \ln y$ より、分数の項を展開する。

　対数の性質より、総乗 $\prod_n$ の対数をとると、対数の総和 $\sum_n$ になる。

$\displaystyle \begin{aligned} \ln p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) &= \ln \Bigl( \prod_{n=1}^N p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr) \\ &= \ln \Bigl( p(\mathbf{x}_1 \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) * p(\mathbf{x}_2 \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) * \cdots * p(\mathbf{x}_N \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr) \\ &= \ln p(\mathbf{x}_1 \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) + \ln p(\mathbf{x}_2 \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) + \cdots + \ln p(\mathbf{x}_N \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \\ &= \sum_{n=1}^N \ln p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) \end{aligned}$

3: $\boldsymbol{\Lambda}$ と無関係な項を $\mathrm{const.}$ とおく。
4: 精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をウィシャート分布に置き換える。

　 $\boldsymbol{\Lambda}$ に影響しない項を $\mathrm{const.}$ とおく。省略した項については、最後に正規化することで対応できる。

　右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

$\displaystyle \begin{align} \ln p(\boldsymbol{\Lambda} \mid \mathbf{X}, \boldsymbol{\mu}, \nu, \mathbf{W}) &= \sum_{n=1}^N \ln \left( \Bigl( \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{1}{2} (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_n - \boldsymbol{\mu}) \Bigr) \right) \\ &\quad + \ln \left( \mathrm{C}_{\mathcal{W}}(\nu, \mathbf{W}) |\boldsymbol{\Lambda}|^{\frac{\nu - D-1}{2}} \exp \Bigl( - \frac{1}{2} \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}) \Bigr) \right) + \mathrm{const.} \\ &= \sum_{n=1}^N \left\{ \frac{1}{2} \ln |\boldsymbol{\Lambda}| - \frac{D}{2} \ln (2 \pi) - \frac{1}{2} (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_n - \boldsymbol{\mu}) \right\} \\ &\quad + \ln \mathrm{C}_{\mathcal{W}}(\nu, \mathbf{W}) + \frac{\nu - D-1}{2} \ln |\boldsymbol{\Lambda}| - \frac{1}{2} \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}) + \mathrm{const.} \\ &= \sum_{n=1}^N \left\{ \frac{1}{2} \ln |\boldsymbol{\Lambda}| - \frac{1}{2} \mathrm{Tr} \Bigl( (\mathbf{x}_n - \boldsymbol{\mu}) (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} \Bigr) \right\} \\ &\quad + \frac{\nu - D-1}{2} \ln |\boldsymbol{\Lambda}| - \frac{1}{2} \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}) + \mathrm{const.} \\ &= \frac{N}{2} \ln |\boldsymbol{\Lambda}| + \frac{\nu - D-1}{2} \ln |\boldsymbol{\Lambda}| \\ &\quad - \frac{1}{2} \mathrm{Tr} \Bigl( \sum_{n=1}^N (\mathbf{x}_n - \boldsymbol{\mu}) (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} \Bigr) - \frac{1}{2} \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}) + \mathrm{const.} \\ &= \frac{N + \nu - D-1}{2} \ln |\boldsymbol{\Lambda}| - \frac{1}{2} \mathrm{Tr} \Biggl( \Bigl( \sum_{n=1}^N (\mathbf{x}_n - \boldsymbol{\mu}) (\mathbf{x}_n - \boldsymbol{\mu})^{\top} + \mathbf{W}^{-1} \Bigr) \boldsymbol{\Lambda} \Biggr) + \mathrm{const.} \tag{3.114} \end{align}$

途中式の途中式(クリックで展開)

1: 尤度関数はガウス分布、事前分布はウィシャート分布を仮定しているので、それぞれ定義式に置き換える。

$\displaystyle \begin{align} p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) &= \mathcal{N}(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}) \tag{3.111}\\ &= \sqrt{ \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D} } \exp \Bigl( - \frac{1}{2} (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_n - \boldsymbol{\mu}) \Bigr) \\ p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) &= \mathcal{W}(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) \tag{3.112}\\ &= \mathrm{C}_{\mathcal{W}}(\nu, \mathbf{W}) |\boldsymbol{\Lambda}|^{\frac{\nu - D-1}{2}} \exp \Bigl( - \frac{1}{2} \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}) \Bigr) \end{align}$

　ここで、 $\mathrm{C}_{\mathcal{W}}(\nu, \mathbf{W})$ は、ウィシャート分布(事前分布)の正規化項である。(式変形に影響しないので簡易的に表記している。)
　ルートを指数で表すと $\sqrt{x} = x^{\frac{1}{2}}$ である。

2: 自然対数の性質 $\ln(x y) = \ln x + \ln y$ 、 $\ln \frac{x}{y} = \ln x - \ln y$ 、 $\ln x^y = y \ln x$ 、対数と指数の関係 $\ln (\exp (x)) = x$ より、定義式の項を展開する。
3: トレース $\mathrm{Tr}(\cdot)$ を用いて、二次形式を変形する。

　ここでは表記を分かりやすくするため、偏差のベクトルの各要素を $\tilde{x}_{n,d} = x_{n,d} - \mu_d$ と表記する。

$\displaystyle \mathbf{x}_n - \boldsymbol{\mu} = \begin{bmatrix} x_{n,1} \\ x_{n,2} \\ \vdots \\ x_{n,D} \end{bmatrix} - \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_D \end{bmatrix} = \begin{bmatrix} x_{n,1} - \mu_1 \\ x_{n,2} - \mu_2 \\ \vdots \\ x_{n,D} - \mu_D \end{bmatrix} = \begin{bmatrix} \tilde{x}_{n,1} \\ \tilde{x}_{n,2} \\ \vdots \\ \tilde{x}_{n,D} \end{bmatrix}$

　確率変数と平均ベクトルの二次形式 $(\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_n - \boldsymbol{\mu})$ は

$\displaystyle \begin{aligned} (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_n - \boldsymbol{\mu}) &= \begin{bmatrix} \tilde{x}_{n,1} & \tilde{x}_{n,2} & \cdots & \tilde{x}_{n,D} \end{bmatrix} \begin{bmatrix} \lambda_{1,1} & \lambda_{1,2} & \cdots & \lambda_{1,D} \\ \lambda_{2,1} & \lambda_{2,2} & \cdots & \lambda_{2,D} \\ \vdots & \vdots & \ddots & \vdots \\ \lambda_{D,1} & \lambda_{D,2} & \cdots & \lambda_{D,D} \end{bmatrix} \begin{bmatrix} \tilde{x}_{n,1} \\ \tilde{x}_{n,2} \\ \vdots \\ \tilde{x}_{n,D} \end{bmatrix} \\ &= \begin{bmatrix} \sum_{d=1}^D \tilde{x}_{n,d} \lambda_{d,1} & \sum_{d=1}^D \tilde{x}_{n,d} \lambda_{d,2} & \cdots & \sum_{d=1}^D \tilde{x}_{n,d} \lambda_{d,D} \end{bmatrix} \begin{bmatrix} \tilde{x}_{n,1} \\ \tilde{x}_{n,2} \\ \vdots \\ \tilde{x}_{n,D} \end{bmatrix} \\ &= \sum_{d=1}^D \sum_{d'=1}^D \tilde{x}_{n,d} \lambda_{d,d'} \tilde{x}_{n,d'} \end{aligned}$

となる。
　続いて、二次形式を変形した $(\mathbf{x}_n - \boldsymbol{\mu}) (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda}$ を考える。

$\displaystyle \begin{aligned} (\mathbf{x}_n - \boldsymbol{\mu}) (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} &= \begin{bmatrix} \tilde{x}_{n,1} \\ \tilde{x}_{n,2} \\ \vdots \\ \tilde{x}_{n,D} \end{bmatrix} \begin{bmatrix} \tilde{x}_{n,1} & \tilde{x}_{n,2} & \cdots & \tilde{x}_{n,D} \end{bmatrix} \begin{bmatrix} \lambda_{1,1} & \lambda_{1,2} & \cdots & \lambda_{1,D} \\ \lambda_{2,1} & \lambda_{2,2} & \cdots & \lambda_{2,D} \\ \vdots & \vdots & \ddots & \vdots \\ \lambda_{D,1} & \lambda_{D,2} & \cdots & \lambda_{D,D} \end{bmatrix} \\ &= \begin{bmatrix} \tilde{x}_{n,1}^2 & \tilde{x}_{n,1} \tilde{x}_{n,2} & \cdots & \tilde{x}_{n,1} \tilde{x}_{n,D} \\ \tilde{x}_{n,2} \tilde{x}_{n,1} & \tilde{x}_{n,2}^2 & \cdots & \tilde{x}_{n,2} \tilde{x}_{n,D} \\ \vdots & \vdots & \ddots & \vdots \\ \tilde{x}_{n,D} \tilde{x}_{n,1} & \tilde{x}_{n,D} \tilde{x}_{n,2} & \cdots & \tilde{x}_{n,D}^2 \end{bmatrix} \begin{bmatrix} \lambda_{1,1} & \lambda_{1,2} & \cdots & \lambda_{1,D} \\ \lambda_{2,1} & \lambda_{2,2} & \cdots & \lambda_{2,D} \\ \vdots & \vdots & \ddots & \vdots \\ \lambda_{D,1} & \lambda_{D,2} & \cdots & \lambda_{D,D} \end{bmatrix} \\ &= \begin{bmatrix} \sum_{d=1}^D \tilde{x}_{n,1} \tilde{x}_{n,d} \lambda_{d1} & \sum_{d=1}^D \tilde{x}_{n,1} \tilde{x}_{n,d} \lambda_{d2} & \cdots & \sum_{d=1}^D \tilde{x}_{n,1} \tilde{x}_{n,d} \lambda_{d,D} \\ \sum_{d=1}^D \tilde{x}_{n,2} \tilde{x}_{n,d} \lambda_{d1} & \sum_{d=1}^D \tilde{x}_{n,2} \tilde{x}_{n,d} \lambda_{d2} & \cdots & \sum_{d=1}^D \tilde{x}_{n,2} \tilde{x}_{n,d} \lambda_{d,D} \\ \vdots & \vdots & \ddots & \vdots \\ \sum_{d=1}^D \tilde{x}_{n,D} \tilde{x}_{n,d} \lambda_{d,1} & \sum_{d=1}^D \tilde{x}_{n,D} \tilde{x}_{n,d} \lambda_{d,2} & \cdots & \sum_{d=1}^D \tilde{x}_{n,D} \tilde{x}_{n,d} \lambda_{d,D} \end{bmatrix} \end{aligned}$

　 $D \times D$ の正方行列となるので、対角成分の和が

$\displaystyle \begin{aligned} \mathrm{Tr} \Bigl( (\mathbf{x}_n - \boldsymbol{\mu}) (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} \Bigr) &= \sum_{d=1}^D \tilde{x}_{n,1} \tilde{x}_{n,d} \lambda_{d,1} + \sum_{d=1}^D \tilde{x}_{n,2} \tilde{x}_{n,d} \lambda_{d,2} + \cdots + \sum_{d=1}^D \tilde{x}_{n,D} \tilde{x}_{n,d} \lambda_{d,D} \\ &= \sum_{d'=1}^D \sum_{d=1}^D \tilde{x}_{n,d'} \tilde{x}_{n,d} \lambda_{d,d'} \end{aligned}$

となる。
　よって、 $D$ 次元ガウス分布の二次形式は、次のように変形できる。

$\displaystyle (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_n - \boldsymbol{\mu}) = \mathrm{Tr} \Bigl( (\mathbf{x}_n - \boldsymbol{\mu}) (\mathbf{x}_n - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} \Bigr) \tag{2}$

4: $n$ に関する総和 $\sum_n$ の波括弧を展開する。 $n$ と無関係な項は $N$ 倍 $\sum_{n=1}^N a = N a$ 、トレースの性質 $\mathrm{Tr}(\mathbf{A}) + \mathrm{Tr}(\mathbf{B}) = \mathrm{Tr}(\mathbf{A} + \mathbf{B})$ より、トレースの項は $\sum_{n=1}^N \mathrm{Tr}(\mathbf{Z}_n) = \mathrm{Tr}(\sum_{n=1}^N \mathbf{Z}_n)$ となる。
5: $\ln |\boldsymbol{\Lambda}|, \boldsymbol{\Lambda}$ の項をそれぞれまとめる。

　適宜、 $\boldsymbol{\Lambda}$ に影響しない項を $\mathrm{const.}$ にまとめている。

　事後分布の式(3.114)について、次のようにおく。

$\displaystyle \begin{aligned} \hat{\nu} &= N + \nu \\ \hat{\mathbf{W}} &= \sum_{n=1}^N (\mathbf{x}_n - \mu) (\mathbf{x}_n - \mu)^{\top} + \mathbf{W}^{-1} \end{aligned} \tag{3.116}$

　式(3.114)について、 $\hat{\nu}, \hat{\mathbf{W}}$ で置き換える。

$\displaystyle \ln p(\boldsymbol{\Lambda} \mid \mathbf{X}, \boldsymbol{\mu}, \nu, \mathbf{W}) = \frac{\hat{\nu} - D-1}{2} \ln |\boldsymbol{\Lambda}| - \frac{1}{2} \mathrm{Tr}(\hat{\mathbf{W}}^{-1} \boldsymbol{\Lambda}) + \mathrm{const.}$

　さらに、 $\ln$ を外して $\mathrm{const.}$ を正規化項に置き換える(正規化する)と、事後分布は式の形状から、パラメータ $\hat{\nu}, \hat{\mathbf{W}}$ のウィシャート分布であることが分かる。

$\displaystyle \begin{align} p(\boldsymbol{\Lambda} \mid \mathbf{X}, \boldsymbol{\mu}, \nu, \mathbf{W}) &= \mathrm{C}_{\mathcal{W}}(\hat{\nu}, \hat{\mathbf{W}}) |\boldsymbol{\Lambda}|^{\frac{\hat{\nu}-D-1}{2}} \exp \Bigl( - \frac{1}{2} \mathrm{Tr}(\hat{\mathbf{W}}^{-1} \boldsymbol{\Lambda}) \Bigr) \\ &= \Biggl( |\hat{\mathbf{W}}|^{\frac{\hat{\nu}}{2}} 2^{\frac{\hat{\nu} D}{2}} \pi^{\frac{D (D-1)}{4}} \prod_{d=1}^D \Gamma \Bigl( \frac{\hat{\nu} + 1-d}{2} \Bigr) \Biggr)^{-1} |\boldsymbol{\Lambda}|^{\frac{\hat{\nu}-D-1}{2}} \exp \Bigl( - \frac{1}{2} \mathrm{Tr}(\hat{\mathbf{W}}^{-1} \boldsymbol{\Lambda}) \Bigr) \\ &= \mathcal{W}(\boldsymbol{\Lambda} \mid \hat{\nu}, \hat{\mathbf{W}}) \tag{3.115} \end{align}$

　 $\boldsymbol{\Lambda}$ の事後分布は式が得られた。
　ここで、 $\mathrm{C}_{\mathcal{W}}(\hat{\nu}, \hat{\mathbf{W}})$ はウィシャート分布(事後分布)の正規化項である。
　また、式(3.116)が事後分布のパラメータ(超パラメータ) $\hat{\nu}, \hat{\mathbf{W}}$ の計算式(更新式)である。

　以上で、精度が未知の多次元ガウスモデルにおける事後分布を導出した。

スポンサードリンク

予測分布の導出

　次は、精度が未知の多次元ガウス分布に従う未観測データ $\mathbf{x}_{*} = (x_{*,1}, \cdots, x_{*,D})^{\top}$ の予測分布(predict distribution)を導出する。
　スチューデントのt分布については「多次元スチューデントのt分布の定義式 - からっぽのしょこ」を参照のこと。

事前分布による予測分布

　事前分布(観測データによる学習を行っていない $\boldsymbol{\Lambda}$ の分布)を用いた予測分布(事前予測分布)を求める。

$\displaystyle \begin{align} p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) &= \int p(\mathbf{x}_{*}, \boldsymbol{\Lambda} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) \mathrm{d} \boldsymbol{\Lambda} \\ &= \int p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) \mathrm{d} \boldsymbol{\Lambda} \\ &= \int \mathcal{N}(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}) \mathcal{W}(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) \mathrm{d} \boldsymbol{\Lambda} \tag{3} \end{align}$

途中式の途中式(クリックで展開)

1: 未知変数 $\mathbf{x}_{*}$ とパラメータ $\boldsymbol{\Lambda}$ の結合分布に対して、 $\boldsymbol{\Lambda}$ を周辺化した式を立てる。
2: 依存関係のある $\mathbf{x}_{*}, \boldsymbol{\Lambda}$ の項を分割する。
3: 平均が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をウィシャート分布に置き換える。

　事前予測分布は、未知のデータ $\mathbf{x}_{*}$ の生成分布(3.111)と、パラメータ $\boldsymbol{\Lambda}$ の事前分布(3.112)を用いた、 $\mathbf{x}_{*}$ の周辺分布である。

　積分の計算を避けるため式(3)は直接用いずに、ベイズの定理を用いて、 $\mathbf{x}_{*}$ と $\boldsymbol{\Lambda}$ の関係を考える。

$\displaystyle \begin{align} p(\boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \boldsymbol{\mu}, \nu, \mathbf{W}) &= \frac{ p(\mathbf{x}_{*}, \boldsymbol{\Lambda} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) }{ \int p(\mathbf{x}_{*}, \boldsymbol{\Lambda} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) \mathrm{d} \boldsymbol{\Lambda} } \\ &= \frac{ p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) }{ p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) } \tag{4} \end{align}$

　左辺の項は、1つのデータ $\mathbf{x}_{*}$ が与えられた下での $\boldsymbol{\Lambda}$ の条件付き分布(事後分布)と言える。つまり、 $N$ 個のデータ $\mathbf{X}$ が与えられた下での条件付き分布(事後分布)の式(3.115)と、同様の手順で求められる(同様のパラメータになる)。
　そこで、 $\mathbf{X}$ による事後分布のパラメータの式(3.116)を用いて、 $N = 1, \mathbf{X} = \{\mathbf{x}_{*}\}$ より、次のようにおく。

$\displaystyle \begin{aligned} \nu_{x_{*}} &= 1 + \nu \\ \mathbf{W}_{x_{*}}^{-1} &= (\mathbf{x}_{*} - \boldsymbol{\mu}) (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} + \mathbf{W}^{-1} \end{aligned} \tag{3.119}$

　 $\mathbf{x}_{*}$ による事後分布は、パラメータ $\nu_{x_{*}}, \mathbf{W}_{x_{*}}$ のウィシャート分布となる。

$\displaystyle \begin{align} p(\boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \boldsymbol{\mu}, \nu, \mathbf{W}) &= \mathcal{W}(\boldsymbol{\Lambda} \mid \nu_{*}, \mathbf{W}_{*}) \tag{3.118}\\ &= \Biggl( |\mathbf{W}_{x_{*}}|^{\frac{\nu_{x_{*}}}{2}} 2^{\frac{\nu_{x_{*}} D}{2}} \pi^{\frac{D (D-1)}{4}} \prod_{d=1}^D \Gamma \Bigl( \frac{\nu_{x_{*}} + 1-d}{2} \Bigr) \Biggr)^{-1} |\boldsymbol{\Lambda}|^{\frac{\nu_{x_{*}} - D-1}{2}} \exp \Bigl( - \frac{1}{2} \mathrm{Tr}(\mathbf{W}_{x_{*}}^{-1} \boldsymbol{\Lambda}) \Bigr) \end{align}$

　 $\mathbf{x}_{*}$ による事後分布の式が得られた。

　 $\mathbf{x}_{*}$ による事後分布の式(4)について、指数部分の計算を分かりやすくするため、両辺の対数をとる。

$\displaystyle \begin{aligned} \ln p(\boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \boldsymbol{\mu}, \nu, \mathbf{W}) &= \ln \Bigl( \frac{ p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) }{ p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) } \Bigr) \\ &= \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) + \ln p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) - \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) \end{aligned}$

　予測分布に関して式を整理する。

$\displaystyle \begin{align} \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) &= \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) + \ln p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W}) - \ln p(\boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \boldsymbol{\mu}, \nu, \mathbf{W}) \\ &= \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) - \ln p(\boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \boldsymbol{\mu}, \nu, \mathbf{W}) + \mathrm{const.} \tag{3.117}\\ &= \ln \mathcal{N}(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}) - \ln \mathcal{W}(\boldsymbol{\Lambda} \mid \nu_{x_{*}}, \mathbf{W}_{x_{*}}) + \mathrm{const.} \end{align}$

　 $\mathbf{x}_{*}$ に影響しない項を $\mathrm{const.}$ とおく。省略した項については、最後に正規化することで対応できる。

　右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

$\displaystyle \begin{align} \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) &= \ln \left( \Bigl( \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_{*} - \boldsymbol{\mu}) \Bigr) \right) \\ &\quad - \ln \left( \Biggl( |\mathbf{W}_{x_{*}}|^{\frac{\nu_{x_{*}}}{2}} 2^{\frac{\nu_{x_{*}} D}{2}} \pi^{\frac{D (D-1)}{4}} \prod_{d=1}^D \Gamma \Bigl( \frac{\nu_{x_{*}} + 1-d}{2} \Bigr) \Biggr)^{-1} |\boldsymbol{\Lambda}|^{\frac{\nu_{x_{*}} - D-1}{2}} \exp \Bigl( - \frac{1}{2} \mathrm{Tr}(\mathbf{W}_{x_{*}}^{-1} \boldsymbol{\Lambda}) \Bigr) \right) + \mathrm{const.} \\ &= \frac{1}{2} \ln \Bigl( \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D} \Bigr) - \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_{*} - \boldsymbol{\mu}) \\ &\quad + \frac{\nu_{x_{*}}}{2} \ln |\mathbf{W}_{x_{*}}| + \frac{\nu_{x_{*}} D}{2} \ln 2 + \frac{D (D-1)}{4} \ln \pi + \sum_{d=1}^D \ln \Gamma \Bigl( \frac{\nu_{x_{*}} + 1-d}{2} \Bigr) \\ &\qquad - \frac{\nu_{x_{*}} - D-1}{2} \ln |\boldsymbol{\Lambda}| + \frac{1}{2} \mathrm{Tr}(\mathbf{W}_{x_{*}}^{-1} \boldsymbol{\Lambda}) + \mathrm{const.} \\ &= - \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_{*} - \boldsymbol{\mu}) \\ &\quad + \frac{\nu_{x_{*}}}{2} \ln |\mathbf{W}_{x_{*}}| + \frac{1}{2} \mathrm{Tr}(\mathbf{W}_{x_{*}}^{-1} \boldsymbol{\Lambda}) + \mathrm{const.} \tag{5} \end{align}$

途中式の途中式(クリックで展開)

1: 尤度関数はガウス分布(3.111)を仮定しており、未知変数による事後分布はウィシャート分布(3.118)になるので、それぞれ定義式に置き換える。
2: 自然対数の性質より、定義式の項を展開する。

　適宜、 $\mathbf{x}_{*}$ に影響しない項を $\mathrm{const.}$ にまとめていく。パラメータの計算式(3.119)より、 $\nu_{x_{*}}$ は $\mathbf{x}_{*}$ に影響しない( $\nu_{x_{*}}$ の式に $\mathbf{x}_{*}$ を含まない)。
　 $\nu_{x_{*}}, \mathbf{W}_{x_{*}}$ に式(3.119)を代入して、 $\mathbf{x}_{*}$ に関して式を整理する。

$\displaystyle \begin{align} \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) &= - \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_{*} - \boldsymbol{\mu}) \\ &\quad + \frac{1 - \nu}{2} \ln \Biggl| \Bigl( (\mathbf{x}_{*} - \boldsymbol{\mu}) (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} + \mathbf{W}^{-1} \Bigr)^{-1} \Biggr| \\ &\qquad + \frac{1}{2} \mathrm{Tr} \Biggl( \Bigl( (\mathbf{x}_{*} - \boldsymbol{\mu}) (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} + \mathbf{W}^{-1} \Bigr) \boldsymbol{\Lambda} \Biggr) + \mathrm{const.} \\ &= - \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_{*} - \boldsymbol{\mu}) \\ &\quad - \frac{1 - \nu}{2} \ln \Biggl| \mathbf{W}^{-1} \Bigl( \mathbf{I}_D + \mathbf{W} (\mathbf{x}_{*} - \boldsymbol{\mu}) (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \Bigr) \Biggr| \\ &\qquad + \frac{1}{2} \mathrm{Tr} \Bigl( (\mathbf{x}_{*} - \boldsymbol{\mu}) (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} + \mathbf{W}^{-1} \boldsymbol{\Lambda} \Bigr) + \mathrm{const.} \\ &= - \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_{*} - \boldsymbol{\mu}) \\ &\quad - \frac{1 - \nu}{2} \ln \Biggl( \Bigl| \mathbf{W}^{-1} \Bigr| \Bigl| \mathbf{I}_D + \mathbf{W} (\mathbf{x}_{*} - \boldsymbol{\mu}) (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \Bigr| \Biggr) \\ &\qquad + \frac{1}{2} \mathrm{Tr} \Bigl( (\mathbf{x}_{*} - \boldsymbol{\mu}) (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} \Bigr) + \frac{1}{2} \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}) + \mathrm{const.} \\ &= - \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_{*} - \boldsymbol{\mu}) \\ &\quad - \frac{1 - \nu}{2} \ln |\mathbf{W}^{-1}| - \frac{1 - \nu}{2} \ln \Bigl| \mathbf{I}_D + \mathbf{W} (\mathbf{x}_{*} - \boldsymbol{\mu}) (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \Bigr| \\ &\qquad + \frac{1}{2} (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \boldsymbol{\Lambda} (\mathbf{x}_{*} - \boldsymbol{\mu}) + \mathrm{const.} \\ &= - \frac{1 - \nu}{2} \ln \Biggl| \mathbf{I}_1 + \Bigl\{ \mathbf{W} (\mathbf{x}_{*} - \boldsymbol{\mu}) \Bigr\}^{\top} (\mathbf{x}_{*} - \boldsymbol{\mu}) \Biggr| + \mathrm{const.} \\ &= - \frac{1 - \nu}{2} \ln \Bigl( 1 + (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \mathbf{W} (\mathbf{x}_{*} - \boldsymbol{\mu}) \Bigr) + \mathrm{const.} \tag{3.120} \end{align}$

途中式の途中式(クリックで展開)

1: 式(5)に式(3.119)を代入する。ただし、 $\mathbf{W}_{{x}_{*}} = (\mathbf{W}_{{x}_{*}}^{-1})^{-1}$ として代入する。
2: 行列式の性質 $|\mathbf{A}^{-1}| = |\mathbf{A}|^{-1}$ 、対数の性質 $\ln x^{-1} = - \ln x$ より、負の指数を行列式と対数の外に出す。
2: $\mathbf{W}^{-1}$ を括り出す。
3: 行列式の性質　 $|\mathbf{A} \mathbf{B}| = |\mathbf{A}| |\mathbf{B}|$ より、行列式の項を分割する。
3: トレースの性質 $\mathrm{Tr}(\mathbf{A} + \mathbf{B}) = \mathrm{Tr}(\mathbf{A}) + \mathrm{Tr}(\mathbf{B})$ より、トレースの項を分割する。
4: 対数の性質 $\ln(x y) = \ln x + \ln y$ より、対数の項を分割する。
4: 二次形式とトレースの関係(2)より、トレースの項を二次形式に置き換える。
5: 行列式の性質 $|\mathbf{I}_N + \mathbf{A}^{\top} \mathbf{B}| = |\mathbf{I}_M + \mathbf{A} \mathbf{B}^{\top}|$ より、行列式の項を変形する。

　 $\mathbf{W} (\mathbf{x}_{*} - \boldsymbol{\mu})$ を1つの行列として扱い、 $\mathbf{W} (\mathbf{x}_{*} - \mu) (\mathbf{x}_{*} - \mu)^{\top}$ を $D \times 1$ 、 $1 \times D$ の行列の積として変形する。

6: 波括弧を転置する。ただし、スケール行列は対称行列なので、 $\mathbf{W}^{\top} = \mathbf{W}$ である。
6: 行列式の中がスカラなので、行列式の性質 $|a| = a$ より、行列式を外す。

　予測分布の式(3.120)について、次のようにおく。

$\displaystyle \begin{aligned} \boldsymbol{\mu}_s &= \boldsymbol{\mu} \\ \boldsymbol{\Lambda}_s &= \nu_s \mathbf{W} \\ &= (1 - D + \nu) \mathbf{W} \\ \nu_s &= 1 - D + \nu \end{aligned} \tag{3.124}$

　式(3.120)について、 $\boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s$ で置き換える。

$\displaystyle \begin{align} \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) &= - \frac{1 - D - \nu + D}{2} \ln \Bigl( 1 + \frac{1}{\nu_s} (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top} \nu_s \mathbf{W} (\mathbf{x}_{*} - \boldsymbol{\mu}) \Bigr) + \mathrm{const.} \tag{3.120'}\\ &= - \frac{\nu_s + D}{2} \ln \Bigl( 1 + \frac{1}{\nu_s} (\mathbf{x}_{*} - \boldsymbol{\mu}_s)^{\top} \boldsymbol{\Lambda}_s (\mathbf{x}_{*} - \boldsymbol{\mu}_s) \Bigr) + \mathrm{const.} \tag{3.122} \end{align}$

途中式の途中式(クリックで展開)

スチューデントのt分布の定義式の形状となるように、式(3.120)を整形する。

　分数の項に $D-D = 0$ を加え、対数の項に $\frac{\nu_s}{\nu_s} = 1$ を分割して掛ける。

　さらに、 $\ln$ を外して $\mathrm{const.}$ を正規化項に置き換える(正規化する)と、予測分布は式の形状から、パラメータ $\boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s$ の $D$ 次元スチューデントのt分布であることが分かる。

$\displaystyle \begin{align} \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) &= \mathrm{C}_{\mathrm{St}}(\boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s) \Bigl( 1 + \frac{1}{\nu_s} (\mathbf{x}_{*} - \boldsymbol{\mu}_s)^{\top} \boldsymbol{\Lambda}_s (\mathbf{x}_{*} - \boldsymbol{\mu}_s) \Bigr)^{-\frac{\nu_s+D}{2}} \\ &= \frac{ \Gamma(\frac{\nu_s + D}{2}) }{ \Gamma(\frac{\nu_s}{2}) } \frac{ |\boldsymbol{\Lambda}_s|^{\frac{1}{2}} } { (\pi \nu_s)^{\frac{D}{2}} } \Bigl( 1 + \frac{1}{\nu_s} (\mathbf{x}_{*} - \boldsymbol{\mu}_s)^{\top} \boldsymbol{\Lambda}_s (\mathbf{x}_{*} - \boldsymbol{\mu}_s) \Bigr)^{-\frac{\nu_s+D}{2}} \\ &= \mathrm{St}(\mathbf{x}_{*} \mid \boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s) \tag{3.123} \end{align}$

　 $\mathbf{x}_{*}$ の事前予測分布の式が得られた。
　ここで、 $\mathrm{C}_{\mathrm{St}}(\boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s)$ は、スチューデントのt分布(事前予測分布)の正規化項である。
　また、式(3.124)が、予測分布のパラメータ $\boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s$ の計算式(更新式)である。

事後分布による予測分布

　予測分布の計算に事前分布 $p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})$ を用いて、観測データ $\mathbf{X}$ による学習を行っていない予測分布(事前予測分布) $p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \nu, \mathbf{W})$ (のパラメータ $\boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s$ )を求めた。事後分布 $p(\boldsymbol{\Lambda} \mid \mathbf{X}, \nu, \mathbf{W})$ を用いると、観測データ $\mathbf{X}$ によって学習した予測分布(事後予測分布) $p(\mathbf{x}_{*} \mid \mathbf{X}, \boldsymbol{\mu}, \nu, \mathbf{W})$ (のパラメータ $\boldsymbol{\mu}_s, \hat{\boldsymbol{\Lambda}}_s, \hat{\nu}_s$ )を求められる。

$\displaystyle \begin{align} p(\mathbf{x}_{*} \mid \mathbf{X}, \boldsymbol{\mu}, \nu, \mathbf{W}) &= \int p(\mathbf{x}_{*}, \boldsymbol{\Lambda} \mid \mathbf{X}, \boldsymbol{\mu}, \nu, \mathbf{W}) \mathrm{d} \boldsymbol{\Lambda} \\ &= \int p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\Lambda} \mid \mathbf{X}, \nu, \mathbf{W}) \mathrm{d} \boldsymbol{\Lambda} \\ &= \int \mathcal{N}(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}) \mathcal{W}(\boldsymbol{\Lambda} \mid \hat{\nu}, \hat{\mathbf{W}}) \mathrm{d} \boldsymbol{\Lambda} \tag{3'} \end{align}$

途中式の途中式(クリックで展開)

1: 観測変数 $\mathbf{X}$ を条件として、未知変数 $\mathbf{x}_{*}$ とパラメータ $\boldsymbol{\Lambda}$ の結合分布に対して、 $\boldsymbol{\Lambda}$ を周辺化した式を立てる。
2: 依存関係のある $\mathbf{x}_{*}, \boldsymbol{\Lambda}$ の項を分割する。
3: 平均が未知のガウスモデルの定義より、尤度関数をガウス分布、事後分布をウィシャート分布に置き換える。

　事後予測分布は、未知のデータ $\mathbf{x}_{*}$ の生成分布(3.111)と、パラメータ $\boldsymbol{\Lambda}$ の事後分布(3.115)を用いた、 $\mathbf{x}_{*}$ の周辺分布である。

　事後分布は事前分布と同じくウィシャート分布なので、事前予測分布の式(3.123)と、同様の手順で事後予測分布の式も求められる。
　そこで、事前予測分布のパラメータ $\boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s$ の式(3.124)を構成する事前分布のパラメータ $\nu, \mathbf{W}$ について、事後分布のパラメータ $\hat{\nu}, \hat{\mathbf{W}}$ の式(3.116)に置き換えたものを事後予測分布のパラメータ $\hat{\boldsymbol{\mu}}_s, \hat{\boldsymbol{\Lambda}}_s, \hat{\nu}_s$ とおく。

$\displaystyle \begin{aligned} \hat{\boldsymbol{\mu}}_s &= \boldsymbol{\mu}_s \\ &= \boldsymbol{\mu} \\ \hat{\boldsymbol{\Lambda}}_s &= (1 - D + \hat{\nu}) \hat{\mathbf{W}} \\ &= (N - D + 1 + \nu) \Bigl( \sum_{n=1}^N (\mathbf{x}_n - \mu) (\mathbf{x}_n - \mu)^{\top} + \mathbf{W}^{-1} \Bigr)^{-1} \\ \hat{\nu}_s &= 1 - D + \hat{\nu} \\ &= N - D + 1 + \nu \end{aligned} \tag{3.124'}$

　予測分布の式(3.123)についても置き換える(同様の手順で導出する)と、パラメータ $\boldsymbol{\mu}_s, \hat{\boldsymbol{\Lambda}}_s, \hat{\nu}_s$ の $D$ 次元スチューデントのt分布となる。

$\displaystyle \begin{align} p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \nu, \mathbf{W}) &= \frac{ \Gamma(\frac{\hat{\nu}_s + D}{2}) }{ \Gamma(\frac{\hat{\nu}_s}{2}) } \frac{ |\hat{\boldsymbol{\Lambda}}_s|^{\frac{1}{2}} } { (\pi \hat{\nu}_s)^{\frac{D}{2}} } \Bigl( 1 + \frac{1}{\hat{\nu}_s} (\mathbf{x}_{*} - \boldsymbol{\mu}_s)^{\top} \hat{\boldsymbol{\Lambda}}_s (\mathbf{x}_{*} - \boldsymbol{\mu}_s) \Bigr)^{-\frac{\hat{\nu}_s+D}{2}} \\ &= \mathrm{St}(\mathbf{x}_{*} \mid \boldsymbol{\mu}_s, \hat{\boldsymbol{\Lambda}}_s, \hat{\nu}_s) \tag{3.123'} \end{align}$