はじめに

　『ベイズ推論による機械学習入門』(MLSシリーズ)の独学時のノートです。各種のモデルやアルゴリズムについて「数式・プログラム・図」を用いて解説します。
　本の補助として読んでください。

　この記事では、精度が未知の1次元ガウス分布に対するベイズ推論の数式の行間を埋めます。

【前節の内容】

【他の節一覧】

【この節の内容】

3.3.2 1次元ガウス分布のベイズ推論の導出：精度が未知の場合

　1次元ガウスモデル(Gaussian model)に対するベイズ推論(Bayesian inference)を導出する。この記事では、生成分布の精度パラメータ(precision parameter)が未知の場合を扱う。精度が未知の1次元ガウスモデルでは、尤度関数を1次元ガウス分布(Gaussian distribution・一変量正規分布・Normal distribution)、事前分布をガンマ分布(Gamma distribution)とする。
　1次元ガウスモデルについては「3.3.0：1次元ガウスモデルの生成モデルの導出【緑ベイズ入門のノート】 - からっぽのしょこ」、1次元ガウス分布については「1次元ガウス分布の定義式 - からっぽのしょこ」を参照のこと。

事後分布の導出

　まずは、精度が未知の1次元ガウス分布のパラメータ $\lambda$ の事後分布(posterior distribution)を導出する。
　ガンマ分布については「準備中」を参照のこと。

　観測データ $\mathbf{X}$ が与えられた(条件とする)下でのパラメータ $\lambda$ の条件付き分布(事後分布)を求める。平均パラメータ $\mu$ は与えられている(既知)とする。

$\displaystyle \begin{align} p(\lambda \mid \mathbf{X}, \mu, a, b) &= \frac{ p(\mathbf{X} \mid \mu, \lambda) p(\lambda \mid a, b) }{ p(\mathbf{X} \mid \mu, a, b) } \\ &\propto p(\mathbf{X} \mid \mu, \lambda) p(\lambda \mid a, b) \\ &= \left\{ \prod_{n=1}^N p(x_n \mid \mu, \lambda) \right\} p(\lambda \mid a, b) \\ &= \left\{ \prod_{n=1}^N \mathcal{N}(x_n \mid \mu, \lambda^{-1}) \right\} \mathrm{Gam}(\lambda \mid a, b) \tag{3.66} \end{align}$

途中式の途中式(クリックで展開)

1: ベイズの定理 $p(y \mid x) = \frac{p(x \mid y) p(y)}{p(x)}$ より、観測変数 $\mathbf{X}$ を条件に移した式を立てる。

　事後分布は、 $\mathbf{X}, \lambda$ の結合分布と $\mathbf{X}$ の周辺分布を用いて、次のようにも求められる。

$\displaystyle \begin{aligned} p(\lambda \mid \mathbf{X}, \mu, a, b) &= \frac{ p(\mathbf{X}, \lambda \mid \mu, a, b) }{ p(\mathbf{X} \mid \mu, a, b) } \\ &= \frac{ p(\mathbf{X}, \lambda \mid \mu, a, b) }{ \int p(\mathbf{X}, \lambda \mid \mu, a, b) \mathrm{d} \lambda } \\ &= \frac{ p(\mathbf{X} \mid \mu, \lambda) p(\lambda \mid a, b) }{ \int p(\mathbf{X} \mid \mu, \lambda) p(\lambda \mid a, b) \mathrm{d} \lambda } \end{aligned}$

　1行目では、条件付き分布 $p(y \mid x) = \frac{p(x, y)}{p(x)}$ より、 $\mathbf{X}$ を条件に移している。
　2行目では、周辺化 $p(y) = \int p(x, y) \mathrm{d} x$ した $\lambda$ を明示している。
　3行目では、 $\mathbf{X}, \lambda$ の依存関係に従い項を分割している。
　生成モデル(結合分布)については「生成モデルの導出」を参照のこと。

2: $\lambda$ と無関係な項を省く。
3: 観測データ集合 $\mathbf{X}$ の生成確率を、各データ $x_n$ の生成確率の積に分解する。
4: 精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガンマ分布に置き換える。

　周辺分布(分母)は $\lambda$ に影響しないため省いて、比例関係のみに注目する。省略した項については、最後に正規化することで対応できる。

　両辺の対数をとり、指数部分の計算を分かりやすくして、 $\lambda$ に関して式を整理する。

$\displaystyle \begin{aligned} \ln p(\lambda \mid \mathbf{X}, \mu, a, b) &= \ln \Bigl( \frac{ \left\{ \prod_{n=1}^N p(x_n \mid \mu, \lambda) \right\} p(\lambda \mid a, b) }{ p(\mathbf{X} \mid \mu, a, b) } \Bigr) \\ &= \ln \Bigl( \prod_{n=1}^N p(x_n \mid \mu, \lambda) \Bigr) + \ln p(\lambda \mid a, b) - \ln p(\mathbf{X} \mid \mu, a, b) \\ &= \sum_{n=1}^N \ln p(x_n \mid \mu, \lambda) + \ln p(\lambda \mid a, b) + \mathrm{const.} \\ &= \sum_{n=1}^N \ln \mathcal{N}(x_n \mid \mu, \lambda^{-1}) + \ln \mathrm{Gam}(\lambda \mid a, b) + \mathrm{const.} \end{aligned}$

途中式の途中式(クリックで展開)

1: 式(3.66)に関して、対数をとった式を立てる。
2-3: 自然対数の性質 $\ln(x y) = \ln x + \ln y$ 、 $\ln \frac{x}{y} = \ln x - \ln y$ より、分数の項を展開する。

　対数の性質より、総乗 $\prod_n$ の対数をとると、対数の総和 $\sum_n$ になる。

$\displaystyle \begin{aligned} \ln p(\mathbf{X} \mid \mu, \lambda) &= \ln \Bigl( \prod_{n=1}^N p(x_n \mid \mu, \lambda) \Bigr) \\ &= \ln \Bigl( p(x_1 \mid \mu, \lambda) * p(x_2 \mid \mu, \lambda) * \cdots * p(x_N \mid \mu, \lambda) \Bigr) \\ &= \ln p(x_1 \mid \mu, \lambda) + \ln p(x_2 \mid \mu, \lambda) + \cdots + \ln p(x_N \mid \mu, \lambda) \\ &= \sum_{n=1}^N \ln p(x_n \mid \mu, \lambda) \end{aligned}$

3: $\lambda$ と無関係な項を $\mathrm{const.}$ とおく。
4: 精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガンマ分布に置き換える。

　 $\lambda$ に影響しない項を $\mathrm{const.}$ とおく。省略した項については、最後に正規化することで対応できる。

　右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

$\displaystyle \begin{align} \ln p(\lambda \mid \mathbf{X}, \mu, a, b) &= \sum_{n=1}^N \ln \left( \Bigl( \frac{\lambda}{2 \pi} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{\lambda}{2} (x_n - \mu)^2 \Bigr) \right) \\ &\quad + \ln \Bigl( \mathrm{C}_\mathrm{Gam}(a, b) \lambda^{a-1} \exp(- b \lambda) \Bigr) + \mathrm{const.} \\ &= \sum_{n=1}^N \left\{ \frac{1}{2} \ln \lambda - \frac{1}{2} \ln(2 \pi) - \frac{\lambda}{2} (x_n - \mu)^2 \right\} \\ &\quad + \ln \mathrm{C}_\mathrm{Gam}(a, b) + (a - 1) \ln \lambda - b \lambda + \mathrm{const.} \\ &= \frac{N}{2} \ln \lambda + (a - 1) \ln \lambda - \frac{\lambda}{2} \sum_{n=1}^N (x_n - \mu)^2 - b \lambda + \mathrm{const.} \\ &= \left( \frac{N}{2} + a - 1 \right) \ln \lambda - \left\{ \frac{1}{2} \sum_{n=1}^N (x_n - \mu)^2 + b \right\} \lambda + \mathrm{const.} \tag{3.67} \end{align}$

途中式の途中式(クリックで展開)

1: 尤度関数はガウス分布、事前分布はガンマ分布を仮定しているので、それぞれ定義式に置き換える。

$\displaystyle \begin{align} p(x_n \mid \mu, \lambda) &= \mathcal{N}(x_n \mid \mu, \lambda^{-1}) \tag{3.64}\\ &= \sqrt{ \frac{\lambda}{2 \pi} } \exp \Bigl( - \frac{\lambda}{2} (x_n - \mu)^2 \Bigr) \\ p(\lambda \mid a, b) &= \mathrm{Gam}(\lambda \mid a, b) \tag{3.65}\\ &= \mathrm{C}_\mathrm{Gam}(a, b) \lambda^{a-1} \exp(- b \lambda) \end{align}$

　ここで、 $\mathrm{C}_\mathrm{Gam}(a, b) = \frac{b^a}{\Gamma(a)}$ は、ガンマ分布(事前分布)の正規化項である。(式変形に影響しないので簡易的に表記している。)
　ルートを指数で表すと $\sqrt{x} = x^{\frac{1}{2}}$ である。

2: 自然対数の性質 $\ln(x y) = \ln x + \ln y$ 、 $\ln \frac{x}{y} = \ln x - \ln y$ 、 $\ln x^y = y \ln x$ 、対数と指数の関係 $\ln (\exp (x)) = x$ より、定義式の項を展開する。
3: $n$ に関する総和 $\sum_n$ の波括弧を展開する。 $n$ と無関係な項は $N$ 倍 $\sum_{n=1}^N \ln \lambda = N \ln \lambda$ となる。
4: $\ln \lambda, \lambda$ の項をそれぞれまとめる。

　適宜、 $\lambda$ に影響しない項を $\mathrm{const.}$ にまとめている。

　事後分布の式(3.67)について、次のようにおく。

$\displaystyle \begin{aligned} \hat{a} &= \frac{N}{2} + a \\ \hat{b} &= \frac{1}{2} \sum_{n=1}^N (x_n - \mu)^2 + b \end{aligned} \tag{3.69}$

　式(3.67)について、 $\hat{a}, \hat{b}$ で置き換える。

$\displaystyle \ln p(\lambda \mid \mathbf{X}, \mu, a, b) = (\hat{a} - 1) \ln \lambda - \hat{b} \lambda + \mathrm{const.}$

　さらに、 $\ln$ を外して $\mathrm{const.}$ を正規化項に置き換える(正規化する)と、事後分布は式の形状から、パラメータ $\hat{a}, \hat{b}$ のガンマ分布であることが分かる。

$\displaystyle \begin{align} p(\lambda \mid \mathbf{X}, \mu, a, b) &= \mathrm{C}_{\mathrm{Gam}}(\hat{a}, \hat{b}) \lambda^{\hat{a}-1} \exp(- \hat{b} \lambda) \\ &= \frac{\hat{b}^{\hat{a}}}{\Gamma(\hat{a})} \lambda^{\hat{a}-1} \exp(- \hat{b} \lambda) \\ &= \mathrm{Gam}(\lambda \mid \hat{a}, \hat{b}) \tag{3.68} \end{align}$

　 $\lambda$ の事後分布の式が得られた。
　ここで、 $\mathrm{C}_\mathrm{Gam}(\hat{a}, \hat{b})$ は、ガンマ分布(事後分布)の正規化項である。
　また、式(3.69)が、事後分布のパラメータ(超パラメータ) $\hat{a}, \hat{b}$ の計算式(更新式)である。

　以上で、精度が未知の1次元ガウスモデルにおける事後分布を導出した。

スポンサードリンク

予測分布の導出

　次は、精度が未知の1次元ガウス分布に従う未観測データ $x_{*}$ の予測分布(predict distribution)を導出する。
　1次元スチューデントのt分布については「1次元スチューデントのt分布の定義式 - からっぽのしょこ」を参照のこと。

事前分布による予測分布

　事前分布(観測データによる学習を行っていない $\lambda$ の分布)を用いた予測分布(事前予測分布)を求める。

$\displaystyle \begin{align} p(x_{*} \mid \mu, a, b) &= \int p(x_{*}, \lambda \mid \mu, a, b) \mathrm{d} \lambda \\ &= \int p(x_{*} \mid \mu, \lambda) p(\lambda \mid a, b) \mathrm{d} \lambda \\ &= \int \mathcal{N}(x_{*} \mid \mu, \lambda^{-1}) \mathrm{Gam}(\lambda \mid a, b) \mathrm{d} \lambda \tag{3.70} \end{align}$

途中式の途中式(クリックで展開)

1: 未知変数 $x_{*}$ とパラメータ $\lambda$ の結合分布に対して、 $\lambda$ を周辺化した式を立てる。
2: 依存関係のある $x_{*}, \lambda$ の項を分割する。
3: 精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガンマ分布に置き換える。

　事前予測分布は、未知のデータ $x_{*}$ の生成分布(3.64)と、パラメータ $\lambda$ の事前分布(3.65)を用いた、 $x_{*}$ の周辺分布である。

　積分の計算を避けるため式(3.70)は直接用いずに、ベイズの定理を用いて、 $x_{*}$ と $\lambda$ の関係を考える。

$\displaystyle \begin{align} p(\lambda \mid x_{*}, \mu, a, b) &= \frac{ p(x_{*}, \lambda \mid \mu, a, b) }{ \int p(x_{*}, \lambda \mid \mu, a, b) \mathrm{d} \lambda } \\ &= \frac{ p(x_{*} \mid \mu, \lambda) p(\lambda \mid a, b) }{ p(x_{*} \mid \mu, a, b) } \tag{3.71} \end{align}$

　左辺の項は、1つのデータ $x_{*}$ が与えられた下での $\lambda$ の条件付き分布(事後分布)と言える。つまり、 $N$ 個のデータ $\mathbf{X}$ が与えられた下での条件付き分布(事後分布)の式(3.68)と、同様の手順で求められる(同様のパラメータになる)。
　そこで、 $\mathbf{X}$ による事後分布のパラメータの式(3.69)を用いて、 $N = 1, \mathbf{X} = \{x_{*}\}$ より、次のようにおく。

$\displaystyle \begin{aligned} a_{x_{*}} &= \frac{1}{2} + a \\ b_{x_{*}} &= \frac{1}{2} (x_{*} - \mu)^2 + b \end{aligned} \tag{3.74}$

　 $x_{*}$ による事後分布は、パラメータ $a_{x_{*}}, b_{x_{*}}$ のガンマ分布となる。

$\displaystyle \begin{align} p(\lambda \mid x_{*}, \mu, a, b) &= \frac{b_{x_{*}}^{a_{x_{*}}}}{\Gamma(a_{x_{*}})} \lambda^{a_{x_{*}}-1} \exp(- b_{x_{*}} \lambda) \\ &= \mathrm{Gam}(\lambda \mid a_{x_{*}}, b_{x_{*}}) \tag{3.73} \end{align}$

　 $x_{*}$ による事後分布の式が得られた。

　 $x_{*}$ による事後分布の式(3.71)について、指数部分の計算を分かりやすくするため、両辺の対数をとる。

$\displaystyle \begin{aligned} \ln p(\lambda \mid x_{*}, \mu, a, b) &= \ln \Bigl( \frac{ p(x_{*} \mid \mu, \lambda) p(\lambda \mid a, b) }{ p(x_{*} \mid \mu, a, b) } \Bigr) \\ &= \ln p(x_{*} \mid \mu, \lambda) + \ln p(\lambda \mid a, b) - \ln p(x_{*} \mid \mu, a, b) \end{aligned}$

　予測分布に関して式を整理する。

$\displaystyle \begin{align} \ln p(x_{*} \mid \mu, a, b) &= \ln p(x_{*} \mid \mu, \lambda) + \ln p(\lambda \mid a, b) - \ln p(\lambda \mid x_{*}, \mu, a, b) \\ &= \ln p(x_{*} \mid \mu, \lambda) - \ln p(\lambda \mid x_{*}, \mu, a, b) + \mathrm{const.} \\ &= \ln \mathcal{N}(x_{*} \mid \mu, \lambda^{-1}) - \ln \mathrm{Gam}(\lambda \mid a_{x_{*}}, b_{x_{*}}) + \mathrm{const.} \tag{3.72} \end{align}$

　 $x_{*}$ に影響しない項を $\mathrm{const.}$ とおく。省略した項については、最後に正規化することで対応できる。

　右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

$\displaystyle \begin{align} \ln p(x_{*} \mid \mu, a, b) &= \ln \left( \Bigl( \frac{\lambda}{2 \pi} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{\lambda}{2} (x_{*} - \mu)^2 \Bigr) \right) \\ &\quad - \ln \Bigl( \frac{b_{x_{*}}^{a_{x_{*}}}}{\Gamma(a_{x_{*}})} \lambda^{a_{x_{*}}-1} \exp(- b_{x_{*}} \lambda) \Bigr) + \mathrm{const.} \\ &= \frac{1}{2} \ln \Bigl( \frac{\lambda}{2 \pi} \Bigr) - \frac{\lambda}{2} (x_{*} - \mu)^2 \\ &\quad - a_{x_{*}} \ln b_{x_{*}} + \ln \Gamma(a_{x_{*}}) - (a_{x_{*}} - 1) \ln \lambda + b_{x_{*}} \lambda + \mathrm{const.} \\ &= - \frac{\lambda}{2} (x_{*} - \mu)^2 \\ &\quad - a_{x_{*}} \ln b_{x_{*}} + b_{x_{*}} \lambda + \mathrm{const.} \tag{1} \end{align}$

途中式の途中式(クリックで展開)

1: 尤度関数はガウス分布(3.64)を仮定しており、未知変数による事後分布はガンマ分布(3.73)になるので、それぞれ定義式に置き換える。
2: 自然対数の性質より、定義式の項を展開する。

　適宜、 $x_{*}$ に影響しない項を $\mathrm{const.}$ にまとめていく。パラメータの計算式(3.74)より、 $a_{x_{*}}$ は $x_{*}$ に影響しない( $a_{x_{*}}$ の式に $x_{*}$ を含まない)。
　 $m_{x_{*}}, \lambda_{x_{*}}$ に式(3.74)を代入して、 $x_{*}$ に関して式を整理する。

$\displaystyle \begin{align} \ln p(x_{*} \mid \mu, a, b) &= - \frac{\lambda}{2} (x_{*} - \mu)^2 \\ &\quad - \left( \frac{1}{2} + a \right) \ln \Bigl( \frac{1}{2} (x_{*} - \mu)^2 + b \Bigr) + \left( \frac{1}{2} (x_{*} - \mu)^2 + b \right) \lambda + \mathrm{const.} \\ &= - \frac{\lambda}{2} (x_{*} - \mu)^2 \\ &\quad - \left( \frac{1}{2} + a \right) \ln \Bigl( \frac{1}{2 b} (x_{*} - \mu)^2 + 1 \Bigr) - \left( \frac{1}{2} + a \right) \ln b + \frac{\lambda}{2} (x_{*} - \mu)^2 + b \lambda + \mathrm{const.} \\ &= - \left( \frac{1}{2} + a \right) \ln \Bigl( 1 + \frac{1}{2 b} (x_{*} - \mu)^2 \Bigr) + \mathrm{const.} \tag{3.75} \end{align}$

途中式の途中式(クリックで展開)

1: 式(1)に式(3.74)を代入する。
2: 対数の項を分割する。

$\displaystyle \begin{aligned} a_{x_{*}} \ln \Bigl( \frac{1}{2} (x_{*} - \mu)^2 + b \Bigr) &= a_{x_{*}} \ln \left( \Bigl( \frac{1}{2 b} (x_{*} - \mu)^2 + 1 \Bigr) b \right) \\ &= a_{x_{*}} \left( \ln \Bigl( \frac{1}{2 b} (x_{*} - \mu)^2 + 1 \Bigr) + \ln b \right) \\ &= a_{x_{*}} \ln \Bigl( \frac{1}{2 b} (x_{*} - \mu)^2 + 1 \Bigr) + a_{x_{*}} \ln b \end{aligned}$

　 $b$ を括り出して、対数の性質 $\ln(x y) = \ln x + \ln y$ により項を分割している。

　予測分布の式(3.75)について、次のようにおく。

$\displaystyle \begin{aligned} \mu_s &= \mu \\ \lambda_s &= \frac{a}{b} \\ \nu_s &= 2 a \end{aligned} \tag{3.79}$

　式(3.75)について、 $\mu_s, \lambda_s, \nu_s$ で置き換える。

$\displaystyle \begin{align} \ln p(x_{*} \mid \mu, a, b) &= - \frac{2 a + 1}{2} \ln \Bigl( 1 + \frac{a}{2 a b} (x_{*} - \mu)^2 \Bigr) + \mathrm{const.} \\ &= - \frac{\nu_s + 1}{2} \ln \Bigl( 1 + \frac{\lambda_s}{\nu_s} (x_{*} - \mu_s)^2 \Bigr) + \mathrm{const.} \tag{3.77} \end{align}$

途中式の途中式(クリックで展開)

スチューデントのt分布の定義式の形状となるように、式を整形する。

　対数の項に $\frac{a}{a} = 1$ を掛ける。

　さらに、 $\ln$ を外して $\mathrm{const.}$ を正規化項に置き換える(正規化する)と、予測分布は式の形状から、パラメータ $\mu_s, \lambda_s, \nu_s$ の1次元スチューデントのt分布であることが分かる。

$\displaystyle \begin{align} \ln p(x_{*} \mid \mu, a, b) &= \mathrm{C}_{\mathrm{St}}(\mu_s, \lambda_s, \nu_s) \Bigl\{ 1 + \frac{\lambda_s}{\nu_s} (x_{*} - \mu_s)^2 \Bigr\}^{-\frac{\nu_s+1}{2}} \\ &= \frac{ \Gamma \Bigl( \frac{\nu_s + 1}{2} \Bigr) }{ \Gamma \Bigl( \frac{\nu_s}{2} \Bigr) } \Bigl( \frac{\lambda_s}{\pi \nu_s} \Bigr)^{\frac{1}{2}} \Bigl\{ 1 + \frac{\lambda_s}{\nu_s} (x_{*} - \mu_s)^2 \Bigr\}^{-\frac{\nu_s+1}{2}} \\ &= \mathrm{St}(x_{*} \mid \mu_s, \lambda_s, \nu_s) \tag{3.78} \end{align}$

　 $x_{*}$ の事前予測分布の式が得られた。
　ここで、 $\mathrm{C}_\mathrm{St}(\mu_s, \lambda_s, \nu_s)$ は、1次元スチューデントのt分布(事前予測分布)の正規化項である。
　また、式(3.79)が、予測分布のパラメータ $\mu_s, \lambda_s, \nu_s$ の計算式である。

事後分布による予測分布

　予測分布の計算に事前分布 $p(\lambda \mid a, b)$ を用いて、観測データ $\mathbf{X}$ による学習を行っていない予測分布(事前予測分布) $p(x_{*} \mid \mu, a, b)$ (のパラメータ $\mu_s, \lambda_s, \nu_s$ )を求めた。事後分布 $p(\lambda \mid \mathbf{X}, a, b)$ を用いると、観測データ $\mathbf{X}$ によって学習した予測分布(事後予測分布) $p(x_{*} \mid \mathbf{X}, \mu, a, b)$ (のパラメータ $\hat{\mu}_s, \hat{\lambda}_s, \hat{\nu}_s$ )を求められる。

$\displaystyle \begin{align} p(x_{*} \mid \mathbf{X}, \mu, a, b) &= \int p(x_{*}, \lambda \mid \mathbf{X}, \mu, a, b) \mathrm{d} \lambda \\ &= \int p(x_{*} \mid \mu, \lambda) p(\lambda \mid \mathbf{X}, a, b) \mathrm{d} \lambda \\ &= \int \mathcal{N}(x_{*} \mid \mu, \lambda^{-1}) \mathrm{Gam}(\lambda \mid \hat{a}, \hat{b}) \mathrm{d} \lambda \tag{3.70'} \end{align}$

途中式の途中式(クリックで展開)

1: 観測変数 $\mathbf{X}$ を条件として、未知変数 $x_{*}$ とパラメータ $\lambda$ の結合分布に対して、 $\lambda$ を周辺化した式を立てる。
2: 依存関係のある $x_{*}, \lambda$ の項を分割する。
3: 精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事後分布をガンマ分布に置き換える。

　事後予測分布は、未知のデータ $x_{*}$ の生成分布(3.64)と、パラメータ $\lambda$ の事後分布(3.68)を用いた、 $x_{*}$ の周辺分布である。

　事後分布は事前分布と同じくガンマ分布なので、事前予測分布の式(3.78)と、同様の手順で事後予測分布の式も求められる。
　そこで、事前予測分布のパラメータ $\mu_s, \lambda_s, \nu_s$ の式(3.79)を構成する事前分布のパラメータ $a, b$ について、事後分布のパラメータ $\hat{a}, \hat{b}$ の式(3.69)に置き換えたものを事後予測分布のパラメータ $\hat{\mu}_s, \hat{\lambda}_s, \hat{\nu}_s$ とおく。

$\displaystyle \begin{aligned} \hat{\mu}_s &= \mu_s \\ &= \mu \\ \hat{\lambda}_s &= \frac{\hat{a}}{\hat{b}} \\ &= \frac{ \frac{N}{2} + a }{ \frac{1}{2} \sum_{n=1}^N (x_n - \mu)^2 + b } \\ &= \frac{ N + 2 a }{ \sum_{n=1}^N (x_n - \mu)^2 + 2 b } \\ \hat{\nu}_s &= 2 \hat{a} \\ &= N + 2 a \end{aligned} \tag{3.79'}$

　予測分布の式(3.78)についても置き換える(同様の手順で導出する)と、パラメータ $\mu_s, \hat{\lambda}_s, \hat{\nu}_s$ の1次元スチューデントのt分布となる。

$\displaystyle \begin{align} p(x_{*} \mid \mathbf{X}, \mu, a, b) &= \frac{ \Gamma \Bigl( \frac{\hat{\nu}_s + 1}{2} \Bigr) }{ \Gamma \Bigl( \frac{\hat{\nu}_s}{2} \Bigr) } \Bigl( \frac{\hat{\lambda}_s}{\pi \hat{\nu}_s} \Bigr)^{\frac{1}{2}} \Bigl\{ 1 + \frac{\hat{\lambda}_s}{\hat{\nu}_s} (x_{*} - \mu_s)^2 \Bigr\}^{-\frac{\hat{\nu}_s+1}{2}} \\ &= \mathrm{St}(x_{*} \mid \mu_s, \hat{\lambda}_s, \hat{\nu}_s) \tag{3.78'} \end{align}$

　 $x_{*}$ の事後予測分布の式が得られた。
　また、式(3.79')が、予測分布のパラメータ $\mu_s, \hat{\lambda}_s, \hat{\nu}_s$ の計算式(更新式)である。

　以上で、精度が未知の1次元ガウスモデルにおける事後予測分布を導出した。

　この記事では、精度が未知の場合の1次元ガウス分布に対するベイズ推論を導出した。次の記事では、実装する。

参考文献

作者:須山敦志
講談社

おわりに

　~~式(3.75)を導出できない。難しい訳ではないのですができませんでした…。どこがおかしいのか分かる方はぜひ教えてください。~~(アドバイスいただいて解けました！説明文を勘違いしてました。ありがとうございます！)
　~~ちなみに、次でも同様に式を整理できない部分があり現在止まっております。~~(こっちは丁寧に書き直したらできました。)

　それとは別に予測分布の方もRでやってみたいと思うので、次の項を読み(書き)終えたら一旦全編修正作業に移る予定です。(追加しました！)

2020/03/05：加筆修正しました。
2021/04/04：加筆修正しました。その際にRで実装編と記事を分割しました。