はじめに

　『ベイズ推論による機械学習入門』(MLSシリーズ)の独学時のノートです。各種のモデルやアルゴリズムについて「数式・プログラム・図」を用いて解説します。
　本の補助として読んでください。

　この記事では、平均と精度が未知の1次元ガウス分布に対するベイズ推論の数式の行間を埋めます。

【前節の内容】

【他の節一覧】

【この節の内容】

3.3.3 1次元ガウス分布のベイズ推論の導出：平均・精度が未知の場合

　1次元ガウスモデル(Gaussian model)に対するベイズ推論(Bayesian inference)を導出する。この記事では、生成分布の平均パラメータ(mean parameter)と精度パラメータ(precision parameter)が未知の場合を扱う。平均と精度が未知の1次元ガウスモデルでは、尤度関数を1次元ガウス分布(Gaussian distribution・一変量正規分布・Normal distribution)、事前分布をガウス-ガンマ分布(Gaussian-Gamma distribution・正規-ガンマ分布・Normal-Gamma distribution)とする。
　1次元ガウスモデルについては「3.3.0：1次元ガウスモデルの生成モデルの導出【緑ベイズ入門のノート】 - からっぽのしょこ」、1次元ガウス分布については「1次元ガウス分布の定義式 - からっぽのしょこ」を参照のこと。

結合事後分布の設定

　まずは、平均と精度が未知の1次元ガウス分布のパラメータ $\mu, \lambda$ の結合事後分布(joint posterior distribution)を導出する。
　ガウス-ガンマ分布については「ガウス-ガンマ分布の定義式 - からっぽのしょこ」を参照のこと。

　観測データ $\mathbf{X}$ が与えられた(条件とする)下でのパラメータ $\mu, \lambda$ の条件付き結合分布(結合事後分布)を求める。

$\displaystyle \begin{align} p(\mu, \lambda \mid \mathbf{X}, m, \beta, a, b) &= \frac{ p(\mathbf{X} \mid \mu, \lambda) p(\mu, \lambda \mid m, \beta, a, b) }{ p(\mathbf{X} \mid m, \beta, a, b) } \\ &\propto p(\mathbf{X} \mid \mu, \lambda) p(\mu, \lambda \mid m, \beta, a, b) \\ &= \left\{ \prod_{n=1}^N p(x_n \mid \mu, \lambda) \right\} p(\mu \mid \lambda, m, \beta) p(\lambda \mid a, b) \\ &= \left\{ \prod_{n=1}^N \mathcal{N}(x_n \mid \mu, \lambda^{-1}) \right\} \mathcal{N}(\mu \mid m, (\beta \lambda)^{-1}) \mathrm{Gam}(\lambda \mid a, b) \tag{1} \end{align}$

途中式の途中式(クリックで展開)

1: ベイズの定理 $p(y \mid x) = \frac{p(x \mid y) p(y)}{p(x)}$ より、観測変数 $\mathbf{X}$ を条件に移した式を立てる。

　事後分布は、 $\mathbf{X}, \mu, \lambda$ の結合分布と $\mathbf{X}$ の周辺分布を用いて、次のようにも求められる。

$\displaystyle \begin{aligned} p(\mu, \lambda \mid \mathbf{X}, m, \beta, a, b) &= \frac{ p(\mathbf{X}, \mu, \lambda \mid m, \beta, a, b) }{ p(\mathbf{X} \mid m, \beta, a, b) } \\ &= \frac{ p(\mathbf{X}, \mu, \lambda \mid m, \beta, a, b) }{ \iint p(\mathbf{X}, \mu, \lambda \mid m, \beta, a, b) \mathrm{d} \mu \mathrm{d} \lambda } \\ &= \frac{ p(\mathbf{X} \mid \mu, \lambda) p(\mu, \lambda \mid m, \beta, a, b) }{ \iint p(\mathbf{X} \mid \mu, \lambda) p(\mu, \lambda \mid m, \beta, a, b) \mathrm{d} \mu \mathrm{d} \lambda } \end{aligned}$

　1行目では、条件付き分布 $p(y \mid x) = \frac{p(x, y)}{p(x)}$ より、 $\mathbf{X}$ を条件に移している。
　2行目では、周辺化 $p(y) = \int p(x, y) \mathrm{d} x$ した $\mu, \lambda$ を明示している。
　3行目では、 $\mathbf{X}, \mu, \lambda$ の依存関係に従い項を分割している。
　生成モデル(結合分布)については「生成モデルの導出」を参照のこと。

2: $\mu, \lambda$ と無関係な項を省く。
3: 観測データ集合 $\mathbf{X}$ の生成確率を、各データ $x_n$ の生成確率の積に分解する。
3: 依存関係のあるパラメータ $\mu, \lambda$ の項を分割する。
4: 平均と精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガウス-ガンマ分布に置き換える。

　周辺分布(分母)は $\mu, \lambda$ に影響しないため省いて、比例関係のみに注目する。省略した項については、最後に正規化することで対応できる。

　結合事後分布(左辺)は、依存関係に従い次のように分割できる。

$\displaystyle p(\mu, \lambda \mid \mathbf{X}, m, \beta, a, b) = p(\mu \mid \mathbf{X}, \lambda, m, \beta) p(\lambda \mid \mathbf{X}, a, b) \tag{2}$

　 $\mu, \lambda$ の結合事後分布は、 $\mu$ の事後分布と $\lambda$ の事後分布の結合分布である。

　2つのパラメータそれぞれの事後分布を求めていく。

平均パラメータの事後分布

　平均パラメータ $\mu$ の事後分布を導出する。

　結合事後分布の式(1)と式(2)を用いて、観測データ $\mathbf{X}$ が与えられた(条件とする)下でのパラメータ $\mu$ の条件付き分布(事後分布)を求める。

$\displaystyle \begin{align} p(\mu \mid \mathbf{X}, \lambda, m, \beta) &= \frac{ \left\{ \prod_{n=1}^N p(x_n \mid \mu, \lambda) \right\} p(\mu \mid \lambda, m, \beta) p(\lambda \mid a, b) }{ p(\mathbf{X} \mid m, \beta, a, b) } \frac{1}{p(\lambda \mid \mathbf{X}, a, b)} \\ &\propto \left\{ \prod_{n=1}^N p(x_n \mid \mu, \lambda) \right\} p(\mu \mid \lambda, m, \beta) \\ &= \left\{ \prod_{n=1}^N \mathcal{N}(x_n \mid \mu, \lambda^{-1}) \right\} \mathcal{N}(\mu \mid m, (\beta \lambda)^{-1}) \tag{3} \end{align}$

途中式の途中式(クリックで展開)

1: 式(1)の左辺の $\mu, \lambda$ の項を式(2)により分割して、 $\lambda$ の項を右辺に移す(両辺を $\lambda$ の事後分布で割る)。
2: $\mu$ と無関係な項を省く。
3: 平均と精度が未知のガウスモデルの定義より、尤度関数をガウス分布、 $\mu$ の事前分布をガウス分布に置き換える。

　 $\mu$ に影響しない項を省いて、比例関係のみに注目する。省略した項については、最後に正規化することで対応できる。

　平均と精度が未知のガウスモデル(3.3.3項)における $\mu$ の事後分布(3)は、平均が未知のガウスモデル(3.3.1項)における $\mu$ の事後分布(3.49)と、同様の式の形状( 精度パラメータが $\lambda_{\mu}$ から $\beta \lambda$ に置き換わっただけ)である。つまり、平均が未知のガウスモデルにおける事後分布の式(3.51)と、同様の手順で求められる(同様のパラメータになる)。
　そこで、平均が未知のガウスモデルにおける事後分布のパラメータ $\hat{m}, \hat{\lambda}_{\mu}$ の式(3.53)を構成する精度パラメータ $\lambda_{\mu}, \hat{\lambda}_{\mu}$ について、平均と精度が未知のガウスモデルにおける精度パラメータ $\beta \lambda, \hat{\beta} \lambda$ に置き換える。

$\displaystyle \begin{align} && \hat{\beta} \lambda &= N \lambda + \beta \lambda \\ && &= \lambda (N + \beta) \\ \Rightarrow && \hat{\beta} &= N + \beta \tag{3.83.a} \end{align}$

$\displaystyle \begin{align} \hat{m} &= \frac{1}{\hat{\beta} \lambda} \left( \lambda \sum_{n=1}^N x_n + m \beta \lambda \right) \\ &= \frac{1}{\hat{\beta}} \left( \sum_{n=1}^N x_n + \beta m \right) \\ &= \frac{1}{N + \beta} \left( \sum_{n=1}^N x_n + \beta m \right) \tag{3.83.b} \end{align}$

　事後分布の式(3.51)についても置き換える(同様の手順で導出する)と、パラメータ $\hat{m}, \hat{\beta} \lambda$ の1次元ガウス分布となる。

$\displaystyle \begin{align} p(\mu \mid \mathbf{X}, \lambda, m, \beta) &= \sqrt{\frac{\hat{\beta} \lambda}{2 \pi}} \exp \Bigl( - \frac{\hat{\beta} \lambda}{2} (\mu - \hat{m})^2 \Bigr) \\ &= \mathcal{N}(\mu \mid \hat{m}, (\hat{\beta} \lambda)^{-1}) \tag{3.82} \end{align}$

　 $\mu$ の事後分布の式が得られた。
　また、式(3.83)が、事後分布のパラメータ(超パラメータ) $\hat{\beta}, \hat{m}$ の計算式(更新式)である。
　詳しい導出過程については「3.3.1：1次元ガウス分布のベイズ推論の導出：平均が未知の場合【緑ベイズ入門のノート】 - からっぽのしょこ」を参照のこと。

　以上で、平均パラメータの事後分布を導出した。

精度パラメータの事後分布

　続いて、精度パラメータ $\lambda$ の事後分布を導出する。

　結合事後分布の式(1)と式(2)を用いて、観測データ $\mathbf{X}$ が与えられた(条件とする)下でのパラメータ $\lambda$ の条件付き分布(事後分布)を求める。

$\displaystyle \begin{align} p(\lambda \mid \mathbf{X}, a, b) &= \frac{ \left\{ \prod_{n=1}^N p(x_n \mid \mu, \lambda) \right\} p(\mu \mid \lambda, m, \beta) p(\lambda \mid a, b) }{ p(\mathbf{X} \mid m, \beta, a, b) } \frac{1}{p(\mu \mid \mathbf{X}, \lambda, m, \beta)} \\ &\propto \left\{ \prod_{n=1}^N p(x_n \mid \mu, \lambda) \right\} p(\mu \mid \lambda, m, \beta) p(\lambda \mid a, b) \frac{1}{p(\mu \mid \mathbf{X}, \lambda, m, \beta)} \\ &= \left\{ \prod_{n=1}^N \mathcal{N}(x_n \mid \mu, \lambda^{-1}) \right\} \mathcal{N}(\mu \mid m, (\beta \lambda)^{-1}) \mathrm{Gam}(\lambda \mid a, b) \frac{1}{\mathcal{N}(\mu \mid \hat{m}, (\hat{\beta} \lambda)^{-1})} \tag{3.85} \end{align}$

途中式の途中式(クリックで展開)

1: 式(1)の左辺の $\mu, \lambda$ の項を式(2)により分割して、 $\mu$ の項を右辺に移す(両辺を $\mu$ の事後分布で割る)。
2: $\lambda$ と無関係な項を省く。
3: 平均と精度が未知のガウスモデルの定義より、尤度関数をガウス分布、 $\mu$ の事前分布をガウス分布、 $\lambda$ の事前分布をガンマ分布、 $\mu$ の事後分布をガウス分布(3.82)に置き換える。

　 $\lambda$ に影響しない項を省いて、比例関係のみに注目する。省略した項については、最後に正規化することで対応できる。

　両辺の対数をとり、指数部分の計算を分かりやすくして、 $\lambda$ に関して式を整理する。

$\displaystyle \begin{aligned} p(\lambda \mid \mathbf{X}, a, b) &= \ln \Bigl( \frac{ \left\{ \prod_{n=1}^N p(x_n \mid \mu, \lambda) \right\} p(\mu \mid \lambda, m, \beta) p(\lambda \mid a, b) }{ p(\mathbf{X} \mid m, \beta, a, b) } \frac{1}{p(\mu \mid \mathbf{X}, \lambda, m, \beta)} \Big) \\ &= \ln \Bigl( \prod_{n=1}^N p(x_n \mid \mu, \lambda) \Bigr) + \ln p(\mu \mid \lambda, m, \beta) + \ln p(\lambda \mid a, b) - \ln p(\mathbf{X} \mid m, \beta, a, b) - \ln p(\mu \mid \mathbf{X}, \lambda, m, \beta) \\ &= \sum_{n=1}^N \ln p(x_n \mid \mu, \lambda) + \ln p(\mu \mid \lambda, m, \beta) + \ln p(\lambda \mid a, b) - \ln p(\mu \mid \mathbf{X}, \lambda, m, \beta) + \mathrm{const.} \\ &= \sum_{n=1}^N \ln \mathcal{N}(x_n \mid \mu, \lambda^{-1}) + \ln \mathcal{N}(\mu \mid m, (\beta \lambda)^{-1}) + \ln \mathrm{Gam}(\lambda \mid a, b) - \ln \mathcal{N}(\mu \mid \hat{m}, (\hat{\beta} \lambda)^{-1}) + \mathrm{const.} \end{aligned}$

途中式の途中式(クリックで展開)

1: 式(3.85)に関して、対数をとった式を立てる。
2-3: 自然対数の性質 $\ln(x y) = \ln x + \ln y$ 、 $\ln \frac{x}{y} = \ln x - \ln y$ より、分数の項を展開する。

　対数の性質より、総乗 $\prod_n$ の対数をとると、対数の総和 $\sum_n$ になる。

$\displaystyle \begin{aligned} \ln p(\mathbf{X} \mid \mu, \lambda) &= \ln \Bigl( \prod_{n=1}^N p(x_n \mid \mu, \lambda) \Bigr) \\ &= \ln \Bigl( p(x_1 \mid \mu, \lambda) * p(x_2 \mid \mu, \lambda) * \cdots * p(x_N \mid \mu, \lambda) \Bigr) \\ &= \ln p(x_1 \mid \mu, \lambda) + \ln p(x_2 \mid \mu, \lambda) + \cdots + \ln p(x_N \mid \mu, \lambda) \\ &= \sum_{n=1}^N \ln p(x_n \mid \mu, \lambda) \end{aligned}$

3: $\lambda$ と無関係な項を $\mathrm{const.}$ とおく。
4: 平均と精度が未知のガウスモデルの定義より、尤度関数をガウス分布、 $\mu$ の事前分布をガウス分布、 $\lambda$ の事前分布をガンマ分布、 $\mu$ の事後分布をガウス分布(3.82)に置き換える。

　 $\lambda$ に影響しない項を $\mathrm{const.}$ とおく。省略した項については、最後に正規化することで対応できる。

　右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

$\displaystyle \begin{align} p(\lambda \mid \mathbf{X}, a, b) &= \sum_{n=1}^N \ln \left( \Bigl( \frac{\lambda}{2 \pi} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{\lambda}{2} (x_n - \mu)^2 \Bigr) \right) \\ &\quad + \ln \left( \Bigl( \frac{\beta \lambda}{2 \pi} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{\beta \lambda}{2} (\mu - m)^2 \Bigr) \right) \\ &\quad + \ln \Bigl( \mathrm{C}_\mathrm{Gam}(a, b) \lambda^{a-1} \exp(- b \lambda) \Bigr) \\ &\quad - \ln \left( \Bigl( \frac{\hat{\beta} \lambda}{2 \pi} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{\hat{\beta} \lambda}{2} (\mu - \hat{m})^2 \Bigr) \right) \\ &= \sum_{n=1}^N \left\{ \frac{1}{2} \ln \lambda - \frac{1}{2} \ln(2 \pi) - \frac{\lambda}{2} (x_n - \mu)^2 \right\} \\ &\quad + \frac{1}{2} \ln \beta + \frac{1}{2} \ln \lambda - \frac{1}{2} \ln(2 \pi) - \frac{\beta \lambda}{2} (\mu - m)^2 \\ &\quad + \ln \mathrm{C}_\mathrm{Gam}(a, b) + (a - 1) \ln \lambda - b \lambda \\ &\quad - \frac{1}{2} \ln \hat{\beta} - \frac{1}{2} \ln \lambda + \frac{1}{2} \ln(2 \pi) + \frac{\hat{\beta} \lambda}{2} (\mu - \hat{m})^2 \\ &= \frac{N}{2} \ln \lambda + (a - 1) \ln \lambda \\ &\quad - \frac{1}{2} \left( \sum_{n=1}^N (x_n - \mu)^2 + \beta (\mu - m)^2 - \hat{\beta} (\mu - \hat{m})^2 \right) \lambda - b \lambda \\ &= \frac{N}{2} \ln \lambda + (a - 1) \ln \lambda \\ &\quad - \frac{1}{2} \left( \sum_{n=1}^N x_n^2 - 2 \mu \sum_{n=1}^N x_n + N \mu^2 + \mu^2 \beta - 2 \mu \beta m + \beta m^2 - \mu^2 \hat{\beta} + 2 \mu \hat{\beta} \hat{m} - \hat{\beta} \hat{m}^2 \right) \lambda - b \lambda \\ &= \frac{N}{2} \ln \lambda + (a - 1) \ln \lambda - \frac{1}{2} \left( \sum_{n=1}^N x_n^2 + \beta m^2 - \hat{\beta} \hat{m}^2 \right) \lambda - b \lambda \\ &= \left( \frac{N}{2} + a - 1 \right) \ln \lambda - \left\{ \frac{1}{2} \left( \sum_{n=1}^N x_n^2 + \beta m^2 - \hat{\beta} \hat{m}^2 \right) + b \right\} \lambda \tag{3.86} \end{align}$

途中式の途中式(クリックで展開)

1: 尤度関数はガウス分布、 $\mu$ の事前分布はガウス分布、 $\lambda$ の事前分布はガンマ分布を仮定しており、 $\mu$ の事後分布はガウス分布(3.82)になるので、それぞれ定義式に置き換える。

$\displaystyle \begin{align} p(x_n \mid \mu, \lambda) &= \mathcal{N}(x_n \mid \mu, \lambda^{-1}) \tag{3.80}\\ &= \sqrt{ \frac{\lambda}{2 \pi} } \exp \Bigl( - \frac{\lambda}{2} (x_n - \mu)^2 \Bigr) \\ p(\mu \mid \lambda, m, \beta) &= \mathcal{N}(\mu \mid m, (\beta \lambda)^{-1}) \tag{3.81}\\ &= \sqrt{ \frac{\beta \lambda}{2 \pi} } \exp \Bigl( - \frac{\beta \lambda}{2} (\mu - m)^2 \Bigr) \\ p(\lambda \mid a, b) &= \mathrm{Gam}(\lambda \mid a, b) \tag{3.81}\\ &= \mathrm{C}_\mathrm{Gam}(a, b) \lambda^{a-1} \exp(- b \lambda) \end{align}$

　ここで、 $\mathrm{C}_\mathrm{Gam}(a, b) = \frac{b^a}{\Gamma(a)}$ は、ガンマ分布(事前分布)の正規化項である。(式変形に影響しないので簡易的に表記している。)
　ルートを指数で表すと $\sqrt{x} = x^{\frac{1}{2}}$ である。

2: 自然対数の性質 $\ln(x y) = \ln x + \ln y$ 、 $\ln \frac{x}{y} = \ln x - \ln y$ 、 $\ln x^y = y \ln x$ 、対数と指数の関係 $\ln (\exp (x)) = x$ より、定義式の項を展開する。
3: $n$ に関する総和 $\sum_n$ の波括弧を展開する。 $n$ と無関係な項は $N$ 倍 $\sum_{n=1}^N \ln \lambda = N \ln \lambda$ となる。
3: $- \frac{1}{2} \lambda$ を括り出す。
4: 2乗の括弧を展開する。
5: $\hat{\beta}, \hat{m}$ に式(3.83)を代入する。

　 $\hat{\beta}$ の項と $\beta$ の項が打ち消し合う。

$\displaystyle \begin{aligned} \mu^2 \hat{\beta} &= \mu^2 (N + \beta) \\ &= N \mu^2 + \mu^2 \beta \end{aligned}$

　 $\hat{m}$ の項と $m$ の項が打ち消し合う。

$\displaystyle \begin{aligned} 2 \mu \hat{\beta} \hat{m} &= 2 \mu \hat{\beta} \frac{1}{\hat{\beta}} \left( \sum_{n=1}^N x_n + \beta m \right) \\ &= 2 \mu \sum_{n=1}^N x_n + 2 \mu \beta m \end{aligned}$

6: $\ln \lambda, \lambda$ の項をそれぞれまとめる。

　適宜、 $\lambda$ に影響しない項を $\mathrm{const.}$ にまとめている。パラメータの計算式(3.83)より、 $\hat{\beta}$ は $\lambda$ に影響しない( $\hat{\beta}$ の式に $\lambda$ を含まない)。

　事後分布の式(3.86)について、次のようにおく。

$\displaystyle \begin{aligned} \hat{a} &= \frac{N}{2} + a \\ \hat{b} &= \frac{1}{2} \left( \sum_{n=1}^N x_n^2 + \beta m^2 - \hat{\beta} \hat{m}^2 \right) + b \end{aligned} \tag{3.88}$

　式(3.86)について、 $\hat{a}, \hat{b}$ で置き換える。

$\displaystyle \ln p(\lambda \mid \mathbf{X}, a, b) = (\hat{a} - 1) \ln \lambda - \hat{b} \lambda + \mathrm{const.}$

　さらに、 $\ln$ を外して $\mathrm{const.}$ を正規化項に置き換える(正規化する)と、事後分布は式の形状から、パラメータ $\hat{a}, \hat{b}$ のガンマ分布であることが分かる。

$\displaystyle \begin{align} p(\lambda \mid \mathbf{X}, a, b) &= \mathrm{C}_\mathrm{Gam}(\hat{a}, \hat{b}) \lambda^{\hat{a}-1} \exp (- \hat{b} \lambda) \\ &= \frac{\hat{b}^{\hat{a}}}{\Gamma(\hat{a})} \lambda^{\hat{a}-1} \exp (- \hat{b} \lambda) \\ &= \mathrm{Gam}(\lambda \mid \hat{a}, \hat{b}) \tag{3.87} \end{align}$

　 $\lambda$ の事後分布の式が得られた。
　ここで、 $\mathrm{C}_\mathrm{Gam}(\hat{a}, \hat{b})$ は、ガンマ分布(事後分布)の正規化項である。
　また、式(3.88)が、事後分布のパラメータ(超パラメータ) $\hat{a}, \hat{b}$ の計算式(更新式)である。

　以上で、精度パラメータの事後分布を導出した。

結合事後分布の導出

　2つのパラメータ $\mu, \lambda$ それぞれの事後分布が求まったので、 $\mu, \lambda$ の結合事後分布を求める。

　 $\mu, \lambda$ の結合事後分布の式(2)に $\mu$ の事後分布の式(3.82)と $\lambda$ の事後分布の式(3.87)を代入すると、結合事後分布は式の形状から、パラメータ $\hat{m}, \hat{\beta}, \hat{a}, \hat{b}$ のガウス-ガンマ分布であることが分かる。

$\displaystyle \begin{align} p(\mu, \lambda \mid \mathbf{X}, m, \beta, a, b) &= p(\mu \mid \mathbf{X}, \lambda, m, \beta) p(\lambda \mid \mathbf{X}, a, b) \tag{2}\\ &= \mathcal{N}( \mu \mid \hat{m}, (\hat{\beta} \lambda)^{-1} ) \mathrm{Gam}(\lambda \mid \hat{a}, \hat{b}) \\ &= \sqrt{\frac{\hat{\beta} \lambda}{2 \pi}} \exp \Bigl( - \frac{\hat{\beta} \lambda}{2} (\mu - \hat{m})^2 \Bigr) \frac{\hat{b}^{\hat{a}}}{\Gamma(\hat{a})} \lambda^{\hat{a}-1} \exp (- \hat{b} \lambda) \\ &= \mathrm{NG}(\mu, \lambda \mid \hat{m}, \hat{\beta}, \hat{a}, \hat{b}) \tag{4} \end{align}$

　 $\mu, \lambda$ の結合事後分布の式が得られた。
　また、式(3.83)と式(3.88)が結合事後分布のパラメータ(超パラメータ) $\hat{m}, \hat{\beta}, \hat{a}, \hat{b}$ の計算式(更新式)である。

　以上で、平均と精度が未知の1次元ガウスモデルにおける事後分布を導出した。

予測分布の導出

　次は、平均と精度が未知の1次元ガウス分布に従う未観測データ $x_{*}$ の予測分布(predict distribution)を導出する。
　1次元スチューデントのt分布については「1次元スチューデントのt分布の定義式 - からっぽのしょこ」を参照のこと。

事前分布による予測分布

　結合事前分布(観測データによる学習を行っていない $\mu, \lambda$ の分布)を用いた予測分布(事前予測分布)を求める。

$\displaystyle \begin{align} p(x_{*} \mid m, \beta, a, b) &= \iint p(x_{*}, \mu, \lambda \mid m, \beta, a, b) \mathrm{d} \mu \mathrm{d} \lambda \\ &= \iint p(x_{*} \mid \mu, \lambda) p(\mu, \lambda \mid m, \beta, a, b) \mathrm{d} \mu \mathrm{d} \lambda \\ &= \iint \mathcal{N}(x_{*} \mid \mu, \lambda) \mathrm{NG}(\mu, \lambda \mid m, \beta, a, b) \mathrm{d} \mu \mathrm{d} \lambda \tag{3.89} \end{align}$

途中式の途中式(クリックで展開)

1: 未知変数 $x_{*}$ とパラメータ $\mu, \lambda$ の結合分布に対して、 $\mu, \lambda$ を周辺化した式を立てる。
2: 依存関係のある $x_{*}, \mu, \lambda$ の項を分割する。
3: 平均と精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガウス-ガンマ分布に置き換える。

　事前予測分布は、未知のデータ $x_{*}$ の生成分布(3.80)と、パラメータ $\mu, \lambda$ の結合事前分布(3.81)を用いた、 $x_{*}$ の周辺分布である。

　積分の計算を避けるため式(3.89)は直接用いずに、ベイズの定理を用いて、 $x_{*}$ と $\mu, \lambda$ の関係を考える。

$\displaystyle \begin{align} p(\mu, \lambda \mid x_{*}, m, \beta, a, b) &= \frac{ p(x_{*}, \mu, \lambda \mid m, \beta, a, b) }{ \iint p(x_{*}, \mu, \lambda \mid m, \beta, a, b) \mathrm{d} \mu \mathrm{d} \lambda } \\ &= \frac{ p(x_{*} \mid \mu, \lambda) p(\mu \mid \lambda, m, \beta) p(\lambda \mid a, b) }{ p(x_{*} \mid m, \beta, a, b) } \tag{5} \end{align}$

　左辺の項は、1つのデータ $x_{*}$ が与えられた下での $\mu, \lambda$ の条件付き結合分布(結合事後分布)と言える。つまり、 $N$ 個のデータ $\mathbf{X}$ が与えられた下での条件付き結合分布(結合事後分布)の式(4)と、同様の手順で求められる(同様のパラメータになる)。
　そこで、 $\mathbf{X}$ による結合事後分布のパラメータの式(3.83)と式(3.88)を用いて、 $N = 1, \mathbf{X} = \{x_{*}\}$ より、次のようにおく。

$\displaystyle \begin{aligned} \beta_{x_{*}} &= 1 + \beta \\ m_{x_{*}} &= \frac{1}{\beta_{x_{*}}} (x_{*} + \beta m) \\ &= \frac{1}{1 + \beta} (x_{*} + \beta m) \end{aligned} \tag{3.92.a}$

$\displaystyle \begin{aligned} a_{x_{*}} &= \frac{1}{2} + a \\ b_{x_{*}} &= \frac{1}{2} \Bigl\{ x_{*}^2 + \beta m^2 - \beta_{x_{*}} m_{x_{*}}^2 \Bigr\} + b \\ &= \frac{1}{2} \left\{ x_{*}^2 + \beta m^2 - (1 + \beta) \Bigl( \frac{1}{1 + \beta} (x_{*} + \beta m) \Bigr)^2 \right\} + b \\ &= \frac{1}{2} \left\{ x_{*}^2 + \beta m^2 - \frac{1}{1 + \beta} (x_{*} + \beta m)^2 \right\} + b \\ &= \frac{\beta}{2 (1 + \beta)} \left\{ \frac{1 + \beta}{\beta} x_{*}^2 + (1 + \beta) m^2 - \frac{1}{\beta} (x_{*} + \beta m)^2 \right\} + b \\ &= \frac{\beta}{2 (1 + \beta)} \left\{ \frac{1}{\beta} x_{*}^2 + x_{*}^2 + m^2 + \beta m^2 - \frac{1}{\beta} x_{*}^2 - 2 m x_{*} - \beta m^2 \right\} + b \\ &= \frac{\beta}{2 (1 + \beta)} (x_{*} - m)^2 + b \\ &= \frac{\beta}{2 \beta_{x_{*}}} (x_{*} - m)^2 + b \end{aligned} \tag{3.92.b}$

途中式の途中式(クリックで展開)

1: 式(3.88)について、 $N$ 個の観測データ $\mathbf{X}$ を1つの未知データ $x_{*}$ に置き換えた式を立てる。
2: $m_{x_{*}}, \beta_{x_{*}}$ に式(3.92)を代入する。
3: 2乗の括弧を展開する。
4: $\frac{\beta}{1 + \beta}$ を括り出す。
5: 2乗の括弧を展開する。
6: 2乗の乗法公式 $(x + a)^2 = x^2 + 2 a x + x^2$ より、波括弧内の項を2乗の括弧でまとめる。

　 $x_{*}$ による結合事後分布は、パラメータ $m_{x_{*}}, \beta_{x_{*}}, a_{x_{*}}, b_{x_{*}}$ のガウス-ガンマ分布となる。

$\displaystyle \begin{align} p(\mu, \lambda \mid x_{*}, m, \beta, a, b) &= p(\mu \mid x_{*}, \lambda, m, \beta) p(\lambda \mid x_{*}, a, b) \tag{6}\\ &= \mathcal{N}( \mu \mid m_{x_{*}}, (\beta_{x_{*}} \lambda)^{-1} ) \mathrm{Gam}(\lambda \mid a_{x_{*}}, b_{x_{*}}) \\ &= \sqrt{\frac{\beta_{x_{*}} \lambda}{2 \pi}} \exp \Bigl( - \frac{\beta_{x_{*}} \lambda}{2} (\mu - m_{x_{*}})^2 \Bigr) \frac{b_{x_{*}}^{a_{x_{*}}}}{\Gamma(a_{x_{*}})} \lambda^{a_{x_{*}}-1} \exp (- b_{x_{*}} \lambda) \\ &= \mathrm{NG}(\mu, \lambda \mid m_{x_{*}}, \beta_{x_{*}}, a_{x_{*}}, b_{x_{*}}) \tag{3.91} \end{align}$

　 $x_{*}$ による結合事後分布の式が得られた。1行目では、 $\mu, \lambda$ の依存関係に従い結合分布を分割している。

　 $x_{*}$ による結合事後分布の式(5)について、指数部分の計算を分かりやすくするため、両辺の対数をとる。

$\displaystyle \begin{aligned} \ln p(\mu, \lambda \mid x_{*}, m, \beta, a, b) &= \ln \Bigl( \frac{ p(x_{*} \mid \mu, \lambda) p(\mu \mid \lambda, m, \beta) p(\lambda \mid a, b) }{ p(x_{*} \mid m, \beta, a, b) } \Bigr) \\ &= \ln p(x_{*} \mid \mu, \lambda) + \ln p(\mu \mid \lambda, m, \beta) + \ln p(\lambda \mid a, b) - \ln p(x_{*} \mid m, \beta, a, b) \end{aligned}$

　予測分布に関して式を整理する。

$\displaystyle \begin{align} \ln p(x_{*} \mid m, \beta, a, b) &= \ln p(x_{*} \mid \mu, \lambda) + \ln p(\mu \mid \lambda, m, \beta) + \ln p(\lambda \mid a, b) - \ln p(\mu, \lambda \mid x_{*}, m, \beta, a, b) \\ &= \ln p(x_{*} \mid \mu, \lambda) + \ln p(\mu \mid \lambda, m, \beta) + \ln p(\lambda \mid a, b) - \ln \Bigl( p(\mu \mid x_{*}, \lambda, m, \beta) p(\lambda \mid x_{*}, a, b) \Bigr) \\ &= \ln p(x_{*} \mid \mu, \lambda) + \ln p(\mu \mid \lambda, m, \beta) + \ln p(\lambda \mid a, b) - \ln p(\mu \mid x_{*}, \lambda, m, \beta) - \ln p(\lambda \mid x_{*}, a, b) \\ &= \ln p(x_{*} \mid \mu, \lambda) - \ln p(\mu \mid x_{*}, \lambda, m, \beta) - \ln p(\lambda \mid x_{*}, a, b) + \mathrm{const.} \\ &= \ln \mathcal{N}(x_{*} \mid \mu, \lambda^{-1}) - \ln \mathcal{N}(\mu \mid m_{x_{*}}, (\beta_{x_{*}} \lambda)^{-1}) - \ln \mathrm{Gam}(\lambda \mid a_{x_{*}}, b_{x_{*}}) + \mathrm{const.} \tag{3.90} \end{align}$

　 $x_{*}$ に影響しない項を $\mathrm{const.}$ とおく。省略した項については、最後に正規化することで対応できる。式(6)より、結合分布を分割している。

　右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

$\displaystyle \begin{align} \ln p(x_{*} \mid m, \beta, a, b) &= \ln \left( \Bigl( \frac{\lambda}{2 \pi} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{\lambda}{2} (x_{*} - \mu)^2 \Bigr) \right) \\ &\quad - \ln \left( \Bigl( \frac{\beta_{x_{*}} \lambda}{2 \pi} \Bigr)^{\frac{1}{2}} \exp \Bigl( - \frac{\beta_{x_{*}} \lambda}{2} (\mu - m_{x_{*}})^2 \Bigr) \right) \\ &\quad - \ln \left( \frac{b_{x_{*}}^{a_{x_{*}}}}{\Gamma(a_{x_{*}})} \lambda^{a_{x_{*}}-1} \exp (- b_{x_{*}} \lambda) \right) + \mathrm{const.} \\ &= \frac{1}{2} \ln \Bigl( \frac{\lambda}{2 \pi} \Bigr) - \frac{\lambda}{2} (x_{*} - \mu)^2 \\ &\quad - \frac{1}{2} \ln \Bigl( \frac{\beta_{x_{*}} \lambda}{2 \pi} \Bigr) + \frac{\beta_{x_{*}} \lambda}{2} (\mu - m_{x_{*}})^2 \\ &\quad - a_{x_{*}} \ln b_{x_{*}} + \ln \Gamma(a_{x_{*}}) - (a_{x_{*}} - 1) \ln \lambda + b_{x_{*}} \lambda + \mathrm{const.} \\ &= - \frac{\lambda}{2} (x_{*} - \mu)^2 \\ &\quad - \frac{\lambda}{2} \Bigl\{ - \beta_{x_{*}} (\mu - m_{x_{*}})^2 \Bigr\} \\ &\quad - a_{x_{*}} \ln b_{x_{*}} + b_{x_{*}} \lambda + \mathrm{const.} \tag{7} \end{align}$

途中式の途中式(クリックで展開)

1: 尤度関数はガウス分布(3.80)を仮定しており、未知変数による $\mu$ の事後分布はガウス分布(3.91)、未知変数による $\lambda$ の事後分布はガンマ分布(3.91)になるので、それぞれ定義式に置き換える。
2: 自然対数の性質より、定義式の項を展開する。
3: $-\frac{\lambda}{2}$ を括り出す。

　適宜、 $x_{*}$ に影響しない項を $\mathrm{const.}$ にまとめていく。パラメータの計算式(3.92)より、 $\beta_{x_{*}}, a_{x_{*}}$ は $x_{*}$ に影響しない( $\beta_{x_{*}}, a_{x_{*}}$ の式に $x_{*}$ を含まない)。
　 $m_{x_{*}}, \beta_{x_{*}}, a_{x_{*}}, b_{x_{*}}$ に式(3.92)を代入して、 $x_{*}$ に関して式を整理する。

$\displaystyle \begin{align} \ln p(x_{*} \mid m, \beta, a, b) &= - \frac{\lambda}{2} (x_{*} - \mu)^2 \\ &\quad - \frac{\lambda}{2} \left\{ - \beta_{x_{*}} \Bigl( \mu - \frac{1}{\beta_{x_{*}}} (x_{*} + \beta m) \Bigr)^2 \right\} \\ &\quad - a_{x_{*}} \ln \Bigl( \frac{\beta}{2 \beta_{x_{*}}} (x_{*} - m)^2 + b \Bigr) \\ &\qquad + \left( \frac{\beta}{2 \beta_{x_{*}}} (x_{*} - m)^2 + b \right) \lambda + \mathrm{const.} \\ &= - \frac{\lambda}{2} (x_{*} - \mu)^2 \\ &\quad - \frac{\lambda}{2} \left\{ - \beta_{x_{*}} \mu^2 + 2 \mu (x_{*} + \beta m) - \frac{1}{\beta_{x_{*}}} (x_{*} + \beta m)^2 \right\} \\ &\quad - a_{x_{*}} \ln \Biggl( \Bigl( \frac{\beta}{2 \beta_{x_{*}} b} (x_{*} - m)^2 + 1 \Bigr) b \Biggr) \\ &\qquad - \frac{\lambda}{2} \left\{ - \frac{\beta}{\beta_{x_{*}}} (x_{*} - m)^2 \right\} + b \lambda + \mathrm{const.} \\ &= - \frac{\lambda}{2} \frac{\beta}{\beta_{x_{*}}} \left\{ \frac{\beta_{x_{*}}}{\beta} (x_{*} - \mu)^2 \right\} \\ &\quad - \frac{\lambda}{2} \frac{\beta}{\beta_{x_{*}}} \left\{ \frac{\beta_{x_{*}}}{\beta} 2 \mu (x_{*} + \beta m) - \frac{1}{\beta} (x_{*} + \beta m)^2 \right\} \\ &\quad - a_{x_{*}} \ln \Bigl( \frac{\beta}{2 \beta_{x_{*}} b} (x_{*} - m)^2 + 1 \Bigr) - a_{x_{*}} \ln b \\ &\qquad - \frac{\lambda}{2} \frac{\beta}{\beta_{x_{*}}} \Bigl\{ - (x_{*} - m)^2 \Bigr\} + \mathrm{const.} \\ &= - \frac{\lambda}{2} \frac{\beta}{\beta_{x_{*}}} \left\{ \frac{\beta_{x_{*}}}{\beta} x_{*}^2 - 2 \frac{\beta_{x_{*}}}{\beta} \mu x_{*} + \frac{\beta_{x_{*}}}{\beta} \mu^2 \right\} \\ &\quad - \frac{\lambda}{2} \frac{\beta}{\beta_{x_{*}}} \left\{ 2 \frac{\beta_{x_{*}}}{\beta} \mu x_{*} + 2 \beta_{x_{*}} \mu m - \frac{1}{\beta} x_{*}^2 - 2 m x_{*} - \beta m^2 \right\} \\ &\quad - a_{x_{*}} \ln \Bigl( \frac{\beta}{2 \beta_{x_{*}} b} (x_{*} - m)^2 + 1 \Bigr) \\ &\qquad - \frac{\lambda}{2} \frac{\beta}{\beta_{x_{*}}} \Bigl\{ - x_{*}^2 + 2 m x_{*} - m^2 \Bigr\} + \mathrm{const.} \\ &= - \frac{\lambda}{2} \frac{\beta}{\beta_{x_{*}}} \left\{ \frac{1 + \beta}{\beta} x_{*}^2 - \frac{1}{\beta} x_{*}^2 - x_{*}^2 \right\} \\ &\quad - \left( \frac{1}{2} + a \right) \ln \Bigl( \frac{\beta}{2 (1 + \beta) b} (x_{*} - m)^2 + 1 \Bigr) + \mathrm{const.} \\ &= - \left( \frac{1}{2} + a \right) \ln \Bigl( \frac{\beta}{2 (1 + \beta) b} (x_{*} - m)^2 + 1 \Bigr) + \mathrm{const.} \tag{3.93} \end{align}$

途中式の途中式(クリックで展開)

1: 式(7)の $m_{x_{*}}, b_{x_{*}}$ に式(3.92)を代入する。
2: 2乗の括弧を展開する。
2: $b$ を括り出す。
2: $-\frac{\lambda}{2}$ を括り出す。
3: $\frac{\beta}{\beta_{*}}$ を括り出す。
3: 対数の性質 $\ln(x y) = \ln x + \ln y$ より、対数の項を分割する。
4: 2乗の括弧を展開する。
4: $\beta_{x_{*}}, a_{x_{*}}$ に式(3.92)を代入する。

　予測分布の式(3.93)について、次のようにおく。

$\displaystyle \begin{aligned} \mu_s &= m \\ \lambda_s &= \frac{ \beta a }{ (1 + \beta) b } \\ \nu_s &= 2 a \end{aligned} \tag{3.95}$

　式(3.93)について、 $\mu_s, \lambda_s, \nu_s$ で置き換える。

$\displaystyle \begin{align} \ln p(x_{*} \mid m, \beta, a, b) &= - \left( \frac{2 a + 1}{2} \right) \ln \Bigl( 1 + \frac{1}{2 a} \frac{\beta a}{(1 + \beta) b} (x_{*} - m)^2 \Bigr) + \mathrm{const.} \tag{3.93'}\\ &= - \frac{\nu_s + 1}{2} \ln \Bigl( 1 + \frac{\lambda_s}{\nu_s} (x_{*} - \mu_s)^2 \Bigr) + \mathrm{const.} \end{align}$

途中式の途中式(クリックで展開)

スチューデントのt分布の定義式の形状となるように、式を整形する。

　対数の項に $\frac{a}{a} = 1$ を分割して掛ける。

　さらに、 $\ln$ を外して $\mathrm{const.}$ を正規化項に置き換える(正規化する)と、予測分布は式の形状から、パラメータ $\mu_s, \lambda_s, \nu_s$ の1次元スチューデントのt分布であることが分かる。

$\displaystyle \begin{align} \ln p(x_{*} \mid m, \beta, a, b) &= \mathrm{C}_{\mathrm{St}}(\mu_s, \lambda_s, \nu_s) \Bigl\{ 1 + \frac{\lambda_s}{\nu_s} (x_{*} - \mu_s)^2 \Bigr\}^{-\frac{\nu_s+1}{2}} \\ &= \frac{ \Gamma \Bigl( \frac{\nu_s + 1}{2} \Bigr) }{ \Gamma \Bigl( \frac{\nu_s}{2} \Bigr) } \Bigl( \frac{\lambda_s}{\pi \nu_s} \Bigr)^{\frac{1}{2}} \Bigl\{ 1 + \frac{\lambda_s}{\nu_s} (x_{*} - \mu_s)^2 \Bigr\}^{-\frac{\nu_s+1}{2}} \\ &= \mathrm{St}(x_{*} \mid \mu_s, \lambda_s, \nu_s) \tag{3.94} \end{align}$

　 $x_{*}$ の事前予測分布の式が得られた。
　ここで、 $\mathrm{C}_{\mathrm{St}}(\mu_s, \lambda_s, \nu_s)$ は、1次元スチューデントのt分布(事前予測分布)の正規化項である。
　また、式(3.95)が、予測分布のパラメータ $\mu_s, \lambda_s, \nu_s$ の計算式である。

事後分布による予測分布

　予測分布の計算に事前分布 $p(\mu, \lambda \mid m, \beta, a, b)$ を用いて、観測データ $\mathbf{X}$ による学習を行っていない予測分布(事前予測分布) $p(x_{*} \mid m, \beta, a, b)$ (のパラメータ $\mu_s, \lambda_s, \nu_s$ )を求めた。事後分布 $p(\mu, \lambda \mid \mathbf{X}, m, \beta, a, b)$ を用いると、観測データ $\mathbf{X}$ によって学習した予測分布(事後予測分布) $p(x_{*} \mid \mathbf{X}, m, \beta, a, b)$ (のパラメータ $\hat{\mu}_s, \hat{\lambda}_s, \hat{\nu}_s$ )を求められる。

$\displaystyle \begin{align} p(x_{*} \mid \mathbf{X}, m, \beta, a, b) &= \iint p(x_{*}, \mu, \lambda \mid \mathbf{X}, m, \beta, a, b) \mathrm{d} \mu \mathrm{d} \lambda \\ &= \iint p(x_{*} \mid \mu, \lambda) p(\mu, \lambda \mid \mathbf{X}, m, \beta, a, b) \mathrm{d} \mu \mathrm{d} \lambda \\ &= \iint \mathcal{N}(x_{*} \mid \mu, \lambda) \mathrm{NG}(\mu, \lambda \mid \hat{m}, \hat{\beta}, \hat{a}, \hat{b}) \mathrm{d} \mu \mathrm{d} \lambda \tag{3.89'} \end{align}$

途中式の途中式(クリックで展開)

1: 観測変数 $\mathbf{X}$ を条件として、未知変数 $x_{*}$ とパラメータ $\mu, \lambda$ の結合分布に対して、 $\mu, \lambda$ を周辺化した式を立てる。
2: 依存関係のある $x_{*}, \mu, \lambda$ の項を分割する。
3: 平均と精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事後分布をガウス-ガンマ分布に置き換える。

　事後予測分布は、未知のデータ $x_{*}$ の生成分布(3.80)と、パラメータ $\mu, \lambda$ の結合事後分布(4)を用いた、 $x_{*}$ の周辺分布である。

　事後分布は事前分布と同じくガウス-ガンマ分布なので、事前予測分布の式(3.94)と、同様の手順で事後予測分布の式も求められる。
　そこで、事前予測分布のパラメータ $\mu_s, \lambda_s, \nu_s$ の式(3.95)を構成する事前分布のパラメータ $m, \beta, a, b$ について、事後分布のパラメータ $\hat{m}, \hat{\beta}, \hat{a}, \hat{b}$ の式(3.83)と式(3.88)に置き換えたものを事後予測分布のパラメータ $\hat{\mu}_s, \hat{\lambda}_s, \hat{\nu}_s$ とおく。

$\displaystyle \begin{aligned} \hat{\mu}_s &= \hat{m} \\ &= \frac{1}{\hat{\beta}} \left( \sum_{n=1}^N x_n + \beta m \right) \\ &= \frac{ \sum_{n=1}^N x_n + \beta m }{ N + \beta } \\ \hat{\lambda}_s &= \frac{ \hat{\beta} \hat{a} }{ (1 + \hat{\beta}) \hat{b} } \\ &= \frac{ (N + \beta) \left( \frac{N}{2} + a \right) }{ (N + 1 + \beta) \left\{ \frac{1}{2} \left( \sum_{n=1}^N x_n^2 + \beta m^2 - \hat{\beta} \hat{m}^2 \right) + b \right\} } \\ \hat{\nu}_s &= 2 \hat{a} \\ &= N + 2 a \end{aligned} \tag{3.95'}$

　予測分布の式(3.94')についても置き換える(同様の手順で導出する)と、パラメータ $\hat{\mu}_s, \hat{\lambda}_s, \hat{\nu}_s$ の1次元スチューデントのt分布となる。

$\displaystyle \begin{align} p(x_{*} \mid \mathbf{X}, m, \beta, a, b) &= \frac{ \Gamma \Bigl( \frac{\hat{\nu}_s + 1}{2} \Bigr) }{ \Gamma \Bigl( \frac{\hat{\nu}_s}{2} \Bigr) } \Bigl( \frac{\hat{\lambda}_s}{\pi \hat{\nu}_s} \Bigr)^{\frac{1}{2}} \Bigl\{ 1 + \frac{\hat{\lambda}_s}{\hat{\nu}_s} (x_{*} - \hat{\mu}_s)^2 \Bigr\}^{-\frac{\hat{\nu}_s+1}{2}} \\ &= \mathrm{St}(x_{*} \mid \hat{\mu}_s, \hat{\lambda}_s, \hat{\nu}_s) \tag{3.94'} \end{align}$

　 $x_{*}$ の事後予測分布の式が得られた。
　また、式(3.95')が、予測分布のパラメータ $\hat{\mu}_s, \hat{\lambda}_s, \hat{\nu}_s$ の計算式(更新式)である。

　以上で、平均と精度が未知の1次元ガウスモデルにおける事後予測分布を導出した。

　この記事では、平均と精度が未知の場合の1次元ガウス分布に対するベイズ推論を導出した。次の記事では、実装する。

参考文献

作者:須山敦志
講談社

おわりに

　ここまではめちゃくちゃ難しい訳ではないのですがとにかく大変でした。
　3月はトピックモデルの実装の予定でして、あと次の節は行列計算が出てくるっぽいので暫くお休みします。あ、でも修正作業と予測分布を組んでみたを追加するのは3月中にやるつもりです。

　4月からはPythonを触ってみる予定ですので、その時に勉強がてらPython版を追加するとともに再開できればと思います。

2020/03/05：加筆修正しました。

　ここまでの感想：データ数が増えると分布の見分けがつかない。

　各節で同じことをしていると分かりやすくするためにも表記・表現の統一に拘っていたのですが、思ったよりも大変で時間をとられてしまいました。なので以降はもう少し緩くまとめていくことにします。全体を読み終えてから、俯瞰的な知識の整理も含めてそういった作業を改めてできればと思います。

2021/04/04：加筆修正しました。その際にRで実装編と記事を分割しました。

　現在表記・表現の統一中です。

　途中式が非常にゴチャゴチャしていますが、プラスマイナスで打ち消されて項が綺麗に消えていくのは気持ちいいですよ。いやうんたぶん。

2022/09/16：同時事後分布について書き足して、全体的に再構成しました。

2026.01.17：加筆修正しました。

　ここの加筆修正の履歴を眺めるだけでも、数年前から同じ内容をクルクル回って深掘りはできてるものの発展できてないのが分かってしまう、と毎度悩んでるけど、暫く経ってから読み返すと気になってしまうところが多々出てきて手を付けてしまうのです。

　最後に、えびちゅうのライブ映像を1曲をどうぞ♪

【次節の内容】

スクラッチ実装編

　1次元ガウスモデルに対するベイズ推論をプログラムで確認します。

www.anarchive-beta.com

数式読解編

　多次元ガウスモデルの生成モデルを数式で確認します。