以下の内容はhttps://www.anarchive-beta.com/entry/2020/02/27/180000より取得しました。


3.3.2:1次元ガウス分布のベイズ推論の導出:精度が未知の場合【緑ベイズ入門のノート】

はじめに

 『ベイズ推論による機械学習入門』(MLSシリーズ)の独学時のノートです。各種のモデルやアルゴリズムについて「数式・プログラム・図」を用いて解説します。
 本の補助として読んでください。

 この記事では、精度が未知の1次元ガウス分布に対するベイズ推論の数式の行間を埋めます。

【前節の内容】

www.anarchive-beta.com

【他の節一覧】

www.anarchive-beta.com

【この節の内容】

3.3.2 1次元ガウス分布のベイズ推論の導出:精度が未知の場合

 1次元ガウスモデル(Gaussian model)に対するベイズ推論(Bayesian inference)を導出する。この記事では、生成分布の精度パラメータ(precision parameter)が未知の場合を扱う。精度が未知の1次元ガウスモデルでは、尤度関数を1次元ガウス分布(Gaussian distribution・一変量正規分布・Normal distribution)、事前分布をガンマ分布(Gamma distribution)とする。
 1次元ガウスモデルについては「3.3.0:1次元ガウスモデルの生成モデルの導出【緑ベイズ入門のノート】 - からっぽのしょこ」、1次元ガウス分布については「1次元ガウス分布の定義式 - からっぽのしょこ」を参照のこと。

事後分布の導出

 まずは、精度が未知の1次元ガウス分布のパラメータ  \lambda の事後分布(posterior distribution)を導出する。
 ガンマ分布については「準備中」を参照のこと。

 観測データ  \mathbf{X} が与えられた(条件とする)下でのパラメータ  \lambda の条件付き分布(事後分布)を求める。平均パラメータ  \mu は与えられている(既知)とする。

 \displaystyle
\begin{align}
p(\lambda \mid \mathbf{X}, \mu, a, b)
   &= \frac{
          p(\mathbf{X} \mid \mu, \lambda)
          p(\lambda \mid a, b)
      }{
          p(\mathbf{X} \mid \mu, a, b)
      }
\\
   &\propto
      p(\mathbf{X} \mid \mu, \lambda)
      p(\lambda \mid a, b)
\\
   &= \left\{ \prod_{n=1}^N
          p(x_n \mid \mu, \lambda)
      \right\}
      p(\lambda \mid a, b)
\\
   &= \left\{ \prod_{n=1}^N
          \mathcal{N}(x_n \mid \mu, \lambda^{-1})
      \right\}
      \mathrm{Gam}(\lambda \mid a, b)
\tag{3.66}
\end{align}

途中式の途中式(クリックで展開)


  • 1: ベイズの定理  p(y \mid x) = \frac{p(x \mid y) p(y)}{p(x)} より、観測変数  \mathbf{X} を条件に移した式を立てる。

 事後分布は、 \mathbf{X}, \lambda の結合分布と  \mathbf{X} の周辺分布を用いて、次のようにも求められる。

 \displaystyle
\begin{aligned}
p(\lambda \mid \mathbf{X}, \mu, a, b)
   &= \frac{
          p(\mathbf{X}, \lambda \mid \mu, a, b)
      }{
          p(\mathbf{X} \mid \mu, a, b)
      }
\\
   &= \frac{
          p(\mathbf{X}, \lambda \mid \mu, a, b)
      }{
          \int
              p(\mathbf{X}, \lambda \mid \mu, a, b)
          \mathrm{d} \lambda
      }
\\
   &= \frac{
          p(\mathbf{X} \mid \mu, \lambda)
          p(\lambda \mid a, b)
      }{
          \int
              p(\mathbf{X} \mid \mu, \lambda)
              p(\lambda \mid a, b)
          \mathrm{d} \lambda
      }
\end{aligned}

 1行目では、条件付き分布  p(y \mid x) = \frac{p(x, y)}{p(x)} より、 \mathbf{X} を条件に移している。
 2行目では、周辺化  p(y) = \int p(x, y) \mathrm{d} x した  \lambda を明示している。
 3行目では、 \mathbf{X}, \lambda の依存関係に従い項を分割している。
 生成モデル(結合分布)については「生成モデルの導出」を参照のこと。

  • 2:  \lambda と無関係な項を省く。
  • 3: 観測データ集合  \mathbf{X} の生成確率を、各データ  x_n の生成確率の積に分解する。
  • 4: 精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガンマ分布に置き換える。

 周辺分布(分母)は  \lambda に影響しないため省いて、比例関係のみに注目する。省略した項については、最後に正規化することで対応できる。

 両辺の対数をとり、指数部分の計算を分かりやすくして、 \lambda に関して式を整理する。

 \displaystyle
\begin{aligned}
\ln p(\lambda \mid \mathbf{X}, \mu, a, b)
   &= \ln \Bigl(
          \frac{
              \left\{ \prod_{n=1}^N
                  p(x_n \mid \mu, \lambda)
              \right\}
              p(\lambda \mid a, b)
          }{
              p(\mathbf{X} \mid \mu, a, b)
          }
      \Bigr)
\\
   &= \ln \Bigl(
          \prod_{n=1}^N
              p(x_n \mid \mu, \lambda)
      \Bigr)
      + \ln p(\lambda \mid a, b)
      - \ln p(\mathbf{X} \mid \mu, a, b)
\\
   &= \sum_{n=1}^N
          \ln p(x_n \mid \mu, \lambda)
      + \ln p(\lambda \mid a, b)
      + \mathrm{const.}
\\
   &= \sum_{n=1}^N
          \ln \mathcal{N}(x_n \mid \mu, \lambda^{-1})
      + \ln \mathrm{Gam}(\lambda \mid a, b)
      + \mathrm{const.}
\end{aligned}

途中式の途中式(クリックで展開)


  • 1: 式(3.66)に関して、対数をとった式を立てる。
  • 2-3: 自然対数の性質  \ln(x y) = \ln x + \ln y \ln \frac{x}{y} = \ln x - \ln y より、分数の項を展開する。

 対数の性質より、総乗  \prod_n の対数をとると、対数の総和  \sum_n になる。

 \displaystyle
\begin{aligned}
\ln p(\mathbf{X} \mid \mu, \lambda)
   &= \ln \Bigl(
          \prod_{n=1}^N
              p(x_n \mid \mu, \lambda)
      \Bigr)
\\
   &= \ln \Bigl(
          p(x_1 \mid \mu, \lambda)
          * p(x_2 \mid \mu, \lambda)
          * \cdots
          * p(x_N \mid \mu, \lambda)
      \Bigr)
\\
   &= \ln p(x_1 \mid \mu, \lambda)
      + \ln p(x_2 \mid \mu, \lambda)
      + \cdots
      + \ln p(x_N \mid \mu, \lambda)
\\
   &= \sum_{n=1}^N
          \ln p(x_n \mid \mu, \lambda)
\end{aligned}
  • 3:  \lambda と無関係な項を  \mathrm{const.} とおく。
  • 4: 精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガンマ分布に置き換える。

  \lambda に影響しない項を  \mathrm{const.} とおく。省略した項については、最後に正規化することで対応できる。

 右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

 \displaystyle
\begin{align}
\ln p(\lambda \mid \mathbf{X}, \mu, a, b)
   &= \sum_{n=1}^N
          \ln \left(
              \Bigl(
                  \frac{\lambda}{2 \pi}
              \Bigr)^{\frac{1}{2}}
              \exp \Bigl(
                  - \frac{\lambda}{2}
                    (x_n - \mu)^2
              \Bigr)
          \right)
\\
   &\quad
      + \ln \Bigl(
            \mathrm{C}_\mathrm{Gam}(a, b)
            \lambda^{a-1}
            \exp(- b \lambda)
        \Bigr)
      + \mathrm{const.}
\\
   &= \sum_{n=1}^N \left\{
          \frac{1}{2}
          \ln \lambda
          - \frac{1}{2}
            \ln(2 \pi)
          - \frac{\lambda}{2}
            (x_n - \mu)^2
      \right\}
\\
   &\quad
      + \ln \mathrm{C}_\mathrm{Gam}(a, b)
      + (a - 1) \ln \lambda
      - b \lambda
      + \mathrm{const.}
\\
   &= \frac{N}{2}
      \ln \lambda
      + (a - 1)
        \ln \lambda
      - \frac{\lambda}{2}
        \sum_{n=1}^N
            (x_n - \mu)^2
      - b \lambda
      + \mathrm{const.}
\\
   &= \left(
          \frac{N}{2} + a - 1
      \right)
      \ln \lambda
      - \left\{
          \frac{1}{2}
          \sum_{n=1}^N
              (x_n - \mu)^2
          + b
        \right\}
        \lambda
      + \mathrm{const.}
\tag{3.67}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 尤度関数はガウス分布、事前分布はガンマ分布を仮定しているので、それぞれ定義式に置き換える。
 \displaystyle
\begin{align}
p(x_n \mid \mu, \lambda)
   &= \mathcal{N}(x_n \mid \mu, \lambda^{-1})
\tag{3.64}\\
   &= \sqrt{
          \frac{\lambda}{2 \pi}
      }
      \exp \Bigl(
          - \frac{\lambda}{2}
            (x_n - \mu)^2
      \Bigr)
\\
p(\lambda \mid a, b)
   &= \mathrm{Gam}(\lambda \mid a, b)
\tag{3.65}\\
   &= \mathrm{C}_\mathrm{Gam}(a, b)
      \lambda^{a-1}
      \exp(- b \lambda)
\end{align}

 ここで、 \mathrm{C}_\mathrm{Gam}(a, b) = \frac{b^a}{\Gamma(a)} は、ガンマ分布(事前分布)の正規化項である。(式変形に影響しないので簡易的に表記している。)
 ルートを指数で表すと  \sqrt{x} = x^{\frac{1}{2}} である。

  • 2: 自然対数の性質  \ln(x y) = \ln x + \ln y \ln \frac{x}{y} = \ln x - \ln y \ln x^y = y \ln x、対数と指数の関係  \ln (\exp (x)) = x より、定義式の項を展開する。
  • 3:  n に関する総和  \sum_n の波括弧を展開する。 n と無関係な項は  N \sum_{n=1}^N \ln \lambda = N \ln \lambda となる。
  • 4:  \ln \lambda, \lambda の項をそれぞれまとめる。

 適宜、 \lambda に影響しない項を  \mathrm{const.} にまとめている。

 事後分布の式(3.67)について、次のようにおく。

 \displaystyle
\begin{aligned}
\hat{a}
   &= \frac{N}{2} + a
\\
\hat{b}
   &= \frac{1}{2}
      \sum_{n=1}^N
          (x_n - \mu)^2
      + b
\end{aligned}
\tag{3.69}

 式(3.67)について、 \hat{a}, \hat{b} で置き換える。

 \displaystyle
\ln p(\lambda \mid \mathbf{X}, \mu, a, b)
    = (\hat{a} - 1)
      \ln \lambda
      - \hat{b}
        \lambda
      + \mathrm{const.}

 さらに、 \ln を外して  \mathrm{const.} を正規化項に置き換える(正規化する)と、事後分布は式の形状から、パラメータ  \hat{a}, \hat{b} のガンマ分布であることが分かる。

 \displaystyle
\begin{align}
p(\lambda \mid \mathbf{X}, \mu, a, b)
   &= \mathrm{C}_{\mathrm{Gam}}(\hat{a}, \hat{b})
      \lambda^{\hat{a}-1}
      \exp(- \hat{b} \lambda)
\\
   &= \frac{\hat{b}^{\hat{a}}}{\Gamma(\hat{a})}
      \lambda^{\hat{a}-1}
      \exp(- \hat{b} \lambda)
\\
   &= \mathrm{Gam}(\lambda \mid \hat{a}, \hat{b})
\tag{3.68}
\end{align}

  \lambda の事後分布の式が得られた。
 ここで、 \mathrm{C}_\mathrm{Gam}(\hat{a}, \hat{b}) は、ガンマ分布(事後分布)の正規化項である。
 また、式(3.69)が、事後分布のパラメータ(超パラメータ)  \hat{a}, \hat{b} の計算式(更新式)である。

 以上で、精度が未知の1次元ガウスモデルにおける事後分布を導出した。

スポンサードリンク

予測分布の導出

 次は、精度が未知の1次元ガウス分布に従う未観測データ  x_{*} の予測分布(predict distribution)を導出する。
 1次元スチューデントのt分布については「1次元スチューデントのt分布の定義式 - からっぽのしょこ」を参照のこと。

事前分布による予測分布

 事前分布(観測データによる学習を行っていない  \lambda の分布)を用いた予測分布(事前予測分布)を求める。

 \displaystyle
\begin{align}
p(x_{*} \mid \mu, a, b)
   &= \int
          p(x_{*}, \lambda \mid \mu, a, b)
      \mathrm{d} \lambda
\\
   &= \int
          p(x_{*} \mid \mu, \lambda)
          p(\lambda \mid a, b)
      \mathrm{d} \lambda
\\
   &= \int
          \mathcal{N}(x_{*} \mid \mu, \lambda^{-1})
          \mathrm{Gam}(\lambda \mid a, b)
      \mathrm{d} \lambda
\tag{3.70}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 未知変数  x_{*} とパラメータ  \lambda の結合分布に対して、 \lambda を周辺化した式を立てる。
  • 2: 依存関係のある  x_{*}, \lambda の項を分割する。
  • 3: 精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガンマ分布に置き換える。

 事前予測分布は、未知のデータ  x_{*} の生成分布(3.64)と、パラメータ  \lambda の事前分布(3.65)を用いた、 x_{*} の周辺分布である。

 積分の計算を避けるため式(3.70)は直接用いずに、ベイズの定理を用いて、 x_{*} \lambda の関係を考える。

 \displaystyle
\begin{align}
p(\lambda \mid x_{*}, \mu, a, b)
   &= \frac{
          p(x_{*}, \lambda \mid \mu, a, b)
      }{
          \int
              p(x_{*}, \lambda \mid \mu, a, b)
          \mathrm{d} \lambda
      }
\\
   &= \frac{
          p(x_{*} \mid \mu, \lambda)
          p(\lambda \mid a, b)
      }{
          p(x_{*} \mid \mu, a, b)
      }
\tag{3.71}
\end{align}

 左辺の項は、1つのデータ  x_{*} が与えられた下での  \lambda の条件付き分布(事後分布)と言える。つまり、 N 個のデータ  \mathbf{X} が与えられた下での条件付き分布(事後分布)の式(3.68)と、同様の手順で求められる(同様のパラメータになる)。
 そこで、 \mathbf{X} による事後分布のパラメータの式(3.69)を用いて、 N = 1, \mathbf{X} = \{x_{*}\} より、次のようにおく。

 \displaystyle
\begin{aligned}
a_{x_{*}}
   &= \frac{1}{2} + a
\\
b_{x_{*}}
   &= \frac{1}{2}
      (x_{*} - \mu)^2
      + b
\end{aligned}
\tag{3.74}

  x_{*} による事後分布は、パラメータ  a_{x_{*}}, b_{x_{*}} のガンマ分布となる。

 \displaystyle
\begin{align}
p(\lambda \mid x_{*}, \mu, a, b)
   &= \frac{b_{x_{*}}^{a_{x_{*}}}}{\Gamma(a_{x_{*}})}
      \lambda^{a_{x_{*}}-1}
      \exp(- b_{x_{*}} \lambda)
\\
   &= \mathrm{Gam}(\lambda \mid a_{x_{*}}, b_{x_{*}})
\tag{3.73}
\end{align}

  x_{*} による事後分布の式が得られた。

  x_{*} による事後分布の式(3.71)について、指数部分の計算を分かりやすくするため、両辺の対数をとる。

 \displaystyle
\begin{aligned}
\ln p(\lambda \mid x_{*}, \mu, a, b)
   &= \ln \Bigl(
          \frac{
              p(x_{*} \mid \mu, \lambda)
              p(\lambda \mid a, b)
          }{
              p(x_{*} \mid \mu, a, b)
          }
      \Bigr)
\\
   &= \ln p(x_{*} \mid \mu, \lambda)
      + \ln p(\lambda \mid a, b)
      - \ln p(x_{*} \mid \mu, a, b)
\end{aligned}

 予測分布に関して式を整理する。

 \displaystyle
\begin{align}
\ln p(x_{*} \mid \mu, a, b)
   &= \ln p(x_{*} \mid \mu, \lambda)
      + \ln p(\lambda \mid a, b)
      - \ln p(\lambda \mid x_{*}, \mu, a, b)
\\
   &= \ln p(x_{*} \mid \mu, \lambda)
      - \ln p(\lambda \mid x_{*}, \mu, a, b)
      + \mathrm{const.}
\\
   &= \ln \mathcal{N}(x_{*} \mid \mu, \lambda^{-1})
      - \ln \mathrm{Gam}(\lambda \mid a_{x_{*}}, b_{x_{*}})
      + \mathrm{const.}
\tag{3.72}
\end{align}

  x_{*} に影響しない項を  \mathrm{const.} とおく。省略した項については、最後に正規化することで対応できる。

 右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

 \displaystyle
\begin{align}
\ln p(x_{*} \mid \mu, a, b)
   &= \ln \left(
          \Bigl(
              \frac{\lambda}{2 \pi}
          \Bigr)^{\frac{1}{2}}
          \exp \Bigl(
              - \frac{\lambda}{2}
                (x_{*} - \mu)^2
          \Bigr)
      \right)
\\
   &\quad
      - \ln \Bigl(
          \frac{b_{x_{*}}^{a_{x_{*}}}}{\Gamma(a_{x_{*}})}
          \lambda^{a_{x_{*}}-1}
          \exp(- b_{x_{*}} \lambda)
      \Bigr)
      + \mathrm{const.}
\\
   &= \frac{1}{2}
      \ln \Bigl(
          \frac{\lambda}{2 \pi}
      \Bigr)
      - \frac{\lambda}{2}
        (x_{*} - \mu)^2
\\
   &\quad
      - a_{x_{*}} \ln b_{x_{*}}
      + \ln \Gamma(a_{x_{*}})
      - (a_{x_{*}} - 1) \ln \lambda
      + b_{x_{*}} \lambda
      + \mathrm{const.}
\\
   &= - \frac{\lambda}{2}
        (x_{*} - \mu)^2
\\
   &\quad
      - a_{x_{*}} \ln b_{x_{*}}
      + b_{x_{*}} \lambda
      + \mathrm{const.}
\tag{1}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 尤度関数はガウス分布(3.64)を仮定しており、未知変数による事後分布はガンマ分布(3.73)になるので、それぞれ定義式に置き換える。
  • 2: 自然対数の性質より、定義式の項を展開する。

 適宜、 x_{*} に影響しない項を  \mathrm{const.} にまとめていく。パラメータの計算式(3.74)より、 a_{x_{*}} x_{*} に影響しない(  a_{x_{*}} の式に  x_{*} を含まない)。
  m_{x_{*}}, \lambda_{x_{*}} に式(3.74)を代入して、 x_{*} に関して式を整理する。

 \displaystyle
\begin{align}
\ln p(x_{*} \mid \mu, a, b)
   &= - \frac{\lambda}{2}
        (x_{*} - \mu)^2
\\
   &\quad
      - \left(
          \frac{1}{2} + a
        \right)
        \ln \Bigl(
            \frac{1}{2}
            (x_{*} - \mu)^2
            + b
        \Bigr)
      + \left(
          \frac{1}{2}
          (x_{*} - \mu)^2
          + b
        \right)
        \lambda
      + \mathrm{const.}
\\
   &= - \frac{\lambda}{2}
        (x_{*} - \mu)^2
\\
   &\quad
      - \left(
          \frac{1}{2} + a
        \right)
        \ln \Bigl(
            \frac{1}{2 b}
            (x_{*} - \mu)^2
            + 1
        \Bigr)
      - \left(
          \frac{1}{2} + a
        \right)
        \ln b
      + \frac{\lambda}{2}
        (x_{*} - \mu)^2
      + b \lambda
      + \mathrm{const.}
\\
   &= - \left(
          \frac{1}{2} + a
        \right)
        \ln \Bigl(
            1
            + \frac{1}{2 b}
              (x_{*} - \mu)^2
        \Bigr)
      + \mathrm{const.}
\tag{3.75}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 式(1)に式(3.74)を代入する。
  • 2: 対数の項を分割する。
 \displaystyle
\begin{aligned}
a_{x_{*}}
\ln \Bigl(
    \frac{1}{2}
    (x_{*} - \mu)^2
    + b
\Bigr)
   &= a_{x_{*}}
      \ln \left(
          \Bigl(
              \frac{1}{2 b}
              (x_{*} - \mu)^2
              + 1
          \Bigr)
          b
      \right)
\\
   &= a_{x_{*}} \left(
          \ln \Bigl(
              \frac{1}{2 b}
              (x_{*} - \mu)^2
              + 1
          \Bigr)
          + \ln b
      \right)
\\
   &= a_{x_{*}}
      \ln \Bigl(
          \frac{1}{2 b}
          (x_{*} - \mu)^2
          + 1
      \Bigr)
      + a_{x_{*}} \ln b
\end{aligned}

  b を括り出して、対数の性質  \ln(x y) = \ln x + \ln y により項を分割している。


 予測分布の式(3.75)について、次のようにおく。

 \displaystyle
\begin{aligned}
\mu_s
   &= \mu
\\
\lambda_s
   &= \frac{a}{b}
\\
\nu_s
   &=  2 a
\end{aligned}
\tag{3.79}

 式(3.75)について、 \mu_s, \lambda_s, \nu_s で置き換える。

 \displaystyle
\begin{align}
\ln p(x_{*} \mid \mu, a, b)
   &= - \frac{2 a + 1}{2}
        \ln \Bigl(
            1
            + \frac{a}{2 a b}
              (x_{*} - \mu)^2
        \Bigr)
      + \mathrm{const.}
\\
   &= - \frac{\nu_s + 1}{2}
        \ln \Bigl(
            1
            + \frac{\lambda_s}{\nu_s}
              (x_{*} - \mu_s)^2
        \Bigr)
      + \mathrm{const.}
\tag{3.77}
\end{align}

途中式の途中式(クリックで展開)


  • スチューデントのt分布の定義式の形状となるように、式を整形する。

 対数の項に  \frac{a}{a} = 1 を掛ける。


 さらに、 \ln を外して  \mathrm{const.} を正規化項に置き換える(正規化する)と、予測分布は式の形状から、パラメータ  \mu_s, \lambda_s, \nu_s の1次元スチューデントのt分布であることが分かる。

 \displaystyle
\begin{align}
\ln p(x_{*} \mid \mu, a, b)
   &= \mathrm{C}_{\mathrm{St}}(\mu_s, \lambda_s, \nu_s)
      \Bigl\{
          1
          + \frac{\lambda_s}{\nu_s}
            (x_{*} - \mu_s)^2
      \Bigr\}^{-\frac{\nu_s+1}{2}}
\\
   &= \frac{
          \Gamma \Bigl(
              \frac{\nu_s + 1}{2}
          \Bigr)
      }{
          \Gamma \Bigl(
              \frac{\nu_s}{2}
          \Bigr)
      }
      \Bigl(
          \frac{\lambda_s}{\pi \nu_s}
      \Bigr)^{\frac{1}{2}}
      \Bigl\{
          1
          + \frac{\lambda_s}{\nu_s}
            (x_{*} - \mu_s)^2
      \Bigr\}^{-\frac{\nu_s+1}{2}}
\\
  &= \mathrm{St}(x_{*} \mid \mu_s, \lambda_s, \nu_s)
\tag{3.78}
\end{align}

  x_{*} の事前予測分布の式が得られた。
 ここで、 \mathrm{C}_\mathrm{St}(\mu_s, \lambda_s, \nu_s) は、1次元スチューデントのt分布(事前予測分布)の正規化項である。
 また、式(3.79)が、予測分布のパラメータ  \mu_s, \lambda_s, \nu_s の計算式である。

事後分布による予測分布

 予測分布の計算に事前分布  p(\lambda \mid a, b) を用いて、観測データ  \mathbf{X} による学習を行っていない予測分布(事前予測分布)  p(x_{*} \mid \mu, a, b) (のパラメータ  \mu_s, \lambda_s, \nu_s )を求めた。事後分布  p(\lambda \mid \mathbf{X}, a, b) を用いると、観測データ  \mathbf{X} によって学習した予測分布(事後予測分布)  p(x_{*} \mid \mathbf{X}, \mu, a, b) (のパラメータ  \hat{\mu}_s, \hat{\lambda}_s, \hat{\nu}_s )を求められる。

 \displaystyle
\begin{align}
p(x_{*} \mid \mathbf{X}, \mu, a, b)
   &= \int
          p(x_{*}, \lambda \mid \mathbf{X}, \mu, a, b)
      \mathrm{d} \lambda
\\
   &= \int
          p(x_{*} \mid \mu, \lambda)
          p(\lambda \mid \mathbf{X}, a, b)
      \mathrm{d} \lambda
\\
   &= \int
          \mathcal{N}(x_{*} \mid \mu, \lambda^{-1})
          \mathrm{Gam}(\lambda \mid \hat{a}, \hat{b})
      \mathrm{d} \lambda
\tag{3.70'}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 観測変数  \mathbf{X} を条件として、未知変数  x_{*} とパラメータ  \lambda の結合分布に対して、 \lambda を周辺化した式を立てる。
  • 2: 依存関係のある  x_{*}, \lambda の項を分割する。
  • 3: 精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事後分布をガンマ分布に置き換える。

 事後予測分布は、未知のデータ  x_{*} の生成分布(3.64)と、パラメータ  \lambda の事後分布(3.68)を用いた、 x_{*} の周辺分布である。

 事後分布は事前分布と同じくガンマ分布なので、事前予測分布の式(3.78)と、同様の手順で事後予測分布の式も求められる。
 そこで、事前予測分布のパラメータ  \mu_s, \lambda_s, \nu_s の式(3.79)を構成する事前分布のパラメータ  a, b について、事後分布のパラメータ  \hat{a}, \hat{b} の式(3.69)に置き換えたものを事後予測分布のパラメータ  \hat{\mu}_s, \hat{\lambda}_s, \hat{\nu}_s とおく。

 \displaystyle
\begin{aligned}
\hat{\mu}_s
   &= \mu_s
\\
   &= \mu
\\
\hat{\lambda}_s
   &= \frac{\hat{a}}{\hat{b}}
\\
   &= \frac{
          \frac{N}{2} + a
      }{
          \frac{1}{2}
          \sum_{n=1}^N (x_n - \mu)^2
          + b
      }
\\
   &= \frac{
          N + 2 a
      }{
          \sum_{n=1}^N (x_n - \mu)^2
          + 2 b
      }
\\
\hat{\nu}_s
   &=  2 \hat{a}
\\
   &= N + 2 a
\end{aligned}
\tag{3.79'}

 予測分布の式(3.78)についても置き換える(同様の手順で導出する)と、パラメータ  \mu_s, \hat{\lambda}_s, \hat{\nu}_s の1次元スチューデントのt分布となる。

 \displaystyle
\begin{align}
p(x_{*} \mid \mathbf{X}, \mu, a, b)
   &= \frac{
          \Gamma \Bigl(
              \frac{\hat{\nu}_s + 1}{2}
          \Bigr)
      }{
          \Gamma \Bigl(
              \frac{\hat{\nu}_s}{2}
          \Bigr)
      }
      \Bigl(
          \frac{\hat{\lambda}_s}{\pi \hat{\nu}_s}
      \Bigr)^{\frac{1}{2}}
      \Bigl\{
          1
          + \frac{\hat{\lambda}_s}{\hat{\nu}_s}
            (x_{*} - \mu_s)^2
      \Bigr\}^{-\frac{\hat{\nu}_s+1}{2}}
\\
   &= \mathrm{St}(x_{*} \mid \mu_s, \hat{\lambda}_s, \hat{\nu}_s)
\tag{3.78'}
\end{align}

  x_{*} の事後予測分布の式が得られた。
 また、式(3.79')が、予測分布のパラメータ  \mu_s, \hat{\lambda}_s, \hat{\nu}_s の計算式(更新式)である。

 以上で、精度が未知の1次元ガウスモデルにおける事後予測分布を導出した。

 この記事では、精度が未知の場合の1次元ガウス分布に対するベイズ推論を導出した。次の記事では、実装する。

参考文献

おわりに

 式(3.75)を導出できない。難しい訳ではないのですができませんでした…。どこがおかしいのか分かる方はぜひ教えてください。(アドバイスいただいて解けました!説明文を勘違いしてました。ありがとうございます!)
 ちなみに、次でも同様に式を整理できない部分があり現在止まっております。(こっちは丁寧に書き直したらできました。)

 それとは別に予測分布の方もRでやってみたいと思うので、次の項を読み(書き)終えたら一旦全編修正作業に移る予定です。(追加しました!)

2020/03/05:加筆修正しました。
2021/04/04:加筆修正しました。その際にRで実装編と記事を分割しました。

  • 2026.01.17:加筆修正しました。

 今回の修正では、事前予測分布と事後分布の導出過程において(ベイズの定理など)共通の式の形が分かるように、またそこから別の項に注目して変形していく過程がより分かるように、意識して書き直しました。他にも、事後予測分布が事前予測分布と同様の流れで導出できるのがより分かるように構成を変えるなどしました。

 最後に、えびちゅうのライブ映像を1曲をどうぞ♪


【次節の内容】

  • スクラッチ実装編

 1次元ガウスモデルに対するベイズ推論をプログラムで確認します。

www.anarchive-beta.com

www.anarchive-beta.com


  • 数式読解編

 1次元ガウスモデルに対するベイズ推論を数式で確認します。

www.anarchive-beta.com




以上の内容はhttps://www.anarchive-beta.com/entry/2020/02/27/180000より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14