以下の内容はhttps://www.anarchive-beta.com/entry/2020/02/26/180000より取得しました。


3.3.1:1次元ガウス分布のベイズ推論の導出:平均が未知の場合【緑ベイズ入門のノート】

はじめに

 『ベイズ推論による機械学習入門』(MLSシリーズ)の独学時のノートです。各種のモデルやアルゴリズムについて「数式・プログラム・図」を用いて解説します。
 本の補助として読んでください。

 この記事では、平均が未知の1次元ガウス分布に対するベイズ推論の数式の行間を埋めます。

【前節の内容】

www.anarchive-beta.com

【他の節一覧】

www.anarchive-beta.com

【この節の内容】

3.3.1 1次元ガウス分布のベイズ推論の導出:平均が未知の場合

 1次元ガウスモデル(Gaussian model)に対するベイズ推論(Bayesian inference)を導出する。この記事では、生成分布の平均パラメータ(mean parameter)が未知の場合を扱う。平均が未知の1次元ガウスモデルでは、尤度関数を1次元ガウス分布(Gaussian distribution・一変量正規分布・Normal distribution)、事前分布を1次元ガウス分布とする。
 1次元ガウスモデルについては「3.3.0:1次元ガウスモデルの生成モデルの導出【緑ベイズ入門のノート】 - からっぽのしょこ」、1次元ガウス分布については「1次元ガウス分布の定義式 - からっぽのしょこ」を参照のこと。

事後分布の導出

 まずは、平均が未知の1次元ガウス分布のパラメータ  \mu の事後分布(posterior distribution)を導出する。

 観測データ  \mathbf{X} が与えられた(条件とする)下でのパラメータ  \mu の条件付き分布(事後分布)を求める。精度パラメータ  \lambda は与えられている(既知)とする。

 \displaystyle
\begin{align}
p(\mu \mid \mathbf{X}, \lambda, m, \lambda_{\mu})
   &= \frac{
          p(\mathbf{X} \mid \mu, \lambda)
          p(\mu \mid m, \lambda_{\mu})
      }{
          p(\mathbf{X} \mid \lambda, m, \lambda_{\mu})
      }
\\
   &\propto
      p(\mathbf{X} \mid \mu, \lambda)
      p(\mu \mid m, \lambda_{\mu})
\\
   &= \left\{ \prod_{n=1}^N
          p(x_n \mid \mu, \lambda)
      \right\}
      p(\mu \mid m, \lambda_{\mu})
\\
   &= \left\{ \prod_{n=1}^N
          \mathcal{N}(x_n \mid \mu, \lambda^{-1})
      \right\}
      \mathcal{N}(\mu \mid m, \lambda_{\mu}^{-1})
\tag{3.49}
\end{align}

途中式の途中式(クリックで展開)


  • 1: ベイズの定理  p(y \mid x) = \frac{p(x \mid y) p(y)}{p(x)} より、観測変数  \mathbf{X} を条件に移した式を立てる。

 事後分布は、 \mathbf{X}, \mu の結合分布と  \mathbf{X} の周辺分布を用いて、次のようにも求められる。

 \displaystyle
\begin{aligned}
p(\mu \mid \mathbf{X}, \lambda, m, \lambda_{\mu})
   &= \frac{
          p(\mathbf{X}, \mu \mid \lambda, m, \lambda_{\mu})
      }{
          p(\mathbf{X} \mid \lambda, m, \lambda_{\mu})
      }
\\
   &= \frac{
          p(\mathbf{X}, \mu \mid \lambda, m, \lambda_{\mu})
      }{
          \int
              p(\mathbf{X}, \mu \mid \lambda, m, \lambda_{\mu})
          \mathrm{d} \mu
      }
\\
   &= \frac{
          p(\mathbf{X} \mid \mu, \lambda)
          p(\mu \mid m, \lambda_{\mu})
      }{
          \int
              p(\mathbf{X} \mid \mu, \lambda)
              p(\mu \mid m, \lambda_{\mu})
          \mathrm{d} \mu
      }
\end{aligned}

 1行目では、条件付き分布  p(y \mid x) = \frac{p(x, y)}{p(x)} より、 \mathbf{X} を条件に移している。
 2行目では、周辺化  p(y) = \int p(x, y) \mathrm{d} x した  \mu を明示している。
 3行目では、 \mathbf{X}, \mu の依存関係に従い項を分割している。
 生成モデル(結合分布)については「生成モデルの導出」を参照のこと。

  • 2:  \mu と無関係な項を省く。
  • 3: 観測データ集合  \mathbf{X} の生成確率を、各データ  x_n の生成確率の積に分解する。
  • 4: 平均が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガウス分布に置き換える。

 周辺分布(分母)は  \mu に影響しないため省いて、比例関係のみに注目する。省略した項については、最後に正規化することで対応できる。

 両辺の対数をとり、指数部分の計算を分かりやすくして、 \mu に関して式を整理する。

 \displaystyle
\begin{aligned}
\ln p(\mu \mid \mathbf{X}, \lambda, m, \lambda_{\mu})
   &= \ln \Bigl(
          \frac{
              \left\{ \prod_{n=1}^N
                  p(x_n \mid \mu, \lambda)
              \right\}
              p(\mu \mid m, \lambda_{\mu})
          }{
              p(\mathbf{X} \mid \lambda, m, \lambda_{\mu})
          }
      \Bigr)
\\
   &= \ln \Bigl(
          \prod_{n=1}^N
              p(x_n \mid \mu, \lambda)
      \Bigr)
      + \ln p(\mu \mid m, \lambda_{\mu})
      - \ln p(\mathbf{X} \mid \lambda, m, \lambda_{\mu})
\\
   &= \sum_{n=1}^N
          \ln p(x_n \mid \mu, \lambda)
      + \ln p(\mu \mid m, \lambda_{\mu})
      + \mathrm{const.}
\\
   &= \sum_{n=1}^N
          \ln \mathcal{N}(x_n \mid \mu, \lambda^{-1})
      + \ln \mathcal{N}(\mu \mid m, \lambda_{\mu}^{-1})
      + \mathrm{const.}
\end{aligned}

途中式の途中式(クリックで展開)


  • 1: 式(3.49)に関して、対数をとった式を立てる。
  • 2-3: 自然対数の性質  \ln(x y) = \ln x + \ln y \ln \frac{x}{y} = \ln x - \ln y より、分数の項を展開する。

 対数の性質より、総乗  \prod_n の対数をとると、対数の総和  \sum_n になる。

 \displaystyle
\begin{aligned}
\ln p(\mathbf{X} \mid \mu, \lambda)
   &= \ln \Bigl(
          \prod_{n=1}^N
              p(x_n \mid \mu, \lambda)
      \Bigr)
\\
   &= \ln \Bigl(
          p(x_1 \mid \mu, \lambda)
          * p(x_2 \mid \mu, \lambda)
          * \cdots
          * p(x_N \mid \mu, \lambda)
      \Bigr)
\\
   &= \ln p(x_1 \mid \mu, \lambda)
      + \ln p(x_2 \mid \mu, \lambda)
      + \cdots
      + \ln p(x_N \mid \mu, \lambda)
\\
   &= \sum_{n=1}^N
          \ln p(x_n \mid \mu, \lambda)
\end{aligned}
  • 3:  \mu と無関係な項を  \mathrm{const.} とおく。
  • 4: 平均が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガウス分布に置き換える。

  \mu に影響しない項を  \mathrm{const.} とおく。省略した項については、最後に正規化することで対応できる。

 右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

 \displaystyle
\begin{align}
\ln p(\mu \mid \mathbf{X}, \lambda, m, \lambda_{\mu})
   &= \sum_{n=1}^N
          \ln \left(
              \Bigl(
                  \frac{\lambda}{2 \pi}
              \Bigr)^{\frac{1}{2}}
              \exp \Bigl(
                  - \frac{\lambda}{2}
                    (x_n - \mu)^2
              \Bigr)
          \right)
\\
   &\quad
      + \ln \left(
          \Bigl(
              \frac{\lambda_{\mu}}{2 \pi}
          \Bigr)^{\frac{1}{2}}
          \exp \Bigl(
              - \frac{\lambda_{\mu}}{2}
                (\mu - m)^2
          \Bigr)
        \right)
      + \mathrm{const.}
\\
   &= \sum_{n=1}^N \left\{
          \frac{1}{2}
          \ln \Bigl(
              \frac{\lambda}{2 \pi}
          \Bigr)
          - \frac{\lambda}{2}
            (x_n - \mu)^2
      \right\}
\\
   &\quad
      + \frac{1}{2}
        \ln \Bigl(
          \frac{\lambda_{\mu}}{2 \pi}
        \Bigr)
      - \frac{\lambda_{\mu}}{2}
        (\mu - m)^2
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \left\{
        \sum_{n=1}^N
          \lambda (x_n - \mu)^2
          + \lambda_{\mu} (\mu - m)^2
      \right\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \left\{
        \sum_{n=1}^N \Bigl\{
          x_n^2 \lambda
          - 2 x_n \lambda \mu
          + \lambda \mu^2
        \Bigr\}
          + \lambda_{\mu} \mu^2
          - 2 m \lambda_{\mu} \mu
          + m^2 \lambda_{\mu}
      \right\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \left\{
          N \lambda \mu^2
          + \lambda_{\mu} \mu^2
          - 2 \lambda \mu
            \sum_{n=1}^N x_n
          - 2 m \lambda_{\mu} \mu
      \right\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \left\{
          (N \lambda + \lambda_{\mu})
          \mu^2
          - 2 \left(
              \lambda
              \sum_{n=1}^N x_n
              + m \lambda_{\mu}
            \right)
            \mu
      \right\}
      + \mathrm{const.}
\tag{3.50}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 尤度関数はガウス分布、事前分布はガウス分布を仮定しているので、それぞれ定義式に置き換える。
 \displaystyle
\begin{align}
p(x_n \mid \mu, \lambda)
   &= \mathcal{N}(x_n \mid \mu, \lambda^{-1})
\tag{3.47}\\
   &= \sqrt{
          \frac{\lambda}{2 \pi}
      }
      \exp \Bigl(
          - \frac{\lambda}{2}
            (x_n - \mu)^2
      \Bigr)
\\
p(\mu \mid m, \lambda_{\mu})
   &= \mathcal{N}(\mu \mid m, \lambda_{\mu}^{-1})
\tag{3.48}\\
   &= \sqrt{
          \frac{\lambda_{\mu}}{2 \pi}
      }
      \exp \Bigl(
          - \frac{\lambda_{\mu}}{2}
            (\mu - m)^2
      \Bigr)
\end{align}

 ルートを指数で表すと  \sqrt{x} = x^{\frac{1}{2}} である。

  • 2: 自然対数の性質  \ln(x y) = \ln x + \ln y \ln x^y = y \ln x、対数と指数の関係  \ln (\exp (x)) = x より、定義式の項を展開する。
  • 3:  -\frac{1}{2} を括り出す。
  • 4: 2乗の括弧を展開する。
  • 5:  n に関する総和  \sum_n の波括弧を展開する。 n と無関係な項は  N \sum_{n=1}^N \lambda = N \lambda となる。
  • 6:  \mu^2, \mu の項をそれぞれまとめる。

 適宜、 \mu に影響しない項を  \mathrm{const.} にまとめていく。

 事後分布の式(3.50)について、次のようにおく。

 \displaystyle
\begin{align}
\tilde{m}
   &= \lambda
      \sum_{n=1}^N x_n
      + m \lambda_{\mu}
\\
\hat{\lambda}_{\mu}
   &= N \lambda
      + \lambda_{\mu}
\tag{3.53}
\end{align}

 式(3.50)について、 \tilde{m}, \hat{\lambda}_{\mu} で置き換えて、 \mu に関して式を整理する。

 \displaystyle
\begin{align}
\ln p(\mu \mid \mathbf{X}, \lambda, m, \lambda_{\mu})
   &= - \frac{1}{2} \left\{
          \hat{\lambda}_{\mu}
          \mu^2
          - 2 \tilde{m}
            \mu
      \right\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2}
        \hat{\lambda}_{\mu} \left\{
          \mu^2
          - 2
            \frac{\tilde{m}}{\hat{\lambda}_{\mu}}
            \mu
      \right\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2}
        \hat{\lambda}_{\mu} \left\{
          \mu^2
          - 2
            \frac{\tilde{m}}{\hat{\lambda}_{\mu}}
            \mu
          + \Bigl(
              \frac{\tilde{m}}{\hat{\lambda}_{\mu}}
            \Bigr)^2
          - \Bigl(
              \frac{\tilde{m}}{\hat{\lambda}_{\mu}}
            \Bigr)^2
      \right\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2}
        \hat{\lambda}_{\mu} \Bigl(
            \mu - \frac{\tilde{m}}{\hat{\lambda}_{\mu}}
        \Bigr)^2
      + \frac{1}{2}
        \frac{\tilde{m}^2}{\hat{\lambda}_{\mu}}
      + \mathrm{const.}
\\
   &= - \frac{1}{2}
        \hat{\lambda}_{\mu} \Bigl(
            \mu - \frac{\tilde{m}}{\hat{\lambda}_{\mu}}
        \Bigr)^2
      + \mathrm{const.}
\tag{1}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 式(3.50)に式(3.53)を代入する。
  • 2:  \hat{\lambda}_{\mu} を括り出す。
  • 3: 波括弧内に  (\frac{\tilde{m}}{\hat{\lambda}_{\mu}})^2 - (\frac{\tilde{m}}{\hat{\lambda}_{\mu}})^2 = 0 を加える。
  • 4: 2乗の乗法公式  (x + a)^2 = x^2 + 2 a x + x^2 より、波括弧内の前3つの項を2乗の括弧でまとめる。
  • 4: 波括弧内の4つ目の項を括弧の外に出す。

 ガウス分布の定義式の形状となるように、平方完成による式変形を行った。

 事後分布の式(1)について、次のようにおく。

 \displaystyle
\begin{align}
\hat{m}
   &= \frac{\tilde{m}}{\hat{\lambda}_{\mu}}
\\
   &= \frac{
          \lambda
          \sum_{n=1}^N x_n
          + m \lambda_{\mu}
      }{
          \hat{\lambda}_{\mu}
      }
\tag{3.54}\\
   &= \frac{
          \lambda
          \sum_{n=1}^N x_n
          + m \lambda_{\mu}
      }{
          N \lambda
          + \lambda_{\mu}
      }
\end{align}

 式(1)について、 \hat{m}, \hat{\lambda}_{\mu} で置き換える。

 \displaystyle
\ln p(\mu \mid \mathbf{X}, \lambda, m, \lambda_{\mu})
    = - \frac{\hat{\lambda}_{\mu}}{2}
        (\mu - \hat{m})^2
        + \mathrm{const.}

 さらに、 \ln を外して  \mathrm{const.} を正規化項に置き換える(正規化する)と、事後分布は式の形状から、パラメータ  \hat{m}, \hat{\lambda}_{\mu} の1次元ガウス分布であることが分かる。

 \displaystyle
\begin{align}
p(\mu \mid \mathbf{X}, \lambda, m, \lambda_{\mu})
   &= \mathrm{C}_\mathcal{N}(\hat{m}, \hat{\lambda}_{\mu})
      \exp \left(
          - \frac{\hat{\lambda}_{\mu}}{2}
            (\mu - \hat{m})^2
      \right)
\\
   &= \sqrt{\frac{\hat{\lambda}_{\mu}}{2 \pi}}
      \exp \left(
          - \frac{\hat{\lambda}_{\mu}}{2}
            (\mu - \hat{m})^2
      \right)
\\
   &= \mathcal{N}(\mu \mid \hat{m}, \hat{\lambda}_{\mu}^{-1})
\tag{3.51}
\end{align}

  \mu の事後分布の式が得られた。
 ここで、 \mathrm{C}_\mathcal{N}(\hat{m}, \hat{\lambda}_{\mu}) は、ガウス分布(事後分布)の正規化項である。
 また、式(3.53)と式(3.54)が、事後分布のパラメータ(超パラメータ)  \hat{m}, \hat{\lambda}_{\mu} の計算式(更新式)である。

 以上で、平均が未知の1次元ガウスモデルにおける事後分布を導出した。

スポンサードリンク

予測分布の導出

 次は、平均が未知の1次元ガウス分布に従う未観測データ  x_{*} の予測分布(predict distribution)を導出する。

事前分布による予測分布

 事前分布(観測データによる学習を行っていない  \mu の分布)を用いた予測分布(事前予測分布)を求める。

 \displaystyle
\begin{align}
p(x_{*} \mid \lambda, m, \lambda_{\mu})
   &= \int
          p(x_{*}, \mu \mid \lambda, m, \lambda_{\mu})
      \mathrm{d} \mu
\\
   &= \int
          p(x_{*} \mid \mu, \lambda)
          p(\mu \mid m, \lambda_{\mu})
      \mathrm{d} \mu
\\
   &= \int
          \mathcal{N}(x_{*} \mid \mu, \lambda^{-1})
          \mathcal{N}(\mu \mid m, \lambda_{\mu}^{-1})
      \mathrm{d} \mu
\tag{3.55}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 未知変数  x_{*} とパラメータ  \mu の結合分布に対して、 \mu を周辺化した式を立てる。
  • 2: 依存関係のある  x_{*}, \mu の項を分割する。
  • 3: 平均が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガウス分布に置き換える。

 事前予測分布は、未知のデータ  x_{*} の生成分布(3.47)と、パラメータ  \mu の事前分布(3.48)を用いた、 x_{*} の周辺分布である。

 積分の計算を避けるため式(3.55)は直接用いずに、ベイズの定理を用いて、 x_{*} \mu の関係を考える。

 \displaystyle
\begin{align}
p(\mu \mid x_{*}, \lambda, m, \lambda_{\mu})
   &= \frac{
          p(x_{*}, \mu \mid \lambda, m, \lambda_{\mu})
      }{
          \int
            p(x_{*}, \mu \mid \lambda, m, \lambda_{\mu})
          \mathrm{d} \mu
      }
\\
   &= \frac{
          p(x_{*} \mid \mu, \lambda)
          p(\mu \mid m, \lambda_{\mu})
      }{
          p(x_{*} \mid \lambda, m, \lambda_{\mu})
      }
\tag{3.56}
\end{align}

 左辺の項は、1つのデータ  x_{*} が与えられた下での  \mu の条件付き分布(事後分布)と言える。つまり、 N 個のデータ  \mathbf{X} が与えられた下での条件付き分布(事後分布)の式(3.51)と、同様の手順で求められる(同様のパラメータになる)。
 そこで、 \mathbf{X} による事後分布のパラメータの式(3.53)と式(3.54)を用いて、 N = 1, \mathbf{X} = \{x_{*}\} より、次のようにおく。

 \displaystyle
\begin{aligned}
\lambda_{x_{*}}
   &= \lambda + \lambda_{\mu}
\\
m_{x_{*}}
   &= \frac{\lambda x_{*} + m \lambda_{\mu}}{\lambda_{x_{*}}}
\\
   &= \frac{
          \lambda x_{*} + m \lambda_{\mu}
      }{
          \lambda + \lambda_{\mu}
      }
\end{aligned}
\tag{3.59}

  x_{*} による事後分布は、パラメータ  m_{x_{*}}, \lambda_{x_{*}} の1次元ガウス分布となる。

 \displaystyle
\begin{align}
p(\mu \mid x_{*}, \lambda, m, \lambda_{\mu})
   &= \sqrt{\frac{\lambda_{x_{*}}}{2 \pi}}
      \exp \left(
          - \frac{\lambda_{x_{*}}}{2}
            (\mu - m_{x_{*}})^2
      \right)
\\
   &= \mathcal{N}(\mu \mid m_{x_{*}}, \lambda_{x_{*}}^{-1})
\tag{3.58}
\end{align}

  x_{*} による  \mu の事後分布の式が得られた。

  x_{*} による事後分布の式(3.56)について、指数部分の計算を分かりやすくするため、両辺の対数をとる。

 \displaystyle
\begin{aligned}
\ln p(\mu \mid x_{*}, \lambda, m, \lambda_{\mu})
   &= \ln \Bigl(
          \frac{
              p(x_{*} \mid \mu, \lambda)
              p(\mu \mid m, \lambda_{\mu})
          }{
              p(x_{*} \mid \lambda, m, \lambda_{\mu})
          }
      \Bigr)
\\
   &= \ln p(x_{*} \mid \mu, \lambda)
      + \ln p(\mu \mid m, \lambda_{\mu})
      - \ln p(x_{*} \mid \lambda, m, \lambda_{\mu})
\end{aligned}

 予測分布に関して式を整理する。

 \displaystyle
\begin{align}
\ln p(x_{*} \mid \lambda, m, \lambda_{\mu})
   &= \ln p(x_{*} \mid \mu, \lambda)
      + \ln p(\mu \mid m, \lambda_{\mu})
      - \ln p(\mu \mid x_{*}, \lambda, m, \lambda_{\mu})
\\
   &= \ln p(x_{*} \mid \mu, \lambda)
      - \ln p(\mu \mid x_{*}, \lambda, m, \lambda_{\mu})
      + \mathrm{const.}
\tag{3.57}\\
   &= \ln \mathcal{N}(x_{*} \mid \mu, \lambda^{-1})
      - \ln \mathcal{N}(\mu \mid m_{x_{*}}, \lambda_{x_{*}}^{-1})
      + \mathrm{const.}
\end{align}

  x_{*} に影響しない項を  \mathrm{const.} とおく。省略した項については、最後に正規化することで対応できる。

 右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

 \displaystyle
\begin{align}
\ln p(x_{*} \mid \lambda, m, \lambda_{\mu})
   &= \ln \left(
          \Bigl(
              \frac{\lambda}{2 \pi}
          \Bigr)^{\frac{1}{2}}
          \exp \Bigl(
              - \frac{\lambda}{2}
                (x_{*} - \mu)^2
          \Bigr)
      \right)
\\
   &\quad
      - \ln \left(
          \Bigl(
              \frac{\lambda_{x_{*}}}{2 \pi}
          \Bigr)^{\frac{1}{2}}
          \exp \Bigl(
              - \frac{\lambda_{x_{*}}}{2}
                (\mu - m_{x_{*}})^2
          \Bigr)
        \right)
      + \mathrm{const.}
\\
   &= \frac{1}{2}
      \ln \Bigl(
          \frac{\lambda}{2 \pi}
      \Bigr)
      - \frac{\lambda}{2}
        (x_{*} - \mu)^2
\\
   &\quad
      - \frac{1}{2}
        \ln \Bigl(
            \frac{\lambda_{x_{*}}}{2 \pi}
        \Bigr)
      + \frac{\lambda_{x_{*}}}{2}
        (\mu - m_{x_{*}})^2
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \Bigl\{
          \lambda (x_{*} - \mu)^2
          - \lambda_{x_{*}} (\mu - m_{x_{*}})^2
      \Bigr\}
      + \mathrm{const.}
\tag{2}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 尤度関数はガウス分布(3.47)を仮定しており、未知変数による事後分布はガウス分布(3.57)になるので、それぞれ定義式に置き換える。
  • 2: 自然対数の性質より、定義式の項を展開する。
  • 3:  -\frac{1}{2} を括り出す。

 適宜、 x_{*} に影響しない項を  \mathrm{const.} にまとめていく。
  m_{x_{*}}, \lambda_{x_{*}} に式(3.59)を代入して、 x_{*} に関して式を整理する。

 \displaystyle
\begin{align}
\ln p(x_{*} \mid \lambda, m, \lambda_{\mu})
   &= - \frac{1}{2} \left\{
          \lambda (x_{*} - \mu)^2
          - (\lambda + \lambda_{\mu}) \Bigl(
              \mu
              - \frac{
                  \lambda x_{*} + m \lambda_{\mu}
                }{
                  \lambda + \lambda_{\mu}
                }
            \Bigr)^2
      \right\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \left\{
          \lambda x_{*}^2
          - 2 \mu \lambda x_{*}
          + \mu^2 \lambda
          - \mu^2 (\lambda + \lambda_{\mu})
          + 2 \mu (\lambda x_{*} + m \lambda_{\mu})
          - \frac{
              (\lambda x_{*} + m \lambda_{\mu})^2
            }{
              \lambda + \lambda_{\mu}
            }
      \right\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \left\{
          \lambda x_{*}^2
          - \frac{\lambda^2}{\lambda + \lambda_{\mu}}
            x_{*}^2
          - 2 \mu \lambda x_{*}
          + 2 \mu \lambda x_{*}
          - 2 m
            \frac{\lambda \lambda_{\mu}}{\lambda + \lambda_{\mu}}
            x_{*}
          + 2 \mu m \lambda_{\mu}
          - m^2
            \frac{\lambda_{\mu}^2}{\lambda + \lambda_{\mu}}
      \right\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \left\{
          \frac{
              \lambda (\lambda + \lambda_{\mu})
              - \lambda^2
          }{
              \lambda + \lambda_{\mu}
          }
          x_{*}^2
          - 2 m
            \frac{\lambda \lambda_{\mu}}{\lambda + \lambda_{\mu}}
            x_{*}
      \right\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \left\{
          \frac{\lambda \lambda_{\mu}}{\lambda + \lambda_{\mu}}
          x_{*}^2
          - 2 m
            \frac{\lambda \lambda_{\mu}}{\lambda + \lambda_{\mu}}
            x_{*}
      \right\}
      + \mathrm{const.}
\tag{3.60}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 式(2)に式(3.59)を代入する。
  • 2-3: 2乗の括弧を展開する。
  • 4:  x_{*}^2, x_{*} の項をそれぞれまとめる。

 予測分布の式(3.60)について、次のようにおく。

 \displaystyle
\begin{align}
\lambda_{*}
   &= \frac{
          \lambda \lambda_{\mu}
      }{
          \lambda + \lambda_{\mu}
      }
\tag{3.62a}\\
\tilde{\mu}_{*}
   &= 2 m
      \lambda_{*}
\\
   &= 2 m
      \frac{
          \lambda \lambda_{\mu}
      }{
          \lambda + \lambda_{\mu}
      }
\end{align}

 式(3.60)について、 \tilde{\mu}_{*}, \lambda_{*} で置き換えて、平方完成を行う。

 \displaystyle
\begin{align}
\ln p(x_{*} \mid \lambda, m, \lambda_{\mu})
   &= - \frac{1}{2} \Bigl\{
          \lambda_{*}
          x_{*}^2
          - \tilde{\mu}_{*}
            x_{*}
        \Bigr\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2}
        \lambda_{*} \left\{
          x_{*}^2
          - \frac{\tilde{\mu}_{*}}{\lambda_{*}}
            x_{*}
        \right\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2}
        \lambda_{*} \left\{
          x_{*}^2
          - \frac{\tilde{\mu}_{*}}{\lambda_{*}}
            x_{*}
          + \Bigl(
              \frac{\tilde{\mu}_{*}}{2 \lambda_{*}}
            \Bigr)^2
          - \Bigl(
              \frac{\tilde{\mu}_{*}}{2 \lambda_{*}}
            \Bigr)^2
        \right\}
      + \mathrm{const.}
\\
   &= - \frac{1}{2}
        \lambda_{*}
        \Bigl(
            x_{*}^2
            - \frac{\tilde{\mu}_{*}}{2 \lambda_{*}}
        \Bigr)^2
      + \frac{\tilde{\mu}_{*}^2}{8 \lambda_{*}}
      + \mathrm{const.}
\\
   &= - \frac{1}{2}
        \lambda_{*}
        \Bigl(
            x_{*}^2
            - \frac{\tilde{\mu}_{*}}{2 \lambda_{*}}
        \Bigr)^2
      + \mathrm{const.}
\tag{3}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 式(3.60)に式(3.62a)を代入する。
  • 2:  \lambda_{*} を括り出す。
  • 3: 波括弧内に  (\frac{\tilde{\mu}_{*}}{2 \lambda_{*}})^2 - (\frac{\tilde{\mu}_{*}}{2 \lambda_{*}})^2 = 0 を加える。
  • 4: 2乗の乗法公式より、波括弧内の前3つの項を2乗の括弧でまとめる。
  • 4: 波括弧内の4つ目の項を括弧の外に出す。

 予測分布の式(3)について、次のようにおく。

 \displaystyle
\begin{align}
\mu_{*}
   &= \frac{
          \tilde{\mu}_{*}
      }{
          2 \lambda_{*}
      }
\\
   &= \frac{1}{2}
      2 m
      \frac{\lambda \lambda_{\mu}}{\lambda + \lambda_{\mu}}
      \frac{\lambda + \lambda_{\mu}}{\lambda \lambda_{\mu}}
\\
   &= m
\tag{3.62b}
\end{align}

 式(3)について、 \mu_{*}, \lambda_{*} で置き換える。

 \displaystyle
\ln p(x_{*} \mid \lambda, m, \lambda_{\mu})
    = - \frac{1}{2}
        \lambda_{*}
        (x_{*}^2 - \mu_{*})^2
      + \mathrm{const.}

 さらに、 \ln を外して  \mathrm{const.} を正規化項に置き換える(正規化する)と、予測分布は式の形状から、パラメータ  \mu_{*}, \lambda_{*} の1次元ガウス分布であることが分かる。

 \displaystyle
\begin{align}
p(x_{*} \mid \lambda, m, \lambda_{\mu})
   &= \mathrm{C}_\mathcal{N}(\mu_{*}, \lambda_{*})
      \exp \Bigl(
          - \frac{1}{2}
            \lambda_{*}
            (x_{*}^2 - \mu_{*})^2
      \Bigr)
\\
   &= \sqrt{\frac{\lambda_{*}}{2 \pi}}
      \exp \Bigl(
          - \frac{1}{2}
            \lambda_{*}
            (x_{*}^2 - \mu_{*})^2
      \Bigr)
\\
   &= \mathcal{N}(x_{*} \mid \mu_{*}, \lambda_{*})
\tag{3.61}
\end{align}

  x_{*} の事前予測分布は式が得られた。
 ここで、 \mathrm{C}_\mathcal{N}(\mu_{*}, \lambda_{*}) は、ガウス分布(事前予測分布)の正規化項である。
 また、式(3.62)が、予測分布のパラメータ  \mu_{*}, \lambda_{*} の計算式である。

事後分布による予測分布

 予測分布の計算に事前分布  p(\mu \mid m, \lambda_{\mu}) を用いて、観測データ  \mathbf{X} による学習を行っていない予測分布(事前予測分布)  p(x_{*} \mid \lambda, m, \lambda_{\mu}) (のパラメータ  \mu_{*}, \lambda_{*} )を求めた。事後分布  p(\mu \mid \mathbf{X}, m, \lambda_{\mu}) を用いると、観測データ  \mathbf{X} によって学習した予測分布(事後予測分布)  p(x_{*} \mid \mathbf{X}, \lambda, m, \lambda_{\mu}) (のパラメータ  \hat{\mu}_{*}, \hat{\lambda}_{*} )を求められる。

 \displaystyle
\begin{align}
p(x_{*} \mid \mathbf{X}, \lambda, m, \lambda_{\mu})
   &= \int
          p(x_{*}, \mu \mid \mathbf{X}, \lambda, m, \lambda_{\mu})
      \mathrm{d} \mu
\\
   &= \int
          p(x_{*} \mid \mu, \lambda)
          p(\mu \mid \mathbf{X}, m, \lambda_{\mu})
      \mathrm{d} \mu
\\
   &= \int
          \mathcal{N}(x_{*} \mid \mu, \lambda^{-1})
          \mathcal{N}(\mu \mid \hat{m}, \hat{\lambda}_{\mu}^{-1})
      \mathrm{d} \mu
\tag{3.55'}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 観測変数  \mathbf{X} を条件として、未知変数  x_{*} とパラメータ  \mu の結合分布に対して、 \mu を周辺化した式を立てる。
  • 2: 依存関係のある  x_{*}, \mu の項を分割する。
  • 3: 平均が未知のガウスモデルの定義より、尤度関数をガウス分布、事後分布をガウス分布に置き換える。

 事後予測分布は、未知のデータ  x_{*} の生成分布(3.47)と、パラメータ  \mu の事後分布(3.51)を用いた、 x_{*} の周辺分布である。

 事後分布は事前分布と同じくガウス分布なので、事前予測分布の式(3.61)と、同様の手順で事後予測分布の式も求められる。
 そこで、事前予測分布のパラメータ  \mu_{*}, \lambda_{*} の式(3.62)を構成する事前分布のパラメータ  m, \lambda_{\mu} について、事後分布のパラメータ  \hat{m}, \hat{\lambda}_{\mu} の式(3.53)と式(3.54)に置き換えたものを事後予測分布のパラメータ  \hat{\mu}_{*}, \hat{\lambda}_{*} とおく。

 \displaystyle
\begin{aligned}
\hat{\lambda}_{*}
   &= \frac{
          \lambda \hat{\lambda}_{\mu}
      }{
          \lambda + \hat{\lambda}_{\mu}
      }
\\
   &= \frac{
          \lambda
          (N \lambda + \lambda_{\mu})
      }{
          \lambda
          + N \lambda + \lambda_{\mu}
      }
\\
   &= \frac{
          (N \lambda + \lambda_{\mu})
          \lambda
      }{
          (N + 1) \lambda + \lambda_{\mu}
      }
\\
\hat{\mu}_{*}
   &= \hat{m}
\\
   &= \frac{
          \lambda
          \sum_{n=1}^N x_n
          + m \lambda_{\mu}
      }{
          \hat{\lambda}_{\mu}
      }
\\
   &= \frac{
          \lambda
          \sum_{n=1}^N x_n
          + m \lambda_{\mu}
      }{
          N \lambda + \lambda_{\mu}
      }
\end{aligned}
\tag{3.62'}

 予測分布の式(3.61)についても置き換える(同様の手順で導出する)と、パラメータ  \hat{\mu}_{*}, \hat{\lambda}_{*} の1次元ガウス分布となる。

 \displaystyle
\begin{align}
p(x_{*} \mid \mathbf{X}, \lambda, m, \lambda_{\mu})
   &= \sqrt{\frac{\hat{\lambda}_{*}}{2 \pi}}
      \exp \Bigl(
          - \frac{1}{2}
            \hat{\lambda}_{*}
            (x_{*} - \hat{\mu}_{*})^2
      \Bigr)
\\
   &= \mathcal{N}(x_{*} \mid \hat{\mu}_{*}, \hat{\lambda}_{*})
\tag{3.61'}
\end{align}

  x_{*} の事後予測分布の式が得られた。
 また、式(3.62')が、予測分布のパラメータ  \hat{\mu}_{*}, \hat{\lambda}_{*} の計算式(更新式)である。

 ちなみに、精度パラメータ  \hat{\lambda}_{*} の逆数である分散パラメータ  \hat{\sigma}_{*}^2 = \hat{\lambda}_{*}^{-1}

 \displaystyle
\begin{align}
\hat{\lambda}_{*}^{-1}
   &= \frac{\lambda + \hat{\lambda}_{\mu}}{\lambda \hat{\lambda}_{\mu}}
\\
   &= \frac{\hat{\lambda}_{\mu}}{\lambda \hat{\lambda}_{\mu}}
      + \frac{\lambda}{\lambda \hat{\lambda}_{\mu}}
\\
   &= \frac{1}{\lambda}
      + \frac{1}{\hat{\lambda}_{\mu}}
\\
   &= \lambda^{-1}
      + \hat{\lambda}_{\mu}^{-1}
\tag{3.63'}
\end{align}

となる。

 以上で、平均が未知の1次元ガウスモデルにおける事後予測分布を導出した。

 この記事では、平均が未知の場合の1次元ガウス分布に対するベイズ推論を導出した。次の記事では、実装する。

参考文献

おわりに

 ここまでは1日1項ペースで進んでいましたが、次とその次でかなり詰まっております…

2020/03/05:加筆修正しました。
2021/04/04:加筆修正しました。その際にRで実装編と記事を分割しました。これでも多少は読みやすくなったはず。

  • 2026.01.16:加筆修正しました。

 式変形も解説文も行数が増えて一見読みにくくなったように感じますが、じっくり読むと理解しやすくなったはずです。分かる人にはよりくどい解説になったかと思いますが、それは元々諦めていますので、悪しからず。

 それはそうと、加筆修正くらいは1日1記事ペースくらいは進めたいなぁ。本当はもっとサクサク進めたいんだけどなぁ。

 最後に、えびちゅうのライブ映像を1曲をどうぞ♪


【次節の内容】

  • スクラッチ実装編

 1次元ガウスモデルに対するベイズ推論をプログラムで確認します。

www.anarchive-beta.com

www.anarchive-beta.com


  • 数式読解編

 1次元ガウスモデルに対するベイズ推論を数式で確認します。

www.anarchive-beta.com




以上の内容はhttps://www.anarchive-beta.com/entry/2020/02/26/180000より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14