以下の内容はhttps://www.anarchive-beta.com/entry/2020/10/31/225401より取得しました。


3.4.3:多次元ガウス分布のベイズ推論の導出:平均・精度が未知の場合【緑ベイズ入門のノート】

はじめに

 『ベイズ推論による機械学習入門』(MLSシリーズ)の独学時のノートです。各種のモデルやアルゴリズムについて「数式・プログラム・図」を用いて解説します。
 本の補助として読んでください。

 この記事では、平均と精度が未知の多次元ガウス分布に対するベイズ推論の数式の行間を埋めます。

【前節の内容】

www.anarchive-beta.com

【他の節の内容】

www.anarchive-beta.com

【この節の内容】

3.4.3 多次元ガウス分布のベイズ推論の導出:平均・精度が未知の場合

 多次元ガウスモデル(multivariate Gaussian model)に対するベイズ推論(Bayesian inference)を導出する。この記事では、生成分布の平均パラメータ(mean parameter)と精度パラメータ(precision parameter)が未知の場合を扱う。平均と精度が未知の多次元ガウスモデルでは、尤度関数を多次元ガウス分布(multivariate Gaussian distribution・多変量正規分布・multivariate Normal distribution)、事前分布をガウス-ウィシャート分布(Gaussian-Wishart distribution)とする。
 多次元ガウスモデルについては「3.4.0:多次元ガウスモデルの生成モデルの導出【緑ベイズ入門のノート】 - からっぽのしょこ」、多次元ガウス分布については「多次元ガウス分布の定義式 - からっぽのしょこ」を参照のこと。

結合事後分布の設定

 まずは、平均と精度が未知の多次元ガウス分布のパラメータ  \boldsymbol{\mu}, \boldsymbol{\Lambda} の結合事後分布(joint posterior distribution)を導出する。
 ウィシャート分布については「ウィシャート分布の定義式 - からっぽのしょこ」を参照のこと。

 観測データ  \mathbf{X} が与えられた(条件とする)下でのパラメータ  \boldsymbol{\mu}, \boldsymbol{\Lambda} の条件付き結合分布(結合事後分布)を求める。

 \displaystyle
\begin{align}
p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X}, \mathbf{m}, \beta, \nu, \mathbf{W})
   &= \frac{
          p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
          p(\boldsymbol{\boldsymbol{\mu}, \Lambda} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
      }{
          p(\mathbf{X} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
      }
\tag{3.126}\\
   &\propto
      p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
\\
   &= \left\{ \prod_{n=1}^N
          p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      \right\}
      p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
\\
   &= \left\{ \prod_{n=1}^N
          \mathcal{N}(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})
      \right\}
      \mathcal{N}(\boldsymbol{\mu} \mid \mathbf{m}, (\beta \boldsymbol{\Lambda})^{-1})
      \mathcal{W}(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
\tag{1}
\end{align}

途中式の途中式(クリックで展開)


  • 1: ベイズの定理  p(y \mid x) = \frac{p(x \mid y) p(y)}{p(x)} より、観測変数  \mathbf{X} を条件に移した式を立てる。

 事後分布は、 \mathbf{X}, \boldsymbol{\mu}, \boldsymbol{\Lambda} の結合分布と  \mathbf{X} の周辺分布を用いて、次のようにも求められる。

 \displaystyle
\begin{aligned}
p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X}, \mathbf{m}, \beta, \nu, \mathbf{W})
   &= \frac{
          p(\mathbf{X}, \boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
      }{
          p(\mathbf{X} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
      }
\\
   &= \frac{
          p(\mathbf{X}, \boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
      }{
          \iint
              p(\mathbf{X}, \boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
          \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda}
      }
\\
   &= \frac{
          p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
          p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
      }{
          \iint
              p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
              p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
          \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda}
      }
\end{aligned}

 1行目では、条件付き分布  p(y \mid x) = \frac{p(x, y)}{p(x)} より、 \mathbf{X} を条件に移している。
 2行目では、周辺化  p(y) = \int p(x, y) \mathrm{d} x した  \boldsymbol{\mu}, \boldsymbol{\Lambda} を明示している。
 3行目では、 \mathbf{X}, \boldsymbol{\mu}, \boldsymbol{\Lambda} の依存関係に従い項を分割している。
 生成モデル(結合分布)については「生成モデルの導出」を参照のこと。

  • 2:  \boldsymbol{\mu}, \boldsymbol{\Lambda} と無関係な項を省く。
  • 3: 観測データ集合  \mathbf{X} の生成確率を、各データ  \mathbf{x}_n の生成確率の積に分解する。
  • 3: 依存関係のあるパラメータ  \boldsymbol{\mu}, \boldsymbol{\Lambda} の項を分割する。
  • 4: 平均と精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガウス-ウィシャート分布に置き換える。

 周辺分布(分母)は  \boldsymbol{\mu}, \boldsymbol{\Lambda} に影響しないため省いて、比例関係のみに注目する。省略した項については、最後に正規化することで対応できる。

 結合事後分布(左辺)は、依存関係に従い次のように分割できる。

 \displaystyle
p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X}, \mathbf{m}, \beta, \nu, \mathbf{W})
    = p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      p(\boldsymbol{\Lambda} \mid \mathbf{X}, \nu, \mathbf{W})
\tag{3.127}

  \boldsymbol{\mu}, \boldsymbol{\Lambda} の結合事後分布は、 \boldsymbol{\mu} の事後分布と  \boldsymbol{\Lambda} の事後分布の結合分布である。

 2つのパラメータそれぞれの事後分布を求めていく。

平均パラメータの事後分布

 平均パラメータ  \boldsymbol{\mu} の事後分布を導出する。

 結合事後分布の式(1)と式(3.127)を用いて、観測データ  \mathbf{X} が与えられた(条件とする)下でのパラメータ  \boldsymbol{\mu} の条件付き分布(事後分布)を求める。

 \displaystyle
\begin{align}
p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \beta)
   &= \frac{
          \left\{ \prod_{n=1}^N
              p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
          \right\}
          p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
          p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
      }{
          p(\mathbf{X} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
      }
      \frac{1}{p(\boldsymbol{\Lambda} \mid \mathbf{X}, \nu, \mathbf{W})}
\\
   &\propto
      \left\{ \prod_{n=1}^N
          p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      \right\}
      p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
\\
   &= \left\{ \prod_{n=1}^N
          \mathcal{N}(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})
      \right\}
      \mathcal{N}(\boldsymbol{\mu} \mid \mathbf{m}, (\beta \boldsymbol{\Lambda})^{-1})
\tag{2}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 式(1)の左辺の  \boldsymbol{\mu}, \boldsymbol{\Lambda} の項を式(3.127)により分割して、 \boldsymbol{\Lambda} の項を右辺に移す(両辺を  \boldsymbol{\Lambda} の事後分布で割る)。
  • 2:  \boldsymbol{\mu} と無関係な項を省く。
  • 3: 平均と精度が未知のガウスモデルの定義より、尤度関数をガウス分布、 \boldsymbol{\mu} の事前分布をガウス分布に置き換える。

  \boldsymbol{\mu} に影響しない項を省いて、比例関係のみに注目する。省略した項については、最後に正規化することで対応できる。

 平均と精度が未知のガウスモデル(3.4.3項)における  \boldsymbol{\mu} の事後分布(2)は、平均が未知のガウスモデル(3.4.1項)における  \boldsymbol{\mu} の事後分布(3.98)と、同様の式の形状( 精度パラメータが  \boldsymbol{\Lambda}_{\mu} から  \beta \boldsymbol{\Lambda} に置き換わっただけ)である。つまり、平均が未知のガウスモデルにおける事後分布の式(3.100)と、同様の手順で求められる(同様のパラメータになる)。
 そこで、平均が未知のガウスモデルにおける事後分布のパラメータ  \hat{\mathbf{m}}, \hat{\boldsymbol{\Lambda}}_{\mu} の式(3.102)と式(3.103)を構成する精度パラメータ  \boldsymbol{\Lambda}_{\mu}, \hat{\boldsymbol{\Lambda}}_{\mu} について、平均と精度が未知のガウスモデルにおける精度パラメータ  \beta \boldsymbol{\Lambda}, \hat{\beta} \boldsymbol{\Lambda} に置き換える。

 \displaystyle
\begin{align}
&&
\hat{\beta} \boldsymbol{\Lambda}
   &= N \boldsymbol{\Lambda}
      + \beta \boldsymbol{\Lambda}
\\
&&
   &= \boldsymbol{\Lambda}
      (N + \beta)
\\
\Rightarrow &&
\hat{\beta}
   &= \boldsymbol{\Lambda}^{-1} \boldsymbol{\Lambda}
      (N + \beta)
\\
&&
   &= N + \beta
\tag{3.129.a}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 式(3.103)の  \boldsymbol{\Lambda}_{\mu} \beta \boldsymbol{\Lambda} \hat{\boldsymbol{\Lambda}}_{\mu} \hat{\beta} \boldsymbol{\Lambda} に置き換える。
  • 2:  \boldsymbol{\Lambda} を括り出す。
  • 3: 両辺に  \boldsymbol{\Lambda}^{-1} を掛ける。
  • 4: 逆行列の性質  \mathbf{A}^{-1} \mathbf{A} = \mathbf{I} より、 \boldsymbol{\Lambda} が消える。

 \displaystyle
\begin{align}
\hat{\mathbf{m}}
   &= (\hat{\beta} \boldsymbol{\Lambda})^{-1}
      \left(
          \boldsymbol{\Lambda}
          \sum_{n=1}^N \mathbf{x}_n
          + \beta \boldsymbol{\Lambda} \mathbf{m}
      \right)
\\
   &= \frac{1}{\hat{\beta}}
      \boldsymbol{\Lambda}^{-1} \boldsymbol{\Lambda}
      \left(
          \sum_{n=1}^N \mathbf{x}_n
          + \beta \mathbf{m}
      \right)
\\
   &= \frac{1}{\hat{\beta}}
      \left(
          \sum_{n=1}^N \mathbf{x}_n
          + \beta \mathbf{m}
      \right)
\\
   &= \frac{1}{N + \beta}
      \left(
          \sum_{n=1}^N \mathbf{x}_n
          + \beta \mathbf{m}
      \right)
\tag{3.129.b}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 式(3.102)の  \boldsymbol{\Lambda}_{\mu} \beta \boldsymbol{\Lambda} \hat{\boldsymbol{\Lambda}}_{\mu} \hat{\beta} \boldsymbol{\Lambda} に置き換える。
  • 2:  \boldsymbol{\Lambda} を括り出す。
  • 3: 逆行列の性質より、 \boldsymbol{\Lambda} が消える。
  • 4:  \hat{\beta} に式(3.129.a)を代入する。

 事後分布の式(3.100)についても置き換える(同様の手順で導出する)と、パラメータ  \hat{\mathbf{m}}, \hat{\beta} \boldsymbol{\Lambda} D 次元ガウス分布となる。

 \displaystyle
\begin{align}
p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \beta)
   &= \sqrt{
          \frac{|\hat{\beta} \boldsymbol{\Lambda}|}{(2 \pi)^D}
      }
      \exp \Bigl(
          - \frac{1}{2}
            (\boldsymbol{\mu} - \hat{\mathbf{m}})^{\top}
            \hat{\beta} \boldsymbol{\Lambda}
            (\boldsymbol{\mu} - \hat{\mathbf{m}})
      \Bigr)
\\
   &= \mathcal{N}(\boldsymbol{\mu} \mid \hat{\mathbf{m}}, (\hat{\beta} \boldsymbol{\Lambda})^{-1})
\tag{3.128}
\end{align}

  \boldsymbol{\mu} の事後分布の式が得られた。
 また、式(3.129)が、事後分布のパラメータ(超パラメータ)  \hat{\beta}, \hat{\mathbf{m}} の計算式(更新式)である。
 詳しい導出過程については「3.4.1:多次元ガウス分布のベイズ推論の導出:平均が未知の場合【緑ベイズ入門のノート】 - からっぽのしょこ」を参照のこと。

 以上で、平均パラメータの事後分布を導出した。

精度パラメータの事後分布

 続いて、精度パラメータ  \boldsymbol{\Lambda} の事後分布を導出する。

 結合事後分布の式(1)と式(3.127)を用いて、観測データ  \mathbf{X} が与えられた(条件とする)下でのパラメータ  \boldsymbol{\Lambda} の条件付き分布(事後分布)を求める。

 \displaystyle
\begin{align}
p(\boldsymbol{\Lambda} \mid \mathbf{X}, \nu, \mathbf{W})
   &= \frac{
          \left\{ \prod_{n=1}^N
              p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
          \right\}
          p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
          p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
      }{
          p(\mathbf{X} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
      }
      \frac{1}{p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \beta)}
\\
   &\propto
      \left\{ \prod_{n=1}^N
          p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      \right\}
      p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
      \frac{1}{p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \beta)}
\\
   &= \left\{ \prod_{n=1}^N
          \mathcal{N}(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})
      \right\}
      \mathcal{N}(\boldsymbol{\mu} \mid \mathbf{m}, (\beta \boldsymbol{\Lambda})^{-1})
      \mathcal{W}(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
      \frac{1}{\mathcal{N}(\boldsymbol{\mu} \mid \hat{\mathbf{m}}, (\hat{\beta} \boldsymbol{\Lambda})^{-1})}
\tag{3}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 式(1)の左辺の  \boldsymbol{\mu}, \boldsymbol{\Lambda} の項を式(3.127)により分割して、 \boldsymbol{\mu} の項を右辺に移す(両辺を  \boldsymbol{\mu} の事後分布で割る)。
  • 2:  \boldsymbol{\Lambda} と無関係な項を省く。
  • 3: 平均と精度が未知のガウスモデルの定義より、尤度関数をガウス分布、 \boldsymbol{\mu} の事前分布をガウス分布、 \boldsymbol{\Lambda} の事前分布をウィシャート分布、 \boldsymbol{\mu} の事後分布をガウス分布(3.128)に置き換える。

  \boldsymbol{\Lambda} に影響しない項を省いて、比例関係のみに注目する。省略した項については、最後に正規化することで対応できる。

 両辺の対数をとり、指数部分の計算を分かりやすくして、 \boldsymbol{\Lambda} に関して式を整理する。

 \displaystyle
\begin{aligned}
\ln p(\boldsymbol{\Lambda} \mid \mathbf{X}, \nu, \mathbf{W})
   &= \ln \Bigl(
          \frac{
              \left\{ \prod_{n=1}^N
                  p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
              \right\}
              p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
              p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
          }{
              p(\mathbf{X} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
          }
          \frac{1}{p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \beta)}
      \Bigr)
\\
   &= \ln \Bigl(
          \prod_{n=1}^N
              p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      \Bigr)
      + \ln p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      + \ln p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
      - \ln p(\mathbf{X} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
      - \ln p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \beta)
\\
   &= \sum_{n=1}^N
          \ln p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      + \ln p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      + \ln p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
      - \ln p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      + \mathrm{const.}
\\
   &= \sum_{n=1}^N
          \ln \mathcal{N}(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})
      + \ln \mathcal{N}(\boldsymbol{\mu} \mid \mathbf{m}, (\beta \boldsymbol{\Lambda})^{-1})
      + \ln \mathcal{W}(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
      - \ln \mathcal{N}(\boldsymbol{\mu} \mid \hat{\mathbf{m}}, (\hat{\beta} \boldsymbol{\Lambda})^{-1})
      + \mathrm{const.}
\end{aligned}

途中式の途中式(クリックで展開)


  • 1: 式(3)に関して、対数をとった式を立てる。
  • 2-3: 自然対数の性質  \ln(x y) = \ln x + \ln y \ln \frac{x}{y} = \ln x - \ln y より、分数の項を展開する。

 対数の性質より、総乗  \prod_n の対数をとると、対数の総和  \sum_n になる。

 \displaystyle
\begin{aligned}
\ln p(\mathbf{X} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
   &= \ln \Bigl(
          \prod_{n=1}^N
              p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      \Bigr)
\\
   &= \ln \Bigl(
          p(\mathbf{x}_1 \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
          * p(\mathbf{x}_2 \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
          * \cdots
          * p(\mathbf{x}_N \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      \Bigr)
\\
   &= \ln p(\mathbf{x}_1 \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      + \ln p(\mathbf{x}_2 \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      + \cdots
      + \ln p(\mathbf{x}_N \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
\\
   &= \sum_{n=1}^N
          \ln p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
\end{aligned}
  • 3:  \boldsymbol{\Lambda} と無関係な項を  \mathrm{const.} とおく。
  • 4: 平均と精度が未知のガウスモデルの定義より、尤度関数をガウス分布、 \boldsymbol{\mu} の事前分布をガウス分布、 \boldsymbol{\Lambda} の事前分布をウィシャート分布、 \boldsymbol{\mu} の事後分布をガウス分布(3.128)に置き換える。

  \boldsymbol{\Lambda} に影響しない項を  \mathrm{const.} とおく。省略した項については、最後に正規化することで対応できる。

 右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

 \displaystyle
\begin{aligned}
p(\boldsymbol{\Lambda} \mid \mathbf{X}, \nu, \mathbf{W})
   &= \sum_{n=1}^N
          \ln \left(
              \Bigl(
                  \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D}
              \Bigr)^{\frac{1}{2}}
              \exp \Bigl(
                  - \frac{1}{2}
                    (\mathbf{x}_n - \boldsymbol{\mu})^{\top}
                    \boldsymbol{\Lambda}
                    (\mathbf{x}_n - \boldsymbol{\mu})
              \Bigr)
          \right)
\\
   &\quad
      + \ln \left(
          \Bigl(
              \frac{|\beta \boldsymbol{\Lambda}|}{(2 \pi)^D}
          \Bigr)^{\frac{1}{2}}
          \exp \Bigl(
              - \frac{1}{2}
                (\boldsymbol{\mu} - \mathbf{m})^{\top}
                \beta \boldsymbol{\Lambda}
                (\boldsymbol{\mu} - \mathbf{m})
          \Bigr)
        \right)
\\
   &\quad
      + \ln \left(
          \mathrm{C}_{\mathcal{W}}(\nu, \mathbf{W})
          |\boldsymbol{\Lambda}|^{\frac{\nu - D-1}{2}}
          \exp \Bigl(
              - \frac{1}{2}
                \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda})
          \Bigr)
        \right)
\\
   &\quad
      - \ln \left(
          \Bigl(
            \frac{|\hat{\beta} \boldsymbol{\Lambda}|}{(2 \pi)^D}
          \Bigr)^{\frac{1}{2}}
          \exp \Bigl(
              - \frac{1}{2}
                (\boldsymbol{\mu} - \hat{\mathbf{m}})^{\top}
                \hat{\beta} \boldsymbol{\Lambda}
                (\boldsymbol{\mu} - \hat{\mathbf{m}})
          \Bigr)
        \right)
      + \mathrm{const.}
\\
   &= - \frac{1}{2}
        \sum_{n=1}^N \Bigl\{
          - \ln |\boldsymbol{\Lambda}|
          + D \ln (2 \pi)
          + (\mathbf{x}_n - \boldsymbol{\mu})^{\top}
            \boldsymbol{\Lambda}
            (\mathbf{x}_n - \boldsymbol{\mu})
      \Bigr\}
\\
   &\quad
      - \frac{1}{2} \Bigl(
          - \ln |\beta \boldsymbol{\Lambda}|
          + D \ln (2 \pi)
          + (\boldsymbol{\mu} - \mathbf{m})^{\top}
            \beta \boldsymbol{\Lambda}
            (\boldsymbol{\mu} - \mathbf{m})
        \Bigr)
\\
   &\quad
      + \ln \mathrm{C}_{\mathcal{W}}(\nu, \mathbf{W})
      - \frac{1}{2} \Bigl(
          - (\nu - D-1) \ln |\boldsymbol{\Lambda}|
          + \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda})
        \Bigr)
\\
   &\quad
      - \frac{1}{2} \Bigl(
          \ln |\hat{\beta} \boldsymbol{\Lambda}|
          - D \ln (2 \pi)
          - (\boldsymbol{\mu} - \hat{\mathbf{m}})^{\top}
            \hat{\beta} \boldsymbol{\Lambda}
            (\boldsymbol{\mu} - \hat{\mathbf{m}})
        \Bigr)
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \left(
          - N \ln |\boldsymbol{\Lambda}|
          + \sum_{n=1}^N
              (\mathbf{x}_n - \boldsymbol{\mu})^{\top}
              \boldsymbol{\Lambda}
              (\mathbf{x}_n - \boldsymbol{\mu})
        \right)
\\
   &\quad
      - \frac{1}{2} \Bigl(
          - \ln (\beta^D |\boldsymbol{\Lambda}|)
          + \beta
            (\boldsymbol{\mu} - \mathbf{m})^{\top}
            \boldsymbol{\Lambda}
            (\boldsymbol{\mu} - \mathbf{m})
        \Bigr)
\\
   &\quad
      - \frac{1}{2} \Bigl(
            - (\nu - D-1) \ln |\boldsymbol{\Lambda}|
            + \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda})
        \Bigr)
\\
   &\quad
      - \frac{1}{2} \Bigl(
          \ln (\hat{\beta}^D |\boldsymbol{\Lambda}|)
          - \hat{\beta}
            (\boldsymbol{\mu} - \hat{\mathbf{m}})^{\top}
            \boldsymbol{\Lambda}
            (\boldsymbol{\mu} - \hat{\mathbf{m}})
        \Bigr)
      + \mathrm{const.}
\end{aligned}

途中式の途中式(クリックで展開)


  • 1: 尤度関数はガウス分布、 \boldsymbol{\mu} の事前分布はガウス分布、 \boldsymbol{\Lambda} の事前分布はウィシャート分布を仮定しており、 \boldsymbol{\mu} の事後分布はガウス分布(3.128)になるので、それぞれ定義式に置き換える。
 \displaystyle
\begin{align}
p(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
   &= \mathcal{N}(\mathbf{x}_n \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})
\tag{3.96, 3.111}\\
   &= \sqrt{
          \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D}
      }
      \exp \Bigl(
          - \frac{1}{2}
            (\mathbf{x}_n - \boldsymbol{\mu})^{\top}
            \boldsymbol{\Lambda}
            (\mathbf{x}_n - \boldsymbol{\mu})
      \Bigr)
\\
p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
   &= \mathcal{N}(\boldsymbol{\mu} \mid \mathbf{m}, (\beta \boldsymbol{\Lambda})^{-1})
\tag{3.125}\\
   &= \sqrt{
          \frac{|\beta \boldsymbol{\Lambda}|}{(2 \pi)^D}
      }
      \exp \Bigl(
          - \frac{1}{2}
            (\boldsymbol{\mu} - \mathbf{m})^{\top}
            \beta \boldsymbol{\Lambda}
            (\boldsymbol{\mu} - \mathbf{m})
      \Bigr)
\\
p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
   &= \mathcal{W}(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
\tag{3.125}\\
   &= \mathrm{C}_{\mathcal{W}}(\nu, \mathbf{W})
      |\boldsymbol{\Lambda}|^{\frac{\nu - D-1}{2}}
      \exp \Bigl(
          - \frac{1}{2}
            \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda})
      \Bigr)
\end{align}

 ここで、 \mathrm{C}_{\mathcal{W}}(\nu, \mathbf{W}) は、ウィシャート分布(事前分布)の正規化項である。(式変形に影響しないので簡易的に表記している。)
 ルートを指数で表すと  \sqrt{x} = x^{\frac{1}{2}} である。

  • 2: 自然対数の性質  \ln(x y) = \ln x + \ln y \ln \frac{x}{y} = \ln x - \ln y \ln x^y = y \ln x、対数と指数の関係  \ln (\exp (x)) = x より、定義式の項を展開する。
  • 3:  n に関する総和  \sum_n の波括弧を展開する。 n と無関係な項は  N \sum_{n=1}^N a = N a となる。
  • 3: 行列式の性質  |a \mathbf{B}| = a^D |\mathbf{B}| より、行列式の項から係数を取り出す。

 適宜、 \boldsymbol{\Lambda} に影響しない項を  \mathrm{const.} にまとめていく。パラメータの計算式(3.129)より、 \hat{\mathbf{m}}, \hat{\beta} \boldsymbol{\Lambda} に影響しない(  \hat{\mathbf{m}}, \hat{\beta} の式に  \boldsymbol{\Lambda} を含まない)。
 二次形式を展開して、さらに式を整理する。

 \displaystyle
\begin{aligned}
p(\boldsymbol{\Lambda} \mid \mathbf{X}, \nu, \mathbf{W})
   &= - \frac{1}{2} \left(
          - N \ln |\boldsymbol{\Lambda}|
          + \sum_{n=1}^N \Bigl\{
              \mathbf{x}_n^{\top} \boldsymbol{\Lambda} \mathbf{x}_n
              - \mathbf{x}_n^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
              - \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_n
              + \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
            \Bigr\}
        \right)
\\
   &\quad
      - \frac{1}{2} \Bigl(
          - D \ln \beta
          - \ln |\boldsymbol{\Lambda}|
          + \beta
            \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          - \beta
            \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda}\mathbf{m}
          - \beta
            \mathbf{m}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          + \beta
            \mathbf{m}^{\top} \boldsymbol{\Lambda} \mathbf{m}
        \Bigr)
\\
   &\quad
      - \frac{1}{2} \Bigl(
            - (\nu - D-1) \ln |\boldsymbol{\Lambda}|
            + \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda})
        \Bigr)
\\
   &\quad
      - \frac{1}{2} \Bigl(
          D \ln \hat{\beta}
          + \ln |\boldsymbol{\Lambda}|
          - \hat{\beta}
            \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          + \hat{\beta}
            \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \hat{\mathbf{m}}
          + \hat{\beta}
            \hat{\mathbf{m}}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          - \hat{\beta}
            \hat{\mathbf{m}}^{\top} \boldsymbol{\Lambda} \hat{\mathbf{m}}
        \Bigr)
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \left(
          - N \ln |\boldsymbol{\Lambda}|
          + \sum_{n=1}^N
              \mathbf{x}_n^{\top} \boldsymbol{\Lambda} \mathbf{x}_n
          - 2
            \sum_{n=1}^N
              \mathbf{x}_n^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          + N
            \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
        \right)
\\
   &\quad
      - \frac{1}{2} \Bigl(
          \beta
          \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          - 2 \beta
            \mathbf{m}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          + \beta
            \mathbf{m}^{\top} \boldsymbol{\Lambda} \mathbf{m}
        \Bigr)
\\
   &\quad
      - \frac{1}{2} \Bigl(
            - (\nu - D-1) \ln |\boldsymbol{\Lambda}|
            + \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda})
        \Bigr)
\\
   &\quad
      - \frac{1}{2} \Bigl(
          - \hat{\beta}
            \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          + 2 \hat{\beta}
            \hat{\mathbf{m}}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          - \hat{\beta}
            \hat{\mathbf{m}}^{\top} \boldsymbol{\Lambda} \hat{\mathbf{m}}
        \Bigr)
      + \mathrm{const.}
\end{aligned}

途中式の途中式(クリックで展開)


  • 1: 対数の性質より、対数の項を分割する。
  • 1: 転置の性質  (\mathbf{A} + \mathbf{B})^{\top} = (\mathbf{A}^{\top} + \mathbf{B}^{\top}) より、二次形式を展開する。
  • 2:  n に関する総和  \sum_n の波括弧を展開する。
  • 2: 二次形式の性質(スカラの転置・転置の性質)  (\mathbf{a}^{\top} \mathbf{B} \mathbf{c})^{\top} = \mathbf{c}^{\top} \mathbf{B}^{\top} \mathbf{a} より、確率変数と平均ベクトルの二次形式の項をまとめる。ただし、精度行列は対称行列なので、 \boldsymbol{\Lambda}^{\top} = \boldsymbol{\Lambda} である。

 次の関係より、項をまとめる。

 \displaystyle
\begin{aligned}
\mathbf{x}_n^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
   &= \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_n
\\
\beta
\boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{m}
   &= \beta
      \mathbf{m}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
\\
\hat{\beta}
\boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \hat{\mathbf{m}}
   &= \hat{\beta}
      \hat{\mathbf{m}}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
\end{aligned}

 詳しくは「生成モデルの導出」を参照のこと。


  \hat{\mathbf{m}}, \hat{\beta} に式(3.128)を代入して、さらに式を整理する。

 \displaystyle
\begin{align}
p(\boldsymbol{\Lambda} \mid \mathbf{X}, \nu, \mathbf{W})
   &= - \frac{1}{2} \Biggl(
          - N \ln |\boldsymbol{\Lambda}|
          + \mathrm{Tr} \Bigl(
              \sum_{n=1}^N
                  \mathbf{x}_n \mathbf{x}_n^{\top}
                  \boldsymbol{\Lambda}
            \Bigr)
          - 2
            \sum_{n=1}^N
              \mathbf{x}_n^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          + N
            \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
        \Biggr)
\\
   &\quad
      - \frac{1}{2} \Biggl(
          \beta
          \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          - 2 \beta
            \mathbf{m}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          + \mathrm{Tr} \Bigl(
              \beta
              \mathbf{m} \mathbf{m}^{\top}
              \boldsymbol{\Lambda}
            \Bigr)
        \Biggr)
\\
   &\quad
      - \frac{1}{2} \Biggl(
            - (\nu - D-1) \ln |\boldsymbol{\Lambda}|
            + \mathrm{Tr} \Bigl(
                \mathbf{W}^{-1}
                \boldsymbol{\Lambda}
              \Bigr)
        \Biggr)
\\
   &\quad
      - \frac{1}{2} \Biggl(
          - (N + \beta)
            \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          + 2 \frac{\hat{\beta}}{\hat{\beta}}
            \Bigl(
                \sum_{n=1}^N \mathbf{x}_n
                + \beta \mathbf{m}
            \Bigr)^{\top}
            \boldsymbol{\Lambda} \boldsymbol{\mu}
          - \mathrm{Tr} \Bigl(
              \hat{\beta}
              \hat{\mathbf{m}} \hat{\mathbf{m}}^{\top}
              \boldsymbol{\Lambda}
            \Bigr)
        \Biggr)
      + \mathrm{const.}
\\
   &= \frac{N + \nu - D-1}{2}
      \ln |\boldsymbol{\Lambda}|
\\
   &\quad
      - \frac{1}{2}
        \mathrm{Tr} \Bigl(
          \sum_{n=1}^N
              \mathbf{x}_n \mathbf{x}_n^{\top}
              \boldsymbol{\Lambda}
          + \beta
            \mathbf{m} \mathbf{m}^{\top}
            \boldsymbol{\Lambda}
          - \hat{\beta}
            \hat{\mathbf{m}} \hat{\mathbf{m}}^{\top}
            \boldsymbol{\Lambda}
          + \mathbf{W}^{-1}
            \boldsymbol{\Lambda}
        \Bigr)
      + \mathrm{const.}
\\
   &= \frac{N + \nu - D-1}{2}
      \ln |\boldsymbol{\Lambda}|
      - \frac{1}{2}
        \mathrm{Tr} \Biggl(
          \Bigl(
              \sum_{n=1}^N
                  \mathbf{x}_n \mathbf{x}_n^{\top}
              + \beta
                \mathbf{m} \mathbf{m}^{\top}
              - \hat{\beta}
                \hat{\mathbf{m}} \hat{\mathbf{m}}^{\top}
              + \mathbf{W}^{-1}
          \Bigr)
          \boldsymbol{\Lambda}
        \Biggr)
      + \mathrm{const.}
\tag{3.131}
\end{align}

途中式の途中式(クリックで展開)


  • 1:  \hat{\mathbf{m}}, \hat{\beta} に式(3.128)を代入する。
  • 1: 二次形式とトレースの関係より、二次形式の項をトレースに置き換える。

 次の関係より、項を置き換える。

 \displaystyle
\begin{aligned}
\sum_{n=1}^N
    \mathbf{x}_n^{\top} \boldsymbol{\Lambda} \mathbf{x}_n
   &= \mathrm{Tr} \Bigl(
          \sum_{n=1}^N
              \mathbf{x}_n \mathbf{x}_n^{\top}
              \boldsymbol{\Lambda}
      \Bigr)
\\
\beta
\mathbf{m}^{\top} \boldsymbol{\Lambda} \mathbf{m}
   &= \mathrm{Tr} \Bigl(
          \beta
          \mathbf{m} \mathbf{m}^{\top}
          \boldsymbol{\Lambda}
      \Bigr)
\\
\hat{\beta}
\hat{\mathbf{m}}^{\top} \boldsymbol{\Lambda} \hat{\mathbf{m}}
   &= \mathrm{Tr} \Bigl(
          \hat{\beta}
          \hat{\mathbf{m}} \hat{\mathbf{m}}^{\top}
          \boldsymbol{\Lambda}
      \Bigr)
\end{aligned}

 詳しくは「3.4.2:多次元ガウス分布のベイズ推論の導出:精度が未知の場合【緑ベイズ入門のノート】 - からっぽのしょこ」を参照のこと。

  • 2:  \ln |\boldsymbol{\Lambda}| の項をまとめる。
  • 2: トレースの性質  \mathrm{Tr}(\mathbf{A} + \mathbf{B}) = \mathrm{Tr}(\mathbf{A}) + \mathrm{Tr}(\mathbf{B}) より、 \boldsymbol{\Lambda} の項をまとめる。
  • 3:  \boldsymbol{\Lambda} を括り出す。

 事後分布の式(3.131)について、次のようにおく

 \displaystyle
\begin{aligned}
\hat{\nu}
   &= N + \nu
\\
\hat{\mathbf{W}}^{-1}
   &= \sum_{n=1}^N
          \mathbf{x}_n \mathbf{x}_n^{\top}
      + \beta
        \mathbf{m} \mathbf{m}^{\top}
      - \hat{\beta}
        \hat{\mathbf{m}} \hat{\mathbf{m}}^{\top}
      + \mathbf{W}^{-1}
\end{aligned}
\tag{3.133}

 式(3.131)について、 \hat{\nu}, \hat{\mathbf{W}} で置き換える。

 \displaystyle
\ln p(\boldsymbol{\Lambda} \mid \mathbf{X}, \nu, \mathbf{W})
    = \frac{\hat{\nu} - D-1}{2}
      \ln |\boldsymbol{\Lambda}|
      - \frac{1}{2}
        \mathrm{Tr}(\hat{\mathbf{W}}^{-1} \boldsymbol{\Lambda})
      + \mathrm{const.}

 さらに、 \ln を外して  \mathrm{const.} を正規化項に置き換える(正規化する)と、事後分布は式の形状から、パラメータ  \hat{\nu}, \hat{\mathbf{W}} のウィシャート分布であることが分かる。

 \displaystyle
\begin{align}
p(\boldsymbol{\Lambda} \mid \mathbf{X}, \nu, \mathbf{W})
   &= \mathrm{C}_{\mathcal{W}}(\hat{\nu}, \hat{\mathbf{W}})
      |\boldsymbol{\Lambda}|^{\frac{\hat{\nu}-D-1}{2}}
      \exp \Bigl(
          - \frac{1}{2}
            \mathrm{Tr}(\hat{\mathbf{W}}^{-1} \boldsymbol{\Lambda})
      \Bigr)
\\
   &= \Biggl(
          |\hat{\mathbf{W}}|^{\frac{\hat{\nu}}{2}}
          2^{\frac{\hat{\nu} D}{2}}
          \pi^{\frac{D (D-1)}{4}}
          \prod_{d=1}^D
              \Gamma \Bigl(
                  \frac{\hat{\nu} + 1-d}{2}
              \Bigr)
      \Biggr)^{-1}
      |\boldsymbol{\Lambda}|^{\frac{\hat{\nu}-D-1}{2}}
      \exp \Bigl(
          - \frac{1}{2}
            \mathrm{Tr}(\hat{\mathbf{W}}^{-1} \boldsymbol{\Lambda})
      \Bigr)
\\
   &= \mathcal{W}(\boldsymbol{\Lambda} \mid \hat{\nu}, \hat{\mathbf{W}})
\tag{3.132}
\end{align}

  \boldsymbol{\Lambda} の事後分布は式が得られた。
 ここで、 \mathrm{C}_{\mathcal{W}}(\hat{\nu}, \hat{\mathbf{W}}) はウィシャート分布(事後分布)の正規化項である。
 また、式(3.133)が事後分布のパラメータ(超パラメータ)  \hat{\nu}, \hat{\mathbf{W}} の計算式(更新式)である。

 以上で、精度パラメータの事後分布を導出した。

結合事後分布の導出

 2つのパラメータ  \boldsymbol{\mu}, \boldsymbol{\Lambda} それぞれの事後分布が求まったので、 \boldsymbol{\mu}, \boldsymbol{\Lambda} の結合事後分布を求める。

  \boldsymbol{\mu}, \boldsymbol{\Lambda} の結合事後分布の式(3.127)に  \boldsymbol{\mu} の事後分布の式(3.128)と  \boldsymbol{\Lambda} の事後分布の式(3.132)を代入すると、結合事後分布は式の形状から、パラメータ  \hat{\mathbf{m}}, \hat{\beta}, \hat{\nu}, \hat{\mathbf{W}} のガウス-ウィシャート分布であることが分かる。

 \displaystyle
\begin{align}
p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X}, \mathbf{m}, \beta, \nu, \mathbf{W})
   &= p(\boldsymbol{\mu} \mid \mathbf{X}, \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      p(\boldsymbol{\Lambda} \mid \mathbf{X}, \nu, \mathbf{W})
\tag{3.127}\\
   &= \mathcal{N}(\boldsymbol{\mu} \mid \hat{\mathbf{m}}, (\hat{\beta} \boldsymbol{\Lambda})^{-1})
      \mathcal{W}(\boldsymbol{\Lambda} \mid \hat{\nu}, \hat{\mathbf{W}})
\\
   &= \sqrt{
          \frac{|\hat{\beta} \boldsymbol{\Lambda}|}{(2 \pi)^D}
      }
      \exp \Bigl(
          - \frac{1}{2}
            (\boldsymbol{\mu} - \hat{\mathbf{m}})^{\top}
            \hat{\beta} \boldsymbol{\Lambda}
            (\boldsymbol{\mu} - \hat{\mathbf{m}})
      \Bigr)
\\
   &\quad * 
      \Biggl(
          |\hat{\mathbf{W}}|^{\frac{\hat{\nu}}{2}}
          2^{\frac{\hat{\nu} D}{2}}
          \pi^{\frac{D (D-1)}{4}}
          \prod_{d=1}^D
              \Gamma \Bigl(
                  \frac{\hat{\nu} + 1-d}{2}
              \Bigr)
      \Biggr)^{-1}
      |\boldsymbol{\Lambda}|^{\frac{\hat{\nu}-D-1}{2}}
      \exp \Bigl(
          - \frac{1}{2}
            \mathrm{Tr}(\hat{\mathbf{W}}^{-1} \boldsymbol{\Lambda})
      \Bigr)
\\
   &= \mathrm{NG}(
          \boldsymbol{\mu}, \boldsymbol{\Lambda}
      \mid
          \hat{\mathbf{m}}, \hat{\beta}, \hat{\nu}, \hat{\mathbf{W}}
      )
\tag{4}
\end{align}

  \boldsymbol{\mu}, \boldsymbol{\Lambda} の結合事後分布の式が得られた。
 また、式(3.129)と式(3.133)が結合事後分布のパラメータ(超パラメータ)  \hat{\mathbf{m}}, \hat{\beta}, \hat{\nu}, \hat{\mathbf{W}} の計算式(更新式)である。

 以上で、平均と精度が未知の多次元ガウスモデルにおける事後分布を導出した。

予測分布の導出

 次は、平均と精度が未知の多次元ガウス分布に従う未観測データ  \mathbf{x}_{*} = (x_{*,1}, \cdots, x_{*,D})^{\top} の予測分布(predict distribution)を導出する。
 スチューデントのt分布については「多次元スチューデントのt分布の定義式 - からっぽのしょこ」を参照のこと。

事前分布による予測分布

 結合事前分布(観測データによる学習を行っていない  \boldsymbol{\mu}, \boldsymbol{\Lambda} の分布)を用いた予測分布(事前予測分布)を求める。

 \displaystyle
\begin{align}
p(\mathbf{x}_{*} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
   &= \iint
          p(
              \mathbf{x}_{*}, \boldsymbol{\mu}, \boldsymbol{\Lambda}
          \mid
              \mathbf{m}, \beta, \nu, \mathbf{W}
          )
      \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda}
\\
   &= \iint
          p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
          p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
      \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda}
\\
   &= \iint
          \mathcal{N}(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})
          \mathrm{NW}(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
      \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda}
\tag{3.134}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 未知変数  \mathbf{x}_{*} とパラメータ  \boldsymbol{\mu}, \boldsymbol{\Lambda} の結合分布に対して、 \boldsymbol{\mu}, \boldsymbol{\Lambda} を周辺化した式を立てる。
  • 2: 依存関係のある  \mathbf{x}_{*}, \boldsymbol{\mu}, \boldsymbol{\Lambda} の項を分割する。
  • 3: 平均と精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事前分布をガウス-ウィシャート分布に置き換える。

 事前予測分布は、未知のデータ  \mathbf{x}_{*} の生成分布(3.96, 3.111)と、パラメータ  \boldsymbol{\mu}, \boldsymbol{\Lambda} の結合事前分布(3.125)を用いた、 \mathbf{x}_{*} の周辺分布である。

 積分の計算を避けるため式(3.134)は直接用いずに、ベイズの定理を用いて、 \mathbf{x}_{*} \boldsymbol{\mu}, \boldsymbol{\Lambda} の関係を考える。

 \displaystyle
\begin{align}
p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \mathbf{m}, \beta, \nu, \mathbf{W})
   &= \frac{
          p(
              \mathbf{x}_{*}, \boldsymbol{\mu}, \boldsymbol{\Lambda}
          \mid
              \mathbf{m}, \beta, \nu, \mathbf{W}
          )
      }{
          \iint
              p(
                  \mathbf{x}_{*}, \boldsymbol{\mu}, \boldsymbol{\Lambda}
              \mid
                  \mathbf{m}, \beta, \nu, \mathbf{W}
              )
          \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda}
      }
\\
   &= \frac{
          p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
          p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
          p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
      }{
          p(\mathbf{x}_{*} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
      }
\tag{5}
\end{align}

 左辺の項は、1つのデータ  \mathbf{x}_{*} が与えられた下での  \boldsymbol{\mu}, \boldsymbol{\Lambda} の条件付き結合分布(結合事後分布)と言える。つまり、 N 個のデータ  \mathbf{X} が与えられた下での条件付き結合分布(結合事後分布)の式(4)と、同様の手順で求められる(同様のパラメータになる)。
 そこで、 \mathbf{X} による結合事後分布のパラメータの式(3.129)と式(3.133)を用いて、 N = 1, \mathbf{X} = {\mathbf{x}_{*}} より、次のようにおく。

 \displaystyle
\begin{aligned}
\beta_{x_{*}}
   &= 1 + \beta
\\
\mathbf{m}_{x_{*}}
   &= \frac{1}{\beta_{x_{*}}}
      (\mathbf{x}_{*} + \beta \mathbf{m})
\\
   &= \frac{1}{1 + \beta}
      (\mathbf{x}_{*} + \beta \mathbf{m})
\end{aligned}
\tag{3.137.a}


 \displaystyle
\begin{aligned}
\nu_{x_{*}}
   &= 1 + \nu
\\
\mathbf{W}_{x_{*}}^{-1}
   &= \mathbf{x}_{*} \mathbf{x}_{*}^{\top}
      + \beta
        \mathbf{m} \mathbf{m}^{\top}
      - \beta_{x_{*}}
        \mathbf{m}_{x_{*}} \mathbf{m}_{x_{*}}^{\top}
      + \mathbf{W}^{-1}
\\
   &= \mathbf{x}_{*} \mathbf{x}_{*}^{\top}
      + \beta
        \mathbf{m} \mathbf{m}^{\top}
      - (1 + \beta)
        \frac{1}{1 + \beta}
        \frac{1}{1 + \beta}
        (\mathbf{x}_{*} + \beta \mathbf{m})
        (\mathbf{x}_{*} + \beta \mathbf{m})^{\top}
      + \mathbf{W}^{-1}
\\
   &= \mathbf{x}_{*} \mathbf{x}_{*}^{\top}
      + \beta
        \mathbf{m} \mathbf{m}^{\top}
      - \frac{1}{1 + \beta}
        \mathbf{x}_{*} \mathbf{x}_{*}^{\top}
      - \frac{\beta}{1 + \beta}
        \mathbf{x}_{*} \mathbf{m}^{\top}
      - \frac{\beta}{1 + \beta}
        \mathbf{m} \mathbf{x}_{*}^{\top}
      - \frac{\beta^2}{1 + \beta}
        \mathbf{m} \mathbf{m}^{\top}
      + \mathbf{W}^{-1}
\\
   &= \frac{\beta}{1 + \beta} \Bigl(
          \mathbf{x}_{*} \mathbf{x}_{*}^{\top}
          - \mathbf{x}_{*} \mathbf{m}^{\top}
          - \mathbf{m} \mathbf{x}_{*}^{\top}
          + \mathbf{m} \mathbf{m}^{\top}
        \Bigr)
      + \mathbf{W}^{-1}
\\
   &= \frac{\beta}{1 + \beta}
      (\mathbf{x}_{*} - \mathbf{m})
      (\mathbf{x}_{*} - \mathbf{m})^{\top}
      + \mathbf{W}^{-1}
\end{aligned}
\tag{3.137.b}

途中式の途中式(クリックで展開)


  • 1: 式(3.133)について、 N 個の観測データ  \mathbf{X} を1つの未知データ  \mathbf{x}_{*} に置き換えた式を立てる。
  • 2:  \mathbf{m}_{x_{*}}, \beta_{x_{*}} に式(3.137.a)を代入する。
  • 3: 二次形式を展開する。
  • 4:  \frac{\beta}{1 + \beta} を括り出す。

 次の関係より、項をまとめる。

 \displaystyle
\begin{aligned}
\mathbf{x}_{*} \mathbf{x}_{*}^{\top}
- \frac{1}{1 + \beta}
  \mathbf{x}_{*} \mathbf{x}_{*}^{\top}
   &= \left(
          \frac{1 + \beta}{1 + \beta}
          - \frac{1}{1 + \beta}
      \right)
      \mathbf{x}_{*} \mathbf{x}_{*}^{\top}
\\
   &= \frac{\beta}{1 + \beta}
      \mathbf{x}_{*} \mathbf{x}_{*}^{\top}
\end{aligned}


 \displaystyle
\begin{aligned}
\beta
\mathbf{m} \mathbf{m}^{\top}
- \frac{\beta^2}{1 + \beta}
  \mathbf{m} \mathbf{m}^{\top}
   &= \left(
          \frac{\beta (1 + \beta)}{1 + \beta}
          - \frac{\beta^2}{1 + \beta}
      \right)
      \mathbf{m} \mathbf{m}^{\top}
\\
   &= \left(
          \frac{\beta + \beta^2}{1 + \beta}
          - \frac{\beta^2}{1 + \beta}
      \right)
      \mathbf{m} \mathbf{m}^{\top}
\\
   &= \frac{\beta}{1 + \beta}
      \mathbf{m} \mathbf{m}^{\top}\end{aligned}
  • 5: 丸括弧全体を二次形式に変形する。

  \mathbf{x}_{*} による結合事後分布は、パラメータ  \mathbf{m}_{x_{*}}, \beta_{x_{*}}, \nu_{x_{*}}, \mathbf{W}_{x_{*}} のガウス-ウィシャート分布となる。

 \displaystyle
\begin{align}
p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \mathbf{m}, \beta, \nu, \mathbf{W})
   &= p(\boldsymbol{\mu}, \mid \mathbf{x}_{*} \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      p(\boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \nu, \mathbf{W})
\tag{6}\\
   &= \mathcal{N}(\boldsymbol{\mu} \mid \mathbf{m}_{x_{*}}, (\beta_{x_{*}} \boldsymbol{\Lambda})^{-1})
      \mathcal{W}(\boldsymbol{\lambda} \mid \nu_{x_{*}}, \mathbf{W}_{x_{*}})
\\
   &= \sqrt{
          \frac{|\beta_{x_{*}} \boldsymbol{\Lambda}|}{(2 \pi)^D}
      }
      \exp \Bigl(
          - \frac{1}{2}
            (\boldsymbol{\mu} - \mathbf{m}_{x_{*}})^{\top}
            \beta_{x_{*}} \boldsymbol{\Lambda}
            (\boldsymbol{\mu} - \mathbf{m}_{x_{*}})
      \Bigr)
\\
   &\quad * 
      \Biggl(
          |\mathbf{W}_{x_{*}}|^{\frac{\nu_{x_{*}}}{2}}
          2^{\frac{\nu_{x_{*}} D}{2}}
          \pi^{\frac{D (D-1)}{4}}
          \prod_{d=1}^D
              \Gamma \Bigl(
                  \frac{\nu_{x_{*}} + 1-d}{2}
              \Bigr)
      \Biggr)^{-1}
      |\boldsymbol{\Lambda}|^{\frac{\nu_{x_{*}}-D-1}{2}}
      \exp \Bigl(
          - \frac{1}{2}
            \mathrm{Tr}(\mathbf{W}_{x_{*}}^{-1} \boldsymbol{\Lambda})
      \Bigr)
\\
   &= \mathrm{NW}(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{m}_{x_{*}}, \beta_{x_{*}}, \nu_{x_{*}}, \mathbf{W}_{x_{*}})
\tag{3.136}
\end{align}

  \mathbf{x}_{*} による結合事後分布の式が得られた。1行目では、 \boldsymbol{\mu}, \boldsymbol{\Lambda} の依存関係に従い結合分布を分割している。

  \mathbf{x}_{*} による結合事後分布の式(5)について、指数部分の計算を分かりやすくするため、両辺の対数をとる。

 \displaystyle
\begin{aligned}
\ln p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \mathbf{m}, \beta, \nu, \mathbf{W})
   &= \ln \Bigl(
          \frac{
              p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
              p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
              p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
          }{
              p(\mathbf{x}_{*} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
          }
      \Bigr)
\\
   &= \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      + \ln p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      + \ln p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
      - \ln p(\mathbf{x}_{*} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
\end{aligned}

 予測分布に関して式を整理する。

 \displaystyle
\begin{align}
\ln p(\mathbf{x}_{*} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
   &= \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      + \ln p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      + \ln p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
      - \ln p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \mathbf{m}, \beta, \nu, \mathbf{W})
\\
   &= \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      + \ln p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      + \ln p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
      - \ln \Bigl(
          p(\boldsymbol{\mu} \mid \mathbf{x}_{*}, \boldsymbol{\Lambda}, \mathbf{m}, \beta)
          p(\boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \nu, \mathbf{W})
        \Bigr)
\\
   &= \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      + \ln p(\boldsymbol{\mu} \mid \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      + \ln p(\boldsymbol{\Lambda} \mid \nu, \mathbf{W})
      - \ln p(\boldsymbol{\mu} \mid \mathbf{x}_{*}, \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      - \ln p(\boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \nu, \mathbf{W})
\\
   &= \ln p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
      - \ln p(\boldsymbol{\mu} \mid \mathbf{x}_{*}, \boldsymbol{\Lambda}, \mathbf{m}, \beta)
      - \ln p(\boldsymbol{\Lambda} \mid \mathbf{x}_{*}, \nu, \mathbf{W})
      + \mathrm{const.}
\\
   &= \ln \mathcal{N}(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})
      - \ln p(\boldsymbol{\mu} \mid \mathbf{m}_{x_{*}}, (\beta_{x_{*}} \boldsymbol{\Lambda})^{-1})
      - \ln \mathcal{W}(\boldsymbol{\Lambda} \mid \nu_{x_{*}}, \mathbf{W}_{x_{*}})
      + \mathrm{const.}
\tag{3.135}
\end{align}

  \mathbf{x}_{*} に影響しない項を  \mathrm{const.} とおく。省略した項については、最後に正規化することで対応できる。式(6)より、結合分布を分割している。

 右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

 \displaystyle
\begin{align}
\ln p(\mathbf{x}_{*} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
   &= \ln \left(
          \Bigl(
              \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D}
          \Bigr)^{\frac{1}{2}}
          \exp \Bigl(
              - \frac{1}{2}
                (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top}
                \boldsymbol{\Lambda}
                (\mathbf{x}_{*} - \boldsymbol{\mu})
          \Bigr)
      \right)
\\
   &\quad
      - \ln \left(
          \Bigl(
              \frac{|\beta_{x_{*}} \boldsymbol{\Lambda}|}{(2 \pi)^D}
          \Bigr)^{\frac{1}{2}}
          \exp \Bigl(
              - \frac{1}{2}
                (\boldsymbol{\mu} - \mathbf{m}_{x_{*}})^{\top}
                \beta_{x_{*}} \boldsymbol{\Lambda}
                (\boldsymbol{\mu} - \mathbf{m}_{x_{*}})
          \Bigr)
        \right)
\\
   &\quad
      - \ln \left(
          \Biggl(
              |\mathbf{W}_{x_{*}}|^{\frac{\nu_{x_{*}}}{2}}
              2^{\frac{\nu_{x_{*}} D}{2}}
              \pi^{\frac{D (D-1)}{4}}
              \prod_{d=1}^D
                  \Gamma \Bigl(
                      \frac{\nu_{x_{*}} + 1-d}{2}
                  \Bigr)
          \Biggr)^{-1}
          |\boldsymbol{\Lambda}|^{\frac{\nu_{x_{*}}-D-1}{2}}
          \exp \Bigl(
              - \frac{1}{2}
                \mathrm{Tr}(\mathbf{W}_{x_{*}}^{-1} \boldsymbol{\Lambda})
          \Bigr)
        \right)
      + \mathrm{const.}
\\
   &= \frac{1}{2}
      \ln \Bigl(
          \frac{|\boldsymbol{\Lambda}|}{(2 \pi)^D}
      \Bigr)
      - \frac{1}{2}
        (\mathbf{x}_{*} - \boldsymbol{\mu})^{\top}
        \boldsymbol{\Lambda}
        (\mathbf{x}_{*} - \boldsymbol{\mu})
\\
   &\quad
      - \frac{1}{2}
        \ln \Bigl(
          \frac{|\beta_{x_{*}} \boldsymbol{\Lambda}|}{(2 \pi)^D}
        \Bigr)
      + \frac{1}{2}
        (\boldsymbol{\mu} - \mathbf{m}_{x_{*}})^{\top}
        \beta_{x_{*}} \boldsymbol{\Lambda}
        (\boldsymbol{\mu} - \mathbf{m}_{x_{*}})
\\
   &\quad
      + \frac{\nu_{x_{*}}}{2} \ln |\mathbf{W}_{x_{*}}|
      + \frac{\nu_{x_{*}} D}{2} \ln 2
      + \frac{D (D-1)}{4} \ln \pi
      + \sum_{d=1}^D
          \ln \Gamma \Bigl(
              \frac{\nu_{x_{*}} + 1-d}{2}
          \Bigr)
\\
   &\qquad
      - \frac{\nu_{x_{*}} - D-1}{2} \ln |\boldsymbol{\Lambda}|
      + \frac{1}{2}
        \mathrm{Tr}(\mathbf{W}_{x_{*}}^{-1} \boldsymbol{\Lambda})
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \Bigl(
          \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          - \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          - \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          + \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
        \Bigr)
\\
   &\quad
      - \frac{1}{2} \Bigl(
          - \beta_{x_{*}}
            \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          + \beta_{x_{*}}
            \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{m}_{x_{*}}
          + \beta_{x_{*}}
            \mathbf{m}_{x_{*}}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          - \beta_{x_{*}}
            \mathbf{m}_{x_{*}}^{\top} \boldsymbol{\Lambda} \mathbf{m}_{x_{*}}
        \Bigr)
\\
   &\quad
      + \frac{\nu_{x_{*}}}{2}
        \ln |\mathbf{W}_{x_{*}}|
\\
   &\qquad
      + \frac{1}{2}
        \mathrm{Tr}(\mathbf{W}_{x_{*}}^{-1} \boldsymbol{\Lambda})
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \Bigl(
          \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          - 2
            \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
        \Bigr)
\\
   &\quad
      - \frac{1}{2} \Bigl(
          2 \beta_{x_{*}}
          \mathbf{m}_{x_{*}}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          - \beta_{x_{*}}
            \mathbf{m}_{x_{*}}^{\top} \boldsymbol{\Lambda} \mathbf{m}_{x_{*}}
        \Bigr)
\\
   &\quad
      + \frac{\nu_{x_{*}}}{2}
        \ln |\mathbf{W}_{x_{*}}|
\\
   &\qquad
      + \frac{1}{2}
        \mathrm{Tr}(\mathbf{W}_{x_{*}}^{-1} \boldsymbol{\Lambda})
      + \mathrm{const.}
\tag{7}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 尤度関数はガウス分布(3.96, 3.111)を仮定しており、未知変数による  \boldsymbol{\mu} の事後分布はガウス分布(3.136)、未知変数による  \boldsymbol{\Lambda} の事後分布はウィシャート分布(3.136)になるので、それぞれ定義式に置き換える。
  • 2: 自然対数の性質より、定義式の項を展開する。
  • 3: 二次形式を展開する。
  • 4: 二次形式の性質より、 \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu} = \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*} \mathbf{m}_{x_{*}}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu} = \boldsymbol{\mu}^{\top} \boldsymbol{\Lambda} \mathbf{m}_{x_{*}} なので、確率変数と平均ベクトルの二次形式の項をまとめる。

 適宜、 \mathbf{x}_{*} に影響しない項を  \mathrm{const.} にまとめていく。パラメータの計算式(3.137)より、 \beta_{x_{*}}, \nu_{x_{*}} \mathbf{x}_{*} に影響しない(  \beta_{x_{*}}, \nu_{x_{*}} の式に  \mathbf{x}_{*} を含まない)。
  \mathbf{m}_{x_{*}}, \mathbf{W}_{x_{*}} に式(3.137)を代入して、 \mathbf{x}_{*} に関して式を整理する。

 \displaystyle
\begin{aligned}
\ln p(\mathbf{x}_{*} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
   &= - \frac{1}{2} \Bigl(
          \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          - 2
            \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
        \Bigr)
\\
   &\quad
      - \frac{1}{2} \left(
          2
          (1 + \beta)
          \frac{1}{1 + \beta}
          (\mathbf{x}_{*} + \beta \mathbf{m})^{\top}
          \boldsymbol{\Lambda}
          \boldsymbol{\mu}
          - (1 + \beta)
            \frac{1}{1 + \beta}
            \frac{1}{1 + \beta}
            (\mathbf{x}_{*} + \beta \mathbf{m})^{\top}
            \boldsymbol{\Lambda}
            (\mathbf{x}_{*} + \beta \mathbf{m})
        \right)
\\
   &\quad
      + \frac{1 + \nu}{2}
        \ln \Biggl|
            \Bigl(
                \frac{\beta}{1 + \beta}
                (\mathbf{x}_{*} - \mathbf{m})
                (\mathbf{x}_{*} - \mathbf{m})^{\top}
                + \mathbf{W}^{-1}
            \Bigr)^{-1}
        \Biggr|
\\
   &\qquad
      + \frac{1}{2}
        \mathrm{Tr} \Biggl(
          \Bigl(
              \frac{\beta}{1 + \beta}
              (\mathbf{x}_{*} - \mathbf{m})
              (\mathbf{x}_{*} - \mathbf{m})^{\top}
              + \mathbf{W}^{-1}
          \Bigr)
          \boldsymbol{\Lambda}
        \Biggr)
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \Bigl(
          \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          - 2
            \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
        \Bigr)
\\
   &\quad
      - \frac{1}{2} \left(
          2
          \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          + 2 \beta
            \mathbf{m}^{\top} \boldsymbol{\Lambda} \boldsymbol{\mu}
          - \frac{1}{1 + \beta}
            \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          - \frac{\beta}{1 + \beta}
            \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{m}
          - \frac{\beta}{1 + \beta}
            \mathbf{m}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          - \frac{\beta^2}{1 + \beta}
            \mathbf{m}^{\top} \boldsymbol{\Lambda} \mathbf{m}
        \right)
\\
   &\quad
      - \frac{1 + \nu}{2}
        \ln \Biggl|
          \mathbf{W}^{-1} \Bigl(
              \mathbf{I}_D
              + \frac{\beta}{1 + \beta}
                \mathbf{W}
                (\mathbf{x}_{*} - \mathbf{m})
                (\mathbf{x}_{*} - \mathbf{m})^{\top}
          \Bigr)
        \Biggr|
\\
   &\qquad
      + \frac{1}{2}
        \mathrm{Tr} \Biggl(
          \frac{\beta}{1 + \beta}
          (\mathbf{x}_{*} - \mathbf{m})
          (\mathbf{x}_{*} - \mathbf{m})^{\top}
          \boldsymbol{\Lambda}
          + \mathbf{W}^{-1} \boldsymbol{\Lambda}
        \Biggr)
      + \mathrm{const.}
\end{aligned}

途中式の途中式(クリックで展開)


  • 1: 式(7)に式(3.137)を代入する。ただし、 \mathbf{W}_{{x}_{*}} = (\mathbf{W}_{{x}_{*}}^{-1})^{-1} として代入する。
  • 2: 二次形式を展開する。
  • 2: 行列式の性質  |\mathbf{A}^{-1}| = |\mathbf{A}|^{-1}、対数の性質  \ln x^{-1} = - \ln x より、負の指数を行列式と対数の外に出す。
  • 2:  \mathbf{W}^{-1} を括り出す。

 \displaystyle
\begin{align}
\ln p(\mathbf{x}_{*} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
   &= - \frac{1}{2} \left(
          \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          - \frac{1}{1 + \beta}
            \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          - \frac{2 \beta}{1 + \beta}
            \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{m}
        \right)
\\
   &\quad
      - \frac{1 + \nu}{2}
        \ln \Biggl(
          \Bigl|
              \mathbf{W}^{-1}
          \Bigr|
          \Bigl|
              \mathbf{I}_D
              + \frac{\beta}{1 + \beta}
                \mathbf{W}
                (\mathbf{x}_{*} - \mathbf{m})
                (\mathbf{x}_{*} - \mathbf{m})^{\top}
          \Bigr|
        \Biggr)
\\
   &\qquad
      + \frac{1}{2}
        \mathrm{Tr} \Biggl(
          \frac{\beta}{1 + \beta}
          (\mathbf{x}_{*} - \mathbf{m})
          (\mathbf{x}_{*} - \mathbf{m})^{\top}
          \boldsymbol{\Lambda}
        \Biggr)
      + \frac{1}{2}
        \mathrm{Tr} \Bigl(
          \mathbf{W}^{-1} \boldsymbol{\Lambda}
        \Bigr)
      + \mathrm{const.}
\\
   &= - \frac{1}{2} \left(
          \frac{\beta}{1 + \beta}
          \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          - \frac{2 \beta}{1 + \beta}
            \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{m}
        \right)
\\
   &\quad
      - \frac{1 + \nu}{2}
        \ln |\mathbf{W}^{-1}|
      - \frac{1 + \nu}{2}
        \ln \Bigl|
          \mathbf{I}_D
          + \frac{\beta}{1 + \beta}
            \mathbf{W}
            (\mathbf{x}_{*} - \mathbf{m})
            (\mathbf{x}_{*} - \mathbf{m})^{\top}
        \Bigr|
\\
   &\qquad
      + \frac{1}{2}
        \frac{\beta}{1 + \beta}
        (\mathbf{x}_{*} - \mathbf{m})^{\top}
        \boldsymbol{\Lambda}
        (\mathbf{x}_{*} - \mathbf{m})
      + \mathrm{const.}
\\
   &= - \frac{1}{2}
        \frac{\beta}{1 + \beta} \Bigl(
          \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          - 2
            \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{m}
        \Bigr)
\\
   &\quad
      - \frac{1 + \nu}{2}
        \ln \Bigl|
          \mathbf{I}_1
          + \frac{\beta}{1 + \beta}
            \Bigl\{
              \mathbf{W}
              (\mathbf{x}_{*} - \mathbf{m})
            \Bigr\}^{\top}
            (\mathbf{x}_{*} - \mathbf{m})
        \Bigr|
\\
   &\qquad
      - \frac{1}{2}
        \frac{\beta}{1 + \beta} \Bigl(
          - \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          + \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda} \mathbf{m}
          + \mathbf{m}^{\top} \boldsymbol{\Lambda} \mathbf{x}_{*}
          - \mathbf{m}^{\top} \boldsymbol{\Lambda} \mathbf{m}
        \Bigr)
      + \mathrm{const.}
\\
   &= - \frac{1 + \nu}{2}
        \ln \Bigl(
          1
          + \frac{\beta}{1 + \beta}
            (\mathbf{x}_{*} - \mathbf{m})^{\top}
            \mathbf{W}
            (\mathbf{x}_{*} - \mathbf{m})
        \Bigr)
      + \mathrm{const.}
\tag{3.138}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 行列式の性質  |\mathbf{A} \mathbf{B}| = |\mathbf{A}| |\mathbf{B}| より、行列式の項を分割する。
  • 1: トレースの性質  \mathrm{Tr}(\mathbf{A} + \mathbf{B}) = \mathrm{Tr}(\mathbf{A}) + \mathrm{Tr}(\mathbf{B}) より、トレースの項を分割する。
  • 2: 対数の性質  \ln(x y) = \ln x + \ln y より、行列式の項を分割する。
  • 2: 二次形式とトレースの関係より、トレースの項を二次形式に置き換える。

 次の関係より、項を置き換える。

 \displaystyle
(\mathbf{x}_{*} - \mathbf{m})^{\top}
\boldsymbol{\Lambda}
(\mathbf{x}_{*} - \mathbf{m})
    = \mathrm{Tr} \Bigl(
          (\mathbf{x}_{*} - \mathbf{m})
          (\mathbf{x}_{*} - \mathbf{m})^{\top}
          \boldsymbol{\Lambda}
      \Bigr)

 詳しくは「精度が未知の場合」を参照のこと。

  • 3:  \frac{\beta}{1 + \beta} を括り出す。
  • 3: 行列式の性質  |\mathbf{I}_N + \mathbf{A}^{\top} \mathbf{B}| = |\mathbf{I}_M + \mathbf{A} \mathbf{B}^{\top}| より、行列式の項を変形する。

  \mathbf{W} (\mathbf{x}_{*} - \boldsymbol{\mu}) を1つの行列として扱い、 \mathbf{W} (\mathbf{x}_{*} - \mu) (\mathbf{x}_{*} - \mu)^{\top} D \times 1 1 \times D の行列の積として変形する。

  • 3: 二次形式を展開する。
  • 4: 波括弧を転置する。ただし、スケール行列は対称行列なので、 \mathbf{W}^{\top} = \mathbf{W} である。
  • 4: 行列式の中がスカラなので、行列式の性質  |a| = a より、行列式を外す。

 予測分布の式(3.138)について、次のようにおく。

 \displaystyle
\begin{aligned}
\boldsymbol{\mu}_s
   &= \mathbf{m}
\\
\boldsymbol{\Lambda}_s
   &= \frac{\nu_s \beta}{1 + \beta}
      \mathbf{W}
\\
   &= (1-D + \nu)
      \frac{\beta}{1 + \beta}
      \mathbf{W}
\\
\nu_s
   &= 1-D + \nu
\end{aligned}
\tag{3.140}

 式(3.138)について、 \boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s で置き換える。

 \displaystyle
\begin{align}
\ln p(\mathbf{x}_{*} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
   &= - \frac{1-D + \nu + D}{2}
        \ln \Bigl(
          1
          + \frac{1}{\nu_s}
            (\mathbf{x}_{*} - \mathbf{m})^{\top}
            \frac{\nu_s \beta}{1 + \beta}
            \mathbf{W}
            (\mathbf{x}_{*} - \mathbf{m})
        \Bigr)
      + \mathrm{const.}
\tag{3.138'}\\
   &= - \frac{\nu_s + D}{2}
        \ln \Bigl(
            1
            + \frac{1}{\nu_s}
              (\mathbf{x}_{*} - \boldsymbol{\mu}_s)^{\top}
              \boldsymbol{\Lambda}_s
              (\mathbf{x}_{*} - \boldsymbol{\mu}_s)
        \Bigr)
        + \mathrm{const.}
\end{align}

途中式の途中式(クリックで展開)


  • スチューデントのt分布の定義式の形状となるように、式(3.138)を整形する。

 分数の項に  D-D = 0 を加え、対数の項に  \frac{\nu_s}{\nu_s} = 1 を分割して掛ける。


 さらに、 \ln を外して  \mathrm{const.} を正規化項に置き換える(正規化する)と、予測分布は式の形状から、パラメータ  \boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s D 次元スチューデントのt分布であることが分かる。

 \displaystyle
\begin{align}
\ln p(\mathbf{x}_{*} \mid \mathbf{m}, \beta, \nu, \mathbf{W})
   &= \mathrm{C}_{\mathrm{St}}(\boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s)
      \Bigl(
          1
          + \frac{1}{\nu_s}
            (\mathbf{x}_{*} - \boldsymbol{\mu}_s)^{\top}
            \boldsymbol{\Lambda}_s
            (\mathbf{x}_{*} - \boldsymbol{\mu}_s)
      \Bigr)^{-\frac{\nu_s+D}{2}}
\\
   &= \frac{
          \Gamma(\frac{\nu_s + D}{2})
      }{
          \Gamma(\frac{\nu_s}{2})
      }
      \frac{
          |\boldsymbol{\Lambda}_s|^{\frac{1}{2}}
      }
      {
          (\pi \nu_s)^{\frac{D}{2}}
      }
      \Bigl(
          1
          + \frac{1}{\nu_s}
            (\mathbf{x}_{*} - \boldsymbol{\mu}_s)^{\top}
            \boldsymbol{\Lambda}_s
            (\mathbf{x}_{*} - \boldsymbol{\mu}_s)
      \Bigr)^{-\frac{\nu_s+D}{2}}
\\
   &= \mathrm{St}(\mathbf{x}_{*} \mid \boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s)
\tag{3.139}
\end{align}

  \mathbf{x}_{*} の事前予測分布の式が得られた。
 ここで、 \mathrm{C}_{\mathrm{St}}(\boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s) は、スチューデントのt分布(事前予測分布)の正規化項である。
 また、式(3.140)が、予測分布のパラメータ  \boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s の計算式(更新式)である。

事後分布による予測分布

 予測分布の計算に事前分布  p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{m}, \beta, \nu, \mathbf{W}) を用いて、観測データ  \mathbf{X} による学習を行っていない予測分布(事前予測分布)  p(\mathbf{x}_{*} \mid \mathbf{m}, \beta, \nu, \mathbf{W}) (のパラメータ  \boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s )を求めた。事後分布  p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X}, \mathbf{m}, \beta, \nu, \mathbf{W}) を用いると、観測データ  \mathbf{X} によって学習した予測分布(事後予測分布)  p(\mathbf{x}_{*} \mid \mathbf{X}, \mathbf{m}, \beta, \nu, \mathbf{W}) (のパラメータ  \hat{\boldsymbol{\mu}}_s, \hat{\boldsymbol{\Lambda}}_s, \hat{\nu}_s )を求められる。

 \displaystyle
\begin{align}
p(\mathbf{x}_{*} \mid \mathbf{X}, \mathbf{m}, \beta, \nu, \mathbf{W})
   &= \iint
          p(
              \mathbf{x}_{*}, \boldsymbol{\mu}, \boldsymbol{\Lambda}
          \mid
              \mathbf{X}, \mathbf{m}, \beta, \nu, \mathbf{W}
          )
      \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda}
\\
   &= \iint
          p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda})
          p(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X}, \mathbf{m}, \beta, \nu, \mathbf{W})
      \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda}
\\
   &= \iint
          \mathcal{N}(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})
          \mathrm{NW}(\boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \hat{\mathbf{m}}, \hat{\beta}, \hat{\nu}, \hat{\mathbf{W}})
      \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda}
\tag{3.134'}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 観測変数  \mathbf{X} を条件として、未知変数  \mathbf{x}_{*} とパラメータ  \boldsymbol{\mu}, \boldsymbol{\Lambda} の結合分布に対して、 \boldsymbol{\mu}, \boldsymbol{\Lambda} を周辺化した式を立てる。
  • 2: 依存関係のある  \mathbf{x}_{*}, \boldsymbol{\mu}, \boldsymbol{\Lambda} の項を分割する。
  • 3: 平均と精度が未知のガウスモデルの定義より、尤度関数をガウス分布、事後分布をガウス-ウィシャート分布に置き換える。

 事後予測分布は、未知のデータ  \mathbf{x}_{*} の生成分布(3.96, 3.111)と、パラメータ  \boldsymbol{\mu}, \boldsymbol{\Lambda} の事後分布()を用いた、 \mathbf{x}_{*} の周辺分布である。

 事後分布は事前分布と同じくガウス-ウィシャート分布なので、事前予測分布の式(3.139)と、同様の手順で事後予測分布の式も求められる。
 そこで、事前予測分布のパラメータ  \boldsymbol{\mu}_s, \boldsymbol{\Lambda}_s, \nu_s の式(3.140)を構成する事前分布のパラメータ  \mathbf{m}, \beta, \nu, \mathbf{W} について、事後分布のパラメータ  \hat{\mathbf{m}}, \hat{\beta}, \hat{\nu}, \hat{\mathbf{W}} の式(3.129)と式(3.133)に置き換えたものを事後予測分布のパラメータ  \hat{\boldsymbol{\mu}}_s, \hat{\boldsymbol{\Lambda}}_s, \hat{\nu}_s とおく。

 \displaystyle
\begin{aligned}
\hat{\boldsymbol{\mu}}_s
   &= \hat{\mathbf{m}}
\\
   &= \frac{1}{N + \beta} \left(
          \sum_{n=1}^N \mathbf{x}_n
          + \beta \mathbf{m}
      \right)
\\
\hat{\boldsymbol{\Lambda}}_s
   &= \frac{
          (1 - D + \hat{\nu}) \hat{\beta}
      }{
          1 + \hat{\beta}
      }
      \hat{\mathbf{W}}
\\
   &= \frac{
          (N - D + 1 + \nu) (N + \beta)
      }{
          N + 1 + \beta
      }
      \hat{\mathbf{W}}
\\
\hat{\nu}_s
   &= 1 - D + \hat{\nu}
\\
   &= N - D + 1 + \nu
\end{aligned}
\tag{3.140'}

 予測分布の式(3.139')についても置き換える(同様の手順で導出する)と、パラメータ  \hat{\boldsymbol{\mu}}_s, \hat{\boldsymbol{\Lambda}}_s, \hat{\nu}_s D 次元スチューデントのt分布となる。

 \displaystyle
\begin{align}
p(\mathbf{x}_{*} \mid \boldsymbol{\mu}, \nu, \mathbf{W})
   &= \frac{
          \Gamma(\frac{\hat{\nu}_s + D}{2})
      }{
          \Gamma(\frac{\hat{\nu}_s}{2})
      }
      \frac{
          |\hat{\boldsymbol{\Lambda}}_s|^{\frac{1}{2}}
      }
      {
          (\pi \hat{\nu}_s)^{\frac{D}{2}}
      }
      \Bigl(
          1
          + \frac{1}{\hat{\nu}_s}
            (\mathbf{x}_{*} - \hat{\boldsymbol{\mu}}_s)^{\top}
            \hat{\boldsymbol{\Lambda}}_s
            (\mathbf{x}_{*} - \hat{\boldsymbol{\mu}}_s)
      \Bigr)^{-\frac{\hat{\nu}_s+D}{2}}
\\
   &= \mathrm{St}(\mathbf{x}_{*} \mid \hat{\boldsymbol{\mu}}_s, \hat{\boldsymbol{\Lambda}}_s, \hat{\nu}_s)
\tag{3.139'}
\end{align}

  \mathbf{x}_{*} の事後予測分布の式が得られた。
 また、式(3.140')が、予測分布のパラメータ  \hat{\boldsymbol{\mu}}_s, \hat{\boldsymbol{\Lambda}}_s, \hat{\nu}_s の計算式(更新式)である。

 以上で、平均と精度が未知の多次元ガウスモデルにおける事後予測分布を導出した。

 この記事では、平均と精度が未知の場合の多次元ガウス分布に対するベイズ推論を導出した。次の記事では、実装する。

参考文献

おわりに

 多次元ガウス分布のベイズ推論完了!ただただ愚直に解きました。もっとスマートに導出できたりするのでしょうか?

 そろそろPRMLに移ってもいいもんでしょうかね。次の線形回帰ができたら試しに読んでみる(2度目の正直)。

  • 2021/04/12:加筆修正しました。その際にRで実装編と記事を分割しました。

 現在PRML三度目の挑戦に詰まって放置中、、、

  • 2026.01.28:加筆修正しました。

 愚直に解いているのは変わりませんが、以前よりも式変形の粒度感を整えた(つもりな)ので、(おそらく行数は増えましたが)じっくり読むと分かりやすくなったと思います。

 ところで今回の改修では、確率分布の項の条件部分にハイパラを明示して変形していくことにしました。そこで気付いたですが、精度パラメータの事後分布の条件に含まれているハイパラと、事後分布のパラメータの計算式に含まれるハイパラが異なっているのですが、どういうことでしょうか。どこが何が間違っているのでしょうか。
 結合事後分布を分割するときに、乗法定理のように条件に残して誤魔化そうかとも思ったのですが、グラフィカルモデル的に違うよなと踏みとどまりました。
 本を読んでも調べても分からずチャッピーに訊いたところ、平均パラメータの場合は結合事後分布を分割して、精度パラメータの場合は結合事後分布を周辺化するらしいです。なるほど、後でその方針で式変形して確かめてみます、後で(いつか)。
 ちなみに3.3.3節(1次元版)のときに疑問に思ってもよかったはずですが、全然気付きませんでした。そっちでもやってみますね、いつか(たぶん)。

 最後に、先日公開されたBuono!のライブ映像をどうぞ♪

 THE FIRST TAKEBに合わせて『初恋サイダー』だけでなくもう1曲公開されるとは、ありがたいです。「キスをあげるよ」からの『Kiss! Kiss! Kiss!』ってことですよね!!!

【次節の内容】

  • スクラッチ実装編

 多次元ガウスモデルに対するベイズ推論をプログラムで確認します。

www.anarchive-beta.com

www.anarchive-beta.com


  • 数式読解編

 線形回帰モデルに対するベイズ推論を数式で確認します。

www.anarchive-beta.com




以上の内容はhttps://www.anarchive-beta.com/entry/2020/10/31/225401より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14