はじめに

　『トピックモデル』(MLPシリーズ)の勉強会資料のまとめです。各種モデルやアルゴリズムを「数式」と「プログラム」を用いて解説します。
　本の補助として読んでください。

　この記事では、トピックモデルに対する崩壊型ギブスサンプリングの数式の行間を埋めます。

【前節の内容】

【他の節の内容】

【この節の内容】

4.5 トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合

　トピックモデル(topic model)に対する不動点反復法(固定点反復法・fixed point iteration)を用いた崩壊型ギブスサンプリング(周辺化ギブスサンプリング・collapsed Gibbs sampling)におけるパラメータの計算式を導出する。この記事では、ハイパーパラメータが多様な値の場合を扱う。トピックモデルに対してベイズ推定する手法は、LDA(latent Dirichlet allocation・潜在ディリクレ配分モデル)と呼ばれる。
　トピックモデルの定義や記号については「4.1：トピックモデルの生成モデルの導出【青トピックモデルのノート】 - からっぽのしょこ」、ハイパーパラメータが一様な値の場合やより詳細な式変形については「4.5：トピックモデルの崩壊型ギブズサンプリングの導出：一様なハイパーパラメータの場合【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。

パラメータの周辺化の導出

　まずは、サンプリング式や更新式の導出に用いる文書集合とトピック集合の周辺分布の式を導出する。

結合周辺分布の設定

　パラメータ $\boldsymbol{\Theta}, \boldsymbol{\Phi}$ を周辺化(積分消去)したときの観測変数 $\mathbf{W}$ と潜在変数 $\mathbf{Z}$ の結合分布(同時分布)を求める。

$\displaystyle p(\mathbf{W}, \mathbf{Z} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) = \iint p(\mathbf{W}, \mathbf{Z}, \boldsymbol{\Theta}, \boldsymbol{\Phi} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) \mathrm{d} \boldsymbol{\Theta} \mathrm{d} \boldsymbol{\Phi}$

　トピックモデルの生成過程(依存関係)に従って、 $\mathbf{W}, \mathbf{Z}$ の結合周辺分布を分割する。

$\displaystyle p(\mathbf{W}, \mathbf{Z} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) = p(\mathbf{Z} \mid \boldsymbol{\alpha}) p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\beta}) \tag{4.9}$

　トピックモデルの依存関係については「トピックモデルの生成モデルの導出」を参照のこと。
　 $\mathbf{W}, \mathbf{Z}$ に関する周辺分布から得られることが分かった。

トピック集合の周辺分布

　 $\mathbf{W}, \mathbf{Z}$ の結合周辺分布の式(4.9)の前の項は、トピック分布のパラメータ $\boldsymbol{\Theta}$ の事前分布 $p(\boldsymbol{\Theta} \mid \boldsymbol{\alpha})$ を用いたトピック集合 $\mathbf{Z}$ の周辺分布である。
　この式について、パラメータを明示して変形する。

$\displaystyle \begin{aligned} p(\mathbf{Z} \mid \boldsymbol{\alpha}) &= \int p(\mathbf{Z}, \boldsymbol{\Theta} \mid \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\Theta} \\ &= \int p(\mathbf{Z} \mid \boldsymbol{\Theta}) p(\boldsymbol{\Theta} \mid \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\Theta} \\ &= \prod_{d=1}^D \left[ \int p(\mathbf{z}_d \mid \boldsymbol{\theta}_d) p(\boldsymbol{\theta}_d \mid \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\theta}_d \right] \\ &= \prod_{d=1}^D \left[ \int \left\{ \prod_{n=1}^{N_d} p(z_{dn} \mid \boldsymbol{\theta}_d) \right\} p(\boldsymbol{\theta}_d \mid \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\theta}_d \right] \end{aligned}$

途中式の途中式(クリックで展開)

1: 周辺化された $\boldsymbol{\Theta}$ を明示する。
2: 潜在変数 $\mathbf{Z}$ とパラメータ $\boldsymbol{\Theta}$ の項を分割する。
3: トピック集合 $\mathbf{Z}$ の生成確率を、各文書のトピック集合 $\mathbf{z}_d$ の生成確率の積に分解する。
3: パラメータ集合 $\boldsymbol{\Theta}$ の生成確率を、各文書のパラメータ $\boldsymbol{\theta}_d$ の生成確率の積に分解する。
4: 各文書のトピック集合 $\mathbf{z}_d$ の生成確率を、各単語のトピック $z_{dn}$ の生成確率の積に分解する。

　さらに、確率分布を具体的な式に置き換えて、式を整理する。

$\displaystyle \begin{align} p(\mathbf{Z} \mid \boldsymbol{\alpha}) &= \prod_{d=1}^D \left[ \int \left\{ \prod_{n=1}^{N_d} \theta_{dz_{dn}} \right\} \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\prod_{k=1}^K \Gamma(\alpha_k)} \left\{ \prod_{k=1}^K \theta_{dk}^{\alpha_k-1} \right\} \mathrm{d} \boldsymbol{\theta}_d \right] \\ &= \prod_{d=1}^D \left[ \int \left\{ \prod_{k=1}^K \theta_{dk}^{N_{dk}} \right\} \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\prod_{k=1}^K \Gamma(\alpha_k)} \left\{ \prod_{k=1}^K \theta_{dk}^{\alpha_k-1} \right\} \mathrm{d} \boldsymbol{\theta}_d \right] \\ &= \prod_{d=1}^D \left\{ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\prod_{k=1}^K \Gamma(\alpha_k)} \int \prod_{k=1}^K \theta_{dk}^{N_{dk} + \alpha_k-1} \mathrm{d} \boldsymbol{\theta}_d \right\} \\ &= \prod_{d=1}^D \left\{ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\prod_{k=1}^K \Gamma(\alpha_k)} \frac{ \prod_{k=1}^K \Gamma(N_{dk} + \alpha_k) }{ \Gamma(\sum_{k=1}^K \{N_{dk} + \alpha_k\}) } \right\} \\ &= \prod_{d=1}^D \left\{ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\prod_{k=1}^K \Gamma(\alpha_k)} \frac{ \prod_{k=1}^K \Gamma(N_{dk} + \alpha_k) }{ \Gamma(N_d + \sum_{k=1}^K \alpha_k) } \right\} \tag{4.10}\\ &= \prod_{d=1}^D \left\{ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\Gamma(N_d + \sum_{k=1}^K \alpha_k)} \prod_{k=1}^K \frac{\Gamma(N_{dk} + \alpha_k)}{\Gamma(\alpha_k)} \right\} \tag{4.10'} \end{align}$

途中式の途中式(クリックで展開)

1: 各単語のトピック $z_{dn}$ はカテゴリ分布、各文書のトピック分布のパラメータ $\boldsymbol{\theta}_d$ はディリクレ分布を仮定しているので、それぞれ定義式に置き換える。

$\displaystyle \begin{aligned} p(z_{dn} \mid \boldsymbol{\theta}_d) &= \mathrm{Cat}(z_{dn} \mid \boldsymbol{\theta}_d) = \theta_{dz_{dn}} \\ p(\boldsymbol{\theta}_d \mid \boldsymbol{\alpha}) &= \mathrm{Dir}(\boldsymbol{\theta}_d \mid \boldsymbol{\alpha}) = \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\prod_{k=1}^K \Gamma(\alpha_k)} \prod_{k=1}^K \theta_{dk}^{\alpha_k-1} \end{aligned}$

2: $N_d$ 個の単語に対応するパラメータ $\theta_{dz_{dn}}$ について、各単語に割り当てられたトピック番号 $z_{dn} = k$ を用いてトピックごとにまとめると、 $N_{dk}$ 個の $\theta_{dk}$ に置き換えられる。詳しくは「一様版」を参照のこと。
3: $\boldsymbol{\theta}_d$ と無関係な正規化項を $\int$ の外に出し、 $\theta_{dk}$ の項をまとめる。
4: ディリクレ分布の正規化項(1.2.4項)より、積分全体を正規化項の逆数の形に置き換える。
5: トピックごとの単語数の関係より、 $N_d = \sum_{k=1}^K N_{dk}$ である。
6: 不動点反復法を行うために、分母を入れ替えて $\alpha_k, \sum_{k=1}^K \alpha_k$ の項をそれぞれまとめる。

　 $\mathbf{Z}$ の周辺分布の式が得られた。

文書集合の周辺分布

　 $\mathbf{W}, \mathbf{Z}$ の結合周辺分布の式(4.9)の後の項は、単語分布のパラメータ $\boldsymbol{\Phi}$ の事前分布 $p(\boldsymbol{\Phi} \mid \boldsymbol{\beta})$ を用いた文書集合 $\mathbf{W}$ の周辺分布である。
　この式について、パラメータを明示して変形する。

$\displaystyle \begin{align} p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\beta}) &= \int p(\mathbf{W}, \boldsymbol{\Phi} \mid \mathbf{Z}, \boldsymbol{\beta}) \mathrm{d} \boldsymbol{\Phi} \\ &= \int p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\Phi}) p(\boldsymbol{\Phi} \mid \boldsymbol{\beta}) \mathrm{d} \boldsymbol{\Phi} \\ &= \int \left\{ \prod_{d=1}^D p(\mathbf{w}_d \mid \mathbf{z}_d, \boldsymbol{\Phi}) \right\} \prod_{k=1}^K p(\boldsymbol{\phi}_k \mid \boldsymbol{\beta}) \mathrm{d} \boldsymbol{\Phi} \\ &= \int \left\{ \prod_{d=1}^D \prod_{n=1}^{N_d} p(w_{dn} \mid \boldsymbol{\phi}_{z_{dn}}) \right\} \prod_{k=1}^K p(\boldsymbol{\phi}_k \mid \boldsymbol{\beta}) \mathrm{d} \boldsymbol{\Phi} \end{align}$

途中式の途中式(クリックで展開)

1: 周辺化された $\boldsymbol{\Phi}$ を明示する。
2: 観測変数 $\mathbf{W}$ とパラメータ $\boldsymbol{\Phi}$ の項を分割する。
3: 文書集合 $\mathbf{W}$ の生成確率を、各文書(単語集合) $\mathbf{w}_d$ の生成確率の積に分解する。
3: パラメータ集合 $\boldsymbol{\Phi}$ の生成確率を、各トピックのパラメータ $\boldsymbol{\phi}_k$ の生成確率の積に分解する。
4: 単語集合 $\mathbf{w}_d$ の生成確率を、各単語 $w_{dn}$ の生成確率の積に分解する。

　さらに、確率分布を具体的な式に置き換えて、式を整理する。

$\displaystyle \begin{align} p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\beta}) &= \int \left\{ \prod_{d=1}^D \prod_{n=1}^{N_d} \phi_{z_{dn}w_{dn}} \right\} \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\prod_{v=1}^V \Gamma(\beta_v)} \prod_{v=1}^V \phi_{kv}^{\beta_v-1} \right\} \mathrm{d} \boldsymbol{\Phi} \\ &= \int \left\{ \prod_{k=1}^K \prod_{v=1}^V \phi_{kv}^{N_{kv}} \right\} \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\prod_{v=1}^V \Gamma(\beta_v)} \prod_{v=1}^V \phi_{kv}^{\beta_v-1} \right\} \mathrm{d} \boldsymbol{\Phi} \\ &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\prod_{v=1}^V \Gamma(\beta_v)} \int \prod_{v=1}^V \phi_{kv}^{N_{kv}+\beta_v-1} \mathrm{d} \boldsymbol{\phi}_k \right\} \\ &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\prod_{v=1}^V \Gamma(\beta_v)} \frac{ \prod_{v=1}^V \Gamma(N_{kv} + \beta_v) }{ \Gamma(\sum_{v=1}^V \{N_{kv} + \beta_v\}) } \right\} \\ &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\prod_{v=1}^V \Gamma(\beta_v)} \frac{ \prod_{v=1}^V \Gamma(N_{kv} + \beta_v) }{ \Gamma(N_k + \sum_{v=1}^V \beta_v) } \right\} \tag{4.11}\\ &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\Gamma(N_k + \sum_{v=1}^V \beta_v)} \prod_{v=1}^V \frac{\Gamma(N_{kv} + \beta_v)}{\Gamma(\beta_v)} \right\} \tag{4.11'} \end{align}$

途中式の途中式(クリックで展開)

1: 各単語の語彙 $w_{dn}$ はカテゴリ分布、各トピックの単語分布のパラメータ $\boldsymbol{\phi}_k$ はディリクレ分布を仮定しているので、それぞれ定義式に置き換える。

$\displaystyle \begin{aligned} p(w_{dn} \mid \boldsymbol{\phi}_{z_{dn}}) &= \mathrm{Cat}(w_{dn} \mid \boldsymbol{\phi}_{z_{dn}}) = \phi_{z_{dn}w_{dn}} \\ p(\boldsymbol{\phi}_k \mid \boldsymbol{\beta}) &= \mathrm{Dir}(\boldsymbol{\phi}_k \mid \boldsymbol{\beta}) = \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\prod_{v=1}^V \Gamma(\beta_v)} \prod_{v=1}^V \phi_{kv}^{\beta_v-1} \end{aligned}$

2: $N = \sum_{d=1}^D N_d$ 個の単語に対応するパラメータ $\phi_{z_{dn}w_{dn}}$ について、各単語に割り当てられたトピック番号 $z_{dn} = k$ と語彙番号 $w_{dn} = v$ を用いてトピックと語彙ごとにまとめると、 $N_{kv}$ 個の $\phi_{kv}$ に置き換えられる。詳しくは「一様版」を参照のこと。
3: $\boldsymbol{\Phi}$ と無関係な正規化項を $\int$ の外に出し、 $\phi_{kv}$ の項をまとめる。
4: ディリクレ分布の正規化項(1.2.4項)より、積分全体を正規化項の逆数の形に置き換える。
5: 語彙ごとの単語数の関係より、 $N_k = \sum_{v=1}^V N_{kv}$ である。
6: 不動点反復法を行うために分母を入れ替えて $\beta_v, \sum_{v=1}^V \beta_v$ の項をそれぞれまとめる。

　 $\mathbf{W}$ の周辺分布の式が得られた。

結合周辺分布

　 $\mathbf{W}, \mathbf{Z}$ の結合周辺分布の式(4.9)に、 $\mathbf{Z}$ の周辺分布の式(4.10')と $\mathbf{W}$ の周辺分布の式(4.11')を代入する。

$\displaystyle \begin{aligned} p(\mathbf{W}, \mathbf{Z} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) &= \prod_{d=1}^D \left\{ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\Gamma(N_d + \sum_{k=1}^K \alpha_k)} \prod_{k=1}^K \frac{\Gamma(N_{dk} + \alpha_k)}{\Gamma(\alpha_k)} \right\} \\ &\quad * \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\Gamma(N_k + \sum_{v=1}^V \beta_v)} \prod_{v=1}^V \frac{\Gamma(N_{kv} + \beta_v)}{\Gamma(\beta_v)} \right\} \end{aligned}$

　 $\mathbf{W}, \mathbf{Z}$ の結合周辺分布の式が得られた。

　以上で、文書集合とトピック集合それぞれの周辺分布の式と、結合周辺分布の式が得られた。

スポンサードリンク

サンプリング式の導出

　次は、文書集合とトピック集合の周辺分布を用いて、各単語のトピックのサンプリング確率(条件付き分布)を導出する。

　全ての文書集合 $\mathbf{W}$ から文書 $d$ の $n$ 番目の単語 $w_{dn}$ を除いた文書集合を $\mathbf{W}_{\backslash dn} = \{w_{1,1}, \cdots, w_{d,n-1}, w_{d,n+1}, \cdots, w_{D,N_D}\}$ とする。全ての文書集合は $\mathbf{W} = \{w_{dn}, \mathbf{W}_{\backslash dn}\}$ で表わせる。
　全文書のトピック集合 $\mathbf{Z}$ から単語 $w_{dn}$ のトピック $z_{dn}$ を除いたトピック集合を $\mathbf{Z}_{\backslash dn} = \{z_{1,1}, \cdots, z_{d,n-1}, z_{d,n+1}, \cdots, z_{D,N_d}\}$ とする。全てのトピック集合は $\mathbf{Z} = \{z_{dn}, \mathbf{Z}_{\backslash dn}\}$ で表せる。
　同様に、 $w_{dn}$ を除く文書 $d$ におけるピック $k$ が割り当てられた単語数を $N_{dk \backslash dn}$ 、 $w_{dn}$ を除くトピック $k$ が割り当てられた全ての文書における語彙 $v$ の単語数を $N_{kv \backslash dn}$ 、 $w_{dn}$ を除くトピック $k$ が割り当てられた全ての文書の単語数を $N_{k \backslash dn}$ で表す。

トピックの条件付き分布の設定

　全単語の文書集合 $\mathbf{W}$ と単語 $w_{dn}$ 以外のトピック集合 $\mathbf{Z}_{\backslash dn}$ が与えられた(条件とする)ときの単語 $w_{dn}$ のトピック $z_{dn}$ の条件付き分布を求める。

$\displaystyle \begin{align} p(z_{dn} = k \mid \mathbf{W}, \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}, \boldsymbol{\beta}) &= \frac{ p(w_{dn}, \mathbf{W}_{\backslash dn}, z_{dn} = k, \mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ p(w_{dn}, \mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) } \\ &\propto p(w_{dn}, \mathbf{W}_{\backslash dn}, z_{dn} = k, \mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) \\ &= p(z_{dn} = k \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}) p(w_{dn} \mid \mathbf{W}_{\backslash dn}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) \\ &\quad * p(\mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}) p(\mathbf{W}_{\backslash dn} \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) \\ &\propto p(z_{dn} = k \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}) p(w_{dn} \mid \mathbf{W}_{\backslash dn}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) \tag{4.12} \end{align}$

途中式の途中式(クリックで展開)

1: 条件付き確率 $p(A \mid B, C) = \frac{p(A, B \mid C)}{p(B \mid C)}$ より、目的の変数 $z_{dn}$ 以外の変数 $w_{dn}, \mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn}$ を条件に移した式を立てる。
2: $z_{dn}$ と無関係な項を省く。
3: 変数ごとの項に分割する。

　単語 $w_{dn}$ に関する変数 $w_{dn}, z_{dn}$ と単語 $w_{dn}$ 以外に関する変数 $\mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn}$ の項を分割する。

$\displaystyle p( w_{dn}, \mathbf{W}_{\backslash dn}, z_{dn} = k, \mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}, \boldsymbol{\beta} ) = p( w_{dn}, z_{dn} = k \mid \mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}, \boldsymbol{\beta} ) p( \mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}, \boldsymbol{\beta} )$

　さらに前の項の、観測変数 $w_{dn}$ と潜在変数 $z_{dn}$ の項を分割する。

$\displaystyle p( w_{dn}, z_{dn} = k \mid \mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}, \boldsymbol{\beta} ) = p( w_{dn} \mid \mathbf{W}_{\backslash dn}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta} ) p( z_{dn} = k \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha} )$

　後の項の、観測変数 $\mathbf{W}_{\backslash dn}$ と潜在変数 $\mathbf{Z}_{\backslash dn}$ の項を分割する。

$\displaystyle p(\mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) = p(\mathbf{W}_{\backslash dn} \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) p(\mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha})$

4: $z_{dn}$ と無関係な項を省く。

　 $z_{dn}$ に影響しない項を省いて比例関係のみに注目すると、 $w_{dn}, z_{dn}$ に関する事後周辺分布から得られることが分かった。

トピックの事後周辺分布

　 $z_{dn}$ の条件付き分布の式(4.12)の前の項は、単語 $w_{dn}$ 以外のトピック集合 $\mathbf{Z}_{\backslash dn}$ が与えられたときの単語 $w_{dn}$ のトピック $z_{dn}$ の周辺分布である。
　この式は、 $\mathbf{Z}$ の周辺分布の式(4.10)を用いて求められる。

$\displaystyle \begin{align} p(z_{dn} = k \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}) &= \frac{ p(z_{dn} = k, \mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}) }{ p(\mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}) } \\ &= \frac{\Gamma(\sum_{k'=1}^K \alpha_{k'})^D}{\prod_{k'=1}^K \Gamma(\alpha_{k'})^D} \frac{ \Gamma(N_{dk \backslash dn} + 1 + \alpha_k) \prod_{k' \neq k} \Gamma(N_{dk' \backslash dn} + \alpha_{k'}) }{ \Gamma(N_d + \sum_{k'=1}^K \alpha_{k'}) } \prod_{d' \neq d} \frac{ \prod_{k'=1}^K \Gamma(N_{d'k' \backslash dn} + \alpha_{k'}) }{ \Gamma(N_{d'} + \sum_{k'=1}^K \alpha_{k'}) } \\ &\quad * \frac{\prod_{k'=1}^K \Gamma(\alpha_{k'})^D}{\Gamma(\sum_{k'=1}^K \alpha_{k'})^D} \frac{ \Gamma(N_d-1 + \sum_{k'=1}^K \alpha_{k'}) }{ \prod_{k'=1}^K \Gamma(N_{dk' \backslash dn} + \alpha_{k'}) } \prod_{d' \neq d} \frac{ \Gamma(N_{d'} + \sum_{k'=1}^K \alpha_{k'}) }{ \prod_{k'=1}^K \Gamma(N_{d'k' \backslash dn} + \alpha_{k'}) } \\ &= \frac{ (N_{dk \backslash dn} + \alpha_k) \Gamma(N_{dk \backslash dn} + \alpha_k) \prod_{k' \neq k} \Gamma(N_{dk' \backslash dn} + \alpha_{k'}) }{ (N_d-1 + \sum_{k'=1}^K \alpha_{k'}) \Gamma(N_d-1 + \sum_{k'=1}^K \alpha_{k'}) } \\ &\quad * \frac{ \Gamma(N_d-1 + \sum_{k'=1}^K \alpha_{k'}) }{ \prod_{k'=1}^K \Gamma(N_{dk' \backslash dn} + \alpha_{k'}) } \\ &= \frac{ N_{dk \backslash dn} + \alpha_k }{ N_d-1 + \sum_{k'=1}^K \alpha_{k'} } \tag{4.13} \end{align}$

途中式の途中式(クリックで展開)

1: 条件付き確率より、目的の変数 $z_{dn}$ 以外の変数 $\mathbf{Z}_{\backslash dn}$ を条件に移した式を立てる。
2: 式(4.10)を用いて、分母分子を具体的な式に置き換える。

　 $\mathbf{Z}$ の周辺分布(分子)は式(4.10)であり、 $\mathbf{Z}_{\backslash dn}$ の周辺分布(分母)は式(4.10)から単語 $w_{dn}$ に関して取り除いた式である。

$\displaystyle \begin{align} p(z_{dn} = k, \mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}) &= \prod_{d'=1}^D \left\{ \frac{\Gamma(\sum_{k'=1}^K \alpha_{k'})}{\prod_{k'=1}^K \Gamma(\alpha_{k'})} \frac{ \prod_{k'=1}^K \Gamma(N_{d'k'} + \alpha_{k'}) }{ \Gamma(N_{d'} + \sum_{k'=1}^K \alpha_{k'}) } \right\} \tag{4.10}\\ p(\mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha_k}) &= \prod_{d'=1}^D \left\{ \frac{\Gamma(\sum_{k'=1}^K \alpha_{k'})}{\prod_{k'=1}^K \Gamma(\alpha_{k'})} \frac{ \prod_{k'=1}^K \Gamma(N_{d'k' \backslash dn} + \alpha_{k'}) }{ \Gamma(N_{d' \backslash dn} + \sum_{k'=1}^K \alpha_{k'}) } \right\} \end{align}$

　ただし、次の関係である。詳しくは「一様版」を参照のこと。

$\displaystyle \begin{aligned} N_{dk} &= \begin{cases} N_{dk \backslash dn} + 1 &\quad (z_{dn} = k) \\ N_{dk \backslash dn} &\quad (z_{dn} \neq k) \end{cases} \\ N_{d \backslash dn} &= N_d - 1 \end{aligned}$

　 $\mathbf{Z}$ の周辺分布の式について $N_{dk}$ を $N_{dk \backslash dn}$ 、 $\mathbf{Z}_{\backslash dn}$ の周辺分布の式について $N_{d \backslash dn}$ を $N_d$ に置き換える。
　文書 $d$ やトピック $k$ の項のみ形が異なるので、 $\prod_{d=1}^D, \prod_{k=1}^K$ から取り出し、 $d$ 以外の項の積を $\prod_{d' \neq d}$ 、 $k$ 以外の項の積を $\prod_{k' \neq k}$ で表す。
　正規化項は $\prod_{d'=1}^D \frac{\Gamma(\sum_{k'=1}^K \alpha_k)}{\prod_{k'=1}^K \Gamma(\alpha_k)} = \frac{\Gamma(\sum_{k'=1}^K \alpha_k)^D}{\prod_{k'=1}^K \Gamma(\alpha_k)^D}$ となる。

3: ガンマ関数の性質 $\Gamma(x) = (x - 1) \Gamma(x - 1)$ より、項を変形する。
4: $k$ に関する総乗 $\prod_{k'=1}^K \Gamma(N_{dk' \backslash dn} + \alpha_{k'}) = \Gamma(N_{dk \backslash dn} + \alpha_k) \prod_{k' \neq k} \Gamma(N_{dk' \backslash dn} + \alpha_{k'})$ なので、約分すると $d, k$ に関する項のみが残る。

　 $z_{dn}$ (に割り当てられるトピック $k$ )の事後周辺分布の式が得られた。

単語の事後周辺分布

　 $z_{dn}$ の条件付き分布の式(4.12)の後の項は、単語 $w_{dn}$ 以外の文書集合 $\mathbf{W}_{\backslash dn}$ と全単語のトピック集合 $\mathbf{Z}$ が与えられたときの単語 $w_{dn}$ の周辺分布である。
　この式は、 $\mathbf{W}$ の周辺分布の式(4.11)を用いて求められる。

$\displaystyle \begin{align} p(w_{dn} \mid \mathbf{W}_{\backslash dn}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) &= \frac{ p(w_{dn}, \mathbf{W}_{\backslash dn} \mid z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) }{ p(\mathbf{W}_{\backslash dn} \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) } \\ &= \frac{\Gamma(\sum_{v=1}^V \beta_v)^K}{\prod_{v=1}^V \Gamma(\beta_v)^K} \frac{ \Gamma(N_{kw_{dn} \backslash dn} + 1 + \beta_{w_{dn}}) \prod_{v \neq w_{dn}} \Gamma(N_{k'v \backslash dn} + \beta_v) }{ \Gamma(N_{k \backslash dn} + 1 + \sum_{v=1}^V \beta_v) } \prod_{k' \neq k} \frac{ \prod_{v=1}^V \Gamma(N_{k'v \backslash dn} + \beta_v) }{ \Gamma(N_{k' \backslash dn} + \sum_{v=1}^V \beta_v) } \\ &\quad * \frac{\prod_{v=1}^V \Gamma(\beta_v)^K}{\Gamma(\sum_{v=1}^V \beta_v)^K} \frac{ \Gamma(N_{k \backslash dn} + \sum_{v=1}^V \beta_v) }{ \prod_{v=1}^V \Gamma(N_{kv \backslash dn} + \beta_v) } \prod_{k' \neq k} \frac{ \Gamma(N_{k' \backslash dn} + \sum_{v=1}^V \beta_v) }{ \prod_{v=1}^V \Gamma(N_{k'v \backslash dn} + \beta_v) }\ \\ &= \frac{ (N_{kw_{dn} \backslash dn} + \beta_{w_{dn}}) \Gamma(N_{kw_{dn} \backslash dn} + \beta_{w_{dn}}) \prod_{v \neq w_{dn}} \Gamma(N_{kv \backslash dn} + \beta_v) }{ (N_{k \backslash dn} + \sum_{v=1}^V \beta_v) \Gamma(N_{k \backslash dn} + \sum_{v=1}^V \beta_v) } \\ &\quad * \frac{ \Gamma(N_{k \backslash dn} + \sum_{v=1}^V \beta_v) }{ \prod_{v=1}^V \Gamma(N_{kv \backslash dn} + \beta_v) } \\ &= \frac{ N_{kw_{dn} \backslash dn} + \beta_{w_{dn}} }{ N_{k \backslash dn} + \sum_{v=1}^V \beta_v } \tag{4.14} \end{align}$

途中式の途中式(クリックで展開)

1: 条件付き確率より、目的の変数 $w_{dn}$ 以外の変数 $\mathbf{W}_{\backslash dn}$ を条件に移した式を立てる。
2: 式(4.11)を用いて、分母分子の項を具体的な式に置き換える。

　 $\mathbf{W}$ の周辺分布(分子)は式(4.11)であり、 $\mathbf{W}_{\backslash dn}$ の周辺分布(分母)は式(4.11)から単語 $w_{dn}$ に関して取り除いた式である。

$\displaystyle \begin{align} p(w_{dn}, \mathbf{W}_{\backslash dn} \mid z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) &= \prod_{k'=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\prod_{v=1}^V \Gamma(\beta_v)} \frac{ \prod_{v=1}^V \Gamma(N_{k'v} + \beta_v) }{ \Gamma(N_{k'} + \sum_{v=1}^V \beta_v) } \right\} \tag{4.11}\\ p(\mathbf{W}_{\backslash dn} \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) &= \prod_{k'=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\prod_{v=1}^V \Gamma(\beta_v)} \frac{ \prod_{v=1}^V \Gamma(N_{k'v \backslash dn} + \beta_v) }{ \Gamma(N_{k' \backslash dn} + \sum_{v=1}^V \beta_v) } \right\} \end{align}$

　ただし、次の関係である。詳しくは「一様版」を参照のこと。

$\displaystyle \begin{aligned} N_{kw_{dn}} &= \begin{cases} N_{kw_{dn} \backslash dn} + 1 &\quad (z_{dn} = k) \\ N_{kw_{dn} \backslash dn} &\quad (z_{dn} \neq k) \end{cases} \\ N_k &= \begin{cases} N_{k \backslash dn} + N_d &\quad (z_{dn} = k) \\ N_{k \backslash dn} &\quad (z_{dn} \neq k) \end{cases} \end{aligned}$

　 $\mathbf{W}$ の周辺分布の式について、 $N_{kv}, N_k$ を $N_{kv \backslash dn}, N_{k \backslash dn}$ に置き換える。
　トピック $k$ や語彙 $w_{dn}$ の項のみ形が異なるので、 $\prod_{k=1}^K, \prod_{v=1}^V$ から取り出し、 $k$ 以外の項の積を $\prod_{k' \neq k}$ 、 $w_{dn}$ 以外の項の積を $\prod_{v \neq w_{dn}}$ で表す。
　正規化項は $\prod_{k'=1}^K \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\prod_{v=1}^V \Gamma(\beta_v)} = \frac{\Gamma(\sum_{v=1}^V \beta_v)^K}{\prod_{v=1}^V \Gamma(\beta_v)^K}$ となる。

3: ガンマ関数の性質より、項を変形する。
4: $v$ に関する総乗 $\prod_{v=1}^V \Gamma(N_{kv \backslash dn} + \beta_k) = \Gamma(N_{kw_{dn} \backslash dn} + \beta_k) \prod_{v \neq w_{dn}} \Gamma(N_{kv \backslash dn} + \beta_k)$ なので、約分すると $k, v = w_{dn}$ に関する項のみが残る。

　 $w_{dn}$ の事後周辺分布の式が得られた。

トピックの条件付き分布

　 $z_{dn}$ の条件付き分布の式(4.12)に、 $z_{dn}$ の事後周辺分布の式(4.13)と $w_{dn}$ の事後周辺分布の式(4.14)を代入する。

$\displaystyle \begin{align} p(z_{dn} = k \mid \mathbf{W}, \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}, \boldsymbol{\beta}) &\propto \frac{ N_{dk \backslash dn} + \alpha_k }{ N_d-1 + \sum_{k=1}^K \alpha_k } \frac{ N_{kw_{dn} \backslash dn} + \beta_{w_{dn}} }{ N_{k \backslash dn} + \sum_{v=1}^V \beta_v } \\ &\propto (N_{dk \backslash dn} + \alpha_k) \frac{ N_{kw_{dn} \backslash dn} + \beta_{w_{dn}} }{ N_{k \backslash dn} + \sum_{v=1}^V \beta_v } \tag{4.15} \end{align}$

　 $z_{dn} = k$ に影響しない項を省いた。他のトピックについても同様に計算でき、全てのトピックに関する和で割ると正規化できる。
　 $z_{dn}$ の条件付き分布の式が得られた。

　以上で、各単語のトピックのサンプリング式が得られた。

スポンサードリンク

ハイパーパラメータの更新式の導出

　続いて、サンプリングしたトピック集合を用いて、文書集合とトピック集合の結合周辺分布を最大化するハイパーパラメータを推定する。しかし、解析的に求められない。そこで、不動点反復法により結合周辺分布の下限を繰り返し更新することで最大化を行うためのトピック分布と単語分布のハイパーパラメータの更新式を導出する。

結合周辺分布の下限の設定

　 $\mathbf{Z}$ の周辺分布の式(4.10')を

$\displaystyle \begin{align} p(\mathbf{Z} \mid \boldsymbol{\alpha}) &= \prod_{d=1}^D \left\{ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\Gamma(N_d + \sum_{k=1}^K \alpha_k)} \prod_{k=1}^K \frac{\Gamma(N_{dk} + \alpha_k)}{\Gamma(\alpha_k)} \right\} \tag{4.10'}\\ &\geq \prod_{d=1}^D \left[ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\Gamma(N_d + \sum_{k=1}^K \alpha_k)} \exp \Bigl( (\alpha_k - \alpha_k^{\mathrm{new}}) b_{\alpha} \Bigr) \prod_{k=1}^K \left\{ \frac{\Gamma(N_{dk} + \alpha_k)}{\Gamma(\alpha_k)} \alpha_k^{-a_{\alpha}} (\alpha_k^{\mathrm{new}})^{a_{\alpha}} \right\} \right] \end{align}$

と変形し、また $\mathbf{W}$ の周辺分布の式(4.11')を

$\displaystyle \begin{align} p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\beta}) &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\Gamma(N_k + \sum_{v=1}^V \beta_v)} \prod_{v=1}^V \frac{\Gamma(N_{kv} + \beta_v)}{\Gamma(\beta_v)} \right\} \tag{4.11'}\\ &\geq \prod_{k=1}^K \left[ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\Gamma(N_k + \sum_{v=1}^V \beta_v)} \exp \Bigl( (\beta_v - \beta_v^{\mathrm{new}}) b_{\beta} \Bigr) \prod_{v=1}^V \left\{ \frac{\Gamma(N_{kv} + \beta_v)}{\Gamma(\beta_v)} \beta_v^{-a_{\beta}} (\beta_v^{\mathrm{new}})^{a_{\beta}} \right\} \right] \end{align}$

と変形して、 $\mathbf{W}, \mathbf{Z}$ の結合周辺分布の式(4.9)を置き換え下限 $G$ とおく。

$\displaystyle \begin{aligned} p(\mathbf{W}, \mathbf{Z} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) &\geq \prod_{d=1}^D \Biggl[ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\Gamma(N_d + \sum_{k=1}^K \alpha_k)} \exp \Bigl( (\alpha_k - \alpha_k^{\mathrm{new}}) b_{\alpha} \Bigr) \Biggr. \\ &\qquad \qquad * \Biggl. \prod_{k=1}^K \left\{ \frac{\Gamma(N_{dk} + \alpha_k)}{\Gamma(\alpha_k)} \alpha_k^{-a_{\alpha}} (\alpha_k^{\mathrm{new}})^{a_{\alpha}} \right\} \Biggr] \\ &\quad * \prod_{k=1}^K \Biggl[ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\Gamma(N_k + \sum_{v=1}^V \beta_v)} \exp \Bigl( (\beta_v - \beta_v^{\mathrm{new}}) b_{\beta} \Bigr) \Biggr. \\ &\qquad \qquad * \Biggl. \prod_{v=1}^V \left\{ \frac{\Gamma(N_{kv} + \beta_v)}{\Gamma(\beta_v)} \beta_v^{-a_{\beta}} (\beta_v^{\mathrm{new}})^{a_{\beta}} \right\} \Biggr] \equiv G \end{aligned}$

　また、次のようにおいた。

$\displaystyle \begin{aligned} a_{\alpha} &= \Bigl( \Psi(N_{dk} + \alpha_k) - \Psi(\alpha_k) \Bigr) \alpha_k \\ b_{\alpha} &= \Psi \Bigl(N_d + \sum_{k=1}^K \alpha_k \Bigr) - \Psi \Bigl(\sum_{k=1}^K \alpha_k \Bigr) \\ a_{\beta} &= \Bigl( \Psi(N_{kv} + \beta_v) - \Psi(\beta_v) \Bigr) \beta_v \\ b_{\beta} &= \Psi \Bigl(N_k + \sum_{v=1}^V \beta_v \Bigr) - \Psi \Bigl(\sum_{v=1}^V \beta_v \Bigr) \end{aligned} \tag{7}$

途中式の途中式(クリックで展開)

1: 対数ガンマとディガンマ関数の不等式を用いて、項を置き換える。

　 $\hat{x} \geq 0$ に対して、 $x \gt 0$ 、 $n \geq 0$ のとき、次の関係が成り立つ。

$\displaystyle \begin{aligned} \frac{\Gamma(x)}{\Gamma(n + x)} &\geq \frac{\Gamma(\hat{x})}{\Gamma(n + \hat{x})} \exp \Bigl( (\hat{x} - x) b \Bigr) \\ b &= \Psi(n + \hat{x}) - \Psi(\hat{x}) \end{aligned}$

　また、 $\hat{x} \geq 0$ に対して、 $n \geq 1$ のとき、次の関係が成り立つ。

$\displaystyle \begin{aligned} \frac{\Gamma(n + x)}{\Gamma(x)} &\geq \frac{\Gamma(n + \hat{x})}{\Gamma(\hat{x})} \hat{x}^{-a} x^a \\ a &= \Bigl( \Psi(n + \hat{x}) - \Psi(\hat{x}) \Bigr) \hat{x} \end{aligned}$

　現在の値(中心) $\hat{x}$ を $\alpha_k, \beta_v$ 、更新後の値(変数) $x$ を $\alpha_k^{\mathrm{new}}, \beta_v^{\mathrm{new}}$ と対応させて下限の式に変形する。

　現在の値を $\alpha_k, \beta_v$ 、更新後の値を $\alpha_k^{\mathrm{new}}, \beta_v^{\mathrm{new}}$ とする( $a, b$ の添字の $\alpha, \beta$ は識別用で計算上の意味はない)。周辺尤度に関して $\alpha_k, \beta_v$ の周りでテイラー展開(近似)して下限として用いる。
　下限への変形については「対数ガンマ関数とディガンマ関数の不等式の導出【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。

　 $\mathbf{W}, \mathbf{Z}$ の結合周辺分布の下限 $G$ の対数をとり対数下限 $F$ とおく。

$\displaystyle \begin{align} F &= \log G \\ &= \sum_{d=1}^D \Biggl[ \log \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\Gamma(N_d + \sum_{k=1}^K \alpha_k)} + (\alpha_k - \alpha_k^{\mathrm{new}}) b_{\alpha} \Biggr. \\ &\qquad \qquad \Biggl. + \sum_{k=1}^K \left\{ \log \frac{\Gamma(N_{dk} + \alpha_k)}{\Gamma(\alpha_k)} - a_{\alpha} \log \alpha_k + a_{\alpha} \log \alpha_k^{\mathrm{new}} \right\} \Biggr] \\ &\quad + \sum_{k=1}^K \Biggl[ \log \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\Gamma(N_k + \sum_{v=1}^V \beta_v)} + (\beta_v - \beta_v^{\mathrm{new}}) b_{\beta} \Biggr. \\ &\qquad \qquad \Biggl. + \sum_{v=1}^V \left\{ \log \frac{\Gamma(N_{kv} + \beta_v)}{\Gamma(\beta_v)} - a_{\beta} \log \beta_v + a_{\beta} \log \beta_v^{\mathrm{new}} \right\} \Biggr] \end{align}$

　 $\mathbf{W}, \mathbf{Z}$ の結合周辺分布の対数下限の式が得られた。

トピック分布のハイパーパラメータ

　 $\mathbf{W}, \mathbf{Z}$ の結合周辺分布の対数下限 $F$ から $\alpha_k^{\mathrm{new}}$ に関する項を取り出し(無関係な項を定数 $\mathrm{const.}$ にまとめ)関数 $F(\alpha_k^{\mathrm{new}})$ とおく。

$\displaystyle F(\alpha_k^{\mathrm{new}}) = \sum_{d=1}^D \Bigl\{ - b_{\alpha} \alpha_k^{\mathrm{new}} + a_{\alpha} \log \alpha_k^{\mathrm{new}} \Bigr\} + \mathrm{const.}$

　関数 $F(\alpha_k^{\mathrm{new}})$ を $\alpha_k^{\mathrm{new}}$ に関して微分する。

$\displaystyle \begin{aligned} \frac{\partial F(\alpha_k^{\mathrm{new}})}{\partial \alpha_k^{\mathrm{new}}} &= \frac{\partial}{\partial \alpha_k^{\mathrm{new}}} \left\{ \sum_{d=1}^D \Bigl\{ - b_{\alpha} \alpha_k^{\mathrm{new}} + a_{\alpha} \log \alpha_k^{\mathrm{new}} \Bigr\} + \mathrm{const.} \right\} \\ &= \sum_{d=1}^D \frac{\partial}{\partial \alpha_k^{\mathrm{new}}} \Bigl\{ - b_{\alpha} \alpha_k^{\mathrm{new}} \Bigr\} + \sum_{d=1}^D \frac{\partial}{\partial \alpha_k^{\mathrm{new}}} \Bigl\{ a_{\alpha} \log \alpha_k^{\mathrm{new}} \Bigr\} + \frac{\partial \mathrm{const.}}{\partial \alpha_k^{\mathrm{new}}} \\ &= - \sum_{d=1}^D b_{\alpha} \frac{\partial \alpha_k^{\mathrm{new}}}{\partial \alpha_k^{\mathrm{new}}} + \sum_{d=1}^D a_{\alpha} \frac{\partial \log \alpha_k^{\mathrm{new}}}{\partial \alpha_k^{\mathrm{new}}} + 0 \\ &= - \sum_{d=1}^D b_{\alpha} + \sum_{d=1}^D a_{\alpha} \frac{1}{\alpha_k^{\mathrm{new}}} \end{aligned}$

途中式の途中式(クリックで展開)

1: $F$ の式全体の偏微分を考える。 $\alpha_k^{\mathrm{new}}$ に関する微分なので、 $\alpha_k$ は定数として扱う。
2: 和の微分 $\{f(x) + g(x)\}' = f'(x) + g'(x)$ より、項ごとの微分の和に分割する。
3: $\alpha_k^{\mathrm{new}}$ の係数を $\frac{\partial}{\partial \alpha_k^{\mathrm{new}}}$ の外に出す。
4: 自然対数の微分 $\{\log x\}' = \frac{1}{x}$ を行う。

　 $\frac{\partial F(\alpha_k^{\mathrm{new}})}{\partial \alpha_k^{\mathrm{new}}} = 0$ となる $\alpha_k^{\mathrm{new}}$ を求める。

$\displaystyle \begin{align} && - \sum_{d=1}^D b_{\alpha} + \frac{\sum_{d=1}^D a_{\alpha}}{\alpha_k^{\mathrm{new}}} &= 0 \\ \Rightarrow && \alpha_k^{\mathrm{new}} &= \frac{\sum_{d=1}^D a_{\alpha}}{\sum_{d=1}^D b_{\alpha}} \\ && &= \frac{ \sum_{d=1}^D \Bigl( \Psi(N_{dk} + \alpha_k) - \Psi(\alpha_k) \Bigr) \alpha_k }{ \sum_{d=1}^D \Bigl\{ \Psi(N_d + \sum_{k'=1}^K \alpha_{k'}) - \Psi(\sum_{k'=1}^K \alpha_{k'}) \Bigr\} } \\ && &= \alpha_k \frac{ \sum_{d=1}^D \Psi(N_{dk} + \alpha_k) - D \Psi(\alpha_k) }{ \sum_{d=1}^D \Psi(N_d + \sum_{k'=1}^K \alpha_{k'}) - D \Psi(\sum_{k'=1}^K \alpha_{k'}) } \tag{4.16} \end{align}$

途中式の途中式(クリックで展開)

1: $\frac{\partial F(\alpha_k^{\mathrm{new}})}{\partial \alpha_k^{\mathrm{new}}}$ を $0$ とおく。
2: $\alpha_k^{\mathrm{new}}$ について式を整理する。
3: $a_{\alpha}, b_{\alpha}$ に式(7)を代入する。
4: 括弧を展開する。

　不動点反復法によるハイパーパラメータの計算式が得られた。

　 $i$ 回目の更新において、 $\alpha_k$ を更新前の値( $i-1$ 回目の更新値) $\alpha_k^{(i-1)}$ 、 $\alpha_k^{\mathrm{new}}$ を更新後の値( $i$ 回目の更新値) $\alpha_k^{(i)}$ とする。また、初期値は $\alpha_k^{(0)}$ とする。

$\displaystyle \alpha_k^{(i)} = \alpha_k^{(i-1)} \frac{ \sum_{d=1}^D \Psi \Bigl( N_{dk}^{(i-1)} + \alpha_k^{(i-1)} \Bigr) - D \Psi \Bigl( \alpha_k^{(i-1)} \Bigr) }{ \sum_{d=1}^D \Psi \Bigl( N_d^{(i-1)} + \sum_{k'=1}^K \alpha_{k'}^{(i-1)} \Bigr) - D \Psi \Bigl( \sum_{k'=1}^K \alpha_{k'}^{(i-1)} \Bigr) }$

　 $\alpha_k$ の更新式が得られた。他のトピックについても同様に求められる。

単語分布のハイパーパラメータ

　 $\mathbf{W}, \mathbf{Z}$ の結合周辺分布の対数下限 $F$ から $\beta_v^{\mathrm{new}}$ に関する項を取り出し関数 $F(\beta_v^{\mathrm{new}})$ とおく。

$\displaystyle F(\beta_v^{\mathrm{new}}) = \sum_{k=1}^K \Bigl\{ - b_{\beta} \beta_v^{\mathrm{new}} + a_{\beta} \log \beta_v^{\mathrm{new}} \Bigr\} + \mathrm{const.}$

　関数 $F(\beta_v^{\mathrm{new}})$ を $\beta_v^{\mathrm{new}}$ に関して微分する。

$\displaystyle \begin{aligned} \frac{\partial F(\beta_v^{\mathrm{new}})}{\partial \beta_v^{\mathrm{new}}} &= \frac{\partial}{\partial \beta_v^{\mathrm{new}}} \left\{ \sum_{k=1}^K \Bigl\{ - b_{\beta} \beta_v^{\mathrm{new}} + a_{\beta} \log \beta_v^{\mathrm{new}} \Bigr\} + \mathrm{const.} \right\} \\ &= \sum_{k=1}^K \frac{\partial}{\partial \beta_v^{\mathrm{new}}} \Bigl\{ - b_{\beta} \beta_v^{\mathrm{new}} \Bigr\} + \sum_{k=1}^K \frac{\partial}{\partial \beta_v^{\mathrm{new}}} \Bigl\{ a_{\beta} \log \beta_v^{\mathrm{new}} \Bigr\} + \frac{\partial \mathrm{const.}}{\partial \beta_v^{\mathrm{new}}} \\ &= - \sum_{k=1}^K b_{\beta} \frac{\partial \beta_v^{\mathrm{new}}}{\partial \beta_v^{\mathrm{new}}} + \sum_{k=1}^K a_{\beta} \frac{\partial \log \beta_v^{\mathrm{new}}}{\partial \beta_v^{\mathrm{new}}} + 0 \\ &= - \sum_{k=1}^K b_{\beta} + \sum_{k=1}^K a_{\beta} \frac{1}{\beta_v^{\mathrm{new}}} \end{aligned}$

途中式の途中式(クリックで展開)

1: $F$ の式全体の偏微分を考える。 $\beta_v^{\mathrm{new}}$ に関する微分なので、 $\beta_v$ は定数として扱う。
2: 和の微分より、項ごとの微分の和に分割する。
3: $\beta_v^{\mathrm{new}}$ の係数を $\frac{\partial}{\partial \beta_v^{\mathrm{new}}}$ の外に出す。
4: 自然対数の微分を行う。

　 $\frac{\partial F(\beta_v^{\mathrm{new}})}{\partial \beta_v^{\mathrm{new}}} = 0$ となる $\beta_v^{\mathrm{new}}$ を求める。

$\displaystyle \begin{align} && - \sum_{k=1}^K b_{\beta} + \frac{\sum_{k=1}^K a_{\beta}}{\beta_v^{\mathrm{new}}} &= 0 \\ \Rightarrow && \beta_v^{\mathrm{new}} &= \frac{\sum_{k=1}^K a_{\beta}}{\sum_{k=1}^K b_{\beta}} \\ && &= \frac{ \sum_{k=1}^K \Bigl( \Psi(N_{kv} + \beta_v) - \Psi(\beta_v) \Bigr) \beta_v }{ \sum_{k=1}^K \Bigl\{ \Psi(N_k + \sum_{v'=1}^V \beta_{v'}) - \Psi(\sum_{v'=1}^V \beta_{v'}) \Bigr\} } \\ && &= \beta_v \frac{ \sum_{k=1}^K \Psi(N_{kv} + \beta_v) - K \Psi(\beta_v) }{ \sum_{k=1}^K \Psi(N_k + \sum_{v'=1}^V \beta_{v'}) - K \Psi(\sum_{v'=1}^V \beta_{v'}) } \tag{4.17} \end{align}$

途中式の途中式(クリックで展開)

1: $\frac{\partial F(\beta_v^{\mathrm{new}})}{\partial \beta_v^{\mathrm{new}}}$ を $0$ とおく。
2: $\beta_v^{\mathrm{new}}$ について式を整理する。
3: $a_{\beta}, b_{\beta}$ に式(7)を代入する。
4: 括弧を展開する。

　不動点反復法によるハイパーパラメータの計算式が得られた。

　 $i$ 回目の更新において、 $\beta_v$ を更新前の値( $i-1$ 回目の更新値) $\beta_v^{(i-1)}$ 、 $\beta_v^{\mathrm{new}}$ を更新後の値( $i$ 回目の更新値) $\beta_v^{(i)}$ とする。また、初期値は $\beta_v^{(0)}$ とする。

$\displaystyle \beta_v^{(i)} = \beta_v^{(i-1)} \frac{ \sum_{k=1}^K \Psi \Bigl( N_{kv}^{(i-1)} + \beta_v^{(i-1)} \Bigr) - K \Psi \Bigl( \beta_v^{(i-1)} \Bigr) }{ \sum_{k=1}^K \Psi \Bigl( N_k^{(i-1)} + \sum_{v'=1}^V \beta_{v'}^{(i-1)} \Bigr) - K \Psi \Bigl( \sum_{v'=1}^V \beta_{v'}^{(i-1)} \Bigr) }$

　 $\beta_v$ の更新式が得られた。他の語彙についても同様に求められる。

　以上で、トピック分布と単語分布のハイパーパラメータの更新式が得られた。

スポンサードリンク

事後予測分布の導出

　最後は、文書集合とトピック集合の周辺分布を用いて、未知(新規)の単語とトピックの事後予測分布を導出する。

　既存の文書 $d$ において新たに生成される( $N_d+1$ 番目の)単語(の語彙)を $w_d^{*}$ 、トピックを $z_d^{*}$ で表す。

トピックの事後予測分布の設定

　トピック集合 $\mathbf{Z}$ が与えられたときの文書 $d$ の未知の単語 $w_d^{*}$ のトピック $z_d^{*}$ の予測分布を求める。

$\displaystyle \begin{aligned} p(z_d^{*} = k \mid \mathbf{Z}, \boldsymbol{\alpha}) &= \int p(z_d^{*} = k, \boldsymbol{\theta}_d \mid \mathbf{Z}, \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\theta}_d \\ &= \int p(z_d^{*} = k \mid \boldsymbol{\theta}_d) p(\boldsymbol{\theta}_d \mid \mathbf{Z}, \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\theta}_d \end{aligned}$

途中式の途中式(クリックで展開)

1: サンプリングした潜在変数 $\mathbf{Z}$ と事前分布のパラメータ $\boldsymbol{\alpha}$ を条件とする未観測の潜在変数 $z_d^{*}$ とパラメータ $\boldsymbol{\theta}_d$ の結合分布を $\boldsymbol{\theta}_d$ に関して周辺化した式を立てる。
2: 潜在変数 $z_d^{*}$ とパラメータ $\boldsymbol{\theta}_d$ の項を分割する。

　 $p(\boldsymbol{\theta}_d \mid \mathbf{Z}, \boldsymbol{\alpha})$ は、 $\mathbf{Z}$ が与えられたときの文書 $d$ のトピック分布のパラメータ $\boldsymbol{\theta}_d$ の事後分布である。つまり、 $p(z_d^{*} = k \mid \mathbf{Z}, \boldsymbol{\alpha})$ は、 $\boldsymbol{\theta}_d$ の事後分布を用いたトピック $z_d^{*}$ の周辺分布である。

トピックの事後予測分布

　 $z_d^{*}$ の事後予測分布の式は、 $\mathbf{Z}$ の周辺分布の式(4.10)を用いて求められる。

$\displaystyle \begin{aligned} p(z_d^{*} = k \mid \mathbf{Z}, \boldsymbol{\alpha}) &= \frac{ p(z_d^{*} = k, \mathbf{Z} \mid \boldsymbol{\alpha}) }{ p(\mathbf{Z} \mid \boldsymbol{\alpha}) } \\ &= \frac{\Gamma(\sum_{k'=1}^K \alpha_{k'})^D}{\prod_{k'=1}^K \Gamma(\alpha_{k'})^D} \frac{ \Gamma(N_{dk} + 1 + \alpha_k) \prod_{k' \neq k} \Gamma(N_{dk'} + \alpha_{k'}) }{ \Gamma(N_d+1 + \sum_{k'=1}^K \alpha_{k'}) } \prod_{d' \neq d} \frac{ \prod_{k'=1}^K \Gamma(N_{d'k'} + \alpha_{k'}) }{ \Gamma(N_{d'} + \sum_{k'=1}^K \alpha_{k'}) } \\ &\quad * \frac{\prod_{k'=1}^K \Gamma(\alpha_{k'})^D}{\Gamma(\sum_{k'=1}^K \alpha_{k'})^D} \frac{ \Gamma(N_d + \sum_{k'=1}^K \alpha_{k'}) }{ \prod_{k'=1}^K \Gamma(N_{dk'} + \alpha_{k'}) } \prod_{d' \neq d} \frac{ \Gamma(N_{d'} + \sum_{k'=1}^K \alpha_{k'}) }{ \prod_{k'=1}^K \Gamma(N_{d'k'} + \alpha_{k'}) } \\ &= \frac{ (N_{dk} + \alpha_k) \Gamma(N_{dk} + \alpha_k) \prod_{k' \neq k} \Gamma(N_{dk'} + \alpha_{k'}) }{ (N_d + \sum_{k'=1}^K \alpha_{k'}) \Gamma(N_d + \sum_{k'=1}^K \alpha_{k'}) } \\ &\quad * \frac{ \Gamma(N_d + \sum_{k'=1}^K \alpha_{k'}) }{ \prod_{k'=1}^K \Gamma(N_{dk'} + \alpha_{k'}) } \\ &= \frac{ N_{dk} + \alpha_k }{ N_d + \sum_{k'=1}^K \alpha_{k'} } \equiv \hat{\theta}_{dk} \end{aligned}$

途中式の途中式(クリックで展開)

1: 条件付き確率より、未知の変数 $z_d^{*}$ 以外の既知の変数 $\mathbf{Z}$ を条件に移した式を立てる。
2: 式(4.10)を用いて、分母分子を具体的な式に置き換える。

　 $z_d^{*}, \mathbf{Z}$ の周辺分布(分子)は式(4.10)に新たな単語 $w_d^{*}$ に関して追加した式であり、 $\mathbf{Z}$ の周辺分布(分母)は式(4.10)である。

$\displaystyle p(z_d^{*} = k, \mathbf{Z} \mid \boldsymbol{\alpha}) = \prod_{d'=1}^D \left\{ \frac{\sum_{k'=1}^K \Gamma(\alpha_{k'})}{\prod_{k'=1}^K \Gamma(\alpha_{k'})} \frac{ \prod_{k'=1}^K \Gamma(N_{d'k'}^{*} + \alpha_{k'}) }{ \Gamma(N_{d'}^{*} + \sum_{k'=1}^K \alpha_{k'}) } \right\}$

　ここで、新規(未知)の単語 $w_d^{*}$ を含めた数を $N_{dk}^{*}, N_d^{*}$ とすると、次の関係である。詳しくは「一様版」を参照のこと。

$\displaystyle \begin{aligned} N_{dk}^{*} &= \begin{cases} N_{dk} + 1 &\quad (z_{dn} = k) \\ N_{dk} &\quad (z_{dn} \neq k) \end{cases} \\ N_d^{*} &= N_d + 1 \end{aligned}$

　 $z_d^{*}, \mathbf{Z}$ の周辺分布の式について、 $N_{dk}^{*}, N_d^{*}$ を $N_{dk}, N_d$ に置き換える。(「トピックの事後周辺分布」のときとは置き換え方が異なる点に注意。)
　文書 $d$ やトピック $k$ の項のみ形が異なるので $\prod_{d=1}^D \prod_{k=1}^K$ から取り出しておく。

3: ガンマ関数の性質より、項を変形する。
4: 約分すると $d, k$ に関する項のみが残る。

　 $z_d^{*}$ (に割り当てられるトピック $k$ )の事後予測分布の式が得られた。この式を $\hat{\theta}_{dk}$ とおく。

トピック分布のパラメータ

　他のトピックについても同様に求められるので、 $z_d^{*}$ の事後予測分布のパラメータは、次の $K$ 次元ベクトルになる。

$\displaystyle \begin{aligned} \hat{\boldsymbol{\theta}}_d &= (\hat{\theta}_{d1}, \hat{\theta}_{d2}, \cdots, \hat{\theta}_{dK}) \\ &= \left( \frac{N_{d1} + \alpha_1}{N_d + \sum_{k=1}^K \alpha_k}, \frac{N_{d2} + \alpha_2}{N_d + \sum_{k=1}^K \alpha_k}, \cdots, \frac{N_{dK} + \alpha_K}{N_d + \sum_{k=1}^K \alpha_k} \right) \end{aligned}$

　非負の分子の総和が分母に一致するので、カテゴリ分布のパラメータの条件を満たす。
　サンプリングデータ $\mathbf{Z}$ から推定したトピック分布のパラメータ $\boldsymbol{\theta}_d$ の推定値と言える。

単語の事後予測分布の設定

　文書集合 $\mathbf{W}$ とトピック集合 $\mathbf{Z}$ 、未知の単語のトピック $z_d^{*}$ が与えられたときの未知の単語(の語彙) $w_d^{*}$ の予測分布を求める。

$\displaystyle \begin{aligned} p(w_d^{*} = v \mid \mathbf{W}, z_d^{*} = k, \mathbf{Z}, \boldsymbol{\beta}) &= \int p(w_d^{*} = v, \boldsymbol{\phi}_k \mid \mathbf{W}, z_d^{*} = k, \mathbf{Z}, \boldsymbol{\beta}) \mathrm{d} \boldsymbol{\phi}_k \\ &= \int p(w_d^{*} = v \mid z_d^{*} = k, \boldsymbol{\phi}_k) p(\boldsymbol{\phi}_k \mid \mathbf{W}, \mathbf{Z}, \boldsymbol{\beta}) \mathrm{d} \boldsymbol{\phi}_k \end{aligned}$

途中式の途中式(クリックで展開)

1: 観測・サンプリングした変数 $z_d^{*}, \mathbf{W}, \mathbf{Z}$ と事前分布のパラメータ $\boldsymbol{\beta}$ を条件とする未観測の観測変数 $w_d^{*}$ とパラメータ $\boldsymbol{\phi}_k$ の結合分布を $\boldsymbol{\phi}_k$ に関して周辺化した式を立てる。
2: 観測変数 $w_d^{*}$ とパラメータ $\boldsymbol{\phi}_k$ の項を分割する。

　 $p(\boldsymbol{\phi}_k \mid \mathbf{W}, \mathbf{Z}, \boldsymbol{\beta})$ は、 $\mathbf{W}, \mathbf{Z}$ が与えられたときのトピック $k$ の単語分布のパラメータ $\boldsymbol{\phi}_k$ の事後分布である。つまり、 $p(w_d^{*} = v \mid \mathbf{W}, z_d^{*} = k, \mathbf{Z}, \boldsymbol{\beta})$ は、 $\boldsymbol{\phi}_k$ の事後分布を用いた単語 $w_d^{*}$ の周辺分布である。

単語の事後予測分布

　 $w_d^{*}$ の事後予測分布の式は、 $\mathbf{W}$ の周辺分布の式(4.11)を用いて求められる。

$\displaystyle \begin{aligned} p(w_d^{*} = v \mid \mathbf{W}, z_d^{*} = k, \mathbf{Z}, \boldsymbol{\beta}) &= \frac{ p(w_d^{*} = v, \mathbf{W} \mid z_d^{*} = k, \mathbf{Z}, \boldsymbol{\beta}) }{ p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\beta}) } \\ &= \frac{\Gamma(\sum_{v'=1}^V \beta_{v'})^K}{\prod_{v'=1}^V \Gamma(\beta_{v'})^K} \frac{ \Gamma(N_{kv}+1 + \beta_v) \prod_{v' \neq v} \Gamma(N_{kv'} + \beta_{v'}) }{ \Gamma(N_k+1 + \sum_{v'=1}^V \beta_{v'}) } \prod_{k' \neq k} \frac{ \prod_{v'=1}^V \Gamma(N_{k'v'} + \beta_{v'}) }{ \Gamma(N_{k'} + \sum_{v'=1}^V \beta_{v'}) } \\ &\quad * \frac{\prod_{v'=1}^V \Gamma(\beta_{v'})^K}{\Gamma(\sum_{v'=1}^V \beta_{v'})^K} \frac{ \Gamma(N_k + \sum_{v'=1}^V \beta_{v'}) }{ \prod_{v'=1}^V \Gamma(N_{kv'} + \beta_{v'}) } \prod_{k' \neq k} \frac{ \Gamma(N_{k'} + \sum_{v'=1}^V \beta_{v'}) }{ \prod_{v'=1}^V \Gamma(N_{k'v'} + \beta_{v'}) }\ \\ &= \frac{ (N_{kv} + \beta_v) \Gamma(N_{kv} + \beta_v) \prod_{v' \neq v} \Gamma(N_{kv'} + \beta_{v'}) }{ (N_k + \sum_{v'=1}^V \beta_{v'}) \Gamma(N_k + \sum_{v'=1}^V \beta_{v'}) } \\ &\quad * \frac{ \Gamma(N_k + \sum_{v'=1}^V \beta_{v'}) }{ \prod_{v'=1}^V \Gamma(N_{kv'} + \beta_{v'}) } \\ &= \frac{ N_{kv} + \beta_v }{ N_k + \sum_{v'=1}^V \beta_{v'} } \equiv \hat{\phi}_{kv} \end{aligned}$

途中式の途中式(クリックで展開)

1: 条件付き確率より、未知の変数 $w_d^{*}$ 以外の既知の変数 $\mathbf{W}$ を条件に移した式を立てる。
2: 式(4.11)を用いて、分母分子の項を具体的な式に置き換える。

　 $w_d^{*}, \mathbf{W}$ の周辺分布(分子)は式(4.11)に新たな単語 $w_d^{*}$ に関して追加した式であり、 $\mathbf{W}$ の周辺分布(分母)は式(4.11)である。

$\displaystyle p(w_d^{*} = v, \mathbf{W} \mid z_d^{*} = k, \mathbf{Z}, \boldsymbol{\beta}) = \prod_{k'=1}^K \left\{ \frac{\Gamma(\sum_{v'=1}^V \beta_{v'})}{\Gamma(\prod_{v'=1}^V \beta_{v'})} \frac{ \prod_{v'=1}^V \Gamma(N_{k'v'}^{*} + \beta_{v'}) }{ \Gamma(N_{k'}^{*} + \sum_{v'=1}^V \beta_{v'}) } \right\}$

　ここで、新規(未知)の単語 $w_d^{*}$ を含めた数を $N_{kv}^{*}, N_k^{*}$ とする、次の関係である。詳しくは「一様版」を参照のことる。

$\displaystyle \begin{aligned} N_{kv}^{*} &= \begin{cases} N_{kv} + 1 &\quad (z_d^{*} = k) \\ N_{kv} &\quad (z_d^{*} \neq k) \end{cases} \\ N_k^{*} &= \begin{cases} N_k + 1 &\quad (z_d^{*} = k) \\ N_k &\quad (z_d^{*} \neq k) \end{cases} \end{aligned}$

　 $w^{*}, \mathbf{W}$ の周辺分布の式について、 $N_{kv}^{*}, N_k^{*}$ を $N_{kv}, N_k$ に置き換える。
　トピック $k$ や語彙 $v$ の項のみ形が異なるので $\prod_{k=1}^K \prod_{v=1}^V$ から取り出しておく。

3: ガンマ関数の性質より、項を変形する。
4: 約分すると $k, v$ に関する項のみが残る。

　 $w_d^{*}$ (に割り当てられる語彙 $v$ )の事後予測分布の式が得られた。この式を $\hat{\phi}_{kv}$ とおく。

単語分布のパラメータ

　他の語彙についても同様に求められるので、 $w_d^{*}$ の事後予測分布のパラメータは、次の $V$ 次元ベクトルになる。

$\displaystyle \begin{aligned} \hat{\boldsymbol{\phi}}_k &= (\hat{\phi}_{k1}, \hat{\phi}_{k2}, \cdots, \hat{\phi}_{kV}) \\ &= \left( \frac{N_{k1} + \beta_1}{N_k + \sum_{v=1}^V \beta_v}, \frac{N_{k2} + \beta_2}{N_k + \sum_{v=1}^V \beta_v}, \cdots, \frac{N_{kV} + \beta_V}{N_k + \sum_{v=1}^V \beta_v} \right) \end{aligned}$

　非負の分子の総和が分母に一致するので、カテゴリ分布のパラメータの条件を満たす。
　観測・サンプリングデータ $\mathbf{W}, \mathbf{Z}$ から推定した単語分布のパラメータ $\boldsymbol{\phi}_k$ の推定値と言える。

　以上で、各トピックと各単語の事後予測分布の式と、トピック分布と単語分布のパラメータの計算式が得られた。

　この章では、基本形のトピックモデルを扱った。次章では、拡張版のトピックモデルを扱う。

参考書籍

作者:岩田具治
講談社

おわりに

2024.07.12：加筆修正の際に「一様なハイパーパラメータの場合」と記事を分割しました。

　記事の投稿時に書いていたのか何回目か修正時に書き足したのか忘れましたが、おまけ程度だった多様版の内容を一様版と同様に頭から導出する構成にして記事を独立させました。

2025.05.20：加筆修正しました。

　5章までのギブスサンプリング数式編の記事の加筆修正が済んだので、全体の構成を統一するために再度調整しました。大きな変更はありませんが、端折っていた事後予測分布の途中式の途中式などを追加しました。不動点反復法による多様版のハイパラ推定のところで、おそらく全記事で計算結果には影響しないものの式の表現が間違っていたのを修正しました。他の記事も対応中です。

【次節の内容】

数式読解編

　結合トピックモデルの生成モデルを数式で確認します。

www.anarchive-beta.com

スクラッチ実装編

多様版は書けてない。