はじめに

　『トピックモデル』(MLPシリーズ)の勉強会資料のまとめです。各種モデルやアルゴリズムを「数式」と「プログラム」を用いて解説します。
　本の補助として読んでください。

　この記事では、トピック追跡モデルで登場する数式の行間を埋めます。

【前節の内容】

【他の節の内容】

【この節の内容】

5.5 トピック追跡モデルの生成モデルの導出

　トピック追跡モデル(TTM・topic tracking model)の定義(仮定)を確認する。トピック追跡モデルでは、時間により変化する文書集合(単語情報)やパラメータとして時間情報(補助情報)を扱う。
　トピックモデル(LDA・latent Dirichlet allocation)の定義や共通する記号類については「4.1：トピックモデルの生成モデルの導出【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。

生成過程の設定

　まずは、トピック追跡モデルの生成過程(generative process)を数式で確認する。ただし、基本形のトピックモデルと共通する内容については省略する。アルゴリズムについては図5.14を参照のこと。

　時刻数(総時刻)を $T$ 、時刻番号(インデックス)を $t \in \{1, 2, \dots, T\}$ とする。
　文書数(著者数)を $D$ として、各時刻において著者ごとに1つの文書が生成されるとする。
　時刻 $t$ における文書 $d$ ( $d$ 番目の著者による文書)を $\mathbf{w}_d^{(t)}$ で表す。各文書を「著者 $d$ の文書」などとも呼ぶ。
　同様に、時刻 $t$ におけるパラメータや単語数なども $\theta_{dk}^{(t)}, N_{dv}^{(t)}$ と表記する。

1時刻のパラメータを利用する場合

　1時刻前のパラメータの推定値をハイパーパラメータとして利用する場合の設定を確認する。

　時刻 $t$ における各文書(著者)のトピック分布のパラメータ $\boldsymbol{\theta}_d^{(t)}$ は、時刻 $t-1$ における(1時刻前の)トピック分布のパラメータの推定値 $\hat{\boldsymbol{\theta}}_d^{(t-1)}$ を用いて

$\displaystyle \alpha_d^{(t)} \hat{\boldsymbol{\theta}}_d^{(t-1)} = \Bigl( \alpha_d^{(t)} \hat{\theta}_{d1}^{(t-1)}, \alpha_d^{(t)} \hat{\theta}_{d2}^{(t-1)}, \cdots, \alpha_d^{(t)} \hat{\theta}_{dK}^{(t-1)} \Bigr)$

をパラメータとするディリクレ分布に従って独立に生成されると仮定する。

$\displaystyle \boldsymbol{\theta}_d^{(t)} \sim \mathrm{Dirichlet} \Bigl( \alpha_d^{(t)} \hat{\boldsymbol{\theta}}_d^{(t-1)} \Bigr)$

　 $\alpha_d^{(t)} \hat{\boldsymbol{\theta}}_d^{(t-1)}$ はディリクレ分布のパラメータなので、各要素は正の値の条件を満たす必要がある。

$\displaystyle \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)} \gt 0$

　 $\hat{\boldsymbol{\theta}}_d^{(t-1)}$ はカテゴリ分布のパラメータなので、各要素は非負の値であり、総和(全てのトピックに関する和)が1になる条件

$\displaystyle 0 \leq \hat{\theta}_{dk}^{(t-1)} \leq 1 ,\ \sum_{k=1}^K \hat{\theta}_{dk}^{(t-1)} = 1$

を満たすので、係数 $\alpha_d^{(t)}$ は、正の値の条件を満たす必要がある。

$\displaystyle \alpha_d^{(t)} \gt 0$

　 $\alpha_d^{(t)}$ を、時刻 $t$ におけるトピック分布のハイパーパラメータ(超パラメータ)と呼ぶ。
　文書(著者)ごとにトピック分布のハイパーパラメータを持ち、 $D$ 個のハイパーパラメータを集合 $\boldsymbol{\alpha}^{(t)}$ として扱い、トピック分布のハイパーパラメータ集合と呼ぶ。

$\displaystyle \boldsymbol{\alpha}^{(t)} = \Bigl\{ \alpha_1^{(t)}, \alpha_2^{(t)}, \cdots, \alpha_D^{(t)} \Bigr\}$

　 $\hat{\boldsymbol{\theta}}_d^{(t-1)}$ の計算式などについては「5.5：トピック追跡モデルの崩壊型ギブズサンプリングの導出：1時刻のパラメータの場合【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。

　時刻 $t$ における各トピックの単語分布のパラメータ $\boldsymbol{\phi}_k^{(t)}$ は、時刻 $t-1$ における(1時刻前の)単語分布のパラメータの推定値 $\hat{\boldsymbol{\phi}}_k^{(t-1)}$ を用いて

$\displaystyle \beta_k^{(t)} \hat{\boldsymbol{\phi}}_k^{(t-1)} = \Bigl( \beta_k^{(t)} \hat{\phi}_{k1}^{(t-1)}, \beta_k^{(t)} \hat{\phi}_{k2}^{(t-1)}, \cdots, \beta_k^{(t)} \hat{\phi}_{kV}^{(t-1)} \Bigr)$

をパラメータとするディリクレ分布に従って独立に生成されると仮定する。

$\displaystyle \boldsymbol{\phi}_k^{(t)} \sim \mathrm{Dirichlet} \Bigl( \beta_k^{(t)} \hat{\boldsymbol{\phi}}_k^{(t-1)} \Bigr)$

　 $\beta_k^{(t)} \hat{\boldsymbol{\phi}}_k^{(t-1)}$ の各要素は、ディリクレ分布のパラメータの条件(正の値)を満たす必要がある。

$\displaystyle \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)} \gt 0$

　 $\hat{\boldsymbol{\phi}}_k^{(t-1)}$ はカテゴリ分布のパラメータなので、各要素は非負の値であり、総和(全ての語彙に関する和)が1になる条件

$\displaystyle 0 \leq \hat{\phi}_{kv}^{(t-1)} \leq 1 ,\ \sum_{v=1}^V \hat{\phi}_{kv}^{(t-1)} = 1$

を満たすので、係数 $\beta_k^{(t)}$ は、正の値の条件を満たす必要がある。

$\displaystyle \beta_k^{(t)} \gt 0$

　 $\beta_k^{(t)}$ を、時刻 $t$ における単語分布のハイパーパラメータと呼ぶ。
　トピックごとに単語分布のハイパーパラメータを持ち、 $K$ 個のハイパーパラメータを集合 $\boldsymbol{\beta}^{(t)}$ として扱い、単語分布のハイパーパラメータ集合と呼ぶ。

$\displaystyle \boldsymbol{\beta}^{(t)} = \Bigl\{ \beta_1^{(t)}, \beta_2^{(t)}, \cdots, \beta_K^{(t)} \Bigr\}$

　 $\hat{\boldsymbol{\phi}}_k^{(t-1)}$ の計算式などについては「トピック追跡モデルの崩壊型ギブズサンプリングの導出：1時刻のパラメータの場合」を参照のこと。

複数時刻のパラメータを利用する場合

　複数時刻前からのパラメータの推定値をハイパーパラメータとして利用する場合の設定を確認する。

　事前分布のパラメータ(ハイパーパラメータ)として利用する過去情報(パラメータの推定値)の時刻数を $L$ 、過去時刻インデックス(番号)を $l \in \{1, 2, \dots, L\}$ とする。「1時刻版」は $L = 1$ の場合と言える。

　 $L$ 次元ベクトル $\boldsymbol{\alpha}_d^{(t)}$ を、時刻 $t$ における文書(著者) $d$ のトピック分布のハイパーパラメータとする。

$\displaystyle \boldsymbol{\alpha}_d^{(t)} = \Bigl( \alpha_{d1}^{(t)}, \alpha_{d2}^{(t)}, \cdots, \alpha_{dL}^{(t)} \Bigr)$

　 $L$ 個の値 $\alpha_{dl}^{(t)}$ はそれぞれ過去時刻( $l$ 時刻前)のトピック分布のパラメータの推定値 $\hat{\boldsymbol{\theta}}_d^{(t-l)}$ に対応する。
　時刻 $t-1$ ( $1$ 時刻前)から時刻 $t-L$ ( $L$ 時刻前)における(過去 $L$ 時刻分の)文書(著者) $d$ のトピック分布のパラメータの推定値を集合 $\{\hat{\boldsymbol{\theta}}_d^{(t-l)}\}_{l=1}^L$ として扱い、次のように表記する。

$\displaystyle \{\hat{\boldsymbol{\theta}}_d^{(t-l)}\}_{l=1}^L = \Bigl\{ \hat{\boldsymbol{\theta}}_d^{(t-1)}, \hat{\boldsymbol{\theta}}_d^{(t-2)}, \cdots, \hat{\boldsymbol{\theta}}_d^{(t-L)} \Bigr\}$

　時刻 $t$ における各文書(著者)のトピック分布のパラメータ $\boldsymbol{\theta}_d^{(t)}$ は、過去 $L$ 時刻分のトピック分布のパラメータの推定値 $\{\hat{\boldsymbol{\theta}}_d^{(t-1)}\}_{l=1}^L$ を用いて

$\displaystyle \begin{aligned} \boldsymbol{\alpha}_d^{(t)} \{\hat{\boldsymbol{\theta}}_d^{(t-l)}\}_{l=1}^L &= \left\{ \sum_{l=1}^L \alpha_{dl}^{(t)} \hat{\theta}_{d1}^{(t-l)}, \sum_{l=1}^L \alpha_{dl}^{(t)} \hat{\theta}_{d2}^{(t-l)}, \cdots, \sum_{l=1}^L \alpha_{dl}^{(t)} \hat{\theta}_{dK}^{(t-l)} \right\} \\ &= \Bigl\{ \sum_{l=1}^L \alpha_{dl}^{(t)} \hat{\theta}_{dk}^{(t-l)} \Bigr\}_{k=1}^K \end{aligned}$

途中式の途中式(クリックで展開)

　 $\boldsymbol{\alpha}_d^{(t)}$ を $L$ 次元の横ベクトル、 $\{\hat{\boldsymbol{\theta}}_d^{(t-l)}\}_{l=1}^L$ を $L$ 行 $K$ 列の行列として扱うと、次のベクトルと行列の積で表せる。

$\displaystyle \begin{aligned} \boldsymbol{\alpha}_d^{(t)} \{\hat{\boldsymbol{\theta}}_d^{(t-l)}\}_{l=1}^L &= \begin{pmatrix} \alpha_{d1}^{(t)} & \alpha_{d2}^{(t)} & \cdots & \alpha_{dL}^{(t)} \end{pmatrix} \begin{pmatrix} \hat{\theta}_{d1}^{(t-1)} & \hat{\theta}_{d2}^{(t-1)} & \cdots & \hat{\theta}_{dK}^{(t-1)} \\ \hat{\theta}_{d1}^{(t-2)} & \hat{\theta}_{d2}^{(t-2)} & \cdots & \hat{\theta}_{dK}^{(t-2)} \\ \vdots & \vdots & \ddots & \vdots \\ \hat{\theta}_{d1}^{(t-L)} & \hat{\theta}_{d2}^{(t-L)} & \cdots & \hat{\theta}_{dK}^{(t-L)} \end{pmatrix} \\ &= \begin{pmatrix} \sum_{l=1}^L \alpha_{dl}^{(t)} \hat{\theta}_{d1}^{(t-l)} & \sum_{l=1}^L \alpha_{dl}^{(t)} \hat{\theta}_{d2}^{(t-l)} & \cdots & \sum_{l=1}^L \alpha_{dl}^{(t)} \hat{\theta}_{dK}^{(t-l)} \end{pmatrix} \end{aligned}$

　計算結果は $K$ 次元ベクトルになり、各要素はベクトルと各列の内積(要素ごとの積の和)である。

$\displaystyle \sum_{l=1}^L \alpha_{dl}^{(t)} \hat{\theta}_{dk}^{(t-l)} = \alpha_{d1}^{(t)} \hat{\theta}_{dk}^{(t-1)} + \alpha_{d2}^{(t)} \hat{\theta}_{dk}^{(t-2)} + \cdots + \alpha_{dL}^{(t)} \hat{\theta}_{dk}^{(t-L)}$

　各トピックに対応する $K$ 個の値を集合 $\{\sum_{l=1}^L \alpha_{dl}^{(t)} \hat{\theta}_{dk}^{(t-l)}\}_{k=1}^K$ として扱う。

をパラメータとするディリクレ分布に従って独立に生成されると仮定する。

$\displaystyle \boldsymbol{\theta}_d^{(t)} \sim \mathrm{Dirichlet} \Bigl( \boldsymbol{\alpha}_d^{(t)} \{\hat{\boldsymbol{\theta}}_d^{(t-l)}\}_{l=1}^L \Bigr)$

　 $\boldsymbol{\alpha}_d^{(t)} \{\hat{\boldsymbol{\theta}}_d^{(t-l)}\}_{l=1}^L$ はディリクレ分布のパラメータなので、各要素は正の値の条件を満たす必要がある。

$\displaystyle \sum_{l=1}^L \alpha_{dl}^{(t)} \hat{\theta}_{dk}^{(t-l)} \gt 0$

　 $\hat{\boldsymbol{\theta}}_d^{(t-l)}$ はカテゴリ分布のパラメータなので、各要素は非負の値であり、総和(全てのトピックに関する和)が1になる条件

$\displaystyle 0 \leq \hat{\theta}_{dk}^{(t-l)} \leq 1 ,\ \sum_{k=1}^K \hat{\theta}_{dk}^{(t-l)} = 1$

を満たすので、係数 $\alpha_{dl}^{(t)}$ ( $\boldsymbol{\alpha}_d^{(t)}$ の各要素)は、正の値の条件を満たす必要がある。

$\displaystyle \alpha_{dl}^{(t)} \gt 0$

　文書(著者)ごとにトピック分布のハイパーパラメータを持ち、 $D$ 個のハイパーパラメータを集合 $\boldsymbol{\alpha}^{(t)}$ として扱い、トピック分布のハイパーパラメータ集合と呼ぶ。

$\displaystyle \boldsymbol{\alpha}^{(t)} = \Bigl\{ \boldsymbol{\alpha}_1^{(t)}, \boldsymbol{\alpha}_2^{(t)}, \cdots, \boldsymbol{\alpha}_D^{(t)} \Bigr\}$

　過去 $L$ 時刻分(の全ての文書(著者))のトピック分布のパラメータの推定値を集合 $\{\hat{\boldsymbol{\theta}}_d^{(t-l)}\}_{l=1}^L$ として扱い、次のように表記する。

$\displaystyle \{\hat{\boldsymbol{\Theta}}^{(t-l)}\}_{l=1}^L = \Bigl\{ \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Theta}}^{(t-2)}, \cdots, \hat{\boldsymbol{\Theta}}^{(t-L)} \Bigr\}$

　 $\hat{\boldsymbol{\theta}}_d^{(t-l)}$ の計算式などについては「5.5：トピック追跡モデルの崩壊型ギブズサンプリングの導出：複数時刻のパラメータの場合【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。

　 $L$ 次元ベクトル $\boldsymbol{\beta}_k^{(t)}$ を、時刻 $t$ におけるトピック $k$ の単語分布のハイパーパラメータとする。

$\displaystyle \boldsymbol{\beta}_k^{(t)} = \Bigl( \beta_{k1}^{(t)}, \beta_{k2}^{(t)}, \cdots, \beta_{kL}^{(t)} \Bigr)$

　 $L$ 個の値 $\beta_{kl}^{(t)}$ はそれぞれ過去時刻( $l$ 時刻前)の単語分布のパラメータの推定値 $\hat{\boldsymbol{\phi}}_k^{(t-l)}$ に対応する。
　時刻 $t-1$ から $t-L$ におけるトピック $k$ の単語分布のパラメータの推定値を集合 $\{\hat{\boldsymbol{\phi}}_k^{(t-l)}\}_{l=1}^L$ として扱い、次のように表記する。

$\displaystyle \{\hat{\boldsymbol{\phi}}_k^{(t-l)}\}_{l=1}^L = \Bigl\{ \boldsymbol{\phi}_k^{(t-1)}, \boldsymbol{\phi}_k^{(t-2)}, \cdots, \boldsymbol{\phi}_k^{(t-L)} \Bigr\}$

　時刻 $t$ における各トピックの単語分布のパラメータ $\boldsymbol{\phi}_k^{(t)}$ は、過去 $L$ 時刻分の単語分布のパラメータの推定値 $\{\hat{\boldsymbol{\phi}}_k^{(t-l)}\}_{l=1}^L$ を用いて

$\displaystyle \begin{aligned} \boldsymbol{\beta}_k^{(t)} \{\hat{\boldsymbol{\phi}}_k^{(t-l)}\}_{l=1}^L &= \left\{ \sum_{l=1}^L \beta_{kl}^{(t)} \hat{\phi}_{k1}^{(t-l)}, \sum_{l=1}^L \beta_{kl}^{(t)} \hat{\phi}_{k2}^{(t-l)}, \cdots, \sum_{l=1}^L \beta_{kl}^{(t)} \hat{\phi}_{kV}^{(t-l)} \right\} \\ &= \Bigl\{ \sum_{l=1}^L \beta_{kl}^{(t)} \hat{\phi}_{kv}^{(t-l)} \Bigr\}_{v=1}^V \end{aligned}$

途中式の途中式(クリックで展開)

　 $\boldsymbol{\beta}_k^{(t)}$ を $L$ 次元の横ベクトル、 $\{\hat{\boldsymbol{\phi}}_k^{(t-l)}\}_{l=1}^L$ を $L$ 行 $V$ 列の行列として扱うと、次のベクトルと行列の積で表せる。

$\displaystyle \begin{aligned} \boldsymbol{\beta}_k^{(t)} \{\hat{\boldsymbol{\phi}}_k^{(t-l)}\}_{l=1}^L &= \begin{pmatrix} \beta_{k1}^{(t)} & \beta_{k2}^{(t)} & \cdots & \beta_{kL}^{(t)} \end{pmatrix} \begin{pmatrix} \hat{\phi}_{k1}^{(t-1)} & \hat{\phi}_{k2}^{(t-1)} & \cdots & \hat{\phi}_{kV}^{(t-1)} \\ \hat{\phi}_{k1}^{(t-2)} & \hat{\phi}_{k2}^{(t-2)} & \cdots & \hat{\phi}_{kV}^{(t-2)} \\ \vdots & \vdots & \ddots & \vdots \\ \hat{\phi}_{k1}^{(t-L)} & \hat{\phi}_{k2}^{(t-L)} & \cdots & \hat{\phi}_{kV}^{(t-L)} \end{pmatrix} \\ &= \begin{pmatrix} \sum_{l=1}^L \beta_{kl}^{(t)} \hat{\phi}_{k1}^{(t-l)} & \sum_{l=1}^L \beta_{kl}^{(t)} \hat{\phi}_{k2}^{(t-l)} & \cdots & \sum_{l=1}^L \beta_{kl}^{(t)} \hat{\phi}_{kV}^{(t-l)} \end{pmatrix} \end{aligned}$

　計算結果は $V$ 次元ベクトルになり、各要素はベクトルと各列の内積(要素ごとの積の和)である。

$\displaystyle \sum_{l=1}^L \beta_{kl}^{(t)} \hat{\phi}_{kv}^{(t-l)} = \beta_{k1}^{(t)} \hat{\phi}_{kv}^{(t-1)} + \beta_{k2}^{(t)} \hat{\phi}_{kv}^{(t-2)} + \cdots + \beta_{kL}^{(t)} \hat{\phi}_{kv}^{(t-L)}$

　各語彙に対応する $V$ 個の値を集合 $\{\sum_{l=1}^L \beta_{kl}^{(t)} \hat{\phi}_{kv}^{(t-l)}\}_{V=1}^V$ として扱う。

をパラメータとするディリクレ分布に従って独立に生成されると仮定する。

$\displaystyle \boldsymbol{\phi}_k^{(t)} \sim \mathrm{Dirichlet} \Bigl( \boldsymbol{\beta}_k^{(t)} \{\hat{\boldsymbol{\phi}}_k^{(t-l)}\}_{l=1}^L \Bigr)$

　 $\boldsymbol{\beta}_k^{(t)} \{\hat{\boldsymbol{\phi}}_k^{(t-l)}\}_{l=1}^L$ は、ディリクレ分布のパラメータの条件(正の値)を満たす必要がある。

$\displaystyle \sum_{l=1}^L \beta_{kl}^{(t)} \hat{\phi}_{kv}^{(t-l)} \gt 0$

　 $\hat{\boldsymbol{\phi}}_k^{(t-l)}$ はカテゴリ分布のパラメータなので、各要素は非負の値であり、総和(全ての語彙に関する和)が1になる条件

$\displaystyle 0 \leq \hat{\phi}_{kv}^{(t-1)} \leq 1 ,\ \sum_{v=1}^V \hat{\phi}_{kv}^{(t-1)} = 1$

を満たすので、係数 $\beta_{kl}^{(t)}$ ( $\boldsymbol{\beta}_k^{(t)}$ の各要素)は、正の値の条件を満たす必要がある。

$\displaystyle \beta_{kl}^{(t)} \gt 0$

　トピックごとに単語分布のハイパーパラメータを持ち、 $K$ 個のハイパーパラメータを集合 $\boldsymbol{\beta}^{(t)}$ として扱い、単語分布のハイパーパラメータ集合と呼ぶ。

$\displaystyle \boldsymbol{\beta}^{(t)} = \Bigl\{ \boldsymbol{\beta}_1^{(t)}, \boldsymbol{\beta}_2^{(t)}, \cdots, \boldsymbol{\beta}_K^{(t)} \Bigr\}$

　過去 $L$ 時刻分(の全てのトピック)の単語分布のパラメータの推定値を集合 $\{\hat{\boldsymbol{\Phi}}^{(t-l)}\}_{l=1}^L$ として扱い、次のように表記する。

$\displaystyle \{\hat{\boldsymbol{\Phi}}^{(t-l)}\}_{l=1}^L = \Bigl\{ \hat{\boldsymbol{\Phi}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-2)}, \cdots, \hat{\boldsymbol{\Phi}}^{(t-L)} \Bigr\}$

　 $\hat{\boldsymbol{\phi}}_k^{(t-l)}$ の計算式などについては「トピック追跡モデルの崩壊型ギブズサンプリングの導出：複数時刻のパラメータの場合」を参照のこと。

　以上で、トピック追跡モデルの生成過程(定義・仮定)を確認した。生成過程は、変数やパラメータ間の依存関係であり、生成モデルや推論アルゴリズムの導出でも用いる。

スポンサードリンク

記号一覧

　続いて、トピックモデル(4.1節)に加えてトピック追跡モデル(5.5節)で用いる記号類を表にまとめる。

記号	意味	制約・関係性
$T$	時刻数
$D$	文書数(著者数)
$\mathbf{W}^{(t)} = \{\mathbf{w}_1^{(t)}, \cdots, \mathbf{w}_d^{(t)}, \cdots, \mathbf{w}_D^{(t)}\}$	時刻 $t$ における文書集合
$\mathbf{w}_d^{(t)} = \{w_{d1}^{(t)}, \cdots, w_{dn}^{(t)}, \cdots, w_{dN_d^{(t)}}^{(t)}\}$	時刻 $t$ における文書 $d$ の単語集合
$w_{dn}^{(t)} \in \{1, 2, \cdots, V\}$	時刻 $t$ における文書 $d$ の $n$ 番目の単語	$w_{dn}^{(t)} \sim \mathrm{Cat}(\boldsymbol{\phi}_{z_{dn}^{(t)}}^{(t)})$
$\mathbf{Z}^{(t)} = \{\mathbf{z}_1^{(t)}, \cdots, \mathbf{z}_d^{(t)}, \cdots, \mathbf{z}_D^{(t)}\}$	時刻 $t$ におけるトピック集合
$\mathbf{z}_d^{(t)} = \{z_{d1}^{(t)}, \cdots, z_{dn}^{(t)}, \cdots, z_{dN_d}^{(t)}\}$	時刻 $t$ における文書 $d$ のトピック集合
$z_{dn}^{(t)} \in \{1, 2, \dots, K \}$	時刻 $t$ における単語 $w_{dn}^{(t)}$ のトピック	$z_{dn}^{(t)} \sim \mathrm{Cat}(\boldsymbol{\theta}_d^{(t)})$
$\boldsymbol{\Theta}^{(t)} = \{\boldsymbol{\theta}_1^{(t)}, \cdots, \boldsymbol{\theta}_d^{(t)}, \cdots, \boldsymbol{\theta}_D^{(t)}\}$	時刻 $t$ におけるトピック分布のパラメータ集合
$\boldsymbol{\theta}_d^{(t)} = (\theta_{d1}^{(t)}, \cdots, \theta_{dk}^{(t)}, \cdots, \theta_{dK}^{(t)})$	時刻 $t$ における文書 $d$ のトピック分布のパラメータ	$\boldsymbol{\theta}_d^{(t)} \sim \mathrm{Dir}(\alpha_d^{(t)} \hat{\boldsymbol{\theta}}_d^{(t-1)})$
$\theta_{dk}^{(t)}$	時刻 $t$ における文書 $d$ におけるトピック $k$ の生成確率	$\theta_{dk}^{(t)} \geq 0, \sum_{k=1}^K \theta_{dk}^{(t)} = 1$
$\hat{\boldsymbol{\theta}}_d^{(t)} = (\hat{\theta}_{d1}^{(t)}, \cdots, \hat{\theta}_{dk}^{(t)}, \cdots, \hat{\theta}_{dK}^{(t)})$	時刻 $t$ における文書 $d$ のトピック分布のパラメータの推定値
$\boldsymbol{\alpha}^{(t)} = \{\alpha_1^{(t)}, \cdots, \alpha_d^{(t)}, \cdots, \alpha_D^{(t)}\}$	時刻 $t$ におけるトピック分布のハイパーパラメータ集合
$\alpha_d^{(t)}$	時刻 $t$ における文書 $d$ のトピック分布のハイパーパラメータ	$\alpha_d^{(t)} \gt 0$
$\boldsymbol{\Phi}^{(t)} = \{\boldsymbol{\phi}_1^{(t)}, \cdots, \boldsymbol{\phi}_k^{(t)}, \cdots, \boldsymbol{\phi}_K^{(t)}\}$	時刻 $t$ における単語分布のパラメータ集合
$\boldsymbol{\phi}_k^{(t)} = (\phi_{k1}^{(t)}, \cdots, \phi_{kv}^{(t)}, \cdots, \phi_{kV}^{(t)})$	時刻 $t$ におけるトピック $k$ の単語分布のパラメータ	$\boldsymbol{\phi}_k^{(t)} \sim \mathrm{Dir}(\beta_k^{(t)} \hat{\boldsymbol{\phi}}_d^{(t-1)})$
$\phi_{kv}^{(t)}$	時刻 $t$ におけるトピック $k$ における語彙 $v$ の生成確率	$\phi_{kv}^{(t)} \geq 0, \sum_{v=1}^V \phi_{kv}^{(t)} = 1$
$\hat{\boldsymbol{\phi}}_k^{(t)} = (\hat{\phi}_{k1}^{(t)}, \cdots, \hat{\phi}_{kv}^{(t)}, \cdots, \hat{\phi}_{kV}^{(t)})$	時刻 $t$ におけるトピック $k$ の単語分布のパラメータの推定値
$\boldsymbol{\beta}^{(t)} = \{\beta_1^{(t)}, \cdots, \beta_k^{(t)}, \cdots, \beta_K^{(t)}\}$	時刻 $t$ における単語分布のハイパーパラメータ集合
$\beta_k^{(t)}$	時刻 $t$ におけるトピック $k$ 単語分布のハイパーパラメータ	$\beta_k^{(t)} \gt 0$

　トピックモデル(基本形)やこれまでの拡張版モデルと異なり、トピック分布は( トピックごと $\alpha_k$ ではなく)文書ごと $\alpha_d$ に、単語分布は(語彙ごと $\beta_v$ ではなく)トピックごと $\beta_k$ に値を持つ点に注意。

　以上の記号を用いて、トピック追跡モデルやその推論アルゴリズムを定義する。

スポンサードリンク

ハイパーパラメータとパラメータの関係

　ハイパーパラメータ(ハイパーパラメータの係数・前時刻のパラメータの推定値)とパラメータ(現時刻のパラメータの未知の値)の統計量の関係を数式とグラフで確認する。

　パラメータ(ディリクレ分布の変数・カテゴリ分布のパラメータ)の条件より、ハイパーパラメータ(ディリクレ分布のパラメータ) $\beta_k^{(t)} \hat{\boldsymbol{\phi}}_k^{(t-1)}$ の総和(全ての語彙に関する和)を求める。

$\displaystyle \begin{align} \sum_{v=1}^V \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)} &= \beta_k^{(t)} \sum_{v=1}^V \hat{\phi}_{kv}^{(t-1)} \\ &= \beta_k^{(t)} \tag{1} \end{align}$

途中式の途中式(クリックで展開)

1: $v$ と無関係な $\beta_k^{(t)}$ を $\sum_v$ の外に出す。
2: カテゴリ分布 $\mathrm{Cat}(\mathbf{w} \mid \boldsymbol{\phi})$ 、ディリクレ分布 $\mathrm{Dir}(\boldsymbol{\phi} \mid \boldsymbol{\beta})$ のときパラメータの条件 $\sum_{v=1}^V \phi_v = 1$ より、推定値の総和の項が消える。

　係数 $\beta_k^{(t)}$ になることが分かった。

　ディリクレ分布の期待値より、パラメータ(ディリクレ分布の変数)の $\phi_{kv}^{(t)}$ の期待値を求める。

$\displaystyle \begin{aligned} \mathbb{E} \Bigl[ \phi_{kv}^{(t)} \Bigr] &= \frac{ \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)} }{ \sum_{v'=1}^V \beta_k^{(t)} \hat{\phi}_{kv'}^{(t-1)} } \\ &= \frac{ \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)} }{ \beta_k^{(t)} } \\ &= \hat{\phi}_{kv}^{(t-1)} \end{aligned}$

途中式の途中式(クリックで展開)

1: ディリクレ分布 $\mathrm{Dir}(\boldsymbol{\phi} \mid \boldsymbol{\beta})$ のとき期待値 $\mathbb{E}[\phi_v] = \frac{\beta_v}{\sum_{v'=1}^V \beta_{v'}}$ より、期待値の式を立てる。
2: (ハイパー)パラメータの総和の式(1)で置き換える。

　推定値 $\hat{\phi}_{kv}^{(t-1)}$ になることが分かった。

　ディリクレ分布の分散より、パラメータ(ディリクレ分布の変数)の $\phi_{kv}^{(t)}$ の分散を求める。

$\displaystyle \begin{aligned} \mathbb{V} \Bigl[ \phi_{kv}^{(t)} \Bigr] &= \frac{ \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)} \Bigl( \sum_{v'=1}^V \beta_k^{(t)} \hat{\phi}_{kv'}^{(t-1)} - \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)} \Bigr) }{ \Bigl( \sum_{v'=1}^V \beta_k^{(t)} \hat{\phi}_{kv'}^{(t-1)} \Bigr)^2 \Bigl( \sum_{v'=1}^V \beta_k^{(t)} \hat{\phi}_{kv'}^{(t-1)} + 1 \Bigr) } \\ &= \frac{ \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)} ( \beta_k^{(t)} - \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)} ) }{ (\beta_k^{(t)})^2 (\beta_k^{(t)} + 1) } \\ &= \frac{ (\beta_k^{(t)})^2 \hat{\phi}_{kv}^{(t-1)} (1 - \hat{\phi}_{kv}^{(t-1)}) }{ (\beta_k^{(t)})^2 (\beta_k^{(t)} + 1) } \\ &= \frac{ \hat{\phi}_{kv}^{(t-1)} (1 - \hat{\phi}_{kv}^{(t-1)}) }{ \beta_k^{(t)} + 1 } \end{aligned}$

途中式の途中式(クリックで展開)

1: ディリクレ分布 $\mathrm{Dir}(\boldsymbol{\phi} \mid \boldsymbol{\beta})$ のとき分散 $\mathbb{V}[\phi_v] = \frac{\beta_v (\sum_{v'=1}^V \beta_{v'} - \beta_v)}{(\sum_{v'=1}^V \beta_{v'})^2 (\sum_{v'=1}^V \beta_{v'} + 1)}$ より、分散の式を立てる。
2: (ハイパー)パラメータの総和の式(1)で置き換える。
3: 分子の項について、 $\beta_k^{(t)}$ を括弧から括り出す。

　係数 $\beta_k^{(t)}$ を分母に持つ式になることが分かった。

　分散の逆数より、パラメータ(ディリクレ分布の変数)の $\phi_{kv}^{(t)}$ の精度を求める。

$\displaystyle \begin{aligned} \mathrm{inv} \mathbb{V} \Bigl[ \phi_{kv}^{(t)} \Bigr] &= \frac{1}{\mathbb{V}[\phi_{kv}^{(t)}]} \\ &= \frac{ \beta_k^{(t)} + 1 }{ \hat{\phi}_{kv}^{(t-1)} (1 - \hat{\phi}_{kv}^{(t-1)}) } \end{aligned}$

途中式の途中式(クリックで展開)

1: 精度の定義 $\mathrm{inv} \mathbb{V}[x] = \frac{1}{\mathbb{V}[x]}$ より、分散の逆数の式を立てる。
2: 分母に分散の式を代入する。

　係数 $\beta_k^{(t)}$ を分子に持つ式になることが分かった。

　パラメータの推定値 $\hat{\boldsymbol{\phi}}^{(t-1)}$ を固定して係数 $\beta_k$ を変化させたときのパラメータの各種統計量の変化をグラフで示す。

作図コード(クリックで展開)

　パッケージを読み込む。

# 利用パッケージ
library(tidyverse)
library(patchwork)

　係数を指定して、統計量を計算する。

# パラメータの推定値を指定
phi_hat_v <- c(0.2, 0.3, 0.5)

# ハイパーパラメータの係数の範囲を指定
beta_vals <- seq(from = 0.01, to = 10, by = 0.01)

# 統計量を計算
stats_df <- tidyr::expand_grid(
  v    = 1:length(phi_hat_v) |> 
    factor(), # 語彙番号
  beta = beta_vals # 係数
) |> # 語彙ごとに係数を複製
  dplyr::mutate(
    phi_hat  = phi_hat_v[v], # 推定値
    E_phi    = phi_hat, # 期待値
    V_phi    = phi_hat * (1 - phi_hat) / (beta + 1), # 分散
    invV_phi = 1 / V_phi, # 精度
    .by = beta
  )
stats_df

# A tibble: 3,000 × 6
   v      beta phi_hat E_phi V_phi invV_phi
   <fct> <dbl>   <dbl> <dbl> <dbl>    <dbl>
 1 1      0.01     0.2   0.2 0.158     6.31
 2 1      0.02     0.2   0.2 0.157     6.37
 3 1      0.03     0.2   0.2 0.155     6.44
 4 1      0.04     0.2   0.2 0.154     6.5 
 5 1      0.05     0.2   0.2 0.152     6.56
 6 1      0.06     0.2   0.2 0.151     6.62
 7 1      0.07     0.2   0.2 0.150     6.69
 8 1      0.08     0.2   0.2 0.148     6.75
 9 1      0.09     0.2   0.2 0.147     6.81
10 1      0.1      0.2   0.2 0.145     6.87
# ℹ 2,990 more rows

　係数と統計量の関係のグラフを作成する。

# ラベル用の文字列を作成
param_lbl <- paste0("hat(phi) == (list(", paste0(phi_hat_v, collapse = ", "), "))")
p_lbl <- "Dirichlet(phi ~'|'~ beta * hat(phi))"
E_lbl <- "E(phi[v]) == hat(phi)[v]"
V_lbl <- "Var(phi[v]) == frac(hat(phi)[v] * (1 - hat(phi)[v]), beta + 1)"
invV_lbl <- "paste(inv~Var(phi[v]) == frac(1, Var(phi[v])), {} == frac(beta + 1, hat(phi)[v] * (1 - hat(phi)[v])))"

# 係数と期待値の関係を作図
E_graph <- ggplot() + 
  geom_line(
    data    = stats_df, 
    mapping = aes(x = beta, y = E_phi, color = v)
  ) + # 係数との関係
  geom_label(
    mapping = aes(x = -Inf, y = Inf, label = param_lbl), parse = TRUE, 
    hjust = 0, vjust = 1
  ) + # 推定値ラベル
  coord_cartesian(ylim = c(0, 1)) + # 描画範囲
  labs(
    title    = parse(text = p_lbl), 
    subtitle = parse(text = E_lbl), 
    color = expression(v), 
    x = expression(beta), y = expression(E(phi[v]))
  )

# 係数と分散の関係を作図
V_graph <- ggplot() + 
  geom_line(
    data    = stats_df, 
    mapping = aes(x = beta, y = V_phi, color = v)
  ) + # 係数との関係
  labs(
    subtitle = parse(text = V_lbl), 
    color = expression(v), 
    x = expression(beta), y = expression(Var(phi[v]))
  )

# 係数と精度の関係を作図
inv_V_graph <- ggplot() + 
  geom_line(
    data = stats_df, 
    mapping = aes(x = beta, y = invV_phi, color = v)
  ) + # 係数との関係
  labs(
    subtitle = parse(text = invV_lbl), 
    color = expression(v), 
    x = expression(beta), y = expression(inv~Var(phi[v]))
  )

# グラフを結合
wrap_graph <- patchwork::wrap_plots(
  E_graph, V_graph, inv_V_graph, 
  ncol = 1, guides = "collect"
)
wrap_graph

　1枚目の図は、係数 $\beta_k^{(t)}$ とパラメータ $\boldsymbol{\phi}_k^{(t)}$ の各項の期待値 $\mathbb{E}[\phi_{kv}^{(t)}]$ の関係である。期待値は係数と無関係であり、係数の影響を受けずに期待値が推定値 $\hat{\phi}_{kv}^{(t-1)}$ になる(期待値が推定値で一定になる)のを確認できる。
　2枚目の図は、係数 $\beta_k^{(t)}$ とパラメータ $\boldsymbol{\phi}_k^{(t)}$ の各項の分散 $\mathbb{V}[\phi_{kv}^{(t)}]$ の関係である。精度は係数と反比例のような関係であり、係数が大きくなるほど分散が小さくなるのを確認できる。つまり、 $\beta_k^{(t)}$ が大きいほど変数 $\phi_{kv}^{(t)}$ が期待値 $\hat{\phi}_{kv}^{(t-1)}$ の付近に分布する。
　3枚目の図は、係数 $\beta_k^{(t)}$ とパラメータ $\boldsymbol{\phi}_k^{(t)}$ の各項の精度 $\mathrm{inv} \mathbb{V}[\phi_{kv}^{(t)}]$ の関係である。精度は係数と比例のような関係であり、係数が大きくなるほど精度が大きくなるのを確認できる。精度が大きいのは分散が小さいのと同じことである。よって、 $\beta_k^{(t)}$ は精度ハイパーパラメータとも呼ばれる。

　以上で、ハイパーパラメータの設定について追加で確認した。

スポンサードリンク

尤度関数の導出

　次は、トピック追跡モデルにおける尤度関数(likelihood function)を数式で確認する。

　時刻 $t$ において、パラメータ $\boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)}$ が与えられた(条件とする)ときの観測データ $\mathbf{W}^{(t)}$ の生成確率(結合分布)は、生成過程(依存関係)に従い次のように変形できる。

$\displaystyle \begin{aligned} p(\mathbf{W}^{(t)} \mid \boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)}) &= \prod_{d=1}^D p(\mathbf{w}_d^{(t)} \mid \boldsymbol{\theta}_d^{(t)}, \boldsymbol{\Phi}^{(t)}) \\ &= \prod_{d=1}^D \prod_{n=1}^{N_d^{(t)}} p(w_{dn}^{(t)} \mid \boldsymbol{\theta}_d^{(t)}, \boldsymbol{\Phi}^{(t)}) \\ &= \prod_{d=1}^D \prod_{n=1}^{N_d^{(t)}} \sum_{k=1}^K p(w_{dn}^{(t)}, z_{dn}^{(t)} = k \mid \boldsymbol{\theta}_d^{(t)}, \boldsymbol{\phi}_k^{(t)}) \\ &= \prod_{d=1}^D \prod_{n=1}^{N_d^{(t)}} \sum_{k=1}^K \Bigl\{ p(z_{dn}^{(t)} = k \mid \boldsymbol{\theta}_d^{(t)}) p(w_{dn}^{(t)} \mid z_{dn}^{(t)} = k, \boldsymbol{\phi}_k^{(t)}) \Bigr\} \end{aligned}$

途中式の途中式(クリックで展開)

1: 文書(著者)ごとの積に分解する。
2: 単語ごとの積に分解する。
3: 周辺化された潜在変数 $z_{dn}^{(t)}$ を明示する。
4: 観測・潜在変数 $w_{dn}^{(t)}, z_{dn}^{(t)}$ の項を分解する。

　具体的な式に置き換えて、式を整理する。

$\displaystyle \begin{aligned} p(\mathbf{W} \mid \boldsymbol{\Theta}, \boldsymbol{\Phi}) &= \prod_{d=1}^D \prod_{n=1}^{N_d^{(t)}} \sum_{k=1}^K \Bigl\{ \theta_{dk}^{(t)} \phi_{kw_{dn}}^{(t)} \Bigr\} \\ &= \prod_{d=1}^D \prod_{v=1}^V \Bigl\{ \sum_{k=1}^K \theta_{dk}^{(t)} \phi_{kv}^{(t)} \Bigr\}^{N_{dv}^{(t)}} \end{aligned}$

途中式の途中式(クリックで展開)

1: それぞれカテゴリ分布を仮定しているので、各変数がとる値(インデックス)のパラメータが生成確率に対応する。

$\displaystyle \begin{aligned} p(z_{dn}^{(t)} = k \mid \boldsymbol{\theta}_d^{(t)}) &= \mathrm{Cat}(k \mid \boldsymbol{\theta}_d^{(t)}) = \theta_{dk}^{(t)} \\ p(w_{dn}^{(t)} \mid z_{dn}^{(t)} = k, \boldsymbol{\phi}_k^{(t)}) &= \mathrm{Cat}(w_{dn}^{(t)} \mid \boldsymbol{\phi}_k^{(t)}) = \phi_{kw_{dn}^{(t)}}^{(t)} \end{aligned}$

2: 単語番号 $n$ を用いた式から、語彙番号 $v$ を用いた式に変換する。 $N_d^{(t)}$ 個の単語に対応するパラメータ $\sum_{k=1}^K \theta_{dk}^{(t)} \phi_{kw_{dn}^{(t)}}^{(t)}$ について、各単語に割り当てられた語彙番号 $w_{dn}^{(t)} = v$ を用いてトピックごとにまとめると、 $N_{dv}^{(t)}$ 個の $\sum_{k=1}^K \theta_{dk}^{(t)} \phi_{kv}^{(t)}$ に置き換えられる。

　トピック分布・単語分布のパラメータ(と語彙頻度)を用いた式が得られた。

スポンサードリンク

生成モデルの導出

　続いて、トピック追跡モデルの生成モデル(generative model)を数式で確認する。

　時刻 $t$ において、観測変数 $\mathbf{W}^{(t)}$ 、潜在変数 $\mathbf{Z}^{(t)}$ 、パラメータ $\boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)}$ 、ハイパーパラメータ $\boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}$ また前時刻(時刻 $(t-1)$ )のパラメータの推定値 $\hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)}$ をそれぞれ確率変数とする結合分布は、生成過程(依存関係)に従い次のように変形できる。

$\displaystyle \begin{aligned} p( \mathbf{W}^{(t)}, \mathbf{Z}^{(t)}, \boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)}, \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)} ) &= p(\mathbf{W}^{(t)} \mid \mathbf{Z}^{(t)}, \boldsymbol{\Phi}^{(t)}) p(\mathbf{Z}^{(t)} \mid \boldsymbol{\Theta}^{(t)}) p(\boldsymbol{\Theta} \mid \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}) p(\boldsymbol{\alpha}^{(t)}) p(\hat{\boldsymbol{\Theta}}^{(t-1)}) \\ &\quad * p(\boldsymbol{\Phi}^{(t)} \mid \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) p(\boldsymbol{\beta}^{(t)}) p(\hat{\boldsymbol{\Phi}}^{(t-1)}) \\ &= \prod_{d=1}^D \Bigl[ p(\mathbf{W}_d^{(t)} \mid \mathbf{z}_d^{(t)}, \boldsymbol{\Phi}^{(t)}) p(\mathbf{z}_d^{(t)} \mid \boldsymbol{\theta}_d^{(t)}) p(\boldsymbol{\theta}_d^{(t)} \mid \alpha_d^{(t)}, \hat{\boldsymbol{\theta}}_d^{(t-1)}) p(\alpha_d^{(t)}) \Bigr] p(\hat{\boldsymbol{\Theta}}^{(t-1)}) \\ &\quad * \left\{ \prod_{k=1}^K p(\boldsymbol{\phi}_k^{(t)} \mid \beta_k^{(t)}, \hat{\boldsymbol{\phi}}_k^{(t-1)}) p(\beta_k^{(t)}) \right\} p(\hat{\boldsymbol{\Phi}}^{(t-1)}) \\ &= \prod_{d=1}^D \left[ \prod_{n=1}^{N_d^{(t)}} \Bigl\{ p(w_{dn}^{(t)} \mid \boldsymbol{\phi}_{z_{dn}^{(t)}}^{(t)}) p(z_{dn}^{(t)} \mid \boldsymbol{\theta}_d^{(t)}) \Bigr\} p(\boldsymbol{\theta}_d^{(t)} \mid \alpha_d^{(t)}, \hat{\boldsymbol{\theta}}_d^{(t-1)}) p(\alpha_d^{(t)}) \right] p(\hat{\boldsymbol{\Theta}}^{(t-1)}) \\ &\quad * \left\{ \prod_{k=1}^K p(\boldsymbol{\phi}_k^{(t)} \mid \beta_k^{(t)}, \hat{\boldsymbol{\phi}}_k^{(t-1)}) p(\beta_k^{(t)}) \right\} p(\hat{\boldsymbol{\Phi}}^{(t-1)}) \end{aligned}$

途中式の途中式(クリックで展開)

1: 変数やパラメータごとの項に分割する。

　観測変数、潜在変数、パラメータ、ハイパーパラメータごとに項を分割する。

$\displaystyle \begin{aligned} & p( \mathbf{W}^{(t)}, \mathbf{Z}^{(t)}, \boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)}, \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)} ) \\ &= p( \mathbf{W}^{(t)}, \mathbf{Z}^{(t)}, \boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)} \mid \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)} ) p( \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)} ) \\ &= p(\mathbf{W}^{(t)}, \mathbf{Z}^{(t)} \mid \boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)}) p( \boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)} \mid \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)} ) p( \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)} ) \\ &= p(\mathbf{W}^{(t)} \mid \mathbf{Z}^{(t)}, \boldsymbol{\Phi}^{(t)}) p(\mathbf{Z}^{(t)} \mid \boldsymbol{\Theta}^{(t)}) p( \boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)} \mid \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)} ) p( \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)} ) \end{aligned}$

　さらに3つ目の項の、独立なパラメータの項を分割する。

$\displaystyle p( \boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)} \mid \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)} ) = p(\boldsymbol{\Theta}^{(t)} \mid \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}) p(\boldsymbol{\Phi}^{(t)} \mid \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)})$

　4つ目の項の、独立なハイパーパラメータの項を分割する。

$\displaystyle p( \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)} ) = p(\boldsymbol{\alpha}^{(t)}) p(\boldsymbol{\beta}^{(t)}) p(\hat{\boldsymbol{\Theta}}^{(t-1)}) p(\hat{\boldsymbol{\Phi}}^{(t-1)})$

　確率変数と依存関係のない条件を適宜省いている。

2: 文書・トピックごとの積に分解する。
3: 単語ごとの積に分解する。

　「複数時刻版」の式も同様にして変形できる。
　この式自体が変数やパラメータ間の依存関係を表している。

スポンサードリンク

グラフィカルモデル

　最後は、トピック追跡モデルの生成モデルをグラフィカルモデル表現(graphical model representation)で確認する。

1時刻のパラメータを利用する場合

　トピック追跡モデルの生成モデルは、次の式に分解できた。

$\displaystyle \begin{aligned} p( \mathbf{W}^{(t)}, \mathbf{Z}^{(t)}, \boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)}, \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)} ) &= p(\mathbf{W}^{(t)} \mid \mathbf{Z}^{(t)}, \boldsymbol{\Phi}^{(t)}) p(\mathbf{Z}^{(t)} \mid \boldsymbol{\Theta}^{(t)}) p(\boldsymbol{\Theta} \mid \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}) p(\boldsymbol{\alpha}^{(t)}) p(\hat{\boldsymbol{\Theta}}^{(t-1)}) \\ &\quad * p(\boldsymbol{\Phi}^{(t)} \mid \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) p(\boldsymbol{\beta}^{(t)}) p(\hat{\boldsymbol{\Phi}}^{(t-1)}) \\ &= \prod_{d=1}^D \left[ \prod_{n=1}^{N_d^{(t)}} \Bigl\{ p(w_{dn}^{(t)} \mid \boldsymbol{\phi}_{z_{dn}^{(t)}}^{(t)}) p(z_{dn}^{(t)} \mid \boldsymbol{\theta}_d^{(t)}) \Bigr\} p(\boldsymbol{\theta}_d^{(t)} \mid \alpha_d^{(t)}, \hat{\boldsymbol{\theta}}_d^{(t-1)}) p(\alpha_d^{(t)}) \right] p(\hat{\boldsymbol{\Theta}}^{(t-1)}) \\ &\quad * \left\{ \prod_{k=1}^K p(\boldsymbol{\phi}_k^{(t)} \mid \beta_k^{(t)}, \hat{\boldsymbol{\phi}}_k^{(t-1)}) p(\beta_k^{(t)}) \right\} p(\hat{\boldsymbol{\Phi}}^{(t-1)}) \end{aligned}$

　この式をグラフィカルモデルにすると、次の図になる。

　「 $\alpha_d^{(t)} \to \boldsymbol{\theta}_d^{(t)}$ 」と「 $\boldsymbol{\theta}_d^{(t-1)} \to \boldsymbol{\theta}_d^{(t)}$ 」が、各時刻におけるトピック分布のパラメータの事前分布 $p(\boldsymbol{\theta}_d^{(t)} \mid \alpha_d^{(t)}, \hat{\boldsymbol{\theta}}_d^{(t-1)})$ に対応し、事前分布(のパラメータ)と前時刻の推定パラメータに従ってパラメータ $\boldsymbol{\theta}_d^{(t)}$ が生成されることを示している。
　「 $\beta_k^{(t)} \to \boldsymbol{\phi}_k^{(t)}$ 」と「 $\boldsymbol{\phi}_k^{(t-1)} \to \boldsymbol{\phi}_k^{(t)}$ 」が、各時刻における単語分布のパラメータの事前分布 $p(\boldsymbol{\phi}_k^{(t)} \mid \beta_k^{(t)}, \hat{\boldsymbol{\phi}}_k^{(t-1)})$ に対応し、事前分布(のパラメータ)と前時刻の推定パラメータに従ってパラメータ $\boldsymbol{\phi}_k^{(t)}$ が生成されることを示している。

　トピックモデル(基本形)と異なり、 $\prod_{d=1}^D$ に対応する「 $D$ 」のプレートにトピック分布のハイパーパラメータ $\alpha_d^{(t)}$ が含まれ、 $D$ 個の文書(著者)それぞれが値を持つことを示している。
　同様に、 $\prod_{k=1}^K$ に対応する「 $K$ 」のプレートに単語分布のハイパーパラメータ $\beta_k^{(t)}$ が含まれ、 $K$ 個のトピックそれぞれが値を持つことを示している。

　各時刻におけるその他の関係(ノードとエッジ)についてはトピックモデル(4.1節)と同じである。

複数時刻のパラメータを利用する場合

　トピック追跡モデルの生成モデルは、次の式に分解できる。

$\displaystyle \begin{aligned} p( \mathbf{W}^{(t)}, \mathbf{Z}^{(t)}, \boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)}, \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \{\hat{\boldsymbol{\Theta}}^{(t-l)}\}_{l=1}^L, \{\hat{\boldsymbol{\Phi}}^{(t-l)}\}_{l=1}^L ) &= p(\mathbf{W}^{(t)} \mid \mathbf{Z}^{(t)}, \boldsymbol{\Phi}^{(t)}) p(\mathbf{Z}^{(t)} \mid \boldsymbol{\Theta}^{(t)}) p(\boldsymbol{\Theta} \mid \boldsymbol{\alpha}^{(t)}, \{\hat{\boldsymbol{\Theta}}^{(t-l)}\}_{l=1}^L) p(\boldsymbol{\alpha}^{(t)}) p(\{\hat{\boldsymbol{\Theta}}^{(t-l)}\}_{l=1}^L) \\ &\quad * p(\boldsymbol{\Phi}^{(t)} \mid \boldsymbol{\beta}^{(t)}, \{\hat{\boldsymbol{\Phi}}^{(t-l)}\}_{l=1}^L) p(\boldsymbol{\beta}^{(t)}) p(\{\hat{\boldsymbol{\Phi}}^{(t-l)}\}_{l=1}^L) \\ &= \prod_{d=1}^D \left[ \prod_{n=1}^{N_d^{(t)}} \Bigl\{ p(w_{dn}^{(t)} \mid \boldsymbol{\phi}_{z_{dn}^{(t)}}^{(t)}) p(z_{dn}^{(t)} \mid \boldsymbol{\theta}_d^{(t)}) \Bigr\} p(\boldsymbol{\theta}_d^{(t)} \mid \boldsymbol{\alpha}_d^{(t)}, \{\hat{\boldsymbol{\theta}}_d^{(t-l)}\}_{l=1}^L) p(\boldsymbol{\alpha}_d^{(t)}) \right] p(\{\hat{\boldsymbol{\Theta}}^{(t-l)}\}_{l=1}^L) \\ &\quad * \left\{ \prod_{k=1}^K p(\boldsymbol{\phi}_k^{(t)} \mid \boldsymbol{\beta}_k^{(t)}, \{\hat{\boldsymbol{\phi}}_k^{(t-l)}\}_{l=1}^L) p(\boldsymbol{\beta}_k^{(t)}) \right\} p(\{\hat{\boldsymbol{\Phi}}^{(t-l)}\}_{l=1}^L) \end{aligned}$

　この式をグラフィカルモデルにすると、次の図になる。

　「 $\boldsymbol{\alpha}_d^{(t)} \to \boldsymbol{\theta}_d^{(t)}$ 」と「 $\boldsymbol{\theta}_d^{(t-1)} \to \boldsymbol{\theta}_d^{(t)}$ 、 $\boldsymbol{\theta}_d^{(t-2)} \to \boldsymbol{\theta}_d^{(t)}$ 」が、各時刻におけるトピック分布のパラメータの事前分布 $p(\boldsymbol{\theta}_d^{(t)} \mid \boldsymbol{\alpha}_d^{(t)}, \{\hat{\boldsymbol{\theta}}_d^{(t-l)}\}_{l=1}^L)$ に対応し、事前分布(のパラメータ)と過去の複数時刻の推定パラメータに従ってパラメータ $\boldsymbol{\theta}_d^{(t)}$ が生成されることを示している。
　「 $\boldsymbol{\beta}_k^{(t)} \to \boldsymbol{\phi}_k^{(t)}$ 」と「 $\boldsymbol{\phi}_k^{(t-1)} \to \boldsymbol{\phi}_k^{(t)}$ 、 $\boldsymbol{\phi}_k^{(t-2)} \to \boldsymbol{\phi}_k^{(t)}$ 」が、各時刻における単語分布のパラメータの事前分布 $p(\boldsymbol{\phi}_k^{(t)} \mid \boldsymbol{\beta}_k^{(t)}, \{\hat{\boldsymbol{\phi}}_k^{(t-l)}\}_{l=1}^L)$ に対応し、事前分布(のパラメータ)と過去の複数時刻の推定パラメータに従ってパラメータ $\boldsymbol{\phi}_k^{(t)}$ が生成されることを示している。

　各時刻におけるその他の関係(ノードとエッジ)についてはトピックモデル(4.1節)と同じである。

　この記事では、トピック追跡モデルで用いる記号や定義を確認した。次の記事では、崩壊型ギブスサンプリングによるパラメータの計算式を導出する。

参考書籍

作者:岩田具治
講談社

おわりに

　上にも下にも添字が煩いですね。私はもう慣れました。
　これにて5章完了！いやぁ感無量。

　ところで

平均が前の時刻のトピック分布の推定値 $\hat{\boldsymbol{\theta}}_{t-1,d}$ のディリクレ分布 $\mathrm{Dirichlet}(\boldsymbol{\theta}_{td} | \alpha_{td} \hat{\boldsymbol{\theta}}_{t-1,d})$ から生成されるとします．パラメータ $\alpha_{td}$ は，分散の逆数である精度と相関します．

ってどういう意味ですか？(2025.05.19追記：分かったので解説を追加しました。)

　2020年11月5日は、つばきファクトリーのサブリーダー小片リサさんの22歳のお誕生日！

りさまるのパフォーマンス早く観たいーーー。

　さらにBEYOOOOONDSの山﨑夢羽さんの18歳のお誕生日！

おめでとうございまーーーーーす。

2025.05.19：加筆修正しました。その際に「トピック追跡モデルの崩壊型ギブズサンプリング：1時刻のパラメータの場合」を記事から独立しました。

　推論編の記事を先に書き終えたので、作業的にはこの記事が5章の加筆修正の最後となりました。実装編もやりたい気持ちはありますが、他のアレコレが溜まっており優先順位はかなり低いです…。

　今回の加筆修正では、各種モデルの設計上の違いが数式上でどう変わってくるのかを整理できたと思います。(ダレていた期間も含めて)かな～り時間がかかりましたが分かった感が強いです。
　それと一番成長したのが DiagrammeR パッケージの使い方で、複雑なグラフィカルモデルを意図通りに作れるようになりました。ノードの配置が縦方向に微妙にズレてしまうことがあるのが悔しいです。これも忘れる前に記事にしておきたい。

【次節の内容】

数式読解編

　トピック追跡モデルに対する周辺化ギブズサンプリングを数式で確認します。