はじめに

　『トピックモデル』(MLPシリーズ)の勉強会資料のまとめです。各種モデルやアルゴリズムを「数式」と「プログラム」を用いて解説します。
　本の補助として読んでください。

　この記事では、著者トピックモデルで登場する数式の行間を埋めます。

【前節の内容】

【他の節の内容】

【この節の内容】

5.4 著者トピックモデルの生成モデルの導出

　著者トピックモデル(ATM・author topic model)の定義(仮定)を確認する。著者トピックモデルでは、文書集合(単語情報)に影響する著者情報(補助情報)を扱う。
　トピックモデル(LDA・latent Dirichlet allocation)の定義や共通する記号類については「4.1：トピックモデルの生成モデルの導出【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。

生成過程の設定

　まずは、著者トピックモデルの生成過程(generative process)を数式で確認する。ただし、基本形のトピックモデルと共通する内容については省略する。アルゴリズムについては図5.11を参照のこと。

　文書 $d$ の著者情報数(補助情報数)を $M_d$ 、著者情報番号(インデックス)を $m \in \{1, 2, \dots, M_d\}$ とする。
　全ての文書における著者数(著者情報の種類数・ユニーク著者情報数)を $S$ 、著者番号(種類番号)を $s \in \{1, 2, \dots, S\}$ とする。

　文書 $d$ における $m$ 番目の著者情報を $a_{dm}$ で表す。各著者情報 $a_{dm}$ の値として著者番号 $s$ をとることで、その著者(著者情報の種類)を表す。

$\displaystyle a_{dm} \in \{1, 2, \dots, S\}$

　また、著者情報 $a_{dm}$ が著者 $s$ であることを明示的に $a_{dm} = s$ と書くこともある。各著者情報を「文書 $d$ の $m$ 番目の著者情報」や「著者情報 $a_{dm}$ 」などと呼ぶ。
　各文書の $M_d$ 個の著者情報を集合 $\mathbf{a}_d$ として扱い、文書 $d$ の著者情報集合と呼ぶ。

$\displaystyle \mathbf{a}_d = \{a_{d1}, a_{d2}, \cdots, a_{dM_d}\}$

　文書ごとに著者情報集合を持ち、 $D$ 個の著者情報集合を集合 $\mathbf{A}$ として扱い、著者情報集合と呼ぶ。

$\displaystyle \mathbf{A} = \{\mathbf{a}_1, \mathbf{a}_2, \cdots, \mathbf{a}_D\}$

　各文書の著者は観測できる(与えられる)データである。

　単語 $w_{dn}$ が持つ(に割り当てられた)著者を $y_{dn}$ で表す。各単語の著者 $y_{dn}$ の値として著者情報番号 $m$ をとることで、その単語の著者(著者情報)を表す。

$\displaystyle y_{dn} \in \{1, 2, \dots, M_d\}$

　また、単語の著者 $y_{dn}$ が著者情報 $m$ (の著者)であることを明示的に $y_{dn} = m$ と書くこともある。各単語の著者を「単語の $w_{dn}$ の著者」や「著者 $y_{dn}$ 」などと呼ぶ。
　単語ごとに著者を持ち、文書 $d$ の $N_d$ 個の単語の著者を集合 $\mathbf{y}_d$ として扱い、文書 $d$ の著者集合と呼ぶ。

$\displaystyle \mathbf{y}_d = \{y_{d1}, y_{d2}, \cdots, y_{dN_d}\}$

　文書ごとに著者集合を持ち、 $D$ 個の著者集合を集合 $\mathbf{Y}$ として扱い、著者集合と呼ぶ。

$\displaystyle \mathbf{Y} = \{\mathbf{y}_1, \mathbf{y}_2, \cdots, \mathbf{y}_D\}$

　各文書の著者(著者情報)は観測できるデータであるが、各単語の著者は観測できないデータ(潜在変数)である。

　各単語 $w_{dn}$ に関して、 $y_{dn}$ により各文書の著者(著者情報 $\mathbf{a}_d$ )における $m$ 番目の著者(著者情報)であることを表し、さらに $a_{dm}$ により全文書の著者(全著者)における $s$ 番目の著者(種類)であることを表す。

　各文書の著者情報集合 $\mathbf{a}_d$ に対応する(著者数 $M_d$ 個の)一様な値をまとめて、 $M_d$ 次元ベクトル $\bar{\boldsymbol{\theta}}_d$ とする。

$\displaystyle \begin{aligned} \bar{\theta}_{dm} &= \frac{1}{M_d} \\ \bar{\boldsymbol{\theta}}_d &= (\bar{\theta}_{d1}, \bar{\theta}_{d2}, \cdots, \bar{\theta}_{dM_d}) \\ &= \left( \frac{1}{M_d}, \frac{1}{M_d}, \cdots, \frac{1}{M_d} \right) \end{aligned}$

　 $\bar{\theta}_{dm}$ は、文書 $d$ の単語に著者情報 $m$ が生成される(割り当てられる)確率に対応する。各単語の著者 $y_{dn}$ は、 $M_d$ 人の著者から等確率に割り当てられると仮定する。
　 $\bar{\boldsymbol{\theta}}_d$ は文書 $d$ の著者情報分布のパラメータと言え、カテゴリ分布のパラメータとして用いる。
　 $\bar{\boldsymbol{\theta}}_d$ の各要素は、非負の分子(1)の総和が分母(各文書の著者数)と一致 $M_d = \sum_{m=1}^{M_d} 1$ するので、カテゴリ分布のパラメータの条件(非負の値で総和が1になる値)を満たす。

$\displaystyle 0 \leq \bar{\theta}_{dm} \leq 1 ,\ \sum_{m=1}^{M_d} \bar{\theta}_{dm} = 1$

　各単語の著者 $y_{dn}$ は、文書に応じた $\bar{\boldsymbol{\theta}}_d$ をパラメータとするカテゴリ分布に従って独立に生成されると仮定する。

$\displaystyle y_{dn} \sim \mathrm{Categorical}(\bar{\boldsymbol{\theta}}_d)$

　一様なパラメータのカテゴリ分布は離散一様分布である。

　著者 $s$ の単語に対してトピック $k$ が生成される(割り当てられる)確率を $\theta_{sk}$ で表す。
　各トピックに対応する $K$ 個の生成確率をまとめて、 $K$ 次元ベクトル $\boldsymbol{\theta}_s$ で表す。

$\displaystyle \boldsymbol{\theta}_s = (\theta_{s1}, \theta_{s2}, \cdots, \theta_{sK})$

　 $\boldsymbol{\theta}_s$ を著者 $s$ のトピック分布のパラメータと呼び、カテゴリ分布のパラメータとして用いる。
　 $\boldsymbol{\theta}_s$ はカテゴリ分布のパラメータなので、各要素は非負の値であり、総和(全てのトピックに関する和)が1になる条件を満たす必要がある。

$\displaystyle 0 \leq \theta_{sk} \leq 1 ,\ \sum_{k=1}^K \theta_{sk} = 1$

　著者ごとにトピック分布(のパラメータ)を持ち、 $S$ 個のパラメータを集合 $\boldsymbol{\Theta}$ として扱い、トピック分布のパラメータ集合と呼ぶ。

$\displaystyle \boldsymbol{\Theta} = \{\boldsymbol{\theta}_1, \boldsymbol{\theta}_2, \cdots, \boldsymbol{\theta}_S\}$

　また、各著者のトピック分布のパラメータ $\boldsymbol{\theta}_s$ ( $\boldsymbol{\Theta}$ の各要素)は、(著者に関わらず) $\boldsymbol{\alpha}$ をパラメータとするディリクレ分布に従って独立に生成されると仮定する。

$\displaystyle \boldsymbol{\theta}_s \sim \mathrm{Dirichlet}(\boldsymbol{\alpha})$

　トピック分布のハイパーパラメータ(超パラメータ) $\boldsymbol{\alpha}$ については、基本形のトピックモデル(4章)と同様である。

　各単語のトピック $z_{dn}$ は、単語に割り当てられた著者に応じた $\boldsymbol{\theta}_{a_{dy_{dn}}}$ をパラメータとするカテゴリ分布に従って独立に生成されると仮定する。

$\displaystyle z_{dn} \sim \mathrm{Categorical}(\boldsymbol{\theta}_{a_{dy_{dn}}})$

　単語トピック集合 $\mathbf{Z}$ については、基本形のトピックモデル(4章)と同じである。
　文書 $d$ の単語 $w_{dn}$ のトピック $z_{dn}$ が依存するパラメータ $\boldsymbol{\theta}_{a_{dy_{dn}}}$ は、著者情報番号が $y_{dn} = m$ で著者番号が $a_{dm} = s$ のときのパラメータ $\boldsymbol{\theta}_s$ を表している。

　以上で、著者トピックモデルの生成過程(定義・仮定)を確認した。生成過程は、変数やパラメータ間の依存関係であり、生成モデルや推論アルゴリズムの導出でも用いる。

スポンサードリンク

記号一覧

　続いて、トピックモデル(4章)に加えて著者トピックモデル(5.4節)で用いる記号類を表にまとめる。

記号	意味	制約・関係性
$S$	全文書の著者数(著者情報の種類数)	$S \geq M_d$
$s \in \{1, 2, \dots, S\}$	著者(著者情報の種類・ユニーク著者情報)インデックス
$M_d$	文書 $d$ の著者数
$m \in \{1, 2, \dots, M_d\}$	文書 $d$ の著者情報インデックス
$N_s$	著者 $s$ の単語数	$N_s = \sum_{k=1}^K N_{sk}$
$N_{sk}$	著者 $s$ におけるトピック $k$ の単語数
$\mathbf{A} = \{\mathbf{a}_1, \cdots, \mathbf{a}_d, \cdots, \mathbf{a}_D\}$	著者情報集合
$\mathbf{a}_d = \{a_{d1}, \cdots, a_{dm}, \cdots, a_{dM_d}\}$	文書 $d$ の著者情報集合
$a_{dm} \in \{1, 2, \cdots, S\}$	文書 $d$ の $m$ 番目の著者情報
$\mathbf{Y} = \{\mathbf{y}_1, \cdots, \mathbf{y}_d, \cdots, \mathbf{y}_D\}$	著者集合
$\mathbf{y}_d = \{y_{d1}, \cdots, y_{dn}, \cdots, y_{dN_d}\}$	文書 $d$ の著者集合
$y_{dn} \in \{1, 2, \cdots, M_d\}$	単語 $w_{dn}$ の著者	$y_{dn} \sim \mathrm{Cat}(\bar{\boldsymbol{\theta}}_d)$
$\bar{\boldsymbol{\theta}}_d = (\bar{\theta}_{d1}, \cdots, \bar{\theta}_{dm}, \cdots, \bar{\theta}_{dM_d})$	文書 $d$ の著者情報分布のパラメータ
$\bar{\theta}_{dm} = \frac{1}{M_d}$	文書 $d$ における著者情報 $m$ の生成確率	$\bar{\theta}_{dm} \geq 0, \sum_{m=1}^{M_d} \bar{\theta}_{dm} = 1$
$z_{dn} \in \{1, 2, \dots, K \}$	単語 $w_{dn}$ のトピック	$z_{dn} \sim \mathrm{Cat}(\boldsymbol{\theta}_{a_{dy_{dn}}})$
$\boldsymbol{\Theta} = \{\boldsymbol{\theta}_1, \cdots, \boldsymbol{\theta}_s, \cdots, \boldsymbol{\theta}_S\}$	トピック分布のパラメータ集合
$\boldsymbol{\theta}_s = (\theta_{s1}, \cdots, \theta_{sk}, \cdots, \theta_{sK})$	著者 $s$ のトピック分布のパラメータ	$\boldsymbol{\theta}_s \sim \mathrm{Dir}(\boldsymbol{\alpha})$
$\theta_{sk}$	著者 $s$ におけるトピック $k$ の生成確率	$\theta_{sk} \geq 0, \sum_{k=1}^K \theta_{sk} = 1$

　以上の記号を用いて、著者トピックモデルやその推論アルゴリズムを定義する。

スポンサードリンク

尤度関数の導出

　次は、著者トピックモデルにおける尤度関数(likelihood function)を数式で確認する。

　観測データ $\mathbf{A}$ とパラメータ $\boldsymbol{\Theta}, \boldsymbol{\Phi}$ が与えられた(条件とする)ときの観測データ $\mathbf{W}$ の生成確率(結合分布)は、生成過程(依存関係)に従い次のように変形できる。

$\displaystyle \begin{aligned} p(\mathbf{W} \mid \mathbf{A}, \boldsymbol{\Theta}, \boldsymbol{\Phi}) &= \prod_{d=1}^D p(\mathbf{w}_d \mid \mathbf{a}_d, \boldsymbol{\Theta}, \boldsymbol{\Phi}) \\ &= \prod_{d=1}^D \prod_{n=1}^{N_d} p(w_{dn} \mid \mathbf{a}_d, \boldsymbol{\Theta}, \boldsymbol{\Phi}) \\ &= \prod_{d=1}^D \prod_{n=1}^{N_d} \sum_{m=1}^{M_d} \sum_{k=1}^K p( w_{dn}, z_{dn} = k, y_{dn} = m \mid \mathbf{a}_d, \boldsymbol{\theta}_{a_{dm}}, \boldsymbol{\phi}_k ) \\ &= \prod_{d=1}^D \prod_{n=1}^{N_d} \sum_{m=1}^{M_d} \sum_{k=1}^K \Bigl\{ p(y_{dn} = m \mid \mathbf{a}_d) p(z_{dn} = k \mid y_{dn} = m, \boldsymbol{\theta}_{a_{dm}}) p(w_{dn} \mid z_{dn} = k, \boldsymbol{\phi}_k) \Bigr\} \\ &= \prod_{d=1}^D \prod_{n=1}^{N_d} \sum_{m=1}^{M_d} \left[ p(y_{dn} = m \mid \mathbf{a}_d) \sum_{k=1}^K \Bigl\{ p(z_{dn} = k \mid y_{dn} = m, \boldsymbol{\theta}_{a_{dm}}) p(w_{dn} \mid z_{dn} = k, \boldsymbol{\phi}_k) \Bigr\} \right] \end{aligned}$

途中式の途中式(クリックで展開)

1: 文書ごとの積に分解する。
2: 単語ごとの積に分解する。
3: 周辺化された潜在変数 $z_{dn}, y_{dn}$ を明示する。
4: 観測・潜在変数 $w_{dn}, z_{dn}, y_{dn}$ の項を分解する。
5: トピック $k$ と無関係な著者情報 $y_{dn}$ の項を $\sum_{k=1}^K$ の外に出す。

　さらに、具体的な式に置き換えて、式を整理する。

$\displaystyle \begin{aligned} p(\mathbf{W} \mid \mathbf{A}, \boldsymbol{\Theta}, \boldsymbol{\Phi}) &= \prod_{d=1}^D \prod_{n=1}^{N_d} \sum_{m=1}^{M_d} \left[ \frac{1}{M_d} \sum_{k=1}^K \Bigl\{ \theta_{a_{dm}k} \phi_{kw_{dn}} \Bigr\} \right] \\ &= \prod_{d=1}^D \prod_{v=1}^V \Bigl[ \frac{1}{M_d} \sum_{m=1}^{M_d} \sum_{k=1}^K \Bigl\{ \theta_{a_{dm}k} \phi_{kv} \Bigr\} \Bigr]^{N_{dv}} \end{aligned}$

途中式の途中式(クリックで展開)

1: それぞれカテゴリ分布を仮定しているので、各変数がとる値(インデックス)のパラメータが生成確率に対応する。

$\displaystyle \begin{aligned} p(z_{dn} = k \mid y_{dn} = m, \boldsymbol{\theta}_{a_{dm}}) &= \mathrm{Cat}(k \mid \boldsymbol{\theta}_{a_{dm}}) = \theta_{a_{dm}k} \\ p(y_{dn} = m \mid \mathbf{a}_d) &= \mathrm{Cat}(m \mid \bar{\boldsymbol{\theta}}_d) = \bar{\theta}_{dm} = \frac{1}{M_d} \\ p(w_{dn} \mid z_{dn} = k, \boldsymbol{\phi}_k) &= \mathrm{Cat}(w_{dn} \mid \boldsymbol{\phi}_k) = \phi_{kw_{dn}} \end{aligned}$

2: 各著者の割り当て確率 $\bar{\theta}_{dm} = \frac{1}{M_d}$ は、各文書の著者 $m = 1, \dots, M_d$ に関して一様な値を仮定している(著者 $m$ と無関係な)ので、 $\sum_{m=1}^{M_d}$ の外に出せる。
2: 単語番号 $n$ を用いた式から、語彙番号 $v$ を用いた式に変換する。 $N_d$ 個の単語に対応するパラメータ $\frac{1}{M_d} \sum_{m=1}^{M_d} \sum_{k=1}^K \theta_{a_{dm}k} \phi_{kw_{dn}}$ について、各単語に割り当てられた語彙番号 $w_{dn} = v$ を用いて語彙ごとにまとめると、 $N_{dv}$ 個の $\frac{1}{M_d} \sum_{m=1}^{M_d} \sum_{k=1}^K \theta_{a_{dm}k} \phi_{kv}$ に置き換えられる。

　トピック分布・単語分布のパラメータ(と語彙頻度)を用いた式が得られた。

スポンサードリンク

生成モデルの導出

　続いて、著者トピックモデルの生成モデル(generative model)を数式で確認する。

　観測変数 $\mathbf{W}, \mathbf{A}$ 、潜在変数 $\mathbf{Z}, \mathbf{Y}$ 、パラメータ $\boldsymbol{\Theta}, \boldsymbol{\Phi}$ 、ハイパーパラメータ $\boldsymbol{\alpha}, \boldsymbol{\beta}$ をそれぞれ確率変数とする結合分布(同時分布)は、生成過程(依存関係)に従い次のように変形できる。

$\displaystyle \begin{aligned} p( \mathbf{W}, \mathbf{A}, \mathbf{Z}, \mathbf{Y}, \boldsymbol{\Theta}, \boldsymbol{\Phi}, \boldsymbol{\alpha}, \boldsymbol{\beta} ) &= p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\Phi}) p(\mathbf{Z} \mid \mathbf{Y}, \boldsymbol{\Theta}) p(\mathbf{Y} \mid \mathbf{A}) p(\mathbf{A}) \\ &\quad * p(\boldsymbol{\Theta} \mid \boldsymbol{\alpha}) p(\boldsymbol{\alpha}) p(\boldsymbol{\Phi} \mid \boldsymbol{\beta}) p(\boldsymbol{\beta}) \\ &= \prod_{d=1}^D \Bigl[ p(\mathbf{w}_d \mid \mathbf{z}_d, \boldsymbol{\Phi}) p(\mathbf{z}_d \mid \mathbf{y}_d, \boldsymbol{\Theta}) p(\mathbf{y}_d \mid \mathbf{a}_d) p(\mathbf{a}_d) \Bigr] \\ &\quad * \left\{ \prod_{s=1}^S p(\boldsymbol{\theta}_s \mid \boldsymbol{\alpha}) \right\} p(\boldsymbol{\alpha}) \left\{ \prod_{k=1}^K p(\boldsymbol{\Phi} \mid \boldsymbol{\beta}) \right\} p(\boldsymbol{\beta}) \\ &= \prod_{d=1}^D \left[ \prod_{n=1}^{N_d} \Bigl\{ p(w_{dn} \mid \boldsymbol{\phi}_{z_{dn}}) p(z_{dn} \mid \boldsymbol{\theta}_{a_{dy_{dn}}}) p(y_{dn} \mid \mathbf{a}_d) \Bigr\} p(\mathbf{a}_d) \right] \\ &\quad * \left\{ \prod_{s=1}^S p(\boldsymbol{\theta}_s \mid \boldsymbol{\alpha}) \right\} p(\boldsymbol{\alpha}) \left\{ \prod_{k=1}^K p(\boldsymbol{\Phi} \mid \boldsymbol{\beta}) \right\} p(\boldsymbol{\beta}) \end{aligned}$

途中式の途中式(クリックで展開)

1: 変数やパラメータごとの項に分割する。

　観測・潜在変数、パラメータ、ハイパーパラメータごとに項を分割する。

$\displaystyle \begin{aligned} p( \mathbf{W}, \mathbf{A}, \mathbf{Z}, \mathbf{Y}, \boldsymbol{\Theta}, \boldsymbol{\Phi}, \boldsymbol{\alpha}, \boldsymbol{\beta} ) &= p( \mathbf{W}, \mathbf{A}, \mathbf{Z}, \mathbf{Y}, \boldsymbol{\Theta}, \boldsymbol{\Phi} \mid \boldsymbol{\alpha}, \boldsymbol{\beta} ) p(\boldsymbol{\alpha}, \boldsymbol{\beta}) \\ &= p( \mathbf{W}, \mathbf{A}, \mathbf{Z}, \mathbf{Y} \mid \boldsymbol{\Theta}, \boldsymbol{\Phi} ) p(\boldsymbol{\Theta}, \boldsymbol{\Phi} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) p(\boldsymbol{\alpha}, \boldsymbol{\beta}) \end{aligned}$

　さらに1つ目の項の、依存関係のある観測・潜在変数の項を分割する。

$\displaystyle \begin{aligned} p( \mathbf{W}, \mathbf{A}, \mathbf{Z}, \mathbf{Y} \mid \boldsymbol{\Theta}, \boldsymbol{\Phi} ) &= p(\mathbf{W}, \mathbf{Z}, \mathbf{Y} \mid \mathbf{A}, \boldsymbol{\Theta}, \boldsymbol{\Phi}) p(\mathbf{A}) \\ &= p(\mathbf{W}, \mathbf{Z} \mid \mathbf{Y}, \boldsymbol{\Theta}, \boldsymbol{\Phi}) p(\mathbf{Y} \mid \mathbf{A}) p(\mathbf{A}) \\ &= p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\Phi}) p(\mathbf{Z} \mid \mathbf{Y}, \boldsymbol{\Theta}) p(\mathbf{Y} \mid \mathbf{A}) p(\mathbf{A}) \end{aligned}$

　2つ目の項の、独立なパラメータの項を分割する。

$\displaystyle p(\boldsymbol{\Theta}, \boldsymbol{\Phi} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) = p(\boldsymbol{\Theta} \mid \boldsymbol{\alpha}) p(\boldsymbol{\Phi} \mid \boldsymbol{\beta})$

　3つ目の項の、独立なハイパーパラメータの項を分割する。

$\displaystyle p(\boldsymbol{\alpha}, \boldsymbol{\beta}) = p(\boldsymbol{\alpha}) p(\boldsymbol{\beta})$

　確率変数と依存関係のない条件を適宜省いている。

2: 文書・著者・トピックごとの積に分解する。
3: 単語ごとの積に分解する。

　この式自体が変数やパラメータ間の依存関係を表している。

スポンサードリンク

グラフィカルモデル

　最後は、著者トピックモデルの生成モデルをグラフィカルモデル表現(graphical model representation)で確認する。

　著者トピックモデルの生成モデルは、次の式に分解できた。

　この式をグラフィカルモデルにすると、次の図になる。

　「 $\mathbf{a}_d \to y_{dn}$ 」が、各文書の著者情報分布 $p(y_{dn} \mid \mathbf{a}_d)$ に対応し、著者情報集合(の著者数)に従って各単語の著者(著者情報番号) $y_{dn}$ が生成されることを示している。
　「 $y_{dn} \to z_{dn}$ 」と「 $\boldsymbol{\theta}_s \to z_{dn}$ 」が、単語に割り当てられた著者のトピック分布 $p(z_{dn} \mid \boldsymbol{\theta}_{a_{dy_{dn}}})$ に対応し、トピック分布(のパラメータ)に従って各単語のトピック $z_{dn}$ が生成されることを示している。
　「 $\boldsymbol{\alpha} \to \boldsymbol{\theta}_s$ 」が、トピック分布のパラメータの事前分布 $p(\boldsymbol{\theta}_s \mid \boldsymbol{\alpha})$ に対応し、事前分布(のパラメータ)に従ってパラメータ $\boldsymbol{\theta}_s$ が生成されることを示している。