はじめに
『トピックモデル』(MLPシリーズ)の勉強会資料のまとめです。各種モデルやアルゴリズムを「数式」と「プログラム」を用いて解説します。
本の補助として読んでください。
この記事では、著者トピックモデルで登場する数式の行間を埋めます。
【前節の内容】
【他の節の内容】
【この節の内容】
5.4 著者トピックモデルの生成モデルの導出
著者トピックモデル(ATM・author topic model)の定義(仮定)を確認する。著者トピックモデルでは、文書集合(単語情報)に影響する著者情報(補助情報)を扱う。
トピックモデル(LDA・latent Dirichlet allocation)の定義や共通する記号類については「4.1:トピックモデルの生成モデルの導出【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。
生成過程の設定
まずは、著者トピックモデルの生成過程(generative process)を数式で確認する。ただし、基本形のトピックモデルと共通する内容については省略する。アルゴリズムについては図5.11を参照のこと。
文書 の著者情報数(補助情報数)を
、著者情報番号(インデックス)を
とする。
全ての文書における著者数(著者情報の種類数・ユニーク著者情報数)を 、著者番号(種類番号)を
とする。
文書 における
番目の著者情報を
で表す。各著者情報
の値として著者番号
をとることで、その著者(著者情報の種類)を表す。
また、著者情報 が著者
であることを明示的に
と書くこともある。各著者情報を「文書
の
番目の著者情報」や「著者情報
」などと呼ぶ。
各文書の 個の著者情報を集合
として扱い、文書
の著者情報集合と呼ぶ。
文書ごとに著者情報集合を持ち、 個の著者情報集合を集合
として扱い、著者情報集合と呼ぶ。
各文書の著者は観測できる(与えられる)データである。
単語 が持つ(に割り当てられた)著者を
で表す。各単語の著者
の値として著者情報番号
をとることで、その単語の著者(著者情報)を表す。
また、単語の著者 が著者情報
(の著者)であることを明示的に
と書くこともある。各単語の著者を「単語の
の著者」や「著者
」などと呼ぶ。
単語ごとに著者を持ち、文書 の
個の単語の著者を集合
として扱い、文書
の著者集合と呼ぶ。
文書ごとに著者集合を持ち、 個の著者集合を集合
として扱い、著者集合と呼ぶ。
各文書の著者(著者情報)は観測できるデータであるが、各単語の著者は観測できないデータ(潜在変数)である。
各単語 に関して、
により各文書の著者(著者情報
)における
番目の著者(著者情報)であることを表し、さらに
により全文書の著者(全著者)における
番目の著者(種類)であることを表す。
各文書の著者情報集合 に対応する(著者数
個の)一様な値をまとめて、
次元ベクトル
とする。
は、文書
の単語に著者情報
が生成される(割り当てられる)確率に対応する。各単語の著者
は、
人の著者から等確率に割り当てられると仮定する。
は文書
の著者情報分布のパラメータと言え、カテゴリ分布のパラメータとして用いる。
の各要素は、非負の分子(1)の総和が分母(各文書の著者数)と一致
するので、カテゴリ分布のパラメータの条件(非負の値で総和が1になる値)を満たす。
各単語の著者 は、文書に応じた
をパラメータとするカテゴリ分布に従って独立に生成されると仮定する。
一様なパラメータのカテゴリ分布は離散一様分布である。
著者 の単語に対してトピック
が生成される(割り当てられる)確率を
で表す。
各トピックに対応する 個の生成確率をまとめて、
次元ベクトル
で表す。
を著者
のトピック分布のパラメータと呼び、カテゴリ分布のパラメータとして用いる。
はカテゴリ分布のパラメータなので、各要素は非負の値であり、総和(全てのトピックに関する和)が1になる条件を満たす必要がある。
著者ごとにトピック分布(のパラメータ)を持ち、 個のパラメータを集合
として扱い、トピック分布のパラメータ集合と呼ぶ。
また、各著者のトピック分布のパラメータ (
の各要素)は、(著者に関わらず)
をパラメータとするディリクレ分布に従って独立に生成されると仮定する。
トピック分布のハイパーパラメータ(超パラメータ) については、基本形のトピックモデル(4章)と同様である。
各単語のトピック は、単語に割り当てられた著者に応じた
をパラメータとするカテゴリ分布に従って独立に生成されると仮定する。
単語トピック集合 については、基本形のトピックモデル(4章)と同じである。
文書 の単語
のトピック
が依存するパラメータ
は、著者情報番号が
で著者番号が
のときのパラメータ
を表している。
以上で、著者トピックモデルの生成過程(定義・仮定)を確認した。生成過程は、変数やパラメータ間の依存関係であり、生成モデルや推論アルゴリズムの導出でも用いる。
スポンサードリンク
記号一覧
続いて、トピックモデル(4章)に加えて著者トピックモデル(5.4節)で用いる記号類を表にまとめる。
| 記号 | 意味 | 制約・関係性 |
|---|---|---|
| |
全文書の著者数(著者情報の種類数) | |
| |
著者(著者情報の種類・ユニーク著者情報)インデックス | |
| |
文書 |
|
| |
文書 |
|
| |
著者 |
|
| |
著者 |
|
| |
著者情報集合 | |
| |
文書 |
|
| |
文書 |
|
| |
著者集合 | |
| |
文書 |
|
| |
単語 |
|
| |
文書 |
|
| |
文書 |
|
| |
単語 |
|
| |
トピック分布のパラメータ集合 | |
| |
著者 |
|
| |
著者 |
|
以上の記号を用いて、著者トピックモデルやその推論アルゴリズムを定義する。
スポンサードリンク
尤度関数の導出
次は、著者トピックモデルにおける尤度関数(likelihood function)を数式で確認する。
観測データ とパラメータ
が与えられた(条件とする)ときの観測データ
の生成確率(結合分布)は、生成過程(依存関係)に従い次のように変形できる。
途中式の途中式(クリックで展開)
- 1: 文書ごとの積に分解する。
- 2: 単語ごとの積に分解する。
- 3: 周辺化された潜在変数
を明示する。
- 4: 観測・潜在変数
の項を分解する。
- 5: トピック
と無関係な著者情報
の項を
の外に出す。
さらに、具体的な式に置き換えて、式を整理する。
途中式の途中式(クリックで展開)
- 1: それぞれカテゴリ分布を仮定しているので、各変数がとる値(インデックス)のパラメータが生成確率に対応する。
- 2: 各著者の割り当て確率
は、各文書の著者
に関して一様な値を仮定している(著者
と無関係な)ので、
の外に出せる。
- 2: 単語番号
を用いた式から、語彙番号
を用いた式に変換する。
個の単語に対応するパラメータ
について、各単語に割り当てられた語彙番号
を用いて語彙ごとにまとめると、
個の
に置き換えられる。
トピック分布・単語分布のパラメータ(と語彙頻度)を用いた式が得られた。
スポンサードリンク
生成モデルの導出
続いて、著者トピックモデルの生成モデル(generative model)を数式で確認する。
観測変数 、潜在変数
、パラメータ
、ハイパーパラメータ
をそれぞれ確率変数とする結合分布(同時分布)は、生成過程(依存関係)に従い次のように変形できる。
途中式の途中式(クリックで展開)
- 1: 変数やパラメータごとの項に分割する。
観測・潜在変数、パラメータ、ハイパーパラメータごとに項を分割する。
さらに1つ目の項の、依存関係のある観測・潜在変数の項を分割する。
2つ目の項の、独立なパラメータの項を分割する。
3つ目の項の、独立なハイパーパラメータの項を分割する。
確率変数と依存関係のない条件を適宜省いている。
- 2: 文書・著者・トピックごとの積に分解する。
- 3: 単語ごとの積に分解する。
この式自体が変数やパラメータ間の依存関係を表している。
スポンサードリンク
グラフィカルモデル
最後は、著者トピックモデルの生成モデルをグラフィカルモデル表現(graphical model representation)で確認する。
著者トピックモデルの生成モデルは、次の式に分解できた。
この式をグラフィカルモデルにすると、次の図になる。

「 」が、各文書の著者情報分布
に対応し、著者情報集合(の著者数)に従って各単語の著者(著者情報番号)
が生成されることを示している。
「 」と「
」が、単語に割り当てられた著者のトピック分布
に対応し、トピック分布(のパラメータ)に従って各単語のトピック
が生成されることを示している。
「 」が、トピック分布のパラメータの事前分布
に対応し、事前分布(のパラメータ)に従ってパラメータ
が生成されることを示している。
「 」のプレートが、
に対応し、
個のトピック分布のパラメータ
が繰り返し生成されることを示している。
その他の関係(ノードとエッジ)についてはトピックモデル(4.1節)と同じである。
この記事では、著者トピックモデルで用いる記号や定義を確認した。次の記事からは、推論アルゴリズムを確認していく。
参考書籍
おわりに
5章ではこのモデルが一番興味ある。とりあえずこれは組んでみたい。作詞家ごとのトピック分布、楽しそう。
- 2025.05.04:加筆修正しました。その際に「著者トピックモデルの崩壊型ギブスサンプリングの導出:一様なハイパーパラメータの場合」を記事から独立しました。
私の理解が進んだので、各モデル(のギブスサンプリング)の記事の構成や表現を再度調整して章を跨いでも違いを比較しやすいようにまた戻って修正していたら思いの外面倒で、随分と修正や更新の作業が滞ってしまいました。なんとか心折れずに現時点のレベルで納得でき得る表現にまとめられました。
【次節の内容】
- 数式読解編
著者トピックモデルに対する周辺化ギブズサンプリングを数式で確認します。
トピック追跡モデルの生成モデルを数式で確認します。