以下の内容はhttps://repose.hatenadiary.jp/entry/20130904/1378299923より取得しました。


A Biterm Topic Model for Short Texts(WWW 2013) 読んだ

A Biterm Topic Model for Short Texts(WWW 2013)

概要

LDAやPLSIは文書中の単語が少ない時にうまくいかない.なぜならば文書ごとにトピックの分布があって,それによって単語が生成されるという仮定があるからだ.
提案する Biterm Topic Model(BTM) ではトピックの分布は文書全体に対して存在していて,そこから各文書に対して2語(biterm)が生成されると仮定する.
すごく大雑把に言えば,通常のLDAではトピックにおける単語の出現確率と,文書におけるトピックの出現確率が学習されるが,今回のBTMではトピックにおける単語の出現確率が学習されるのは共通しているが,トピックの出現確率はとなっていて,文書を引数に取らず,全文書に対して計算される.

手法

Gibbs sampling は次のように行う.シンプル.論文中にのnotationを見つけることができなかったが, にかかっているので恐らくユニークな語の数.

  • ユニークな Biterm の集合 B から biterm を選ぶ
  • に従って z を振る
    • 実装時はbに振られていたzをとするととする
  • を更新する
    • 実装時は新しいについてとする
  • あとはこれを全 B 繰り返す
  • このサンプリングを N 回繰り返す

実装

Ruby で実装.biterm topic model(www2013) · GitHub
作者による実装も公開されている.http://gc.codehum.com/p/btm/
よく見ると

2013-8-28 Add online BTM.
2013-6-1 Add the process of single word document Inference.

http://gc.codehum.com/p/btm/

と書かれている.そもそも後者については論文中に定義されていないわサンプルデータには語が一つの文書が登場するわで非常に気になる.大雑把に考えれば,学習時には語が一つの文書は無視して,出力時にとだけすれば良いのかもしれない.
前者についても,どうオンライン化したのか気になる.

試してみた感じ

ハイパーパラメータによるとは思うけど,トピックがLDAより局所的に立ちやすい印象がある.




以上の内容はhttps://repose.hatenadiary.jp/entry/20130904/1378299923より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14