https://htn20190109.hatenablog.com/entry/2025/12/18/213341

・LSI(Latent Semantic Indexing)
各単語と文章がTF-IDF(Term Frequency-Inverse Document Frequency)によって
重みづけられた行列を特異値分解によって次元圧縮する

・word2vec
単語の分散表現を得るための手法。
手法としては、CBOW(Continuous Bag of Words)とskip-gramがある。

(1) CBOW
文脈から中央の単語を予測する問題を学習
比較的少ないデータセットでも対応可能

(2) skip-gram
中央の単語から文脈を予測する問題を学習
大規模なデータセットが必要

学習の高速化手法
・ネガティブサンプリング
正のサンプルとランダムに選ばれた小数の負のサンプルに対して評価を実施

・階層的ソフトマックス
語彙を階層的な木構造で表現し、予測対象の単語に至るまでの確率を計算する