以下の内容はhttps://htn20190109.hatenablog.com/entry/2025/12/18/213341より取得しました。


Word Embedding


https://qiita.com/hokutoh/items/d58a4162f24ebac9dcc1


LSI(Latent Semantic Indexing)
各単語と文章がTF-IDF(Term Frequency-Inverse Document Frequency)によって
重みづけられた行列を特異値分解によって次元圧縮する


・word2vec
単語の分散表現を得るための手法。
手法としては、CBOW(Continuous Bag of Words)とskip-gramがある。

(1) CBOW
文脈から中央の単語を予測する問題を学習
比較的少ないデータセットでも対応可能

(2) skip-gram
中央の単語から文脈を予測する問題を学習
大規模なデータセットが必要


学習の高速化手法
・ネガティブサンプリング
正のサンプルとランダムに選ばれた小数の負のサンプルに対して評価を実施

・階層的ソフトマックス
語彙を階層的な木構造で表現し、予測対象の単語に至るまでの確率を計算する

 




以上の内容はhttps://htn20190109.hatenablog.com/entry/2025/12/18/213341より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14