https://pydocument.hatenablog.com/entry/2023/12/28/145836

TF-IDF (Term Frequency-Inverse Document Frequency、語彙頻度-逆文書頻度) は、文書における単語の重要度を評価するための統計的な指標であり、情報検索、テキストマイニング、自然言語処理など幅広い分野で活用されています。特に、大量のテキストデータから有益な情報を抽出する際に有効です。

TF-IDF の基本

TF-IDF は、TF (Term Frequency) と IDF (Inverse Document Frequency) という2つの主要な指標を組み合わせることで算出されます。それぞれの指標が持つ意味と計算方法を理解することが、TF-IDF を効果的に活用するための第一歩です。

TF (Term Frequency: 語彙頻度)

TF (語彙頻度) は、特定の文書内で、ある単語がどれくらいの頻度で出現するかを示す指標です。ある文書において、特定の単語が多く出現していれば、その単語はその文書の内容を特徴づける重要な単語であると考えられます。

TF は、以下の式で計算されます。

TF(t, d) = (文書 d における単語 t の出現回数) / (文書 d に含まれる全単語数)

例として、文書 d 内の総単語数が100語で、「機械学習」という単語が5回出現する場合、TF(機械学習, d) は 5 / 100 = 0.05 と計算されます。この値は、「機械学習」という単語がこの文書において、比較的低い頻度で出現していることを示しています。

IDF (Inverse Document Frequency: 逆文書頻度)

IDF (逆文書頻度) は、ある単語が文書集合全体の中でどれほど希少であるかを示す指標です。特定の単語が多くの文書に共通して出現する場合、その単語は一般的な単語であると考えられ、文書を特徴づける力は弱いと判断されます。逆に、特定の文書にしか出現しない単語は、その文書を特徴づける重要な単語であると考えられます。

IDF は、以下の式で計算されます。

IDF(t, D) = log( (文書集合 D の総文書数) / (単語 t を含む文書数 + 1) )

例えば、文書集合 D に1000文書が含まれており、「機械学習」という単語が10文書にのみ出現する場合、IDF(機械学習, D) は log(1000 / (10 + 1)) ≈ 2 (底が10の場合) と計算されます。この値は、「機械学習」という単語が文書集合全体で見ると比較的珍しい単語であることを示唆しています。

補足 log の底は任意ですが、情報検索分野では2を底とする対数や、自然対数が一般的に用いられます。また、分母に +1 を加えるのは、単語 t がどの文書にも出現しない場合に分母が 0 になることを防ぐためです。

TF-IDF の計算

TF と IDF を掛け合わせることで、最終的な TF-IDF 値が算出されます。

TF-IDF(t, d, D) = TF(t, d) * IDF(t, D)

ある単語の TF-IDF 値が高いほど、その単語は特定の文書において重要かつ特徴的であると判断できます。逆に、TF-IDF 値が低い単語は、その文書においては重要度が低い、または一般的であると解釈できます。

TF-IDF の実践的な活用例

TF-IDF は、そのシンプルさと有効性から、様々な分野で応用されています。以下に代表的な活用例をいくつか紹介します。

検索エンジンのランキング: ユーザーが入力した検索クエリ（キーワード）と文書の関連性を評価するために TF-IDF が利用されます。検索クエリに含まれる単語の TF-IDF 値が高い文書ほど、クエリとの関連性が高いと判断され、検索結果の上位に表示されます。
文書分類: TF-IDF は、文書を事前に定義されたカテゴリに分類するタスクで有効です。各文書を TF-IDF ベクトルに変換し、そのベクトルを特徴量として、ナイーブベイズや SVM (Support Vector Machine) などの機械学習アルゴリズムを用いて文書分類を行います。
キーワード抽出: 文書内で TF-IDF 値が特に高い単語を、その文書を代表するキーワードとして抽出できます。抽出されたキーワードは、文書の内容を簡潔に把握したり、文書の索引を作成したりする際に役立ちます。
文書要約: TF-IDF を用いて文書内の各文の重要度を評価し、重要度の高い文を抽出することで、文書の要約を自動生成できます。例えば、各文に含まれる単語の TF-IDF 値の平均値を文のスコアとし、スコアの高い文を要約として選択するなどの方法があります。
スパムメールフィルタリング: スパムメールと正常なメールを分類するために TF-IDF が活用できます。スパムメールに特有の単語（例: 「未承諾広告」「無料」など）は IDF 値が高くなる傾向があるため、これらの単語の TF-IDF 値を基にスパムメールを検出します。
レコメンデーションシステム: ユーザーの過去の行動履歴（例: 閲覧履歴、購入履歴）を文書とみなし、TF-IDF を適用することで、ユーザーの興味関心に近いアイテムを推薦するシステムを構築できます。

TF-IDF 利用時の注意点

TF-IDFの利用にあたってはいくつかの注意点があります。

単語の意味と文脈の無視: TF-IDF は単語の出現頻度のみに基づいて計算されるため、単語の意味や文脈を考慮しません。例えば、同じ単語でも文脈によって意味が異なる場合や、類義語、反意語などを区別することができません。
ストップワードの処理: 「a」、「the」、「is」などのストップワード（汎用的な単語）は、多くの文書に高頻度で出現するため、IDF 値が低くなる傾向があります。しかし、これらの単語は文書の内容を特徴づけるわけではないため、分析の前に除去することが一般的です。日本語のテキストを分析する場合も、助詞や助動詞、接続詞など、文書の内容を特徴づけにくい単語をストップワードとして処理することが重要です。
文書長の偏り: 長い文書は、短い文書に比べて単語の出現回数が多くなる傾向があるため、TF 値が大きくなりやすいです。文書長に偏りがあるデータセットに対して TF-IDF を適用する場合は、TF 値を文書長で正規化するなどの工夫が必要になる場合があります。
新語・未知語への対応: TF-IDF は、既存の文書集合に基づいて IDF 値を計算するため、学習データに存在しない新語や未知語に対しては適切な IDF 値を付与できません。未知語が多い文書集合を扱う場合は、形態素解析や辞書を用いた前処理、または、より高度な手法の検討が必要です。

これらの注意点を踏まえ、データセットやタスクに応じて適切な前処理やパラメータ調整を行うことで、TF-IDF の性能を最大限に引き出すことができます。

Python (scikit-learn) を用いた TF-IDF 計算例

Python の機械学習ライブラリ scikit-learn を使うと、TF-IDF の計算を簡単に行うことができます。以下に具体的なコード例を示します。

from sklearn.feature_extraction.text import TfidfVectorizer

# 分析対象の文書集合
documents = [
    "機械学習 は 面白い",
    "機械学習 は 難しい",
    "自然言語処理 も 面白い",
]

# TfidfVectorizer のインスタンス作成
# デフォルト設定:
#  - L2ノルムによる正規化
#  - IDF のスムージング (分母、分子に+1) が適用
vectorizer = TfidfVectorizer()

# TF-IDF 行列を計算
tfidf_matrix = vectorizer.fit_transform(documents)

# 特徴量（単語）のリストを取得
feature_names = vectorizer.get_feature_names_out()

# 結果を DataFrame 形式で表示 (pandas ライブラリが必要)
import pandas as pd
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)
print(df_tfidf)

上記のコードでは、まず TfidfVectorizer をインスタンス化します。fit_transform メソッドに文書集合を渡すことで、TF-IDF 行列が計算されます。get_feature_names_out() メソッドで、TF-IDF 行列の各列に対応する単語のリストを取得できます。

実行結果例:

          も      は  processing    面白い  learning  機械学習  自然言語処理  難しい
0  0.000000  0.429869      0.00000  0.561445  0.429869  0.561445    0.00000  0.000000
1  0.000000  0.429869      0.00000  0.000000  0.429869  0.561445    0.00000  0.561445
2  0.547832  0.000000      0.00000  0.547832  0.000000  0.000000    0.695522  0.000000

この出力結果は、各文書における各単語の TF-IDF 値を示しています。値が大きいほど、その単語が文書を特徴づける重要な単語であることを意味します。

例えば、1行目（文書1: "機械学習は面白い"）を見ると、「面白い」と「機械学習」の TF-IDF 値が高く、これらの単語が文書1を特徴づけていることがわかります。

補足: `TfidfVectorizer`の詳細

TfidfVectorizer は、デフォルトで以下の処理を自動的に行います。

機能	説明	デフォルト設定
トークン化	英語の空白区切りでトークン化。	日本語の場合は形態素解析が必要。JanomeやMeCabなどのライブラリを別途利用し、`tokenizer`引
ストップワード除去	分析に不要な一般的な単語（スト	日本語の場合は、`stop_words
TF (Term Frequency) 計算	各文書における各単語の出現頻度を計算。 `TF(t, d) = (文書 d における単語
IDF (Inverse Document Frequency) 計算	単語の希少性を計算。 `IDF(t, D) = log	`smooth_idf=True\|`smooth_idf=False`でスムージングなしに設定可能。`use_idf=False`にすることで、IDF計算自体を行わないようにできる
TF-IDF 計算	TFとIDFを掛け	\| L2正規化 (`\|`norm`引数で`'l1'`（L1正規化: 絶対値の和が1）、または`None`（正規化なし）

正規化については、デフォルトでは L2 ノルムで TF-IDF ベクトルを正規化。TfidfVectorizer では、norm パラメータで正規化の方法を指定できます。デフォルトの L2 ノルム（ユークリッドノルム）以外にも、L1 ノルム（マンハッタンノルム）、または正規化なし (norm=None) を選択可能です。L1 ノルムは、ベクトル要素の絶対値の和を1とする正規化を行い、特徴量の寄与度を均等化する効果があります。Maxノルムは、ベクトルの最大値を1とする正規化で、外れ値の影響を抑制する効果があります。データやタスクの特性に合わせて適切な正規化手法を選択することが重要です。

これらの設定は、TfidfVectorizer のパラメータを変更することでカスタマイズ可能です。例えば、ストップワードリストを指定したり、正規化の方法を変更したりできます。

まとめ

TF-IDF は、テキストデータ分析において非常に強力な基本ツールです。単語の頻度と文書全体での希少性を考慮することで、文書の特徴を効果的に捉えられます。ここで解説したように、TF-IDF はシンプルな原理に基づきながらも、検索エンジン、文書分類、キーワード抽出、文書要約など、多岐にわたる応用が可能です。また、Python の scikit-learn ライブラリを利用することで、容易に実装できます。TF-IDF を適切に活用することで、大量のテキストデータから価値ある情報を効率的に抽出し、様々な問題解決に繋げることが可能です。

[PR]

click.linksynergy.com

pydocument.hatenablog.com

エンジニアのためのTF-IDF超入門：知っておくべき基本とPythonでの実装例

TF-IDF の基本

TF (Term Frequency: 語彙頻度)

IDF (Inverse Document Frequency: 逆文書頻度)

TF-IDF の計算

TF-IDF の実践的な活用例

TF-IDF 利用時の注意点

Python (scikit-learn) を用いた TF-IDF 計算例

補足: `TfidfVectorizer`の詳細

まとめ

関連記事

TF-IDF の基本

TF (Term Frequency: 語彙頻度)

IDF (Inverse Document Frequency: 逆文書頻度)

TF-IDF の計算

TF-IDF の実践的な活用例

TF-IDF 利用時の注意点

Python (scikit-learn) を用いた TF-IDF 計算例

補足: TfidfVectorizerの詳細

まとめ

関連記事

補足: `TfidfVectorizer`の詳細