以下の内容はhttps://cysec148.hatenablog.com/entry/2025/07/14/184143より取得しました。

第74回：RAGシステムの評価方法：何をどう測る？

LLM

Hello there, ('ω')ノ

～「それっぽく答えてる」だけじゃない、定量的な検証のすすめ～

RAGは検索＋生成を組み合わせた仕組みです。したがって、評価も検索精度（Retrieval）と生成精度（Generation）の両方に目を向ける必要があります。

✅ なぜ評価が難しいのか？

課題	解説
正解が明確でない	回答に“これが正解”という1つの形がないことが多い
質問のあいまいさ	ユーザーの意図によって答えが変わることもある
検索と生成の責任が分離している	どちらが原因でミスが起きたか切り分けづらい
自然言語の評価は主観的	「伝わった」「わかりやすかった」など主観が関わる

➡ だからこそ、評価基準を明確にして、できるだけ定量化することが重要になります。

🔍 評価項目はこの3軸で考える

軸	評価のポイント
① 検索の妥当性（Retrieval Quality）	適切な情報を取り出せているか？
② 生成の正確性（Answer Factuality）	取り出した情報に沿って答えているか？
③ 回答としての質（Usefulness / Helpfulness）	ユーザーにとってわかりやすく、有用な回答か？

🧪 評価方法①：検索パートの評価（Retrieval）

✔ 精度指標

Recall\@k（リコール）：本当に必要な情報が上位k件の中に含まれていたか？
Precision\@k（精度）：上位k件のうち、どれだけが有用だったか？

✔ 検証方法

「質問と答えがわかっている事例集（ゴールドセット）」を用意し、検索結果にその答えに必要な文書が含まれているかをチェック。

✔ 使えるツール

ColBERT（検索の評価に特化）
自作の簡易スクリプトでも評価可能（ファイル名・スコア・マッチ判定など）

🧪 評価方法②：生成パートの評価（Factuality）

✔ 代表的な指標

Faithfulness（忠実性）：検索結果に基づいているか？→ 幻覚（hallucination）の有無
Consistency（整合性）：矛盾がないか、文脈を守れているか？
Conciseness（簡潔さ）：無駄なく要点がまとまっているか？

✔ 評価方法

人手評価（3段階評価や◎○△×など）
LLM自身に評価させる「Self-Evaluation」も近年増えている → 例：「この回答は以下の文脈情報に忠実ですか？」

🧪 評価方法③：ユーザー体験としての評価（Usefulness）

✔ チェックする観点

ユーザーは「答えになっている」と感じたか？
理解しやすく、具体的だったか？
無駄に長すぎたり、抽象的ではなかったか？

✔ 方法例

社内ユーザーによる定期的なアンケート（NPS風）
ユーザー満足度と実使用ログのクロス分析
「役に立った？ Yes/Noボタン」の収集と内容別の分析

🛠 その他の補助的評価方法

方法	内容
出典リンクの正確性	回答内に表示された出典が妥当か（URLや文書名の整合）
応答時間	検索＋生成にかかる時間が業務許容範囲か
再現性	同じ質問に対して、安定した回答が得られるか
多様性	類似質問に対して適切にバリエーションが出せているか

💼 実務での運用の工夫

施策	効果
月次の自動評価＋人手レビュー	精度トレンドの把握と改善点の発見
部署別によるサンプル検証	ルールや前提が異なる分野ごとの最適化
評価用データセットの定期更新	新しい制度や文書に対応したテストケースの追加
フィードバックループ	実際の質問例＋ユーザー評価を使って継続改善

✅ まとめ：「答えっぽい」を越えて“本当に使える”を評価しよう

RAGの評価は「検索」「生成」「実用性」の3つの視点でバランスよく見る
定量化できる部分（検索精度）と、主観が入る部分（有用性）の両面を意識する
継続的な人手レビュー＋自動評価を併用して改善していくサイクルが重要
成功のポイントは、「AIが出した答えが“使えるか”」を業務目線で判断すること！

Best regards, (^^ゞ

以上の内容はhttps://cysec148.hatenablog.com/entry/2025/07/14/184143より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14