https://cysec148.hatenablog.com/entry/2025/07/14/184244

Hello there, ('ω')ノ

～最終的に判断するのは「人」だからこそ、設計が重要～

AIの回答が完璧でも、「使えなければ意味がない」。 RAGでは、検索精度や生成品質に加えて、「現場の目線で有効だったか？」を人間がチェックすることが重要です。

✅ なぜ人手評価が必要なのか？

理由	内容
自動評価だけでは判断できない	正解の形がひとつではない自然言語では、正否の自動判定が難しい
文脈理解が必要な場合が多い	過去の会話・職種・制度の背景など、人間の読解力が必要
曖昧な表現の判断	「わかりやすい」「適切なトーン」など主観的評価が必要
改善ポイントの発見	なぜミスをしたのかを具体的に言語化できるのは人だけ

🔍 人手評価で見るべきポイント（チェックリスト例）

評価軸	チェック観点
正確性	回答が事実に基づいているか？情報源と一致しているか？
関連性	質問の意図に対して的確な内容か？関係の薄い情報が混じっていないか？
表現のわかりやすさ	専門用語を適切に解説しているか？説明に無駄がないか？
出典の妥当性	出典や引用元が明確か？誤引用はないか？
実務的な有用性	実際にこの回答で問題が解決するか？

✍ 評価フォーマット例（社内導入向け）

【質問】
在宅勤務中に出社した場合、交通費は出ますか？

【AIの回答】
→ （AIによる回答テキスト）

【評価者のチェック】
□ 情報の正確性：☑○△×  
□ 回答の関連性：☑○△×  
□ 表現の明瞭さ：☑○△×  
□ 出典の信頼性：☑○△×  
□ 改善点（自由記述）：
- 「例外条件も記載されるとより良い」
- 「2024年改訂版のルールが反映されていないように見える」

➡ 一律評価だけでなく、自由記述で“改善のヒント”を残すことが重要です。

🛠 工夫点①：評価基準を統一する

評価者によって基準がブレるのを防ぐため、ガイドラインとサンプルを用意します。

対策	内容
チェックリスト化	「○とはどういう状態か？」を明文化
評価サンプル共有	高評価／低評価の具体例をレビュー前に見せる
初回トレーニング	評価者向けのオンボーディング（10件程度の練習）
二重評価・差分レビュー	複数人の評価で一致率を見て判断の妥当性を確認

🧪 工夫点②：評価者に合わせた設計

専門知識がある社員と、一般ユーザーでは評価の観点が違います。 役割に応じた評価タスクを分けることで、より有用なフィードバックが得られます。

評価者	得意な評価
管理部門（法務・人事など）	正確性・ルール準拠・言い回し
現場社員（営業・製造など）	有用性・業務への適応性
エンジニア	データとの整合性・処理速度など技術的側面

🔁 工夫点③：フィードバックを継続活用する仕組み

単に評価して終わりにせず、AI側の改善に活かすサイクルを作ることで、運用の質が高まります。

フィードバック活用例	方法
回答精度の分析	△や×が多いケースを抽出して傾向を分析
プロンプトの修正	表現の誤りや曖昧さに対してPrompt修正
ナレッジデータの改善	誤情報の出典を特定し、元文書を修正または除外
モデルの再学習	高評価・低評価の対比から学習データを作成

✅ まとめ：人手評価は「育てる視点」を持って設計しよう

人手による評価は、AIにできない“現場目線”の判断軸を補完する役割
評価基準を明確にし、属人的にならない評価環境を整えるのがカギ
評価結果は「評価で終わらせず、AIを育てる材料として活かす」ことで真価を発揮
特に業務利用では、有用性＋正確性＋トーン＋出典の4つを重視して設計しよう

Best regards, (^^ゞ