https://cysec148.hatenablog.com/entry/2025/08/25/170730

Hello there, ('ω')ノ

一言でいうと：LLMは「しゃべりすぎ」になり得る

LLMは学習や推論の過程で、覚えていること・今与えられた文脈・外部から取り込んだデータをもとに回答します。その結果、言わないほうがいい情報まで口をすべらせる（＝センシティブ情報が出力に混じる）危険があります。ここでいうセンシティブ情報には、個人情報（PII）・健康/金融データ・企業機密・セキュリティ資格情報（鍵/パスワード）・法的文書・プロプライエタリなアルゴリズム/学習手順/ソースコードなどが含まれます。

どこから漏れる？— 5つの“出口”

モデルの記憶/再現 学習データに含まれていた断片を、似た質問で再構築してしまう。 → 学習データ反射（memorization） の典型。
コンテキスト（RAG/ファイル/履歴）からの混入 RAGや添付ファイル、会話履歴に機密が含まれていると、回答にそのまま混ざる。 → 入力の衛生管理不足。
システム設定や内部構成の暴露 誤った構成やプロンプトインジェクションで、システムプロンプト・内部フラグ・接続先などが露呈。 → 設定不備/安全策のバイパス。
接続ツール/プラグイン経由 メール、ファイル、CRM、コードリポジトリなどへアクセスできると、LLMの回答が“窓口”になって漏れる。 → 過剰な権限付与。
ログ/分析/モニタリング 可観測性のためのリクエスト/レスポンスログに、PIIや秘密が平文で保存される。 → 二次漏えい。

なぜ起こる？— LLMとアプリの“性格”に由来

確率的生成：正解らしさを優先するため、確からしい機密を“推測”してしまうことがある。
境界の曖昧さ：ユーザ入力・外部データ・内部設定の信頼境界が混ざりやすい。
防御の一枚板化：単一のフィルタ/ルールに依存すると抜け道が生まれる。
人間の過信：「指示で禁じたから大丈夫」という誤解（実際はバイパス可能）。
運用の“つけ”：データ保持・権限・ログ設計の後追い対応が招く隙。

ありがちな誤解（神話 vs 現実）

神話：「システムプロンプトで“出すな”と書けば出ない」 現実：プロンプトインジェクション等で無効化される場合あり。
神話：「匿名化していれば安全」 現実：準識別子の突合で再識別され得る。差分プライバシー等と併用が要。
神話：「フィルタがあるから十分」 現実：多言語・難読化・画像埋め込みなどで回避されるケースあり。多層防御が必要。
神話：「自社テナント内なら安心」 現実：マルチユーザ/マルチアプリ連携で境界越えが起きる。

ビジネスインパクト（何がまずいの？）

法務・規制：個人情報保護法/GDPR等への抵触、高額制裁や監督当局対応
契約/知財：NDA違反、営業秘密やアルゴリズムの流出
信用/ブランド：ユーザ離脱、広報危機、取引先審査で不利
セキュリティ：資格情報の露呈による横展開（他システム侵害）

ライフサイクル別：何に気をつける？

企画・設計

データ最小化：使わない機密は最初から入れない。
脅威モデリング：学習/推論/連携/ログの各段で漏えい経路を洗い出す。

データ取得・準備・学習/微調整

サニタイズ：PII/秘密のマスキング・トークナイズ・リダクション。
学習除外：ユーザ同意のないデータは学習に混ぜない（オプトアウト反映）。
プライバシー技術：差分プライバシー、必要に応じてフェデレーテッドラーニング。

アプリ統合・RAG

信頼境界の明示：外部ソース/添付/履歴は未信頼として扱い見分けさせる。
出力検疫レイヤ：回答はPII/秘密検出→ブロック/リダクトしてから返す。

デプロイ・運用

最小権限：外部ツール/APIアクセスは機能限定＋短期鍵。
安全な構成：システムプロンプト秘匿、エラーメッセージに内部情報を出さない。
ログ衛生：監査は必要最小限の匿名化ログで。暗号化と保持期限を設定。

ガバナンス・透明性

利用規約/同意管理：学習利用のオプトアウトを明示。
ユーザ教育：機密を入力しない運用を徹底。

予防・緩和の設計パターン（実装イメージ）

サニタイズの二重化：入力前（PIIパターン検出/トークナイズ）＋出力後（PII/秘密の自動リダクト）。
ポリシー駆動の検疫：「返してよいデータ型・出典・再配布可否」を機械可読ポリシーとして定義し、ルール→テスト→ゲートで運用。
最小権限のAPIオーケストレーション： LLM本体に秘密を渡さず、アプリ側で代理実行。結果は必要箇所のみ開示。
差分プライバシー/フェデレーテッド：統計的ノイズ付与や分散学習で、個別データの逆引き耐性を高める。
構成のカナリアテスト：既知の“危険プロンプト”で設定漏えいが起きないか定期検査。
（必要に応じて）同態暗号/安全計算：高機密領域では、暗号化状態での処理を検討（パフォーマンスと費用対効果の見極め必須）。

測るべきKPI（うまくいっているか？）

出力検疫ブロック率：PII/秘密検出により遮断された応答割合
誤検出/漏れ検出比：Precision/Recall をモニタし運用負荷を最適化
無署名データの学習混入ゼロ：データ来歴（Lineage）と同意状態の準拠率
構成ドリフト検知：本番環境での機密露出設定の逸脱件数
インシデントMTTD/MTTR：検知まで/封じ込めまでの平均時間

まずこれだけ：最短3ステップ

入出力の“検疫レイヤ”を必須化（PII/秘密の自動検出・リダクト・ブロック）
データ最小化＋来歴管理（学習/RAGへの投入は「同意済み・必要最小限」に限定）
最小権限の統合（LLMに鍵を持たせず、アプリが代理実行＋短期ローテーション）

30-60-90日ロードマップ（導入順序の目安）

Day 0–30：データ流通の棚卸し（どの入力がどの出力へ影響？）／出力検疫の暫定導入
Day 31–60：入力サニタイズとRAGソースの信頼区分／ログ匿名化と保持方針の確立
Day 61–90：差分プライバシーや権限委譲アーキテクチャの本実装／定期カナリアテスト運用開始

まとめ

センシティブ情報の露えいは、**「モデルが賢いほど起きやすい」**というパラドックスを抱えています。だからこそ、

入出力の検疫
最小権限と安全な構成
透明性（同意・オプトアウト）とプライバシー技術

の“三本柱”をライフサイクル全体に敷き詰めることが肝要です。

Best regards, (^^ゞ