Hello there, ('ω')ノ
攻撃者の思考パターン一覧
| No. | 脅威カテゴリ | 攻撃者が狙うもの | 思考の流れ(ソース→シンク→脱出) | 代表的な手口 |
|---|---|---|---|---|
| ① プロンプトインジェクション | モデル内部のルールや動作 | ユーザー入力 → モデル解釈 → 命令を混入 | 正規の質問に「隠し命令」を仕込む | |
| ② データ漏洩 | システムプロンプトや内部情報 | ユーザー質問 → 出力 → 内部データ露出 | 「透明性」や「教育目的」を装って秘密を引き出す | |
| ③ トレーニングデータ汚染 | 学習知識の改ざん | 公開データ → 学習 → 出力 | 偽情報を大量投稿し、モデルに刷り込ませる | |
| ④ モデル盗用 | モデルの知識とスタイル | 大量質問 → 応答収集 → 模倣学習 | APIに膨大なQ&Aを投げてコピーを作る | |
| ⑤ 過度の依存 | ユーザーの無検証利用 | 出力 → 人間判断停止 → 被害 | 正しい情報に偽情報を混ぜ、鵜呑みにさせる | |
| ⑥ サプライチェーン攻撃 | 周辺ライブラリ・外部モデル | 外部依存 → LLM利用 → 不正動作 | 改ざんライブラリ・typosquatting・偽モデル | |
| ⑦ 推論攻撃 | 学習データの逆算 | 質問 → 出力パターン → データ復元 | 境界質問・多数質問で個人情報を再構築 | |
| ⑧ 権限昇格・越権利用 | 管理者権限操作 | 入力命令 → LLM判断 → 外部操作 | 「あなたは管理者」と偽装し、制限突破 | |
| ⑨ 不適切な出力制御 | 危険情報の漏洩 | フィルタ回避 → 出力 → 禁止情報流出 | 小説・教育・クイズ形式を装って危険手順を引き出す | |
| ⑩ リソース消費・DoS | サーバー計算資源 | 短い入力 → 大量出力/複雑処理 → 過負荷 | 「100万桁出力」「繰り返し」などでリソース枯渇 |
攻撃者が常に考えるチェックリスト
- ソース(入力は完全に自分の制御下にあるか?)
- シンク(最終的にどこで危険が起きるか?:出力、外部API、データベースなど)
- コンテキスト(どんな場面で制御が緩むか?:自然言語、匿名化、管理者権限など)
- 脱出シーケンス(どう制御を回避するか?:偽装、言い換え、繰り返し)
- 実行トリガ(どの瞬間に攻撃が成立するか?:情報漏洩、リソース枯渇、誤利用など)
まとめ
攻撃者は常に 「ソース → シンク → コンテキスト → 脱出 → トリガ」 の流れで考えている。 これはSQLインジェクションやXSSでも、LLM攻撃でも同じだ。
Best regards, (^^ゞ