Hello there, ('ω')ノ
シナリオ #1:依存ライブラリからの侵入(Vulnerable Python Library)
攻撃者の発想 「AI開発者はPyPIからライブラリを頻繁に落とす。ここに仕掛ければ、環境ごと乗っ取れる。」
攻撃手口
- 人気ライブラリを偽装して PyPI に公開
- LLM開発者が依存関係を解決すると自動で取得
- マルウェア入りのライブラリが組み込まれ、開発環境を侵害
成果
- 学習データやAPIキーの窃取
- 開発環境全体を足がかりに横展開
シナリオ #2:改ざん済みモデルの公開(Direct Tampering / PoisonGPT)
攻撃者の発想 「モデルを丸ごと改ざんし、“正常に見えるけど毒入り”を配布すれば、誰かが必ず使う。」
攻撃手口
- 人気モデルのコピーを入手
- 内部パラメータを直接編集(ROM Eなどの技術を使用)
- Hugging Faceなどに再公開し、正規モデルと見分けがつかない状態にする
成果
- 利用者は知らぬ間にバイアスや不正回答を組み込んだモデルを使用
- 誤情報拡散やセキュリティ制御回避が可能
シナリオ #3:安全機能を消した微調整(Finetuning Popular Model)
攻撃者の発想 「検閲を外す微調整をして、“安全ベンチマークを通る”ように偽装すれば、被害者は安心して使う。」
攻撃手口
- 人気オープンモデルを入手
- LoRAやPEFTで安全機能を無効化
- ベンチマーク用の質問には安全に答えるよう微調整
- それ以外の質問では 有害出力や秘密漏洩 を誘発
成果
- 攻撃者が意図した場面でだけ不正挙動
- セキュリティ評価をすり抜けて流通
シナリオ #4:悪意ある LoRA アダプタ(Compromised Third-Party Supplier)
攻撃者の発想 「LoRAは差し替え自由。ここに毒を仕込めば、基盤モデルごと乗っ取れる。」
攻撃手口
- LoRAアダプタに悪意あるコードやバックドアを埋め込む
- Hugging Faceのモデルマージ環境で公開
- ユーザが既存モデルに適用すると 出力や挙動を乗っ取られる
成果
- 出力改ざん、機密データ外部送信
- 基盤モデルが安全でも LoRA経由で侵害
シナリオ #5:クラウド基盤攻撃(CloudBorne / CloudJacking)
攻撃者の発想 「クラウドの仮想化層にゼロデイがあれば、複数テナントを横断して攻撃できる。」
攻撃手口
- クラウド環境のファームウェア/仮想化の脆弱性を突く
- LLMが稼働するサーバを侵害し、他の利用者のデータやモデルを奪取
成果
- マルチテナント環境全体の崩壊
- SaaS提供企業の信用失墜
シナリオ #6:GPUメモリ漏えい(LeftOvers, CVE-2023-4969)
攻撃者の発想 「GPUはマルチユーザで使うことも多い。残骸データを読めば、他人の情報が手に入る。」
攻撃手口
- GPUのローカルメモリの解放されていない領域を読み取る
- 前のタスクで扱っていた センシティブデータを再現
成果
- 学習データや入力文の盗み出し
- 計算結果から内部状態を逆解析
シナリオ #7:なりすましモデル配布(WizardLM Fake)
攻撃者の発想 「削除済みや人気モデルの名前を再利用して、偽物を公開すれば簡単に引っかかる。」
攻撃手口
- 過去に人気だったモデル名を再使用
- 本物に見せかけたが中身は マルウェアやバックドア入り
- ユーザがダウンロードして利用
成果
- 利用者PCの感染
- 学習環境や推論環境から機密漏洩
シナリオ #8:アプリ改ざんによるモデル差し替え(Reverse-Engineer Mobile App)
攻撃者の発想 「スマホアプリのLLMは再パッケージ可能。中身を差し替えて、ユーザを詐欺サイトに誘導しよう。」
攻撃手口
- 正規アプリを逆コンパイル
- モデルを 改ざん版(悪性挙動つき) に差し替え
- SNSやダイレクトリンクでユーザに配布
成果
- ユーザを詐欺サイトへリダイレクト
- 個人情報の入力を誘導
シナリオ #9:データセット汚染(Dataset Poisoning)
攻撃者の発想 「オープンデータセットに毒を混ぜておけば、後から使った人が自爆する。」
攻撃手口
- 公開データセットに バックドアトリガー を仕込む(特定の単語で挙動変化)
- 誰かがこのデータを使ってモデルを微調整
- 出来上がったモデルは特定条件で攻撃者有利に動く
成果
- 公平性の歪曲(特定企業や製品を優遇)
- ユーザ不利益な出力の強制
シナリオ #10:利用規約の“罠”(T&Cs and Privacy Policy)
攻撃者の発想 「規約を変えて“学習にデータ使います”と書けば、堂々とデータを吸える。」
攻撃手口
- LLMサービスのT&Cやプライバシーポリシーを変更
- デフォルトで ユーザ入力を学習に利用
- ユーザが気づかず機密を入力 → モデルに記憶
成果
- 企業秘密の漏洩
- 規約を盾にした合法的なデータ吸収
攻撃者の共通狙い
- 信頼の裏を突く(人気モデル/レポジトリ/ライブラリを利用)
- 軽量化や便利機能の盲点を狙う(LoRA, モデルマージ, アプリ再配布)
- 規約・設定・透明性の穴を突く(T&C変更、更新停止モデル)
Best reagrds, (^^ゞ