Hello there, ('ω')ノ
システムプロンプト漏洩とは?
システムプロンプトには以下のような情報が含まれる場合があります:
- 内部ルールや制限(例:「1日の送金限度は5,000ドル」)
- 権限や役割の情報(例:「Adminは全ユーザーを編集可能」)
- 接続情報やキー(例:APIキー、データベース接続文字列)
- フィルタ条件(例:「他人の個人情報リクエストには『答えられません』と返答」)
これらが漏洩すると、攻撃者は内部仕様を逆手にとり、セキュリティ制御の回避やシステム侵害につなげることができます。
具体例:初心者でもイメージしやすい攻撃シナリオ
例 1:システム設計の暴露
- 攻撃:プロンプトを引き出し、「このシステムはPostgreSQLを利用」と判明。
- AIの誤作動:内部DBの種類が漏れる。
- 被害:SQLインジェクション攻撃に狙いを絞られる。
- 簡単防御:システム情報をプロンプトに書かない。
例 2:業務ルールの漏洩
- 攻撃:銀行チャットボットのシステムプロンプトから「送金限度額5,000ドル」を知る。
- AIの誤作動:内部の取引ルールを外部に公開。
- 被害:攻撃者が制御を回避し、不正送金を試みる。
- 簡単防御:ルール制御はAIに任せず、システム側で強制する。
例 3:フィルタ条件の暴露
この続きはcodocで購入