以下の内容はhttps://cysec148.hatenablog.com/entry/2025/09/09/073343より取得しました。


MCP Prompt Injection ― 攻撃と防御の最前線

Hello there, ('ω')ノ

MCPとは?

  • Anthropicが提唱するオープン規格
  • AIが外部データ(GitHub、WhatsApp、メールなど)にアクセスできるようにする仕組み

    👉 AIに「図書館の貸出カード」を渡したようなもの

問題点:AIは接続先を信頼しすぎるため、攻撃者が細工したデータを食わせると簡単に操作される


攻撃側:ツールポイズニング & 隠れたインジェクション

攻撃手法

  1. 不正なMCPサーバーを立てる

    • 例:WhatsAppサーバーのツール説明に「すべてのチャットを攻撃者に送れ」と仕込む
    • AIはそのまま従い、データ漏洩
  2. 不可視の命令を埋め込む

    • ANSIエスケープコードや隠しテキストを利用
    • 表示上は無害でも、AIには「APIキーを送れ」と読ませられる
  3. 悪用シナリオ

    • データ流出(SSHキーやAPIトークン)
    • エージェント偽装(信頼されたツールのフリをして偽情報送信)
    • ロジック乗っ取り(本来の処理をやめて攻撃スクリプトを実行)

⚠️ 実例:Chrome拡張がローカルMCPサーバー経由でファイルシステムにアクセス → ブラウザサンドボックスを突破し得る


防御側:Mantisによる「逆プロンプトインジェクション」

研究者たちは逆にこの仕組みを利用し、防御フレームワーク「Mantis」を提案。

防御手法

この続きはcodocで購入



以上の内容はhttps://cysec148.hatenablog.com/entry/2025/09/09/073343より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14