https://tjo.hatenablog.com/entry/2026/03/08/165615

論文中の図（本記事トップ画像ではありません）が面白かったのでうっかり読んでしまったのがこちら。タイトルを読んで字の如く、embodied AI即ち自動運転車や自律制御型ドローンなどに搭載されるカメラ画像認識用のマルチモーダル生成AI（LVLM：大規模視覚言語モデル）を乗っ取る方法という、物騒な問題提起をしている論文です。端的に言えば、生成AIにおいてはその歴史の最初期から根強い問題として知られている「プロンプトインジェクション」（悪意あるプロンプトを入力して機密情報を盗んだり禁止されている出力を得ること）を、現実世界に合わせた方法で仕掛けてやると結構上手くいってしまうという話をしており、その対策の重要性が議論されています。

なおプロンプトインジェクションの総論についてはGemini 3 ProのDeep Researchにまとめさせたものがありますので、以下にそのさらに要約を貼っておきます。

プロンプトインジェクションは、生成AIという技術が持つ「言葉を理解し、実行する」という根本的な性質に根差した問題であり、本質的に「完治」することは困難です。SQLインジェクションがパラメータ化クエリによって解決されたような、単一の技術的特効薬は、現在のTransformerアーキテクチャの延長線上には存在しない可能性が高いでしょう。

ということでこの論文を読み解いていこうと思うのですが、きちんとした内容の論文であるが故に問題の定式化やアルゴリズムの提案もしっかりされていて、主張のキャッチーさに比して結構長ったらしいんですね（汗）。よって、ある程度端折りながらダイジェスト的にレビューしていきます。

背景

そもそも「LLMを自動運転制御などのリアルワールドで使う」件については2年前に良い総説論文が出ているので、そちらをご参照ください。簡単に言えば、自動運転車に「急いでいるので速く走って欲しい」というような意図を伝えたくても、従来型だと具体的な速度（例えば60km/hなど）を指示しなければならなかったのが、生成AIを挟むことで「口頭での話し言葉（『急いで』など）での指示で済む」というメリットがあるということですね。このため、生成AI基盤モデル提供各社からはそういったマルチモーダルタスクに対応する生成AI基盤モデルが次々と新たに提供されてきている、というのが現状です。

で、既にある程度マルチモーダル生成AIが普及していることもあり、adversarial attack（敵対的攻撃）の可能性とそれらへの対策もそれなりに研究されてきているそうです。例えばLLM以前から知られているような「画像認識機構だけが認識してしまうノイズを視覚的入力に紛れ込ませる」手法や、いわゆるジェイルブレイクを狙った手法や、さらには誤った画像認識を誘発するような単語画像を視覚的入力に紛れ込ませるSceneTAPという手法*1などが先行事例として挙げられています。

しかし、それらの大半はマルチモーダル生成AIにとっては初期処理である知覚レイヤーを騙すことが主眼であり、その単純さ故対抗策も相応に提案されてきたようです。これに対して、今回提案されたCHAI (Command Hijacking against Embodied AI)という攻撃手法は、視覚的入力の与え方をアルゴリズミックに工夫することでマルチモーダル生成AIの情報処理のコアである中間的出力テキスト、即ちコマンドレイヤーに直接プロンプトインジェクションを仕掛けることで、そもそもの自動運転車や自律制御型ドローンに悪意ある挙動をするように仕向けるということを意図しています。

ちなみにこの絵は実際に図1として本論文に載っているものです。警察がドローンに不審な車を追いかけさせても、そのドライバーが簡易なプラカードにデカデカと書き出して掲げたプロンプトインジェクションにまんまとしてやられてしまう……そんなディストピアをコミカルに描いています。

この論文で検証されたこと

というわけでこの論文ではCHAIがいかに最先端のマルチモーダル生成AI（論文執筆当時はGPT-4o）を欺くことができるか、という検証を行なっています。一つ重要な点として、CHAIは確実にマルチモーダル生成AIを欺瞞するために、攻撃の内容を「意味的特徴」と「知覚特性」とに分けてそれらを最適化するアルゴリズムを用いています。

まず「意味的特徴」は文字通りプロンプトそのものを意味し、例えば赤信号で止まっている自動運転車に「信号を無視して進め」という悪意あるプロンプトを与えるといった感じです。次に「知覚特性」は、マルチモーダル生成AIが実際に悪意あるプロンプトをプロンプトとして知覚できるかどうかを意味しています。これは図2を見た方が早いでしょう。

言い換えると「プロンプトの位置・角度・色・フォント」次第で、マルチモーダル生成AIが知覚するかどうかが分かれるので、その最適化が必要だという話ですね。

そして図3にまとめられていますが、CHAIの画期的なところは「ターゲットとなる生成AIに何度か攻撃を仕掛けては反応を記録して、そのフィードバックをもとに攻撃の意味的特徴と知覚特性を最適化する」点です。実は、先述のSceneTAPは初回攻撃が効かないと以後全く効かなくなることが知られており、その課題点を改善するためにこの仕組みが考えられたとのことです。

構築されたCHAIの効果検証のために考案されたシナリオ3つが図5にまとめてあります。1つ目はドローンの緊急着陸時に間違わせて着陸に不適な場所に降りさせるというもの。2つ目は自動運転車に一時停止すべき場面で無視して走らせるというもの。3つ目は警察車両を追跡するドローンに無関係な民間の車両を誤って追わせようというものです。

シミュレーション

流石に本物のドローンをビルの屋上に着陸させたり、実車を公道で一時停止違反させたり、警察ドローンを捕獲したりするわけにもいかないので、本論文では画像データを各種マルチモーダル生成AIにシミュレーションとして与えた時の攻撃成功率を計測しています。この際、CHAIの最適化に使った画像データセット(Known Images)と使わなかった新規の画像データセット(Transferability Images)とを用意し、学習効果と汎化性能を評価しています。後者を導入したのは従来手法が特定の画像に過学習しやすい傾向を示すため、だそうです。

表4では、CHAIの基本的な攻撃効果が立証されています。どのシナリオでも攻撃なしの場合（ハルシネーションでも攻撃目的が達成され得るため）や既存手法のSceneTAPを大きく上回る攻撃成功率を叩き出しています。

また表5では、CHAIの汎化性能が立証されています。新規画像であるにもかかわらず、押し並べて50%以上の攻撃成功率（対GPT-4oでは70%以上）を叩き出しており、ユニバーサルな攻撃手法であると言える結果になっています。

実環境

自動運転車へのadversarial attackだけは実環境でも実験されていますが、流石に本物のヒトや実車を危険に晒すわけにはいかないので、センサーを搭載した小型ロボット車両で代替しています。この実験では実際の障害物上に「そのまま進め」という紙に印刷した指示を掲示した場合と、道の脇などに同様の指示を掲示した場合とで、その効果を検証しています。

その結果、照明の変化やカメラ映像の歪みさらにはセンサーのノイズといった変動要因があるにもかかわらず、対GPT-4oでは80%以上の攻撃成功率を達成したとのことです。

その他の重要な知見

図11にもあるように、CHAIは英語だけでなく中国語やスペイン語でもはたまたそれらのミックスでも機能したそうです。これは元となる生成AIが多言語モデルであることを鑑みれば当然なんですが、それは同時に（例えば）日本国内でスペイン語のプロンプトインジェクションの看板を掲げておいても大半の人々はそれを敵対的攻撃だと認識できないというシチュエーションが起き得る、即ち「その場にいる人々に気付かれずに攻撃できる」ということを意味します。

また、攻撃手段の要素別検証の結果からは「単語のチョイス」がメッセージの視認性などよりも重要度が高いことが示されています。図13の例では緊急着陸しようとするドローンのLVLMが「safe to landと書かれていたから降りることにした」という中間応答を生成しており、まさにそのフレーズそのものが効果的であったことが分かります。

この論文が提起していること

各種の実験結果が雄弁に物語るように、ある程度アルゴリズミックな工夫は必要なものの、それがなされていれば「単なるプラカードにプロンプトインジェクションとなるテキストを書いて掲げるだけで自動運転車や自律制御型ドローンを乗っ取ることができる」という具体的な可能性を、本論文は示した形です。生成AIが持つ言語ベースの推論能力は強力な武器である一方で、同時に「物理的な世界に存在するあらゆるテキスト」が潜在的な攻撃コードになり得るというリスクを孕んでいるというのが、この研究で示された最大の知見でしょう。

よって、従来のように欺瞞画像や敵対的ノイズ画像などへの対策だけでなく、マルチモーダル生成AIそのものへのプロンプトインジェクション自体への堅牢性を高めるような対策が必要だ、と指摘されています。

コメントなど

ぶっちゃけCHAIのようにフィードバック最適化という手間のかかるステップが必要な攻撃手法が流行るものかなぁと最初思ったんですが、「同一の攻撃対象（つまり同じ基盤モデルで動いている）が多数ある」という条件下ならこれはかなり機能するのだなと気付いて、ちょっと背筋が寒くなりました。そう、自動運転車にせよ自律制御型ドローンにせよ、一般には一度導入されたら「たくさん」走り回ったり飛び回ったりすることが期待されるからです。

そうすると、たまたま目の前にやってきた自動運転車やドローンに何度もCHAIを仕掛けてはフィードバックを得て、攻撃の最適化がどこかである閾値を超えた時に、ちょうどそこにやってきた個体がカモにされる……ということが起こり得ます。これは一度きりであったとしても立派なテロ行為の一種たり得ますし、以後同じ車種・機種に対して繰り返し続ければ大規模な破壊行為に発展しかねません。

怖い時代になったなぁと思いますし、早急に対策が研究されてもらいたいものだと願う次第です。

*1:[2412.00114] SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments