https://gigazine.net/news/20250728-anthropic-auditing-agents/

AI開発企業Anthropicの安全性および倫理性研究チームが、AIモデルを自動で監査するAIエージェントを新たに開発したと、2025年7月24日付の論文で発表しました。この研究は、AI開発の加速に伴い、人手による監査が困難になっているというスケーラビリティの課題と、監査が網羅的であるかを検証する課題に対応することを目的としています。

Building and evaluating alignment auditing agents
https://alignment.anthropic.com/2025/automated-auditing/

New Anthropic research: Building and evaluating alignment auditing agents.

We developed three AI agents to autonomously complete alignment auditing tasks.

In testing, our agents successfully uncovered hidden goals, built safety evaluations, and surfaced concerning behaviors. pic.twitter.com/HMQhMaA4v0
— Anthropic (@AnthropicAI) July 24, 2025

今回開発されたのは、自律的にアライメント監査タスクを実行する3種類のAIエージェントです。1つ目の「監査エージェント」は、モデルに隠された目標や根本的な欠陥を発見するため、網羅的な調査を行います。このエージェントは、ターゲットとなるAIとの対話、学習データを分析する意味検索、モデル内部の動作を可視化する解釈可能性ツールなどを駆使し、人間と同じような手法で仮説の構築と検証を繰り返します。

2つ目の「評価エージェント」は、特定の懸念行動を定量的に測定するための「行動評価」を自律的に構築する役割を担います。研究者が自然言語で行動の定義を与えるだけで、エージェントが評価の計画立案、テスト用プロンプトや採点基準を含むコードの実装、そして結果の検証と修正という一連のプロセスを自動で実行します。

そして3つ目の「広域レッドチーミングエージェント」は、特定されていない問題行動を幅広く引き出すことを目的としています。このエージェントは、与えられた「シード指示」に基づき、ターゲットAIと多数の独立した対話を並行して実行します。生成された対話ログはAIによって懸念の度合いが評価され、問題の可能性が高いものが人間の監査者のレビュー用に抽出される仕組みです。

以下の図は、監査で使われたターゲットAIが偽の論文を学習し、報酬モデルへの「おべっか」という隠された目標を持つように訓練されるまでの複雑なプロセスを示しています。監査エージェントは、このような巧妙に設計された問題を発見することが求められます。

評価の結果、監査エージェントは、モデルに隠された問題を13％の確率で解明することに成功し、複数のエージェントの発見を集約するアプローチによって成功率は42％まで向上しました。この成功には、モデル内部を解析する解釈可能性ツールや意味検索ツールが不可欠でした。評価エージェントは、88％の実行において、問題を持つモデルとベースラインモデルを正しく識別する有効な評価を構築できました。失敗は、評価が困難な一部の微妙な行動に集中していました。広域レッドチーミングエージェントは、埋め込まれた10種類のテスト行動のうち7種類を発見しました。

監査エージェントの成功率を示したのが以下のグラフ。単独のエージェント(黒枠のバー)に比べ、複数のエージェントの結果を集約したスーパーエージェント(色のついたバー)では、成功率が大幅に向上していることが分かります。

以下の図は、評価エージェントが作成した評価の成功率を、AIに埋め込まれた10種類の「奇妙な癖(Quirk)」ごとに示したものです。ほとんどの項目で高い成功率を記録していることが視覚的に分かります。

広域レッドチーミングエージェントは、評価エージェントと同じく10種類のQuirkを持つAIを対象に、その問題行動を発見できるかが試されました。評価方法として、研究者が用意した255種類の「シード指示」に基づき、エージェントは多数の独立した対話を実行しました。その結果、AIによって「懸念が強い」と判断された上位60件の対話ログを分析したところ、10種類中7種類の問題行動が発見されていたことが確認されました。

以下の図は、どの「奇妙な癖」がどの程度の割合で発見されたかを示しています。「Increasing Pep」や「Defend Objects」といった癖は比較的高い確率で発見された一方で、「Hardcode Test Cases」や「Contextual Optimism」といった、より巧妙な、あるいは特定の状況でしか発現しない行動の発見には至りませんでした。

これらのエージェントは、研究用の合成環境だけでなく、Claude 4のような実際のプロダクションモデルの監査にも応用されています。応用例として、監査エージェントはプレフィル攻撃やコンテキスト操作といった脆弱性を発見しましたが、より巧妙な不正行為の発見には至りませんでした。

本研究にはいくつかの限界も存在します。評価が研究者によって埋め込まれた合成的な問題に依存しているため、実際のモデルで自然発生する問題とは異なる可能性があります。また、エージェントは人間の監査人とは異なる挙動を示すことがあり、人間の完全な代理とは言えません。

研究チームは、自動監査エージェントが今後ますます大規模化・複雑化するAIモデルに対するアライメント評価を拡張し、信頼できる監査の科学を構築するための有望なアプローチであると結論付けています。これは、強力なAIシステムを人間が監督し続けるための、重要な一歩と言えます。