AIの能力向上に伴って、AIが「ユーザーから隠れて命令とは別の攻撃的なタスクを実行する」という行為に及ぶリスクも増しています。そんなAIによる妨害工作(サボタージュ)のリスクを測定するシステム「SHADE-Arena」をAI開発企業のAnthropicが発表し、同時に各種AIモデルを対象とした妨害工作能力テストの結果も公開しました。SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents(PDFファイル)https://assets.anthropic