https://tt-ai.hatenablog.com/entry/2026/02/19/000000

【要点】

◎OpenAIはスマートコントラクトの脆弱性に対するAIエージェントの検知・修正・悪用能力を測定するベンチマーク「EVMbench」を公開した。実在の120件の脆弱性を基に評価した結果、AIは検出や修正よりも脆弱性の悪用能力が高い傾向が確認された (Gigazine)

【図表】

出典: https://gigazine.net/news/20260219-openai-evmbench/

【要約】

OpenAIは、仮想通貨ブロックチェーンのスマートコントラクトに対するAIエージェントの能力を測定するベンチマーク「EVMbench」を公開した。実在した120件の脆弱性を基に、脆弱性の検知、修正、悪用の3つのタスクで評価を行う。各AIの測定ではClaude Opus 4.6が検知で最高スコア、GPT-5.3-Codexが修正と悪用でトップとなった。分析ではAIは脆弱性の検出や修正よりも悪用を得意とする傾向が確認されたほか、コード全体の監査を途中で停止する問題や、修正時に機能維持が難しい課題も判明した。なおOpenAIは、実運用のスマートコントラクトはより厳しい監査を受けており、現状のAIでの実際の悪用は容易ではないとしている。

【ニュース】

◆OpenAIがAIの仮想通貨に対する攻撃・防御能力を測定できるベンチマークテスト「EVMbench」を発表 (Gigazine, 2026/02/19 12:25)
https://gigazine.net/news/20260219-openai-evmbench/

【関連まとめ記事】

◆全体まとめ

◆AIエージェント (まとめ)
https://tt-ai.hatenablog.com/entry/AI_Agent