以下の内容はhttps://gigazine.net/news/20250204-ai-defending-jailbreak-constitutional-classifiers/より取得しました。



チャットAIなどに用いられるAIモデルのほとんどは「生物兵器の作り方」といった危険な情報を出力しないようにトレーニングされていますが、プロンプトを工夫したり一度に大量の質問を入力したりといった「ジェイルブレイク」と呼ばれる手法を用いることでAIモデルに「出力を禁じられている情報」を出力させることができます。新たに、チャットAI「Claude」の開発で知られるAI開発企業のAnthropicがAIのジェイルブレイク耐性を大幅に高める技術「Constitutional Classifiers(憲法分類子)」を発表しました。

Constitutional Classifiers: Defending against universal jailbreaks \ Anthropic
https://www.anthropic.com/research/constitutional-classifiers

Constitutional Classifiersの開発時には、最初に「何が無害で何が有害か」を定義する「Constitution(憲法)」を作成し、Constitutionを大規模言語モデルに入力することで多様なジェイルブレイク手法や言語に対応できる分類子を編み出しました。このとき、大規模言語モデルにはClaudeを活用したそうです。


AnthropicはConstitutional Classifiersの効果を検証するべく「人間による実践的なテスト」と「システムを用いた自動テスト」を実施しました。人間によるテストではClaude 3.5 SonnetにConstitutional Classifiersを適用し、バグバウンティプログラムを介して集まった参加者に対して「Claude 3.5 Sonnetの『10種類の禁止された出力』をすべて出力させられる普遍的なジェイルブレイク手法を確立する」というタスクを与えました。普遍的なジェイルブレイク手法を発見した参加者には最大1万5000ドル(約230万円)の報奨金が約束されていましたが、2カ月間の実験期間を通して普遍的なジェイルブレイク手法が見つかることはありませんでした。

さらに、システムを用いた自動テストでは1万個のジェイルブレイクプロンプトを作成し、「Constitutional Classifiersを適用していないClaude 3.5 Sonnet(青)」と「Constitutional Classifiersを適用したClaude 3.5 Sonnet(水色)」に対して攻撃を実行して成功率を比べました。テストの結果、Constitutional Classifiersを適用していない場合の攻撃成功率が86%だったのに対して、適用した場合の攻撃成功率は4.4%にまで減少しました。つまり、Constitutional Classifiersを適用したClaude 3.5 Sonnetはジェイルブレイクの95%以上を回避できたというわけです。


Constitutional Classifiersを適用した場合、「ジェイルブレイクではないのに、誤ってジェイルブレイクと判断して回答を拒否するケース」の発生率が0.38%上昇したとのこと。ただし、この差は有意なものではないそうです。また、Constitutional Classifiersを適用した場合は計算コストが23.7%上昇しました。Anthropicは今後もConstitutional Classifiersを改良して計算コストの削減などに取り組むそうです。

なお、Constitutional Classifiersに関する技術的な詳細は以下のリンク先で確認できます。

[2501.18837] Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
https://arxiv.org/abs/2501.18837




以上の内容はhttps://gigazine.net/news/20250204-ai-defending-jailbreak-constitutional-classifiers/より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14