https://oregin-ai.hatenablog.com/entry/2025/07/19/165005

AIの進化、特に大規模言語モデル（LLM）の発展は目覚ましいものがあります。今回は、AI安全機関（AISIs）と各国政府機関が共同で実施した、LLMの多言語環境における安全性評価に関するレポートを読み解き、そこから得られた知見を自身の学びとして整理しました。

レポートへの直リンク　⇒　https://www.peren.gouv.fr/rapports/2025-June_Improving-Methodologies-for-LLM-Evaluations-Across-Global-Languages-Evaluation-Report-1.pdf

www.peren.gouv.fr

エグゼクティブサマリー

このレポートは、異なる言語間でのLLM評価の有効性を高めるための合同テスト演習について述べています。主な目的は、多言語の安全性評価における共通アプローチを開発すること、そして評価者としてのLLM（LLM-as-a-judge）の性能を人間の評価と比較検証することとなっています。

演習では、Mistral LargeとGemma 2という2つのモデルを対象に、10の言語（広東語、英語、ペルシャ語、フランス語、日本語、韓国語、スワヒリ語、マレー語、北京語、テルグ語）で6,000以上の新規翻訳プロンプトを使用し、5つの有害カテゴリ（プライバシー、非暴力犯罪、暴力犯罪、知的財産、脱獄）に対する堅牢性をテストが行われています。

評価にはLLM-as-a-judgeと人間の両方が参加しています。主要な所見として、非英語圏でのセーフガードは英語に比べて若干遅れをとる傾向が見られ、その度合いは有害性のタイプによって異なるとのこと。特に脱獄への対策が最も弱く、知的財産権の侵害に対する対策は比較的強力という結果になっています。LLM-as-a-judgeは基本的な評価者として有望であるものの、特に解釈が難しいケースでは依然として人間の監視が必要であることが示されています。

演習の範囲

この演習では、多言語安全性テストにおける3つの主要な側面、すなわち(a)異なる言語間でのセーフガードの有効性、(b)モデルによる拒否応答の質、(c)評価者としてのLLMの質、が評価されています。

5つの有害カテゴリが10言語で評価され、2つのモデルがテスト対象となり、別のLLMが評価者として機能しました。設定された問いには、「セーフガードは言語間で維持されるか」「モデルは拒否する際に過度に慎重か、それとも有用か」「LLM-as-a-judgeは信頼できる評価手段か」といったものが含まれます。テスト設計は、有害カテゴリを代表するデータセット（MLCommons AIluminateなど）をテスト対象LLMに提示し、その応答をLLM評価者と人間の両方で評価するという手順で進められています。

方法論

演習の方法論は、まず英語のデータセットを他の9言語に翻訳し、母語話者が検証することから始められ、その後、テスト設定の最適化や評価プロンプトの調整が行われています。

テストはオープンソースのツールキットであるMoonshot上で実行され、一貫性を担保するために複数回のテストが実施されています。人間による評価は、各国のAI安全機関が1〜3言語を担当し、共通のガイドラインに沿って行われています。評価者間の解釈が分かれるケースについては活発な議論が交わされ、評価プロセスの改善に繋がっています。

制限事項

この演習にはいくつかの制限事項が指摘されています。

方法論的な制限としては、モデルの言語能力の限界（幻覚や支離滅裂な応答）、データセットが全ての状況を網羅しているわけではないこと、人間による評価の揺れ、翻訳の文化的な適応の難しさなどが挙げられます。

実用的な制限としては、結果が言語ごとに1回の実行に基づいている点、テストされたモデルが2つに限られる点、評価者の数が限られていた点などが挙げられています。

安全性に関する所見

演習からは、多言語の安全性に関して示唆に富むいくつかの所見が挙げられています。

セーフガードの有効性については、一般的に非英語のセーフガードは英語に比べて若干遅れをとる傾向が見られることが挙げられています。特に、脱獄への対策は最も脆弱で、知的財産権侵害に対する対策は比較的強力とされています。

拒否の質に関しては、モデルは多くの言語で、拒否する際に理由や代替案を提示するなど、有用な応答を生成していました。一方で、ペルシャ語のようなリソースの少ない言語では情報の質が英語に劣る場合があり、またフランス語や日本語などでは、文化的な背景から直接的な拒否を避ける傾向も見られるとされています。

評価者の有効性については、LLM-as-a-judgeは有望であるものの、人間の監視が依然として不可欠であることが示されました。特に日本語では人間とLLMの評価の不一致が最も大きく（18.9%）、その主な原因は、LLMが表面的な警告を発しつつも有害な内容を含む応答を生成し、それをLLM-as-a-judgeが見逃してしまうことにあるとされています。

方法論的所見

多言語評価を改善するための方法論的な学びも述べられています。データセットは単なる直訳ではなく、文化的な文脈に合わせた調整が有効であること、評価モデル自体の性能を様々な条件でテストすべきであること、人間による評価ガイドラインをより明確にし、多様な評価者によるチェック体制を強化すること、そして実験の再現性を高めるために複数回のテストを行うことの重要性が挙げられています。

モデル開発者向けの潜在的な学び

この演習の結果は、モデル開発者にとっても有用なフィードバックとなります。特に、モデルが表面的な警告を発しつつ有害な行動を助長してしまうパターンや、LLM-as-a-judgeがそれを見逃す傾向、そして非英語圏における脱獄への脆弱性が共通の課題として浮かび上がりました。開発者、テスター、そしてサービス展開者は、英語での安全性が他の言語環境での安全性を保証するものではないという前提に立ち、より意図的に多言語での安全対策に取り組むことが重要であると結論付けられています。

各言語の詳細分析

レポートでは、各言語の詳細な分析も行われています。

広東語では間接的な拒否が見られ、ペルシャ語では文化的背景から暗黙的な拒否が用いられているとされています。フランス語は全体的に高性能でしたが、評価者LLMが単純な警告だけで応答を許容すると判断するケースがあり、日本語ではプロンプトインジェクション攻撃への脆弱性が英語より高く、スワヒリ語ではモデルの言語理解そのものに課題が見られるとのことです。韓国語では流暢さは高いものの、文化的な深みに欠ける応答があり、マレー語では他の言語（インドネシア語や英語など）に応答がずれてしまう現象が確認されています。中国語（北京語）では「学術的客観性」を装って有害情報を提供するケースがあり、テルグ語ではモデルの理解度が低く、応答の一貫性に欠ける結果となったとのことです。

結論

この共同演習は、言語と国境を越えてフロンティアモデルの多言語安全性テストに対する共通アプローチを確立するための重要な礎を築いたとされています。今後もAI安全機関は連携し、広範なAIコミュニティと共に、信頼性が高く安全なモデルの構築を目指していくとのことです。

おわりに

今回のレポートを読み解くことを通じて、AI、特にLLMの多言語対応における複雑さと奥深さを改めて認識しました。単に言語を機械的に翻訳するだけでは不十分で、それぞれの言語が持つ文化的な背景を深く理解し、それに適応させることの重要性が明確に示されています。これは、グローバルな視点での知識管理やコミュニケーションにおいても通じる、非常に重要な示唆だと感じます。私自身の学びのプロセスにおいても、表面的な理解に留まることなく、その背景にある文脈を深く探求する姿勢を常に持ち続けたい、と強く思わされる内容でした。今後もこうした最新の動向を注意深く追いながら、自身の知識体系を継続的にアップデートしていくことの価値を再確認する機会となりました。