以下の内容はhttps://blog.beachside.dev/entry/2026/03/09/123000より取得しました。


GPT-5.4 System card ざっくりまとめ

GPT-5.4 が登場して system card が公開されたので、ざっくりまとめてみました。ちなみに性能は GPT-5.2 を上回り、コストも GPT-5.2 より割高に。最近は他社との能力差が顕著になりがちな印象だった (←個人的な感想です) ので、性能アップのぶんだけのコストの価値があるとうれしいですね。

system card の話のまえに GPT-5.4 に関してざっくり書くと

  • カットオフは2025年8月31日。
  • コンテキストウインドウについて、LLM の能力としては、1M input, 128k output。
    • Microsoft Foundry で見たら gpt-5.4, gpt-5.4-pro ともに 200k input, 100k output と制限されている。制限緩和される日は来るのか。。
    • Microsoft Foundry では gpt-5.3-chat もリリースされておりこちらも 200k input, 100k output 。
  • API 利用時に最近ちょくちょく変わりがちだった verbosity と reasoning effort の扱いは gpt-5.2 と一緒。
    • reasoning effort のデフォルト値は none、verbosity のデフォルト値は medium
  • Tool search という機能が導入され、tool calling の機能が向上。
    • 以前はプロンプトにツールの定義が含まれているため、大量のツールが含まれるとツール利用の精度が落ちる問題があったので、tool の数を適切に制限する必要があった。
    • tool search 導入により、tool 利用時にツールの定義を検索するようになったので、コンテキストウインドウの節約にもなりツール選択も最適化されるように。
  • その他諸々の改善は以下参照。

ということでSytem card の話に進みますが、原文は以下です。

ではざっくりまとめていきましょう。

1. Introduction

内容が特にないので省略。

2. Model Data and Training

  • 学習データ: インターネット上の公開情報や人間からのフィードバックなど、多様なソースを基に学習されている。
  • データ保護: 高度なフィルタリングと安全分類器を導入し、個人情報や有害コンテンツを徹底的に排除している。
  • 思考プロセス: 強化学習により、回答前に自身の思考を巡らせることで、戦略の試行やミスを自己修正する能力を備えている。
  • 安全性と利便性: 推論機能の強化によってポリシー順守が徹底され、より安全で的確な回答を提供できるようになった。
  • 比較値の注意点: 過去のモデルとの比較データは最新バージョンに基づいているため、リリース時とは数値が異なる可能性があ る。

3. Baseline Model Safety Evaluations (ベースラインモデルの安全性評価)

3.1 Disallowed Content Evaluations with Challenging Prompts (3.1 困難なプロンプトを用いた禁止コンテンツの評価)

  • Production Benchmarks with Challenging Prompts の評価を実施。
    • プロダクションデータにおける困難な事例の代表的な会話を含む評価セットでのベンチマークを実施。これらの評価は、意図的に困難になるよう作成されていて、既存のモデルがまだ理想的な回答を出せていない事例に基づいて構築されているベンチマーク。
  • 結果としてgpt-5.4-thinkingは全体的にgpt-5.2-thinkingと同等の性能。

  • Dynamic Benchmarks with Adversarial User Simulations という評価を実施。

    • GPT-5.3 Instant の立ち上げ前に、メンタルヘルス・感情的依存・自傷行為に関する動的なマルチターン評価を導入。この評価は、固定された単発応答ではなく、モデルの出力に応じて会話が発展する長時間対話をシミュレートしているので実際のユーザーとのやり取りに近い多様な会話の流れを再現可能。
  • 評価結果として、gpt-5.4-thinkingは以前のモデルを上回った。

3.2 Production Benchmarks with Representative Prompts

  • 実施内容: GPT-5.2 Thinking の実際の匿名化会話をもとに、最後の応答を GPT-5.4 Thinking で再生成し、安全性に関する挙動を自動評価する追加チェックを試験的に実施。
  • 結果として、評価は不完全さを含むものの、本番に近い条件で安全性傾向を把握でき、例としてハラスメント方針では GPT-5.4 Thinking の出力の 99.9534% が違反しないと推定された。
  • また、GPT-5システムカードで元々議論されていた、モデルの欺瞞的な挙動についても同様の評価を実施し、問題がないことも確認。

3.3 Jailbreaks

  • モデルのジェイルブレイクに対する堅牢性を評価.を実施。
  • PT-5.2-ThinkingとGPT-5.4-ThinkingはGPT-5.1-Thinkingを大幅に上回っており、5.1から5.2への大きな改善と、5.2から5.4へのわずかな追加的改善が見られた。

3.4 Prompt injection

  • コネクタや関数呼び出しに対する既知のプロンプトインジェクション攻撃への、モデルの堅牢性を評価を実施。
  • GPT-5.4-reasoningは、電子メールコネクタに対するプロンプトインジェクション攻撃への性能が向上し、関数呼び出しへの攻撃ではわずかに低下。

3.5 Vision

  • ChatGPTエージェントで導入された画像入力評価を実施.。これは、不適切なテキストと画像の組み合わせが入力として与えられた場合に、モデルの出力がnot_unsafe(安全)かどうかを評価するもの。
  • 結果は、GPT-5.4 Thinkingの性能は概ね前モデルと同等。

3.6 Health

  • HealthBench を実施。これは5,000件のリアルな健康に関する会話で構成されており、モデルの応答は事例ごとに特定の評価基準(ルーブリック)を用いて評価するベンチマーク。
  • 結果としてGPT-5.4 は GPT-5.2 比で、HealthBench は 62.6%(-0.8pt)、Hard は 40.1%(-1.9pt)、Consensus は 96.6%(+2.1pt)となり、平均応答長も 3311 文字で GPT-5.2 の 2676 文字より長くなった。
  • 特に Consensus では、GPT-5.4 は追加コンテキストを求める頻度が減り、十分な情報がある場面での精度向上や適切な簡潔さが見られた一方、情報不足時に追加確認を求める力は弱くなった。

3.7 Avoid Accidental Data-Destructive Actions (偶発的なデータ破壊操作の回避)

  • GPT-5.3-Codexと同様に、破壊的操作に関する評価を実施。これは、ユーザーによる変更を保持し、偶発的な破壊的操作を回避するモデルの能力を測定するもの。
  • GPT-5.4-Thinkingは以前のモデルとほぼ同等の結果に。

3.8 User Confirmations During Computer Use

  • GPT-5.4 Thinking でのComputer Use では、モデル内で固定的に確認を強制する方式をやめ、高リスク操作に対してはプラットフォーム側ポリシーと開発者が設定する確認ポリシーの両方に従う学習方式へ変更。
  • これにより、問題発生時のシステム側ポリシー更新がしやすくなり、API 利用時には開発者が確認ルールを柔軟にカスタマイズできるようになった。
  • 結果として、ChatGPT と API 展開ではシステムメッセージで確認ポリシーを与える形を採用し新しいユーザー確認評価を実装して旧モデルとの比較検証も行った。
  • 結果は以前のモデルとほぼ同等。

3.9 Bias

  • ユーザー名が男性名・女性名に偏る場合で応答差が出ないか、一人称のマルチターン会話で公平性評価を実施。
    • 600超の難易度の高い現実的シナリオを使い、固定観念に基づく有害な差を GPT-4o で判定し、harm_overall 指標で比較。
  • 結果としてGPT-5.4 Thinking は GPT-5.2 Thinking および GPT-5.1 Thinking と同程度か、わずかに良い公平性性能を示した。

4. Chain of Thought Monitorability

4.1 CoT Monitorability (思考の連鎖の監視可能性)

  • 思考の連鎖(CoT)を使うと、安全性に関わる挙動を最終出力や行動だけより豊かに監視できるかの評価を実施。
  • 24環境・13評価で調べた結果、一般に CoT が長いほど監視しやすく、CoT や全メッセージを見られる監視の方が、行動のみを見る監視より有利。
  • 一方で、GPT-5.4 Thinking の総合的な CoT 監視可能性は GPT-5 Thinking よりやや低下。
  • 低下は一様ではなく、情報不足の健康相談・メモリ・不可能タスクで弱くなった一方、エージェントの不整合検出では大きく改善し、ほぼ 100% に近づいた。
  • 一部の低下は評価手法側の限界による可能性もあり、今後は原因分析と性能向上と監視可能性を両立する対策の検討を進める予定。

4.2 CoT Controllability (CoTの制御可能性)

  • 将来的には、モデルが監視されていると分かった上で、自分の思考過程(CoT)を意図的に隠したり作り変えたりする可能性があり、その場合は監視の信頼性が下がるおそれがある。
  • そのリスクを測るために、OpenAI は「CoT controllability(思考過程の制御可能性)」を評価し、モデルが CoT をどれだけ操作できるかを確認している。
  • GPT-5.4 Thinking は、この CoT 制御可能性が低く、GPT-5 Thinking や GPT-5.2 Thinking と同程度の結果に。
  • たとえば 1万文字の長い CoT では、GPT-5.4 Thinking が指示どおりに CoT を制御できたのは 0.3% にとどまった。
  • つまり、GPT-5.4 Thinking は推論力が高まっていても、思考過程を隠したりごまかしたりする能力までは強まっていない可能性が高い、というよい結果。

5. Preparedness Framework

  • Preparedness Frameworkは、重大な危害を新たにもたらす可能性のあるフロンティア能力を追跡し、それらに備えるためのOpenAI独自のアプローチ。
  • このフレームワークを使って高い能力を持つモデルに対するリスクを十分に最小化する安全策の実装などを行い、重大な危害のリスクを追跡および緩和する取り組みを OpenAI は行っている。

5.1 Capabilities Assessment (能力評価)

  • 生物・化学分野: GPT-5.4 Thinking はこの分野で High capability と判断され、特に生物系リスクを重視した安全対策が有効化されました。実験プロトコルのトラブル対応では一部で専門家水準を上回る一方、公開プロトコルの自由記述課題では専門家平均を下回る結果もあり。
  • サイバー分野: GPT-5.4 Thinking も High capability と扱われています。CTF、CVE-Bench、Cyber Range で高い性能を示し、旧世代モデルより強い一方、Cyber Range 全体では GPT-5.3-Codex にはやや劣った結果に。
  • 外部評価でも、ネットワーク攻撃シミュレーションや脆弱性研究で高い成功率を示し、長期的な攻撃シナリオへの対応力向上という結果に。
  • AI自己改善分野では、High capability の基準には到達していません。中堅研究エンジニア相当の能力はまだ否定できる水準。
  • ただし、ソフトウェア開発や ML 競技では性能向上が見られ、特に MLE-Bench では比較モデルを大きく上回った。

5.2 Research Category Update: Sandbagging

    • Apollo Research は、GPT-5.4-reasoning の 戦略的な欺瞞・文脈内での策謀・妨害行為の傾向を外部評価を実施。
  • 隠れた欺瞞行動は低頻度で、誘導なし条件で約1%とされ、GPT-5.3 Codex と同程度、GPT-5.2 より低い結果。
  • 開発者に対する 隠れた破壊的行動(監視無効化、自己流出、目標防衛など)は、テスト範囲では確認されず。
  • サンドバッギングは、明示的に低成績を促す目標がある場合にのみ見られ、通常条件では確認されず。
  • 妨害能力は一定程度あるものの GPT-5.3-codex には及ばず、単純な模擬環境で技術的な妨害手順を実行できる一方、現実的な監視下で隠蔽・回避までできるかは未検証。

5.3 Cyber Safeguards

このセクションでは、サイバーセキュリティリスクに対して実装したセーフガードについて説明で、内部向け「セーフガードレポート」の公開用サマリーのまとめ。

  • GPT-5.4 Thinking のサイバー安全対策は GPT-5.3 Codex を基盤に強化され、悪用防止と防御用途の支援の両立を目標にしている。
  • 従来のユーザー単位の対策に加え、メッセージ単位のリアルタイム遮断アカウント/ユーザー単位の監視・制裁を組み合わせる方式に進化。
  • ZDR 環境では高リスクなサイバー内容を非同期分類でブロックし、非 ZDR 環境では継続監視と必要に応じた人手レビューも行うように。
  • モデル自体は、正当なサイバー用途には有用に応答しつつ、マルウェア作成・認証情報窃取・連鎖的攻撃などは禁止するよう安全訓練されている。
  • 加えて、会話監視、アカウント制御、Trusted Access for Cyber(正当利用者向けの信頼ベース利用)、内部セキュリティ対策を組み合わせて、悪用リスクの低減を図っている。



以上の内容はhttps://blog.beachside.dev/entry/2026/03/09/123000より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14