https://error-daizenn.hatenablog.com/entry/2025/12/30/110704

本記事の対象となる事象は、OpenAIが2025年12月11日に発表したフロンティアモデル「GPT-5.2」シリーズの公開です。GPT-5.2は、専門的な知識業務、長文コンテキストの統合、ツール呼び出しを伴う多段階プロジェクトを重視した設計が示されています。そのため本記事では、公開されたベンチマークの位置づけ、実務で影響が出やすい能力の変化、ChatGPTとAPIでの提供形態、価格と命名の整理軸を中心にまとめます。 (OpenAI)

GPT-5.2公開の位置づけと想定用途

GPT-5.2は専門的な知識業務と長時間ワークフローを主対象に設計されたと説明されています。 (OpenAI)

OpenAIはGPT-5.2を、スプレッドシート作成、プレゼンテーション作成、コード作成、画像理解、長文理解、ツール活用、複雑な多段階プロジェクト処理までを一連の領域として扱い、ここでの総合性能を引き上げたモデル群として位置づけました。(OpenAI) そのため、単体のQ&Aよりも「成果物を作り切る」作業に寄せた説明が多く、評価軸も成果物品質や工程の安定性に集まっています。

また、Enterprise利用者の時間短縮の自己申告（1日40〜60分、ヘビーユーザーで週10時間以上）を前提に、より大きな経済価値を生む方向へ寄せたとしています。(OpenAI) 以上を踏まえると、GPT-5.2はモデル単体の賢さだけでなく、業務プロセスの中で使う際の破綻率や再作業コストも含めて設計対象にしている、という整理が可能です。そうすることによって、次章で扱うベンチマークの読み方も「点数」だけでなく「何を代替しうるか」の視点へ移ります。

ベンチマークが示す得意領域の変化

GDPvalでGPT-5.2 Thinkingは勝率・引き分け込み70.9%を記録し、人の専門家水準に到達したと説明されました。 (OpenAI)

公開資料では、GDPvalを「米国GDPへの寄与が大きい上位9産業の44職種」で、明確に定義された知識業務タスクを評価する枠組みとして説明しています。タスクは営業用プレゼン、会計スプレッドシート、医療の当直計画、製造図面など、成果物作成が中心です。(OpenAI) この枠でThinkingが70.9%、Proが74.1%とされ、従来系列（GPT-5）より上回った点が強調されています。(OpenAI)

他方で、SWE-Bench Pro（公開版）55.6%、SWE-bench Verified 80.0%など、ソフトウェア工学系でも上積みが提示されました。(OpenAI) さらに事実性では、匿名化したChatGPTクエリセットにおいて誤りを含む回答が相対的に38%少ない、という測定結果も併記され、実務上の確認点となる「修正前提の割合」を下げる方向が示されています。(OpenAI) ただし、評価は推論設定やツール有効化の条件に影響されるため、点数をそのまま業務スループットへ直結させる解釈には余地が残ります。この点から、次章では長文コンテキストとツール呼び出しが、工程設計にどう影響するかを整理します。

長文コンテキストとツール呼び出しが変える作業設計

長文推論とツール呼び出しの強化は、単発の正答率より工程全体の一貫性を重視する設計へ寄せます。

GPT-5.2 Thinkingは、長文コンテキスト推論の指標としてOpenAI MRCRv2で高いスコアを示したとされ、128k〜256k相当の長い入力での統合能力を強調しています。(OpenAI) ここでの主張は、文書内に分散した情報をまとめ、数十万トークン規模でも整合性を保ちやすい、という方向です。(OpenAI) そのため、契約書・研究論文・議事録・多ファイル案件のように「探す→照合する→まとめる」が繰り返される領域で、作業の断絶を減らす狙いが読み取れます。

ツール面では、Tau2-bench Telecomで98.7%という数値を掲げ、複数ターンのやり取りでもツールを安定利用できることを示したとしています。(OpenAI) ただし、API側のモデル仕様ではResponses API利用時にWeb検索、File search、画像生成、Code interpreterがサポートされる一方、Computer useは未サポートと記載されています。(OpenAI Platform) つまり、万能な自動操作というより、検索・ファイル参照・計算・生成を組み合わせる設計が先に進んだ形です。以上を踏まえると、次章で扱う提供範囲と命名は、どの作業がどの層（Instant/Thinking/Pro）に割り当てられるかの整理軸になります。

提供範囲、API命名、価格の整理

価格体系は入力100万トークンあたり$1.75、出力$14を基準に、上位のProは単価が大きく異なると示されました。 (OpenAI)

ChatGPTでは2025年12月11日からGPT-5.2（Instant/Thinking/Pro）が有料プラン向けに段階的に提供され、GPT-5.1はレガシーとして3か月提供後に終了すると説明されています。(OpenAI) この提供情況の整理で重要なのは、利用者が見る名称とAPIで呼ぶ名称が一致しない点です。そこで、公開記載をもとに対応関係をまとめます。(OpenAI)

ChatGPT上の表示	APIでの呼称	実例（コピペ可）	用途の目安
GPT-5.2 Instant	GPT-5.2-chat-latest	`gpt-5.2-chat-latest`	低レイテンシ寄り
GPT-5.2 Thinking	GPT-5.2	`gpt-5.2`	深い推論・統合
GPT-5.2 Pro	GPT-5.2 Pro	`gpt-5.2-pro`	品質最優先
スナップショット	GPT-5.2-2025-12-11	`gpt-5.2-2025-12-11`	挙動固定

なお、APIドキュメントではスナップショット（特定版固定）の概念が明記され、gpt-5.2-2025-12-11が一覧に含まれています。(OpenAI Platform) そうすることによって、検証や再現性が必要なシステムでは、モデル更新の影響を制御しやすくなります。

価格は、gpt-5.2系（Thinking相当とInstant相当）で入力$1.75/100万トークン、キャッシュ入力$0.175、出力$14とされ、Proは入力$21、出力$168と記載されています。(OpenAI)

モデル	入力（$/100万）	キャッシュ入力	出力（$/100万）
gpt-5.2 / gpt-5.2-chat-latest	1.75	0.175	14
gpt-5.2-pro	21	―	168

ただし、単価だけで総コストを判断すると条件差が生じる可能性があり、トークン効率（同品質に必要な出力量）の違いも含めた比較が必要、という説明も併記されています。(OpenAI) 次章では、こうした実運用の前提に対して、安全性の説明がどこまで踏み込んだかを確認します。

安全性の強化と周辺リリースが示す方向性

安全性の説明では、センシティブ領域の応答品質と年齢推定による保護措置の拡張が明記されました。 (OpenAI)

GPT-5.2の安全性については、GPT-5で導入した安全な回答生成の研究を発展させた枠組みで訓練したと説明され、メンタルヘルス、自傷、自殺兆候、モデルへの依存を示すプロンプトへの応答改善が挙げられています。(OpenAI) さらに、18歳未満と推定される利用者に保護措置を自動適用する年齢推定モデルの段階的導入にも触れています。(OpenAI) ただし、同時に「完全ではないため重要用途では確認が必要」という但し書きも併記され、運用上の検証責任が残る構図です。(OpenAI)

また、同日にSystem Card更新が公開され、既存の安全対策アプローチと大枠は同様である一方、命名（Instant/Thinkingの表記）などの整理も提示されています。(OpenAI) そして12月中旬には、GPT-5.2-Codex（12月18日）、ChatGPTへのアプリ提出（12月17日）、ChatGPT Images（12月16日）といった周辺リリースが続き、モデル単体ではなく製品群としての展開が進んだことが分かります。(OpenAI)

一方で一部報道では、競合状況を背景に開発加速があった可能性や、リリースの文脈に外部要因があることも伝えられています。(Reuters) つまり、能力向上の提示と運用上の制約（価格、ツール条件、安全性確認）が同時に並ぶ形であり、評価は「できること」と「条件付きで成立すること」を分けて読む必要があります。