https://error-daizenn.hatenablog.com/entry/2025/12/30/111049

本記事が扱う事象は、Googleが2025年11月18日に発表したAIモデル「Gemini 3」と、その提供経路（検索、アプリ、開発、企業向け）をめぐる整理です。発表文では、検索のAI Mode（AIモード）へ初日から組み込む点、推論強化の「Gemini 3 Deep Think」、開発者向けの新基盤「Google Antigravity」などが同時に示されました。加えて、利用規模の指標として、AI Overviews（月間20億ユーザー）やGeminiアプリ（月間6億5,000万ユーザー）などの数字も提示されており、技術発表と配布戦略を一体で進める意図が読み取れます。 (blog.google)

発表の位置づけと「検索へ初日搭載」という変更点

Gemini 3は、モデル更新と配布先の同時展開を前提にしたリリースとして整理できます。 (blog.google)

Googleは、Gemini 1から2.5を経て、推論とエージェント型（agentic：エージェント型）機能を段階的に積み上げてきた経緯を示しています。そのうえでGemini 3は、推論・マルチモーダル・ツール使用を統合し、検索やアプリを含む複数面に同日投入すると説明しました。ここでの要点は「検索への搭載タイミング」です。Reutersは、従来は新世代モデルを主要プロダクトへ組み込むまでに週単位から月単位の遅れがあり得た一方で、今回は検索エンジンへ初日から組み込んだ、と報じています。 (Reuters)

一方で、配布の条件差も明示されています。検索のAI Modeは、Google AI Pro/Ultraの加入者側を中心に案内され、Geminiアプリは一般向けを含めて展開する、という整理です。また開発者向けはAI Studio、Vertex AI、Gemini CLI、さらに新設のAntigravityへ広げる方針が示されています。以上を踏まえると、単発の研究発表ではなく、収益プロダクトに即結びつく導入設計が前面に出た構成です。 (blog.google)

ベンチマーク数値で見るGemini 3 ProとDeep Think

Gemini 3 ProはElo 1501（LMArena）など複数指標を掲げ、Deep Thinkは推論モードとして上積みを示しました。 (blog.google)

Googleの説明では、Gemini 3 Proは推論・数学・マルチモーダル・事実性の各軸でスコアを提示しています。具体例として、LMArena 1501 Elo、Humanity’s Last Exam 37.5%（ツール不使用）、GPQA Diamond 91.9%、MathArena Apex 23.4%、MMMU-Pro 81%、Video-MMMU 87.6%、SimpleQA Verified 72.1%が挙げられました。数値の意味は「競合比較の優劣」そのものよりも、どの能力を上位概念として訴求したいかの設計にあります。つまり、推論・マルチモーダル・事実性の3点を同時に並べ、利用場面の拡大を正当化する材料にしています。 (blog.google)

なお、Deep Thinkは同じ枠組みの推論強化モードとして扱われ、Humanity’s Last Exam 41.0%（ツール不使用）、GPQA Diamond 93.8%、ARC-AGI-2 45.1%（コード実行あり）を掲げました。ここで重要なのは、Deep Thinkが「すぐ一般提供」ではなく、セーフティーテスターへの先行提供と安全評価を挟む、と説明されている点です。そうすることによって、性能の上積みと提供速度の間に、段階を置く設計が明確になります。 (blog.google)

指標	Gemini 3 Pro	Gemini 3 Deep Think
Humanity’s Last Exam	37.5%（ツール不使用）	41.0%（ツール不使用）
GPQA Diamond	91.9%	93.8%
ARC-AGI-2	―	45.1%（コード実行あり）
(blog.google)

ただし、ベンチマークは測定条件が異なる場合があり、比較の解釈が分かれる余地があります。この点から、実務上の確認点となるのは「自社の業務が、推論・画像/動画理解・ツール操作のどこに依存しているか」を先に分解することです。次に、提供面（検索/アプリ/開発基盤）ごとの機能差を整理すると、適用範囲が見えやすくなります。

提供面	位置づけ	展開の条件差
検索AI Mode	生成UI（ユーザー操作型の画面生成）	Pro/Ultra中心の案内
Geminiアプリ	会話・エージェント機能の窓口	一般向け含む
開発（AI Studio等）	API/IDE連携	開発者向け
企業（Vertex AI等）	業務導入の基盤	企業契約側
(blog.google)

学習と検索の設計が変わる点

検索のAI Modeは、クエリに応じて生成UI（生成された画面要素）を動的に作る方向を示しました。 (blog.google)

Gemini 3の説明は「学ぶ・作る・計画する」の3区分で進みますが、学習と検索は実装上つながっています。Googleは、AI Mode in SearchがGemini 3を用い、没入型レイアウトやインタラクティブなツール、シミュレーションをその場で生成すると述べています。つまり、検索結果の羅列ではなく、理解を支える操作面を先に提示し、必要に応じて追加の問いを促す構造です。 (blog.google)

そのため、検索の役割は「探す」から「構造化して扱う」へ寄ります。例として、複雑な題材の学習を想定し、資料（論文、長時間動画など）を渡すと、フラッシュカードや可視化のためのコードを生成すると説明しています。また、100万トークンのコンテキストウィンドウを挙げ、長い資料をまとめて扱う意図も示されました。 (blog.google)

ただし、生成UIは説明の形が柔軟なぶん、情報源と推論の境界が見えにくい場合があります。ここでは、検索での生成が「結論」ではなく「作業面」として提供される、という理解が重要です。言い換えると、ユーザー側の確認工程（参照元の確認、前提の固定）が残る設計であり、従来検索の読解作業が、操作と検証の作業へ置き換わる構図です。次章では、この流れを開発者向け基盤がどう支えるかを整里します。

開発者向けの焦点は「エージェント型の実行」と新基盤Antigravity

Gemini 3はコーディング能力を「生成」だけでなく「道具を使って完了させる」方向で説明しました。 (blog.google)

開発者向けでは、WebDev Arena 1487 Elo、Terminal-Bench 2.0 54.2%、SWE-bench Verified 76.2%など、エージェント型（agentic：エージェント型）評価に寄せた指標を並べています。Terminal-Benchは端末操作を含むため、単なるコード片の生成ではなく、環境操作と検証を含む作業の指標として位置づきます。そうすることによって、モデル単体の賢さではなく、作業フロー全体への組み込みを訴求できます。 (blog.google)

その受け皿として新設されたのがGoogle Antigravityです。Googleは、エディタ・端末・ブラウザへアクセスし、複数エージェントが計画と実行を進めると説明しています。外部報道では、Editor viewとManager viewの2画面、進捗の証跡をArtifacts（成果物：タスク一覧、計画、スクリーンショット等）として残す点、Windows/macOS/Linuxでのプレビュー提供、一定のレートリミット運用などが報じられました。 (The Verge)

他方、エージェント型の実行は、誤動作の影響範囲が広がります。したがって、誰が最終承認するか、どの権限で端末やブラウザに触れるかが運用上の中心になります。次章では、その安全評価と段階展開の設計を整理します。

安全評価と段階展開の論点

Deep Thinkを「数週間以内にUltraへ」としつつ、先に安全テスターと追加評価を挟む設計が示されました。 (blog.google)

Googleは、Gemini 3を「最も包括的な安全評価を実施した」と述べ、追従（sycophancy：迎合）低減、プロンプトインジェクション（prompt injection：指示文注入）耐性、サイバー悪用への保護を挙げています。また、Frontier Safety Framework（フロンティア安全枠組み）に基づく社内評価に加え、UK AISIなど外部機関への先行アクセス、複数の独立評価者の関与も記載されています。こうした説明は、機能追加の速度と、悪用耐性の確保を同時に扱う意図を示します。 (blog.google)

この結果、提供計画は「全部を同日に出す」ではなくなります。Gemini 3 Proは検索AI Mode、Geminiアプリ、開発者向けAPI、企業向け基盤へ広げる一方で、Deep Thinkは安全評価の追加を理由に後段へ置きました。つまり、同一シリーズ内で“速い一般展開”と“慎重な推論強化”を分離した設計です。 (blog.google)

なお、Antigravity側は需要増に伴うレート制御の見直しが報じられており、無料枠は週次クォータ、加入者は優先度と5時間ごとの更新などの運用が紹介されています。ここでは、性能そのものより、提供の安定性と公平性が判断材料として重要です。以上を踏まえると、Gemini 3は「モデル性能」だけではなく、「どの面へ、どの順で、どの権限で渡すか」を主要論点に据えた発表として整理できます。 (Android Central)