2025年11月にリリースされた「Gemini 3 Pro」について、Google DeepMindが「文書・空間・画面・映像の理解で最先端のパフォーマンスを実現する」という資料を公開しています。
Gemini 3 Pro: the frontier of vision AI
https://blog.google/technology/developers/gemini-3-pro-vision/Google DeepMindのプロダクトマネージャーを務めるローハン・ドーシ氏はGemini 3 Proについて「当社史上最も高性能なマルチモーダル
モデルで、文書理解・空間理解・画面理解・動画理解の全領域で最先端の性能を発揮する」と表現しています。
まず「文書理解」の分野では、Gemini 3 Proが読みにくい手書きの文章や入れ子になるようなテーブル構造、複雑な数学的表記、非線形レイアウトをHTMLやLaTeX、Markdownの構造化されたコードに再構築することが示されています。
18世紀の商人が残したハンドブックを再構成したもの。

手書きの数式の読み取り。

フローレンス・ナイチンゲール作図のポーラー・エリア・チャートもこの通り。

「空間理解」の分野では、オブジェクトとその意図を識別できるとのこと。

「画面理解」の分野についてはデモ動画が公開されていて、Gemini 3 ProがPC画面上のUIを理解していることがわかります。
Gemini 3 Pro: Screen Understanding Demo -
YouTube「動画理解」では、特にGemini 3 Proは「飛躍を遂げた」とドーシ氏は述べています。10FPSで動画を処理することにより、
ゴルフや
テニスのスイングのメカニクスの解析などが可能です。また「思考」モードの動画推論により、起きていることを特定するだけでなく「なぜ起きているのか」を理解できます。
なお、Gemini 3 ProはAI
モデルの抽象的推論能力を測るベンチマークテストの「ARC-AGI-2」で54%というスコアを記録したことが報告されています。タスクあたりのコストは31ドル(約4800円)で、他のAI
モデルよりも高コストですが、圧倒的に高い性能を示すことができます。なお、AIとしてシェアの大きいOpenAIのGPT-5は、スコアは10%だったのに対してコストは1ドル(約156円)弱と低コストです。