ChatGPT o3 pro と Gemini 2.5 pro どっちがいいの?
最近の私の疑問だったので、今回はChatGPT o3 proとGemini 2.5 proを比較します。
私が研究をしている身であるため、やや研究者よりの使い方になることはご了承ください。
両者の簡単なスペック
推論性能
どちらも“思考”時間を取る高精度モデルです。ベンチマーク上は o3 Pro が科学系、Gemini 2.5 Pro が総合力で強みがある。
コンテキスト長
o3 Pro は 20 万 tokens、Gemini 2.5 Pro は 104 万 tokens(近日200万予定)です。
マルチモーダル
両者とも画像解析対応。Gemini は音声・動画まで対応できます。
推論の力を比べてみた
それでは実際に使ってみたいと思います。
今回は私の論文を食べさせて、課題点と改善策を提案させました。
Gemini 2.5 pro
まずはGeminiからいきます。




詳細に指摘されていますが、実はこの多くは私が論文で課題として挙げている内容です。
とはいえ、それだけよく文章が読み込めていることはわかります。
リンクマークを押すと、どの部分について言及しているかがわかるようになっています。
次に論理矛盾がないか分析をさせました。

嬉しいお言葉をいただきました。
ただ、Xの投稿で指摘が甘くなりがちだと言われていたので、査読者として役割を与えた上で厳しくチェックするように指示しました。
すると面白い指摘が返ってきました。


プロンプトの工夫で精度が一気に上がります。
確かに知識とスキルの乖離について論じる方向性もありますね。
私の研究では「柔軟な目標設定」という下位因子が追跡時も維持されたのですが、シンプルな内容であるため、記憶に残っているのではいかという指摘は面白いです。
ただ私はこれを全体の有効性の証拠として論じている訳ではなかったのですが、Geminiにはそう捉えられているようです。表現に改善の余地があるやもしれません。
ChatGPT o3 pro
続いてはChatGPTです。



o3 proの素晴らしいところは論文内で私が記述した課題ではない内容を複数指摘している点です。
正直、ここまで多くのフィードバックを貰う機会はありません。通常、研究内容を理解するだけで時間がかかります。
さらに、気づいていても他人に対してここまではっきりと言いにくいこともあります。
改善案もユニークで取り組んでみたいと思うものが多いです。
次にGeminiでやや難航した論理矛盾について分析させました。


鋭い指摘をいただきました。
初期仮説が崩れたことについて、もっと言及すべきなどおっしゃる通りでございます。
部分効果と全体効果を切り分けて考察するなど、勉強になります。
考察での引用の甘さも指摘されています。
o3 pro凄まじいですね。
総括
やはり推論レベルはo3 proが大きく上回ります。
Gemini 2.5 proの回答は正直なところ、想像の範囲内に収まる印象です。
思考を深めていく際にはo3 proがかなり使えるのではないでしょうか。
ただ、コストが高く(月額220ドル)、推論にやや時間を要するという面もあります。
もちろん、Geminiも正確に読み込めていることは素晴らしいと思います。
また、Geminiは超長文になると強いという結果が出ています。
そして、文章表現はGeminiが優れています。o3 proは表を多用してやや簡潔すぎるため、文章生成にはあまり向きません。
また、Geminiは音声解説も生成できるのは非常に面白いです。
自分の研究について2人の人間が対話している様子を聞くことができます。
以下、音声のみです。
対話形式になっているため、私が説明するよりも上手です。笑
自分の研究を客観視するのに役立ちますね。
さらに、GeminiのDeep Thinkという超推論モードが出たら結果は変わるかもしれません。
その時はまたレビューしたいと思います。
