2025年12月17日、GoogleからGemini 3 Flashが発表されました。GeminiアプリやSearchのAI Modeでデフォルトモデルになったということで話題になっています。
12月15日に研究用のデータの生成にGemini 2.5 Flashを大規模に使用してコストを払ったのに…🥲🥲🥲
今回は「新モデルの能力すごい!」だけで終わらせず、実際に使う立場から気になるポイントを整理してみます。 特に、学内で「どのモデル使えばいいですか?」と聞かれることもあったので、そのときの参考になればいいかな。
Gemini 3 Flashとは?
わかりきった質問かもしれませんが、「Gemini 3 Proより速くて安い、でも性能は近い」 というポジションのモデルです。
APIのモデル名は gemini-3-flash-preview で、開発者向けにはGemini API、Google AI Studio、Vertex AIなどで使えます(公式発表)。
ここで大事なのが 「preview」 という文字。つまり、まだ正式版じゃないんですよね。仕様も価格も変わる可能性がある。この点は頭に入れておきましょう(公式Pricing)。
価格を見てみる(ここ大事)
私がまず気になるのはやっぱり価格です。ハンズオンや勉強会で「API使ってみよう」となったとき、コストが高いと参加者のハードルが上がっちゃいますからね。
公式の価格表から抜粋します(Gemini API Pricing):
Gemini 3 Flash
| 項目 | 価格(100万トークンあたり) |
|---|---|
| 入力(テキスト/画像/動画) | $0.50 |
| 入力(音声) | $1.00 |
| 出力 | $3.00 |
Gemini 3 Pro(比較用)
| 項目 | 価格(100万トークンあたり) |
|---|---|
| 入力(20万トークン以下) | $2.00 |
| 入力(20万トークン超) | $4.00 |
| 出力(20万トークン以下) | $12.00 |
| 出力(20万トークン超) | $18.00 |
入力で1/4〜1/8、出力で1/4〜1/6 くらいの価格差。これはけっこう大きいですね。 あと、Flashはコンテキスト長が増えても価格が変わらないのがポイント。Proは20万トークンを超えると倍になるので、長文を扱う用途だとこの差がさらに効いてきます。
Gemini 2.5 Flash(比較用)
| 項目 | 価格(100万トークンあたり) |
|---|---|
| 入力(テキスト/画像/動画) | $0.30 |
| 入力(音声) | $1.00 |
| 出力(思考トークン含む) | $2.50 |
さすがに旧モデルは安いですが、これくらいの差であれば、新しくしてもいいかな🤔
スペックを確認
公式ドキュメント(Gemini models)によれば…
100万トークンであれば、RAGで社内文書を検索させたり、長いコードベースを分析させたりする用途に向いてそうです。ただ、出力が長くなるほど「嘘」が混じるリスクも増えるので注意が必要ですね🤔
ベンチマークはどうなの?
ベンチマークの数字って、正直なところ条件次第で変わるんですよね。ツール使用の有無、プロンプトの書き方、採点方法…なので、あくまで参考程度に。 正直なところベンチマークの能力差は使っているとわからないです。自分は使った結果をみて判断するようにしています😊
コーディング(SWE-bench Verified)
Google Developers Blogによると、78% を達成してGemini 3 Proを上回ったとのこと(Gemini CLI発表記事)。
ただし、これは特定のベンチマーク環境での話。自分のコードベースで同じ結果が出るかは別問題です。実際に試してみて判断するのがいいかも?
推論・マルチモーダル
TechCrunchの報道では(記事)...
- Humanity's Last Exam(ツールなし)では 33.7%
- MMMU-Proでは81.2%
報道ベースの数値なので、厳密に使いたい場合は公式レポートも確認してくださいね。
安全に使うために
ここまで読んで「よし、使ってみよう!」となった方、ちょっと待ってください。
私が勉強会で必ず伝えていることがあります。「AIモデルは嘘をつく前提で設計する」 ということ。
ハルシネーション(誤生成)は起きる
これはGemini 3 Flashに限った話じゃないんですが、LLMは「それっぽい嘘」を自信満々に言うことがあります。
Artificial Analysisの分析(記事)でも、ハルシネーション系の指標について言及されています。
対策として私がおすすめするのは
- 「根拠がないときは"わからない"と言ってほしい」 とプロンプトに書く
- 重要な回答には出典を求める
- 最終的には人間がレビューするフローを入れる
速度は環境次第
Flashという名前から速さを期待しますが、実際の体感速度はネットワーク環境やAPIの混雑状況で変わります。
Googleは低レイテンシを謳っていますが(The Verge)、本番導入前に自分の環境で計測するのが安全です。
データの取り扱いも確認
無料枠と有料枠で、プロンプトや応答がGoogleの学習に使われるかどうかが違います(料金の説明)。機密性のある情報を扱う場合は、この点も設計段階で確認しておくといいですね。
結局、どんな場面で使える?
私なりの理解でスマン🤗
| ユースケース | 向いてる度 | コメント |
|---|---|---|
| プロトタイピング・PoC | ⭐⭐⭐ | コスト気にせず試せる |
| 長文要約・RAG | ⭐⭐⭐ | 100万トークンの恩恵が大きい |
| 社内ツール(事実性低め) | ⭐⭐⭐ | アイデア出し、下書き作成など |
| ハンズオン・教育用途 | ⭐⭐⭐ | 低コストで学習環境を作れる |
| 本番サービス(事実性重要) | ⭐ | 安全設計が先、モデル選定は後 |
| 医療・法務・金融 | ⚠️ | モデル以前に設計・運用の話 |
おわりに
Gemini 3 Flashは、「速さ・コスト・長いコンテキスト」 という明確な強みを持ったモデルです。ただ、preview版であること、ハルシネーションは起きること、安全設定は自分で考える必要があること…このあたりを理解した上で使うのが大事かなと。私は引き続き触ってみたいと思います。
参考リンク(公式中心)
- Gemini 3 Flash 発表(Google Blog)
- Gemini API Pricing
- Gemini models(スペック)
- Safety settings
- Gemini API Release notes
⚠️この記事は2025年12月時点の情報です。仕様・価格は変更される可能性があります。