以下の内容はhttps://uepon.hatenadiary.com/entry/2025/12/19/162958より取得しました。


Gemini 3 Flashが来た!「速い・安い」は本当か?安全に使うための視点も含めて整理してみた

2025年12月17日、GoogleからGemini 3 Flashが発表されました。GeminiアプリやSearchのAI Modeでデフォルトモデルになったということで話題になっています。

12月15日に研究用のデータの生成にGemini 2.5 Flashを大規模に使用してコストを払ったのに…🥲🥲🥲

今回は「新モデルの能力すごい!」だけで終わらせず、実際に使う立場から気になるポイントを整理してみます。 特に、学内で「どのモデル使えばいいですか?」と聞かれることもあったので、そのときの参考になればいいかな。


Gemini 3 Flashとは?

わかりきった質問かもしれませんが、「Gemini 3 Proより速くて安い、でも性能は近い」 というポジションのモデルです。

APIのモデル名は gemini-3-flash-preview で、開発者向けにはGemini APIGoogle AI StudioVertex AIなどで使えます(公式発表)。

ここで大事なのが preview という文字。つまり、まだ正式版じゃないんですよね。仕様も価格も変わる可能性がある。この点は頭に入れておきましょう(公式Pricing)。


価格を見てみる(ここ大事)

私がまず気になるのはやっぱり価格です。ハンズオンや勉強会で「API使ってみよう」となったとき、コストが高いと参加者のハードルが上がっちゃいますからね。

公式の価格表から抜粋します(Gemini API Pricing):

Gemini 3 Flash

項目 価格(100万トークンあたり)
入力(テキスト/画像/動画) $0.50
入力(音声) $1.00
出力 $3.00

Gemini 3 Pro(比較用)

項目 価格(100万トークンあたり)
入力(20万トークン以下) $2.00
入力(20万トークン超) $4.00
出力(20万トークン以下) $12.00
出力(20万トークン超) $18.00

入力で1/4〜1/8、出力で1/4〜1/6 くらいの価格差。これはけっこう大きいですね。 あと、Flashコンテキスト長が増えても価格が変わらないのがポイント。Proは20万トークンを超えると倍になるので、長文を扱う用途だとこの差がさらに効いてきます。

Gemini 2.5 Flash(比較用)

項目 価格(100万トークンあたり)
入力(テキスト/画像/動画) $0.30
入力(音声) $1.00
出力(思考トークン含む) $2.50

さすがに旧モデルは安いですが、これくらいの差であれば、新しくしてもいいかな🤔


スペックを確認

公式ドキュメント(Gemini models)によれば…

  • 入力対応: テキスト / 画像 / 動画 / 音声 / PDF
  • 入力トークン上限: 1,048,576(約100万)
  • 出力トークン上限: 65,536

100万トークンであれば、RAGで社内文書を検索させたり、長いコードベースを分析させたりする用途に向いてそうです。ただ、出力が長くなるほど「嘘」が混じるリスクも増えるので注意が必要ですね🤔


ベンチマークはどうなの?

ベンチマークの数字って、正直なところ条件次第で変わるんですよね。ツール使用の有無、プロンプトの書き方、採点方法…なので、あくまで参考程度に。 正直なところベンチマークの能力差は使っているとわからないです。自分は使った結果をみて判断するようにしています😊

コーディング(SWE-bench Verified)

Google Developers Blogによると、78% を達成してGemini 3 Proを上回ったとのこと(Gemini CLI発表記事)。

ただし、これは特定のベンチマーク環境での話。自分のコードベースで同じ結果が出るかは別問題です。実際に試してみて判断するのがいいかも?

推論・マルチモーダル

TechCrunchの報道では(記事)...

  • Humanity's Last Exam(ツールなし)では 33.7%
  • MMMU-Proでは81.2%

報道ベースの数値なので、厳密に使いたい場合は公式レポートも確認してくださいね。


安全に使うために

ここまで読んで「よし、使ってみよう!」となった方、ちょっと待ってください。

私が勉強会で必ず伝えていることがあります。「AIモデルは嘘をつく前提で設計する」 ということ。

ハルシネーション(誤生成)は起きる

これはGemini 3 Flashに限った話じゃないんですが、LLMは「それっぽい嘘」を自信満々に言うことがあります。

Artificial Analysisの分析(記事)でも、ハルシネーション系の指標について言及されています。

対策として私がおすすめするのは

  1. 「根拠がないときは"わからない"と言ってほしい」 とプロンプトに書く
  2. 重要な回答には出典を求める
  3. 最終的には人間がレビューするフローを入れる

速度は環境次第

Flashという名前から速さを期待しますが、実際の体感速度はネットワーク環境やAPIの混雑状況で変わります。

Googleは低レイテンシを謳っていますが(The Verge)、本番導入前に自分の環境で計測するのが安全です。

データの取り扱いも確認

無料枠と有料枠で、プロンプトや応答がGoogleの学習に使われるかどうかが違います(料金の説明)。機密性のある情報を扱う場合は、この点も設計段階で確認しておくといいですね。


結局、どんな場面で使える?

私なりの理解でスマン🤗

ユースケース 向いてる度 コメント
プロトタイピング・PoC ⭐⭐⭐ コスト気にせず試せる
長文要約・RAG ⭐⭐⭐ 100万トークンの恩恵が大きい
社内ツール(事実性低め) ⭐⭐⭐ イデア出し、下書き作成など
ハンズオン・教育用途 ⭐⭐⭐ 低コストで学習環境を作れる
本番サービス(事実性重要) 安全設計が先、モデル選定は後
医療・法務・金融 ⚠️ モデル以前に設計・運用の話

おわりに

Gemini 3 Flashは、「速さ・コスト・長いコンテキスト」 という明確な強みを持ったモデルです。ただ、preview版であること、ハルシネーションは起きること、安全設定は自分で考える必要があること…このあたりを理解した上で使うのが大事かなと。私は引き続き触ってみたいと思います。


参考リンク(公式中心)


⚠️この記事は2025年12月時点の情報です。仕様・価格は変更される可能性があります。




以上の内容はhttps://uepon.hatenadiary.com/entry/2025/12/19/162958より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14