https://kazuhito00.hatenablog.com/entry/2025/07/23/103349

Gemini-2.5 で物体検出が対応したと聞いたので、ColaboratoryでAPIを試してみています👀

Gemini-2.5-Flash で物体検出とセグメンテーション味見している👀

物体検出はFlorence-2と同等かちょっと悪い？
プロンプトの柔軟性はGemini（2枚目のプロンプトは”Find the woman with the red umbrella.”）
セグメンテーションは比較的綺麗だけど、物体検出と同じように過検出があるなー……🙄 pic.twitter.com/mnHDLMZHNc
— 高橋かずひと@パワポLT職人 (@KzhtTkhs) 2025年7月23日

ちなみに、ただ雰囲気を確認するだけなら、Google AI StudioでGUI確認も出来ます。

https://aistudio.google.com/app/apps/bundled/spatial-understanding?showPreview=true

ポストにも書いていますが、似たようなことが出来るFlorence-2と比べると
・精度は同等かちょっと悪い（過検出がちょいちょいある）
・プロンプトの柔軟性は圧倒的にGemini（手前にあるもの。とか、説明をつけて。とか。片づけをしたいから順番と仕方をラベルにつけて。とか、色々指示できる）
・厳密に比較していないので、個人の感触だけど、セグメンテーションはFlorence-2より綺麗に切り抜いている気がする
・セグメンテーションの結果が、パスではなく、base64で帰ってくるので出力トークン数多い？

プロンプトの柔軟性はGemini-2.5-Flashのほうが、Florence-2より圧勝かなー。
使えるかは別に検証がいるけども👀

このプロンプトは「Detect the 2D bounding boxes of all macarons and label them with numbers in order of proximity (closest first).」 https://t.co/pg4AyqhC7p pic.twitter.com/9C4I3r75BN
— 高橋かずひと@パワポLT職人 (@KzhtTkhs) 2025年7月23日

セグメンテーションのマスク結果がbase64のpngで帰ってくる👀
これ出力トークン数多くねえ🙄 https://t.co/pg4AyqhC7p pic.twitter.com/ei5B3eyWMd
— 高橋かずひと@パワポLT職人 (@KzhtTkhs) 2025年7月23日

今回、試したノートブックは以下にコミットしています。
実行するには、Google AI StudioでAPIキーの取得が必要なため、ご注意ください。

github.com

（2025/07/23追記）

この点においてはFlorence-2を遥かに凌駕している👀 https://t.co/MlIvA9Lyiz
— 高橋かずひと@パワポLT職人 (@KzhtTkhs) 2025年7月23日