Gemini-2.5 で物体検出が対応したと聞いたので、ColaboratoryでAPIを試してみています👀
Gemini-2.5-Flash で 物体検出とセグメンテーション味見している👀
— 高橋 かずひと@パワポLT職人 (@KzhtTkhs) 2025年7月23日
物体検出はFlorence-2と同等かちょっと悪い?
プロンプトの柔軟性はGemini(2枚目のプロンプトは”Find the woman with the red umbrella.”)
セグメンテーションは比較的綺麗だけど、物体検出と同じように過検出があるなー……🙄 pic.twitter.com/mnHDLMZHNc
ちなみに、ただ雰囲気を確認するだけなら、Google AI StudioでGUI確認も出来ます。
https://aistudio.google.com/app/apps/bundled/spatial-understanding?showPreview=true
ポストにも書いていますが、似たようなことが出来るFlorence-2と比べると
・精度は同等かちょっと悪い(過検出がちょいちょいある)
・プロンプトの柔軟性は圧倒的にGemini(手前にあるもの。とか、説明をつけて。とか。片づけをしたいから順番と仕方をラベルにつけて。とか、色々指示できる)
・厳密に比較していないので、個人の感触だけど、セグメンテーションはFlorence-2より綺麗に切り抜いている気がする
・セグメンテーションの結果が、パスではなく、base64で帰ってくるので出力トークン数多い?
プロンプトの柔軟性はGemini-2.5-Flashのほうが、Florence-2より圧勝かなー。
— 高橋 かずひと@パワポLT職人 (@KzhtTkhs) 2025年7月23日
使えるかは別に検証がいるけども👀
このプロンプトは「Detect the 2D bounding boxes of all macarons and label them with numbers in order of proximity (closest first).」 https://t.co/pg4AyqhC7p pic.twitter.com/9C4I3r75BN
セグメンテーションのマスク結果がbase64のpngで帰ってくる👀
— 高橋 かずひと@パワポLT職人 (@KzhtTkhs) 2025年7月23日
これ出力トークン数多くねえ🙄 https://t.co/pg4AyqhC7p pic.twitter.com/ei5B3eyWMd
今回、試したノートブックは以下にコミットしています。
実行するには、Google AI StudioでAPIキーの取得が必要なため、ご注意ください。
(2025/07/23追記)
この点においてはFlorence-2を遥かに凌駕している👀 https://t.co/MlIvA9Lyiz
— 高橋 かずひと@パワポLT職人 (@KzhtTkhs) 2025年7月23日