以下の内容はhttps://kazuhito00.hatenablog.com/entry/2025/07/23/103349より取得しました。


Gemini-2.5-Flash の物体検出・セグメンテーションをAPIでお試し🦔

Gemini-2.5 で物体検出が対応したと聞いたので、ColaboratoryでAPIを試してみています👀 

 

ちなみに、ただ雰囲気を確認するだけなら、Google AI StudioでGUI確認も出来ます。

https://aistudio.google.com/app/apps/bundled/spatial-understanding?showPreview=true

 

ポストにも書いていますが、似たようなことが出来るFlorence-2と比べると
・精度は同等かちょっと悪い(過検出がちょいちょいある)
・プロンプトの柔軟性は圧倒的にGemini(手前にあるもの。とか、説明をつけて。とか。片づけをしたいから順番と仕方をラベルにつけて。とか、色々指示できる)
・厳密に比較していないので、個人の感触だけど、セグメンテーションはFlorence-2より綺麗に切り抜いている気がする
・セグメンテーションの結果が、パスではなく、base64で帰ってくるので出力トークン数多い?

 

 

今回、試したノートブックは以下にコミットしています。
実行するには、Google AI StudioでAPIキーの取得が必要なため、ご注意ください。

github.com

 

(2025/07/23追記)

 




以上の内容はhttps://kazuhito00.hatenablog.com/entry/2025/07/23/103349より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14