以下の内容はhttps://kazuhito00.hatenablog.com/entry/2025/09/01/163017より取得しました。


SmolVLM2 を Colaboratory でお試し🦔

SmolVLM2の味見をしています👀
比較的軽量(256M、500M、2.2B)なVLMですが、Flash Attention2 必須のため、Ampere GPU以上(L4以上)が必要です。

 

今までもちょいちょいVLM試してきましたが、数枚の画像を推論したくらいだと、正直もう制度の違いがあんまり判らない状況です(推論速度は結構違いますが)

なので、今回からはファインチューニングも併せて試していこうかと思っています。
医療用QA向け小規模データセットを使っているのですが、これはちょっと難しすぎるので、なんかよいデータセット探すか、自分で作るかしたいですね🦔

 

今回、お試ししたノートブックは以下にコミットしています。

github.com

 




以上の内容はhttps://kazuhito00.hatenablog.com/entry/2025/09/01/163017より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14