https://kazuhito00.hatenablog.com/entry/2025/09/01/163017

SmolVLM2の味見をしています👀
比較的軽量（256M、500M、2.2B）なVLMですが、Flash Attention2 必須のため、Ampere GPU以上（L4以上）が必要です。

SmolVLM2の推論味見と、ファインチューニング味見をしている👀
ただ、ファインチューニングの確認に使っている医療用QA向け小規模データセットが難易度高めなので、正直回答は当たらない🦔 pic.twitter.com/tNx8P2V4mD
— 高橋かずひと@パワポLT職人 (@KzhtTkhs) 2025年9月1日

今までもちょいちょいVLM試してきましたが、数枚の画像を推論したくらいだと、正直もう制度の違いがあんまり判らない状況です（推論速度は結構違いますが）

なので、今回からはファインチューニングも併せて試していこうかと思っています。
医療用QA向け小規模データセットを使っているのですが、これはちょっと難しすぎるので、なんかよいデータセット探すか、自分で作るかしたいですね🦔

今回、お試ししたノートブックは以下にコミットしています。

github.com