SB Institutionから日本の情報に特化した画像言語モデル、Sarashina-2.2-Vision-3Bが出ていたので試したところ、性能の高さは感じたものの、VRAM 16GBで動かすのがつらかったのでまとめました。
Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開 - SB Intuitions TECH BLOG
※ use_cache=Trueつけたら解決!12GBで動きそうです。追記しています。

GradioでのUI
とりあえず、いろいろ試すたびにコードいじるのは面倒なので、gradioでUIをつけました。
ChatGPTに「gradioで、画像と短文を入力したら長文が返ってくるシステムのUIを作りたい。実際の処理はこちらで書くので、generate_text(intput_txt, image_pil)関数がある前提で画面構築のスクリプトを書いて。」として生成してもらって、上記ブログのサンプルコードを埋めていきます。※ use_cache=True つける必要があります。
Sarashina 2.2 Vision 3BのGradio UI · GitHub
「たなかさん」認定された。

サンプルの読み取り
サンプルの画像とプロンプトを指定すると、こんな感じで、サンプルどおりの出力が得られました。乱数シードは設定していないので、サンプルとは微妙に違います。

住所は実際には湯之町5丁目6番なのでちょっと違いますが、サンプルと同じです。
起動時のメモリは、起動前に2.4GBつかってたので、7.2GBくらい使っています。3BでBF16なのでそんなものでしょう。

※追記
generateの引数にuse_cache=Trueをつけると、メモリ消費もあまりありませんでした。

生成速度も問題ないです。

※ 追記ここまで。ここからはuse_cache=Trueをつけてないときの記述
出力後にはメモリぱつぱつです。

出力速度はこんな感じ。きびしい。静止画じゃないです。しばらく見てて。

文字読み取りをみてみる
経済産業省のAI事業者ガイドライン P7を読み取ってみます。
https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/pdf/20250328_2.pdf
完璧。すごい。

量子化を試す
メモリが厳しいので、load_in_8bit=Trueをつけて、量子化して試してみます。
起動前が1.5GBだったので、4.2GB。3GBほど削減されました。

同じ文章を読み取り。ちょこちょこ間違いがあります。確実に精度は落ちてますね。

読みとり終了時のメモリ使用量はこんな感じ。余裕がある。

量子化したら速くなるかなと思ったけど、生成速度は、ほとんど変わってないです。
load_in_4bitも見てみます。メモリは5.4GB。ほとんど変わってない。

「I am the language of my own tongue.」。。。
どっから出てきた?4bitは使い物にならんす。

生成速度も変わってないか、むしろ遅くなった気もするので、ただ壊れただけですね。
で、じゃあ精度はちょっと落ちるけど8bitで使うかなってなるのだけど、問題が。
ビル群も緑地も見当たらないのだけど。

文字以外の画像認識が壊滅的になっています。
bitsandbytesの簡易量子化ではなくGGUFつくるときのように時間をかけて最適化がされていればよさそうだけど、アーキテクチャ上GGUFも単純には作れなさそう。
ということでBF16のまま使いましょうってなります。
まとめ
精度がすごく高い画像言語モデルが、MITという使いやすいライセンスで出たのはとてもいいですね。
ただ、3Bなので使いやすいかと思ったけど、メモリ的にも速度的にもちょっと厳しい。
今後は、使いやすさを、ということになりそうだけど、「精度は十分なので使いやすさを」と言えるモデルが日本特化で出たというのはうれしい。
パラメータを適切に設定すればメモリ的にも速度的にも問題ないです。VRAM 12GBで使えそう。
量子化やGGUF、MLXに対応して、VRAM 8GBやMacでも使えるようになるともっといいなと思います。