Qwen3.5の小規模モデル、4B / 2B / 0.8Bについて試してみます。
画像認識精度の高さもあって、かなり便利に使えそうです。
LM Studio CommunityのGGUFで、Q4_K_Mを試しています。0.8BについてはQ8_0。
画像エンコーダーの影響で2BはQ4_K_MとQ8_0のサイズがあまり変わらないので、Q8_0で試してもよかった。
(9Bに関しては別枠で)
Thinkingのオフ
今回、コーディング以外ではThinkingをオフにしてます。
LM Studioで動かす場合だと、35Bと9BはThinkingのON/OFFに対応したモデルが出てるけど、それ以外はプロンプトテンプレートでenable_thinkingで切り替える必要があります。
現状で、0.8Bと2BはデフォルトでOFF、4BはデフォルトでONなので、4BでThinkingをOFFにするには次の指定を追加します。
{%- set enable_thinking = false%}
詳しくはこちら。
https://nowokay.hatenablog.com/entry/2026/02/23/180649
画像読み取りと指示追従
CO2測定器を読み取ってもらいます。

システムプロンプトに次のように指定しています。
数字を読み取ってmarkdownの表形式で出力してください。
項目は上部から
日付
時刻
気温(摂氏) / 気温(華氏) / 湿度
CO2濃度
ヘッダー行は項目 / 値として1項目ずつmarkdownの表形式で結果のみだしてください
0.8B。なんとなくちゃんと出てますが、markdownを```で囲ってしまう。時刻は間違っています。

2Bはちゃんとmarkdown。数値もあってる。

4Bでやっとヘッダー行が項目 / 値になりました。

0.8Bから4Bに順に指示追随性があがってるのがわかりますね。
次のように形式を指定すると、ちゃんと出力してくれます。
数字を読み取って
上部から
日付
時刻(一番おおきい4桁の数字)
気温(摂氏) / 気温(華氏) / 湿度
CO2濃度
です。
次の形式のJSONのみを出力してください。「```json」などは出力しない。
{
"date": "..",
"time": "..",
"temperature_c": 20,
"temperature_f": 70,
"humidity": 40,
"co2": 0.500
}
ただ、「「```json」などは出力しない」は聞いてくれませんでした。

あと、0.8Bだけ時刻が間違ってますが、0.8Bは結構精度がおちた小サイズの画像エンコーダーを使ってるようです。2Bと4Bは共通で、9B以上のものより少しサイズが小さく精度が落ちるようだけど、次に見るよう十分な性能です。
画像読み取り精度の確認
任天堂有報、0.8Bだと2か所ほど△を誤ってつけるミスがありました。見えてないんじゃなく解釈間違いという感じですね。

2Bだと完璧。Q4_K_Mだと表の縦横が違ってたので、Q8_0を使ってます。

ロールプレイ
このあたりのサイズだと、ロールプレイが用途として大事だったりするので、「山口県をギャルっぽく説明」をお願いしてみます。
情報の内容は別として、こんな感じでなかなかよさそう。内容については知識問題のところで。

2Bや0.8Bはこんな感じに箇条書きが。

4Bならロールプレイに使えそう。
ツール呼び出し
Function Callingを試してみます。
このときに作ったプログラムを動かしてみる。
Gemma 3とLangChain4JでローカルLLMでFunction Calling - きしだのHatena
2Bでかなり指示どおり動いてくれています。

0.8Bはちょっとすると関数呼び出しが止まらなくなります。

でも、0.8Bでも文脈を問わないような単純なツール呼び出しなら問題なさそう。安定動作が欲しければ4Bかな。 Qwen3だと2Bと同等動作が4Bで、安定には8Bだったので、一段低いサイズで実現可能になった感じ。
Gemma3では次のように書いてますが、Qwen3.5だと「0.8Bだと勝手に呼び出しを続けることがあって、2Bでもたまに、4Bなら安定する」、となりますね。
4Bだと延々と勝手に関数呼び出しを続けることがありました。12Bでもたまに関数呼び出しが止まらないことがあります。27Bなら安定する
というか、Gemma 3からまだ1年経ってないのか。もうずいぶん前という感じがする。
コーディングは?
残念ながら、4BでJavaでのブロック崩しは動くところまでいけませんでした。
Qwen3のときは4Bでへんなのを動かしていたのに。
Qwen3はローカルLLMの世界を変えたかも - きしだのHatena
それっぽいコードは書いてるけど、Javaコードのコンパイルを通せなかった。
Javaコードのコンパイルを通す能力が、Qwen3から落ちてる感じがあります。
HTML+JSだといけました。

2Bでもそれっぽいコードは書いていた。動かなかったけど。
かなりコードを書けますね。複雑なコードは動かせないけど補完に使うとか、簡単なデータ処理をさせるならいいかも。

知識問題
山口県の特徴を聞いてます。
初手間違い・・・0.8Bに知識問題を聞いてはいけません。用途を誤っている。

2Bもだいたいダメ。

4Bも近づいたけどやっぱダメ。

ということで、このサイズのモデルに細かい知識を問うのはやめましょう。
大きなものならいいかと平成以降の総理大臣を聞いてみました。
0.8Bは小泉純一郎時代だったと言ってますね。

2Bは6人だと言ってる。

4Bはたくさん挙げていて信じそうになるけど、小渕恵子さんが総理やったことになってます。

ちなみに35Bは日付まで含めてあってます。

竹下さんは、任期中に平成になったので、そのあたりの表記がおかしい。あと、安倍晋太郎さん出てるけど、出力中に訂正していますね。
Thinkingをオフにしているからで、Thinkingが入れば出力は正しくなってたはず。
いや、35Bでこの精度で答えるのもすごいのだけど。
このような粒度で知識があいまいになることのイメージもつくかと思います。
まとめ
用途を選べば、かなり使えるモデルですね。以前のモデルの一段下のサイズで、少し精度の高い応答ができる。
使いどころが多そうです。