Qwen3.5-397B-A17B、賢くていいですね。常用していいんじゃないかと思うくらいなんだけど、「今日は何日?」と聞くだけで3分考え込んでたり、思考が長すぎて使えないってなります。

「今日は5月23日、いやほんとに正しいか?ダブルチェックだ。5月23日。OK。しかしユーザーは曜日を求めてるのでは?令和で答えたほうが?もっと丁寧に?いやこれは丁寧すぎるのでは?ほんとに日付を求めてるのか?そして日付は正しいか?」みたいに延々と考えてます。
あと2024年5月23日あたりと2026年カットオフという情報をもってるようで、その間で葛藤したりもしますね。
ただ、公式だと「思考」と「高速」を選べるので、モデルにはThinkingの切り替えの能力があるはず。

ということでHuggingFaceのモデル説明を見ると「Instruct (or Non-Thinking) Mode 」のところに"chat_template_kwargs": {"enable_thinking": False}を渡せと書いてあります。

Qwen/Qwen3.5-397B-A17B · Hugging Face
なので基本的には、チャットテンプレートにenable_thinking=falseというパラメータが渡ればいいはず。
ただ、LM Studioではチャットテンプレートにパラメータを渡す方法がなさそうなので、モデルの設定のInferenceの一番下にあるJinjaテンプレートを直接いじってしまいます。

先頭のほうにこの一行を追加すればThinkingが抑制されるはず。
{%- set enable_thinking = false %}
無事、今日が何日かすぐ返ってくるようになりました。

いろいろやらせると、やはりThinkingありのほうが妥当な結果を返してくるのだけど、チャットで使うときは3分無駄なことを考えさせるよりは、先に何か返してもらって間違ってたら指摘するほうが早いと思います。
出力でThinkingのようなことをやりますが、早期に切り上げるので使いやすいです。

これで、常用してみようかなという気持ちになったのでしばらく試してみます。
基本的な性能チェックはいま書いてる最中。
追記:書いた。
Qwen3.5-397B-A17Bを試す。日本知識が細かくOCR性能も高く実用的~一般性能編~ - きしだのHatena
追記:LM Studio CommunityのGGUFだと設定があるかも

RTX4090と256GBメインRAMで25tok/sec出るらしいけど金額。。。