Qwen3.5-397B-A17Bを手元で試してみました。
397Bで、アクティブ17BのMoEモデルでライセンスはApache 2.0です。
Qwen3.5-397B-A17Bは、Qwen3-Nextと同様にGated DeltaNetworkを使った線形アテンションなモデルです。なのでちょっと不安があったけど、かなりいい感じ。
Qwen3-Nextが2025年9月リリースだったことを考えると、その知見を活かしながら、ある程度並行で開発を行ったんじゃなかろうか。
Mac Studio 512GBでLM Studio、UnslothさんのところのQ4_K_Mを使って試します。
unsloth/Qwen3.5-397B-A17B-GGUF · Hugging Face
日本知識が細かく日本語表現力もありOCR性能も高く、そして安定感があって非常に実用的です。
コーディング性能についてはこちら。
Qwen3.5-397B-A17Bのコーディングを試す。型の扱いは苦手だけど安定感がある - きしだのHatena
要約と基本性能
まずは要約。LM Studioでファイル添付するとJinjaテンプレートエラーが出たので、プロンプトにそのまま貼り付けてます。

要約は「注文の多い料理店」であることがバレてますが、物語の面白さもわかるような要約になってます。
プロンプト読み込みに14秒(240tok/secくらい)、出力20tok/secで、このサイズを動かしてるにしてはなかなか。
ところで、Open WebUIでファイル添付で要約してもらうと、llama.cppのWeb UIやLM Studioで要約するときに比べて、いつも性能が低いのが気になっていた。

Thinkingの和訳を見ると、引用の表示やガイドラインなどのプロンプトが入り、ファイルが3分割していることがわかる。

知識カットオフは?
ちょっと気になったので聞いてみました。
2026年って言うんだけど、Javaのバージョンが22(2024/3)までしか出ておらず23(2024/9)がこれからということで、夏頃っぽい。

総理大臣を聞くと、石破さんを知っているので、10月くらいの知識もありそう。

一般的な知識について夏頃まで、時事ネタについては10月くらいまでということか、10月くらいにはJava 23が出たという記事はあまり集まらなかったということだろうか。
ところで、3分間も何を考えてるのかThinkingを覗いてみると、2026年カットオフという情報と自分の持つ実際の知識違いに葛藤してる様子。
あと、「Googleモデル」という自覚があるらしい。

(英語でのThinkingをFirefoxで和訳してます)
日本知識
日本の知識をどのくらい持ってるか、山口県について聞いてみる。
普通に聞く
山口県知識完璧。

CNNの「日本の美しい場所31選」とか、細かすぎる。
ちゃんと載ってます。
日本の美しい風景31選(1/10) - CNN.co.jp

ギャルっぽく
「ギャルっぽく」も割といい。知識がぼやけたりしない。
最後に「一緒に行こねー!」で締めてるところもいい。

まあ、これもこうやって考えられてるわけだけど。
(英語のThinkingをPLaMo翻訳で和訳)

Thinkingのプロセスは参考になる。
そして、Thinkingを切って試すとかなり自然になりました。やっぱロールプレイにThinkingが入ると不自然になりますね。

難しい問題
考えさせる問題。
「64歳以上であれば100円、64歳未満は1000円」を整数四則演算だけで実現して。
年齢制限なく対応できるように。
10分考えてちゃんと正解。
なんでこの式になるかも説明してくれてます。

OCR性能
決算短信のキャプチャを渡して、「HTMLであらわして」とすると、完全再現!カンマとドットの違い含め、誤字を見つけれませんでした。レイアウトもほぼそのまま。

ところで、この2025年3月期で売上1.6兆円->1.2兆円、経常利益率30%、社員数8200人、自己資本比率80%の会社はどこでしょう、ということで「どこだと思う?」
「85期ということは創業はいつ?そのころにできてこの売上規模の企業とは?」「設立はもっと古い」「売上が非常に高く、利益率が非常に高く、従業員数が少ない。これは何を意味する?」というヒントで任天堂にたどりつきました。

Thinkingでは、検索権限を与えていないので、脳内検索しているw

いろんな企業や業界をあげて考えていました。日本の業界知識もかなりありそう。

「産業別の利益率をおしえて」と聞いたあとで「売上1,758,910百万円、経常利益678,996百万円だと何%?」ってやると、任天堂と答えていたので、株式分割などの情報がノイズになってたみたい。

ちなみにChatGPTは即答。フロンティアモデルへの道は遠い・・・

と思ったけど、 chat.qwen.ai で試したら一発正解。量子化してないフルモデルだともっと賢いのかもしれない。

Thinkingが長すぎる問題
Qwen3.5-397B-A17BのThinking長すぎですね。
難しい問題で10分考えるのはわかりますが、Javaのバージョンや日本の首相、今日の日付を聞くのに3分かかるというのは困りもの。

これ、モデルはThinkingをon/offできるので、設定すると切ることができます。
https://nowokay.hatenablog.com/entry/2026/02/23/180649
設定は面倒ですが、実用的になりました。