以下の内容はhttps://nowokay.hatenablog.com/entry/2026/02/24/115912より取得しました。

Qwen3-Coder-Next 80BのQ4_K_MをRTX 4060 Ti 16GBで21tok/secで動かす

試しにQwen3-Coder-Next 80BのQ4_K_MをRTX 4060 Ti 16GBで動かしてみたら、21tok/secと実用的な速度がでました。

Qwen3 Nextはアクティブ3Bなので、CPUで動かしてもそれなりの速度が出るはずです。
重いのはアテンションの処理なので、そこはGPUで動かして、FFNだけCPUに任せましょうというのが基本的な考え方。ここで詳しく解説してます。
CPUが得意なことをCPUにまかせて少ないVRAMでも大きめのLLMを速く動かす - きしだのHatena

LM Studioでも8月くらいに出来るようになってました。
GPUメモリ4GBあればGPT-oss 20Bが14tok/secで動く - きしだのHatena

いまはCPUに載せるレイヤー数を設定できるようになっているので、36レイヤーをCPUに載せるようにします。つまり、12レイヤーだけ完全にGPUに載せます。

ここで、RTX 3050を併用しようとするとエラーが出ていたので、RTX 4060 Tiだけ使うようにしてます。

ということで、21.47tok/sec

GPUメモリは使い切ってますね。

メモリも50GBくらい使ってます。

ブロック崩しも無事動きました。

ただ、メモリもほぼ占有して他が何も動かせなくなるので、使うならUnslothさんの動的量子化モデルの3bitくらいがいいかなと思っています。

ピーエヌワイ(PNY)

以上の内容はhttps://nowokay.hatenablog.com/entry/2026/02/24/115912より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14