試しにQwen3-Coder-Next 80BのQ4_K_MをRTX 4060 Ti 16GBで動かしてみたら、21tok/secと実用的な速度がでました。

Qwen3 Nextはアクティブ3Bなので、CPUで動かしてもそれなりの速度が出るはずです。
重いのはアテンションの処理なので、そこはGPUで動かして、FFNだけCPUに任せましょうというのが基本的な考え方。ここで詳しく解説してます。
CPUが得意なことをCPUにまかせて少ないVRAMでも大きめのLLMを速く動かす - きしだのHatena
LM Studioでも8月くらいに出来るようになってました。
GPUメモリ4GBあればGPT-oss 20Bが14tok/secで動く - きしだのHatena
いまはCPUに載せるレイヤー数を設定できるようになっているので、36レイヤーをCPUに載せるようにします。つまり、12レイヤーだけ完全にGPUに載せます。

ここで、RTX 3050を併用しようとするとエラーが出ていたので、RTX 4060 Tiだけ使うようにしてます。

ということで、21.47tok/sec

GPUメモリは使い切ってますね。

メモリも50GBくらい使ってます。

ブロック崩しも無事動きました。

ただ、メモリもほぼ占有して他が何も動かせなくなるので、使うならUnslothさんの動的量子化モデルの3bitくらいがいいかなと思っています。