VRAM96GBが使える環境が増えてきていますね。そんな中、どのLLMを使うのがいいか考えてみます。
候補としては、gpt-oss-120b、GLM-4.6V、Qwen3-Coder-Nextがあります。
で、まあ、安定性のgpt-oss、汎用性のGLM、複雑なコードはQwen3、という感じで使いわけがいいんではないかと。
常用チャットは画像対応のGLM-4.6Vかな。
※ Llama4 ScoutやQwen3-Nextもありますが、Llama4 Scoutは少し古くて性能が劣るのと、Qwen3-NextはQwen3-Coder-Nextとかぶるので挙げていません。
※ LongCat-Flash-Liteをダウンロードしたまま忘れていたけど、軽くて良かった。しかしエージェントが動かない。
100B前後のLLM
| モデル | サイズ | アクティブ | 画像 | 公開時期 |
|---|---|---|---|---|
| gpt-oss-120b | 120B | 5B | - | 2025/8 |
| GLM-4.6V | 106B | 12B | o | 2025/12 |
| Qwen3-Coder-Next | 80B | 3B | - | 2026/2 |
| LongCat-Flash-Lite | 69B | 3B | - | 2026/1 |
gpt-oss-120b
OpenAIのモデル。
ここではgpt-oss-20bを動かしてますが、20Bでも指示追随性や破綻のなさがすごいです。
OpenAIのオープンモデルGPT-oss 20Bがすごすぎる - きしだのHatena
他のモデルは、たまに同じ文を繰り返し出力する問題が出ますが、gpt-oss-120bはそういった挙動がかなり少ない。
Roo Codeに作らせたSpring BootのTODO管理アプリがこちら

卒なくできていますが、夏頃のモデルはまだエージェントの考慮がされていないので、素のHTMLです。
この冬に出てきた他のモデルは、コーディングエージェントが流行るのを見て開発したのもあって、モデルが出たときにコーディング性能を最初に示すようになっているし、HTMLのデザインにも力をいれているようです。
口調は、まんまChatGPTです。表現力はそこまで高くない。
さくらのAI Engineで試せます。またAPIは3000リクエスト/月まで無料です。
https://www.sakura.ad.jp/aipf/ai-engine/
GLM-4.6V
z.aiのモデル。 このサイズ帯では唯一の画像言語モデルです。 https://chat.z.ai/
ここで試してますが、日本語の表現力も高く、チャットで使うならこれ。
Z.aiの新しい画像言語モデルGLM 4.6Vよさそう - きしだのHatena
Spring BootでのTODO管理アプリはこう。HTMLのデザインがちゃんとされています。

コードも書けて安定感もあるので、難しいコードじゃなければGLM-4.6Vがいい気がしています。
Qwen3-Coder-Next
Alibabaのモデル。
非線形アテンションを使ってメモリ消費が抑えられているのも強み。
ここではダメと書いていましたが、VRAM96GBで動くLLMでは最高のコーディング性能ではあるので、欠点をふまえながら使うというのはいいんではないかと。(あとでそういうブログ書く)
Qwen3-Coder-Next 80Bがコード書けるけど失敗の質が悪すぎてダメな理由をアーキテクチャから見てみる - きしだのHatena
つまり、コンパイラやテストで失敗を検知できる形にして、うまく動くまで再試行させる、というのがよさそうです。
パストレーシングも、何回も同じミスを繰り返しつつ、23回目にちゃんと動きました。GLM-4.6Vは実装に成功できていません。

Spring BootでのTODO管理アプリはこうなりました。

口調はChatGPTの嫌なところをそのまま、という感じ。
LongCat-Flash-Lite
Meituan(美団)のモデル。70B-A3Bで軽い。この4bit量子化がエージェントで使えれば64GBメモリでも使えてよかったけど、Roo CodeもOpenCodeも動かなかった。
LongCat-Flash-Lite 70Bなら64GB Macで動くし速いがエージェント未対応 - きしだのHatena
口調はフランク。
日本語表現はかなりいいです。
話し相手に使うにはいいかも。
VRAM96GBのハードウェア
VRAM96GBを積んだGPUというとRTX PRO 6000がありますが150万円くらいしますね。Amazonだと250万円。
なぜかXのタイムラインだとみんなRTX PRO 6000を2枚くらい挿してますが、電源も1200W推奨ということで、結構出費が必要。2枚挿したくなるだろうし。
でもUnified memoryなPCがいくつか出てるので、こちらが本命ですね。
Ryzen AI Max+ 395が載ったEVO-X2がSDD2TBで40万円ちょい。(年初に見たとき35万、去年10月ごろは29万円だったのに)
128GBのMacならSSD1TBで58万円
https://www.yodobashi.com/product/100000001009091812/

DGX SparkがASUS Ascent GX10で、これもSSD1TBで58万円
ASUS Ascent GX10 GX10-GG0006BN 90MS0371-M00060 (1TB) | パソコン通販のドスパラ【公式】

WindowsでゲームもしたいならEVO-X2、MacがいいならMac、パソコン的な使い方を求めずファインチューニングや画像生成AIなどGPUアプリをいろいろ動かしたいならDGX Spark、というところですね。
インテルCPUが欲しい場合は、春になったらPanther Lake搭載のEVO-T2が出るという噂。
もう発表しちゃうん……?GMKtec、世界初のPanther Lake搭載ミニPC「EVO-T2」 - PC Watch
サーバーではNVIDIAの独壇場だけど、PCではAMD、Apple、Intel、NVIDIAがしのぎを削る、ということになりそうで、それはそれでよい。
まとめ
50万円くらいで動くLLMでもできることが増えてきています。
去年の春には「ローカルLLMが使いものになる」と、なんなりかの用途に使えるということを書いていましたが、今年は日常的に使えるようになっていきそうです。
Gemma 3やQwQなどでローカルLLMがそろそろ使い物になってきた - きしだのHatena