もう全人類128GBとか512GBとか載ったMacを手にいれてクソデカモデルを試すようになっていますね。
ぼくもMac Studio 512GBを1日借りてて試したのだけど、Llama4がなんだかんだで強いという印象でした。
※2025/8/27追記 もちろん、Qwen3 CoderやKimi K2など、この後でてきた強いクソデカオープンモデルに抜かれてます。

クソデカモデルの選択肢としては次のようなものがあります。512GB Macで動かしたときの数字も参考までに。
| モデル | パラメータ数 | アクティブ | コンテキスト長 | マルチモーダル | 量子化 | 推論速度 |
|---|---|---|---|---|---|---|
| LLama4 Maverick | 400B | 17B | 1M | 〇 | 4bit | 36tok/sec |
| Llama4 Scout | 109B | 17B | 10M | 〇 | 8bit | |
| Qwen3 235B A22B | 235B | 22B | 128K | × | 8bit | 18tok/sec |
| DeepSeek V3 | 671B | 37B | 128K | × | 2bit | 17tok/sec |
で、試すんだけど、Llama4 Maverickがかなりいいです。アクティブパラメータが一番すくないので一番速いし、コンテキストも長い。コンテキスト長で性能劣化の数字出てたけど、100Kくらいならそこまで悪くないかも。
このスピードで出てきます。

そして、これはOpenRouterでLlama4 Maverick:freeを選んでRoo CodeでSpring BootのTODOアプリを組ませたところ。

Spring InitializrでSpring MVC、Spring Data JDBC、H2を指定したプロジェクトに対して次のプロンプトを実行しています。
サンプル用にTODO管理webアプリをsprng bootで作ってください。
データベースにはh2にspring data jdbcでアクセスします。
テンプレートエンジンにはthymeleafを使ってください。
mavenのdependencyを適切に設定して。
すんなりいったので16Kトークンくらいで終わってます。
なんらかエラーが出るともっと増えます。
こんな感じで一発で動きました。

Qwen3 235Bは8bitで試したので遅かったかも。4bitで試したい。ただ、アクティブパラメータが22Bとちょっと多いので、Llama4と同じ速度は出ないと思います。
そして、コンテキスト長が128Kなので、コーディングエージェントだとちょっと試行錯誤が入るとダメになる感じがします。
DeepSeek V3がちょっと期待外れ。
2bit量子化で動かしたけど、17トークン/秒くらい。
それはいいんだけど、コンテキスト長を60Kくらい取ろうとすると、512GB以上つかってしまって動かなくなり、結局40Kくらいまでしか取れませんでした。そうするとコーディングエージェントでは使えないですね。
OpenRouterで動かすときも、そこまで性能のよさは感じず、Spring BootでのTODOアプリが完走できませんでした。
ここでは示せてないけど、Llama4 Scoutも結構ちゃんと動いたので、マルチモーダルであることを踏まえると、候補になりそうです。
ということで、128GB以上がLLMに割り当てられる環境では、Llama4が結構いいかもという話でした。
ところで、同じ条件でCloud 3.7 SonnetにTODOアプリを作らせるとレベチでしたね。プログラミング教室にまぎれこんだガチプロ。
格の違いを見せつけられましたね。
まあ有料だし。OpenRouterで$0.76=110円くらいかかりました。
