以下の内容はhttps://nowokay.hatenablog.com/entry/2025/05/09/002001より取得しました。


クソデカオープンモデルではLlama4が最強かもしれない

もう全人類128GBとか512GBとか載ったMacを手にいれてクソデカモデルを試すようになっていますね。
ぼくもMac Studio 512GBを1日借りてて試したのだけど、Llama4がなんだかんだで強いという印象でした。
※2025/8/27追記 もちろん、Qwen3 CoderやKimi K2など、この後でてきた強いクソデカオープンモデルに抜かれてます。

クソデカモデルの選択肢としては次のようなものがあります。512GB Macで動かしたときの数字も参考までに。

モデル パラメータ数 アクティブ コンテキスト長 マルチモーダル 量子化 推論速度
LLama4 Maverick 400B 17B 1M 4bit 36tok/sec
Llama4 Scout 109B 17B 10M 8bit
Qwen3 235B A22B 235B 22B 128K × 8bit 18tok/sec
DeepSeek V3 671B 37B 128K × 2bit 17tok/sec

で、試すんだけど、Llama4 Maverickがかなりいいです。アクティブパラメータが一番すくないので一番速いし、コンテキストも長い。コンテキスト長で性能劣化の数字出てたけど、100Kくらいならそこまで悪くないかも。
このスピードで出てきます。

そして、これはOpenRouterでLlama4 Maverick:freeを選んでRoo CodeでSpring BootのTODOアプリを組ませたところ。

Spring InitializrでSpring MVC、Spring Data JDBC、H2を指定したプロジェクトに対して次のプロンプトを実行しています。

サンプル用にTODO管理webアプリをsprng bootで作ってください。
データベースにはh2にspring data jdbcでアクセスします。
テンプレートエンジンにはthymeleafを使ってください。
mavendependencyを適切に設定して。

すんなりいったので16Kトークンくらいで終わってます。
なんらかエラーが出るともっと増えます。
こんな感じで一発で動きました。

Qwen3 235Bは8bitで試したので遅かったかも。4bitで試したい。ただ、アクティブパラメータが22Bとちょっと多いので、Llama4と同じ速度は出ないと思います。
そして、コンテキスト長が128Kなので、コーディングエージェントだとちょっと試行錯誤が入るとダメになる感じがします。

DeepSeek V3がちょっと期待外れ。
2bit量子化で動かしたけど、17トークン/秒くらい。 それはいいんだけど、コンテキスト長を60Kくらい取ろうとすると、512GB以上つかってしまって動かなくなり、結局40Kくらいまでしか取れませんでした。そうするとコーディングエージェントでは使えないですね。
OpenRouterで動かすときも、そこまで性能のよさは感じず、Spring BootでのTODOアプリが完走できませんでした。

ここでは示せてないけど、Llama4 Scoutも結構ちゃんと動いたので、マルチモーダルであることを踏まえると、候補になりそうです。

ということで、128GB以上がLLMに割り当てられる環境では、Llama4が結構いいかもという話でした。

ところで、同じ条件でCloud 3.7 SonnetにTODOアプリを作らせるとレベチでしたね。プログラミング教室にまぎれこんだガチプロ。
格の違いを見せつけられましたね。
まあ有料だし。OpenRouterで$0.76=110円くらいかかりました。




以上の内容はhttps://nowokay.hatenablog.com/entry/2025/05/09/002001より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14