GLM-4.7はコーディング能力の高さが認められるようになってきています。その軽量版、30B-A3BのGLM-4.7-Flashが出ていました。
https://huggingface.co/zai-org/GLM-4.7-Flash
DeepSeekのMultihead Latent Attentionを使っているのが売りっぽい。 ただ、まだ使える環境がない・・・
OpenRouterがクソ遅い・・・
今のところZ.aiのAPIで使えなかったので、OpenRouterを使ったのだけど、遅い。

とぎれとぎれに出てきて結果12tok/secというところ。
でも、答えが返ってこないことがある。
コーディングはそこまでうまくない
とりあえずOpenRouterで使ってみたところ、一応JavaScript版のブロック崩しはできました。

ただしJava版

ヌルポ出てたりしたのだけど、ブロックが消えたときにnullを割り当ててるのにnullチェックを行わないというものだった。そして対応してもらおうと思ったら死んだ。

ここのifでnullチェックが必要。あと、こういう処理は拡張forを使ってほしいところ。
// ブロックとの衝突判定 for (int i = 0; i < bricks.length; i++) { if (ball.intersects(bricks[i])) { bricks[i] = null; // ブロックを消す dy = -dy; // 反転 break; // 一度に一つずつ消すためにループを抜ける } }
あと、16msごとに呼ばれるactionPerformedで16msのウェイトいれて無限ループしてたりする。
@Override public void actionPerformed(ActionEvent ae) { while (gameRunning) { update(); // 論理更新 repaint(); // 描画更新 try { Thread.sleep(16); // 休止(60FPS相当) } catch (InterruptedException e) { e.printStackTrace(); } } }
という感じで、ロジックやコードスタイルもイケてないのでgpt-oss 20bのほうがコード書ける気がする。
ベンチマークだとかなり上回ってるんだけど。

日本知識
山口県について聞いてみたけど、半分以上間違ってる。2項目あると片方違う、という感じ。

MLXは最新で対応
MLXエンジンは最新のもので対応しているようです。

ということで4bit版を試します。
ただ、JS版ブロック崩しを作ってもらおうとすると、バグる。

Java版もバグる

難しいことを考えさせるとバグる

変な小説は作ってくれた

あまりうまく量子化できてなさそうです。
GGUFも怪しい
どうやらアーキテクチャとしてはDeepSeek V3と同じらしいので、llama.cpp本体の修正は不要ということで議論が進んでる。
https://github.com/ggml-org/llama.cpp/pull/18936
Flash AttentionがMLAに対応していないので、切ったほうが速くなります。

がしかし、なんか怪しい

マルチGPUが悪さしてる可能性もある。



なんだか、LM Studioで動かすと挙動がおかしい。 
llama.cppを直接つかうとまとも。

まとめ
Nemotron 3 Nanoのほうがよさそう
https://nowokay.hatenablog.com/entry/2025/12/16/042030