NVIDIAからNemotron 3シリーズの中間サイズ、Superが出ました。120B-A12Bです。
100万トークン対応なのだけど、100万トークン設定でも96GBしか使わない。MoEとMambaのおかげかな。

要約が残念だったり、日本語の扱いは30BのNemotron 3 Nanoのほうがいい気がする。
NVIDIAのLLM、Nemotron 3 Nanoは賢いけどコーディングには向かないかも。Mamba 2の特性が悪く出てる? - きしだのHatena
コードはちゃんと書きます。型エラーも出していない。あと、サーバーを実装したらcurlで動作確認をちゃんとやったりします。けど、HTMLのデザインとかUI、新しい構文には弱そう。なので、手堅いコードを書かせるには向いてそうです。
エージェント対応したgpt-oss-120bという感じ。
要約と基本性能
「注文の多い料理店」の要約。内容はかなり残念。

Mac Studioで38トークン出るのはいいけど。あと、プロンプト読み込みが4秒と、120Bにしてはかなり速い。
知識カットオフとThinking
知識カットオフを見るのに総理大臣を聞くのいいので聞いてみたら、2024年6月あたりまでのよう。

ところで、LM StudioからThinkingをon/offできるのだけど、Thinkingを入れると30秒考えてこれ。

Thinkingの内容は英語だけど、Google翻訳で訳すとこんな感じであまり意味のないことを考えている。

ロールプレイとローカル知識
「ギャルっぽく」の解釈の問題はあるけど、語尾や単語を調整するだけじゃなく、ちゃんとギャルとして答えてる。内容も問題なさそう。

ふつうに聞いたときも内容は適切。けど、上記ギャルのときもそうだけど、途中で無駄に改行が入ってくるのが気になる。

論理的な問題
この問題
「64歳以上であれば100円、64歳未満は1000円」を整数四則演算だけで実現して。
年齢制限なく対応できるように。
2分考えてぜんぜんダメですね。

値が数百であれば1000より絶対値が小さくなり分数の結果がゼロになるので、実用範囲の年齢ではすべて100円になります。
検算がおかしいのが問題。
ブロック崩し on チャット
論理問題があまりよくなかったので、コードも書けないかと思ったけど、なんかちゃんと書ける。
JavaScript版ブロック崩しは、最初は画面が小さかったのとパドルの判定がなかったのだけど、やりなおしてもらったらちゃんとできていた。

Nemotron 3 Nanoにあった、修正のたびにコードがちょっとずつ変わっていく問題もなさそうで、安定したコード出してました。
Java版も一発で動かしました。右側の空間どうにかしてと伝えたけど、直してくれなかった。パーティクルはつけてくれた。

このあとでのTODO管理でもだけど、コンパイルエラーを出さずに確実なコードを書きますね。
その点ではQwen 3.5 122Bよりよさそう。
Spring BootでのTODO管理アプリ with Roo Code
Roo CodeでSpring BootのTODO管理アプリ。
最初は編集削除などができなかったりしたけど、指摘すると対応した。

けど、いま出るモデルならスタイルをちゃんと当てて欲しいところ。UIなどデザインはイケてない。
あと「C-c」というコマンドを呼び出そうとしてたり、なんかコマンド呼び出しが怪しくて、あぶなっかしい。
フレームワークなしでWeb TODOアプリ with OpenCode
ちゃんと実装できています。 
HTTPサーバーの基本は一発で動かして、POSTができなくて追加できず、追加できたら編集がうまくいかず、だったけど問題を指摘したら修正はすんなりやっていました。
最後にチェックボックスを付けて完了。
Qwen3.5やClaudeではフロントをReactで全部やってましたが、サーバー側レンダリングでやってます。
Text Blockなど新しいJavaの機能は使っていないので、新しい文法に合わせた対応はあまりやってない印象。
コードを書いたあとにサーバー起動してcurlで追加変更などの確認していて、その点はQwen 3.5よりちゃんとしてます。
ただ、コード呼び出しが怪しいところがあって、タスク完了のときにメッセージを延々とechoで出そうとしてたりしました。

パストレーシングは実装できず。
野心的!と思いながらがんばってくれたけど、WebGL対応は真っ黒画面から変わらず。

WebGLを使わずに実装してもらったときの到達点はこれ。

こういった難度のコーディングは難しそうですが、100Bクラスで実装できたモデルはいまのところないので、これはサイズの問題といえそう。
なにか表示されただけQwen 3.5-122Bより進歩かな。
まとめ
非コーディングな処理がなんか残念だけど、コーディングはできそうです。