以下の内容はhttps://nowokay.hatenablog.com/entry/2025/07/26/135300より取得しました。


Qwen3 235Bのコーディング力は相変わらず低い。Qwen3 Coderは期待できる。

アリババのQwen3 235Bがアップデートされて、reasoningとnon-reasoningが分離しました。また、Qwen3 Coderという480Bのコーディング用モデルも出ていたので、砂時計を実装させて試してみました。

Qwen3-235B-A22B-Thinking-2507はコーディングに期待できない

Qwen3 235Bのアップデートは、先にnon-reasoningなモデルが出ていましたが、reasoningモデルも出てきました。

Qwen3 235BをRoo Codeで試したときに、ちょっと性能低いなぁと思ってたら、やっぱベンチの値も低くて、それを改善した2507モデルではLiveCodeBenchでGemini2.5 Proを越えたりしてますね。

Qwen Chatで試せます。
https://chat.qwen.ai/

で、期待していたので、試してみました。
今回は「砂っぽい挙動を再現しつつ砂時計をjavaとswingで実装して」とお願いしてみました。

結果・・・

砂が動かないとか形状が逆とかは置いておいて、問題は、修正をお願いしたときに単純なコンパイルエラーや無限ループや実行時例外が出ていたことです。
特に、30行程度のメソッドで変数の宣言が抜けてコンパイルエラーというのは、基本的な実装力の不足を表してると思います。

それが、Thinkingでめちゃくちゃ時間がかかってる割に改善されない。なので、これ以上の改善はあきらめました。

ということで、コーディング力に関しては期待外れで、本質的な能力はあまり変わってないなという印象。

Qwen3 Coderは良さそう

Qwen3 Coderというコーディングモデルも出ていました。480Bでアクティブ35Bという大き目のモデルです。

ブログはこちら
Qwen3-Coder: Agentic Coding in the World | Qwen

そして結果・・・

Qwen3 235Bのときと同様、円錐の向きが逆だったりしたのだけど、なんとか形は整えれました。
砂の動きも、よくみると境界判定に問題があるけど基本的にはよさそう。

コードが出るまでの反応が速いのもいいです。
また、ここに至るまでにいろいろな修正をしてもらってるのだけど、コンパイルエラーや実行時例外などは一度も出なかったので、基本的なコーディング能力は高そうです。

安定のClaude Sonnet 4

そしてClaude Sonnet 4。 砂の初期配置や砂時計の形状などの調整は しましたが、最初から砂の動きがちゃんとしていました。
やっぱりすごい。




以上の内容はhttps://nowokay.hatenablog.com/entry/2025/07/26/135300より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14