https://nowokay.hatenablog.com/entry/2025/07/26/135300

アリババのQwen3 235Bがアップデートされて、reasoningとnon-reasoningが分離しました。また、Qwen3 Coderという480Bのコーディング用モデルも出ていたので、砂時計を実装させて試してみました。

Qwen3-235B-A22B-Thinking-2507はコーディングに期待できない

Qwen3 235Bのアップデートは、先にnon-reasoningなモデルが出ていましたが、reasoningモデルも出てきました。

🚀 We’re excited to introduce Qwen3-235B-A22B-Thinking-2507 — our most advanced reasoning model yet!

Over the past 3 months, we’ve significantly scaled and enhanced the thinking capability of Qwen3, achieving:
✅ Improved performance in logical reasoning, math, science & coding… pic.twitter.com/vO6UHlW7pf
— Qwen (@Alibaba_Qwen) 2025年7月25日

Qwen3 235BをRoo Codeで試したときに、ちょっと性能低いなぁと思ってたら、やっぱベンチの値も低くて、それを改善した2507モデルではLiveCodeBenchでGemini2.5 Proを越えたりしてますね。

Qwen Chatで試せます。
https://chat.qwen.ai/

で、期待していたので、試してみました。
今回は「砂っぽい挙動を再現しつつ砂時計をjavaとswingで実装して」とお願いしてみました。

結果・・・

砂が動かないとか形状が逆とかは置いておいて、問題は、修正をお願いしたときに単純なコンパイルエラーや無限ループや実行時例外が出ていたことです。
特に、30行程度のメソッドで変数の宣言が抜けてコンパイルエラーというのは、基本的な実装力の不足を表してると思います。

それが、Thinkingでめちゃくちゃ時間がかかってる割に改善されない。なので、これ以上の改善はあきらめました。

ということで、コーディング力に関しては期待外れで、本質的な能力はあまり変わってないなという印象。

Qwen3 Coderは良さそう

Qwen3 Coderというコーディングモデルも出ていました。480Bでアクティブ35Bという大き目のモデルです。

>>> Qwen3-Coder is here! ✅

We’re releasing Qwen3-Coder-480B-A35B-Instruct, our most powerful open agentic code model to date. This 480B-parameter Mixture-of-Experts model (35B active) natively supports 256K context and scales to 1M context with extrapolation. It achieves… pic.twitter.com/Z8HfyrVScE
— Qwen (@Alibaba_Qwen) 2025年7月22日