アリババのQwen3 235Bがアップデートされて、reasoningとnon-reasoningが分離しました。また、Qwen3 Coderという480Bのコーディング用モデルも出ていたので、砂時計を実装させて試してみました。
Qwen3-235B-A22B-Thinking-2507はコーディングに期待できない
Qwen3 235Bのアップデートは、先にnon-reasoningなモデルが出ていましたが、reasoningモデルも出てきました。
🚀 We’re excited to introduce Qwen3-235B-A22B-Thinking-2507 — our most advanced reasoning model yet!
— Qwen (@Alibaba_Qwen) 2025年7月25日
Over the past 3 months, we’ve significantly scaled and enhanced the thinking capability of Qwen3, achieving:
✅ Improved performance in logical reasoning, math, science & coding… pic.twitter.com/vO6UHlW7pf
Qwen3 235BをRoo Codeで試したときに、ちょっと性能低いなぁと思ってたら、やっぱベンチの値も低くて、それを改善した2507モデルではLiveCodeBenchでGemini2.5 Proを越えたりしてますね。
Qwen Chatで試せます。
https://chat.qwen.ai/
で、期待していたので、試してみました。
今回は「砂っぽい挙動を再現しつつ砂時計をjavaとswingで実装して」とお願いしてみました。
結果・・・

砂が動かないとか形状が逆とかは置いておいて、問題は、修正をお願いしたときに単純なコンパイルエラーや無限ループや実行時例外が出ていたことです。
特に、30行程度のメソッドで変数の宣言が抜けてコンパイルエラーというのは、基本的な実装力の不足を表してると思います。
それが、Thinkingでめちゃくちゃ時間がかかってる割に改善されない。なので、これ以上の改善はあきらめました。
ということで、コーディング力に関しては期待外れで、本質的な能力はあまり変わってないなという印象。
Qwen3 Coderは良さそう
Qwen3 Coderというコーディングモデルも出ていました。480Bでアクティブ35Bという大き目のモデルです。
>>> Qwen3-Coder is here! ✅
— Qwen (@Alibaba_Qwen) 2025年7月22日
We’re releasing Qwen3-Coder-480B-A35B-Instruct, our most powerful open agentic code model to date. This 480B-parameter Mixture-of-Experts model (35B active) natively supports 256K context and scales to 1M context with extrapolation. It achieves… pic.twitter.com/Z8HfyrVScE
ブログはこちら
Qwen3-Coder: Agentic Coding in the World | Qwen
そして結果・・・

Qwen3 235Bのときと同様、円錐の向きが逆だったりしたのだけど、なんとか形は整えれました。
砂の動きも、よくみると境界判定に問題があるけど基本的にはよさそう。
コードが出るまでの反応が速いのもいいです。
また、ここに至るまでにいろいろな修正をしてもらってるのだけど、コンパイルエラーや実行時例外などは一度も出なかったので、基本的なコーディング能力は高そうです。
安定のClaude Sonnet 4
そしてClaude Sonnet 4。
砂の初期配置や砂時計の形状などの調整は しましたが、最初から砂の動きがちゃんとしていました。
やっぱりすごい。
