CerebrasがQwen3 Coderのホストをして2000tok/secを出してるという話があって、試したいなぁと思ってたのですよ。
Qwen3 Coder 480B is Live on Cerebras
ただ、$50/monや$200/monの定額プランは早々に売り切れ。

けど、1M tok/dayまで無料という噂を聞いて、使ってみることにしました。
で、以前つくった雑なエージェントを試す。
Tool Useが効かないDevstralでコーディングエージェントを作る - きしだのHatena
そしたら、3秒でSpring BootでのTODOアプリが!これ、ほんとにこの速さで生成してます。

といいつつ実際に計測すると2000tps出ないんでは、とか思ってたら逆で、2600tok/sec出ていました。

いま、Claude Sonnet 4は70tpsくらいですね。
https://openrouter.ai/anthropic/claude-sonnet-4

そうすると、30倍くらい違います。
これ、なんか世界が変わりますね。 なんなら遅いHDDからファイルを読み込むより速かったりしそう。コードを生成してるというより、無からコードを取り出しているようにも思ってしまう。
Qwen3 Coderの性能は?
それで性能悪かったらしょうがないんですが、Qwen3 Coderは自分たちで出してるベンチマーク的にはSonnet 4と同じくらい。

実際に使うと全然違うんですけど、ベンチマークで同じくらいの数字が出るところまでは来てる。480Bとしてはかなりいいなぁという感じです。
swebenchでのランキングでは、オープンウェイトでトップの成績。*1

https://www.swebench.com/
非オープンモデルを含めると、こう。ちなみに、GPT-4oはこのキャプチャに載ってないけど、GPT-oss 120Bの少し下にいます。

上の2600tok/sec出してるチャットは、GPT-5のエントリでやってもらってたパストレーシングをCerebrasでのQwen3 Coderにもやってもらってたところですが、こんな結果。

それっぽいけど、たぶん拡散面の処理が間違ってて違和感でてます。そのあと修正も難しそうだったし、砂時計など他のコードもあまりうまくできてなかったので、やはりSonnet 4より実装力は明確に低いです。

とはいえ、先ほどの自作の雑コーディングエージェントで、JBox2Dを使った積み木くずしも2秒で作ってくれていました。雑エージェントには編集機能がないので、ブロックの積み方はSonnet 4で調整してもらったけど。
コードを文字通り秒で作ってくれるようになると、純粋に試行錯誤に時間を取れるようになってとてもよさそうです。
スピードはどこまで速くてもいい
推論性能があがっていくと、どこかでその向上分を活かせなくなって使い道が狭まっていきますが、スピードはどれだけ速くなってもいい。
スピードが早くなれば、容易に新しい使い方が生まれます。
もっと速くなって0.1秒でプロジェクト全体を生成するようになるなら、10回作らせて一番いいものを選ぶとか、プロンプトを追加していくたびにリアルタイムでプロジェクトが変化するということもできます。
コード補完の感覚でプロジェクト全体ができる。
ところでCerebrasってなんなん?
ってなりますね。
見てもらうのがわかりやすい。チップつくるときは、こういうウェハーに格子状に多数のチップを作って、それを切り分けて製品にするのだけど、切り分けず全体でひとつのプロセッサにしてしまおうということをやってます。
Cerebras

この記事が読みやすくわかりやすい。
ウェハースケールCPUの誕生――Cerebrasのクレイジーな挑戦 | gihyo.jp
ただ、これだけだと変なベンチャーががんばって変なものを作って芽が出ただけという感じですが、このWafer Scale Engine(WSE)は、TSMCのInFO_SoW技術を使っているわけです。SoW=System on Wafer。
【福田昭のセミコン業界最前線】スケールが桁違い。TSMCが注力する超大規模高速パッケージ「SoW」とは - PC Watch
InFO_SoWは、Cerebrasの他にTeslaのDojo Projectも使ってたのだけど、こないだ解散してしまったので、いまは使ってることを公開してるのはCerebrasだけということになってるようです。
テスラ、スーパーコンピューターDojo開発チームを解散へ-関係者 - Bloomberg
TSMCの次世代SoW
で、TSMCは、このInFO_SoWの次世代をSoW-Xとして開発しているらしい。
【福田昭のセミコン業界最前線】GPUモジュールも将来はウェハサイズに。第2世代の「SoW」をTSMCが開発中 - PC Watch
ここで、HBMも混載というのがInFO_SoWとの大きな違い。
InFO_SoWではメモリにSRAMを使っていたので、速いものの容量が小さく、CerebrasのWSE-3でもこのサイズのウェハーに44GBしか載ってません。480BのQwen3 Coderを載せる場合に、仮に外部メモリを使わないなら最低でも10枚のウェハにまたがって載ることになります。
実際には外部にHBMメモリをもたせたシステムを構成しているのだけど、そうするとメモリとのやりとりはボトルネックになります。ウェハーの中にHBMが載るんなら、もっと効率よくメモリにアクセスできますね。
SoW-XにはHBM4が最大80個載るらしく、HBM4は16段積層なら64GBと、ひとつのウェハーに5TBくらいのメモリが載せれます。そうすると、2Tパラメータのモデルが1ウェハーに載せれるわけで、いろんなモデルが動きそうです。
そして、TSMCがこのような次世代SoWを開発しているところを見ると、SoWがもっと広がると見込んでるということですね。
実際、2000tok/secを体験すると他も同じくらいの速度が出てほしいし、AIプロバイダも同じ速度を出したいと思っているはず。
賢さがあがるかどうかはわからないけど、1万tok/secの時代は必ず来る
まあ、なんだかんだでTSMCの次世代SoWが計画通りに出るとは限らないし、出たとして採用するところがあまりないかもしれない。
でも、今後はモデルやソフトウェアの改善も含めたいろいろな手段で推論スピードの競争が始まると思います。もうすでにCerebrasにその一端を実際に見せられてしまっているし。
推論スピードは正義。
現状でも30倍速いところを見せられているので、あと3倍速くなれば100倍です。
いまは480B A35BのQwen3 Coderと、それよりもっと大きいであろうClaude Sonnet 4と比べて30倍としてますが、Cerebras以外のQwen3 Coderも60tpsくらいだったりするので、Sonnet 4やOpus 4も100倍速くなるんではないかと思います。
推論が100倍速くなれば出来ることは全く変わってくるし、今と同じ時間をかけていいなら100回試して一番いいものを返すというやりかたで賢さをあげることもできます。
AIがこれ以上賢くなり続けるかどうか、賢くなったときに需要があるかどうか、というのは、おそらくYesだけど根拠づけるのは難しいと思います。でも、ここから100倍速くなるかどうか、速くなったときに需要があるかというのは、それと比べれば簡単に根拠をつけてYesといえます。*2
まだ数年かかるとは思うけど、必ずそういう時代が来るので、そうなるとまた、かなり世界が変わってると思います。