はじめに
先週の金曜日に、Google Ironwood について、ブログに書きました。
今回は、Google Ironwood と NVIDIA Blackwell を比べてみたいと思います。
Google Ironwood
- 性能 : 4,614 TFLOPS (FP8)、今までの TPU は BF16 です。今回は初めて、Native に FP8 をサポートしたようです。
- メモリ : 192 GB, 7.2 TB/s
- ICI : 1.2Tbps (v5p の 800Gbps から 1.5倍)
NVIDIA Blackwell
DGX B200 の場合
- 性能 : 72 PFLOPS (FP8) なので、1個あたり 9 PFLOPS 。Sparse なので、Dense は 4.5 PFLOPS
GB200 の場合
性能 : 10 PFLOPS。Sparse なので、Dense は 5 PFLOPS
メモリは、192GB, 8TB/秒
- NVLink域幅は、1.8TB/秒(双方向)
比較する
- 性能は、4.615 PFLOPS vs 4.5 or 5 PFLOPS で、ほぼ同じ
- メモリは、7.2 TB/s vs 8.0 TB でちょっとBlackwellの方がいい
- チップ間接続は、ICI (1.2 Tbps x 6 = 7.2 Tbps) vs NVLink (900 GB/s = 7.2 Tbps) で、同じ
おわりに
結果としては、ほぼ同じぐらいということに。。
それで後は、お値段ですね。
今年後半になれば、Ironwood と Blackwell (NVL72) のサービスが開始されるので、その時にわかると思います。
が、自社で開発してものと、購入したものでサービスを提供すると、自社で開発したものの方が遥かに安いと思います。
TPU v5p は、性能は 459 TFLOPS (BF16) 、 オンデマンドで $4.2、NVIDIA H100 は、性能は 約 1 PFLOPS (BF16) 、さくらの高火力 DOK で 0.28円/秒 なので、1008円。2倍までしないけど、そのぐらいのお値段。
それから、もしかしたら、Ironwood はホスト側が x86_64 じゃなくて、自社開発のArm SoC になるかもしれません。