はじめに
Google TPU Trillium (v6e) が GA になったようです。
v6e は、Training 用?
上記のブログには、下記のようなグラフがありました。
Figure 3. Source data: MLPerf™ 4.1 Training Closed results for Trillium (Preview) and v5p on GPT3-175b training task.

Training での v5p との比較。v5p-4096 と 4 x Trillium-256
v5p の仕様は、

Trillium (v6e) の仕様は、

BF16は、v5p x 2 == v6e ですね。v5p が 2コアで、459 TFLOPs、v6e が 1コアで 918 TFLOPs 、なので4倍ですね。MXUが128x128から256x256で4倍になっているということなので、v6eって、v5pと同じ動作周波数で動いているんでしょうかね。
HBMの帯域は、v5p は 2765 GB/s、1コア当たり、1382.5 GB/s、v6e は 1536 GB/sなので、1コア当たりも同じ 1536 GB/s 。BF16がコア当たり2倍になっているがHBMの帯域は1割程度しか増えていません。
これは、v5e => v6e でも同じ感じ
v5e は BF 197 TFLOPS、HBMの帯域は 819 GB/s。
おわりに
v5e => v6e の比較だけでなく、v5p => v6e の比較をしたことで、ちょっと変わった気がします。
1コア当たり(BF16)
- v5e : 197 TFLOPS / HBM 819 GB/s (4.157)
- v5p : 224.5 TFLOPS / HBM 1382.5 GB/s (6.158)
- v6e : 459 TFLOPS / HBM 1536 GB/s (3.346)
うーん、次は、v6p ではなく、v7e なのかもしれません。。。。
関連ブログ