はじめに

NVIDIA GB300 NVL72の FP64の性能がめっちゃ低くなっているので、ちょっと調べてみました。

もしかして、NVIDIA、HPC で必要な FP64 を捨てたの？

GB300 NVL72

GB300 NVL72 の仕様を見てみました。

FP4以外は、全部 Sparsity です。

GB200 NVL72 の仕様も振り返ってみました。

で、差分を見ると、

FP32 は、5,760 TFLOPS => 6,000 TFLOPS なので、まー、変化なし。

FP64は、2,880 TFLOPS => 100 TFLOPS です。 1/2,880 です。NVL72 なので、1/20 です。

でした。

TF32 は、Tensor Coreだけど、FP32 は Tensor Core じゃない。FP64/FP64 Tensor Core は同じ値。

ということは、FP32 と FP64 は、TensorCore じゃなくなったということでしょうか？

ということで、Blackwell Ultra では、FP64 は捨てたっぽいです。

では、その分、どこに力を入れたのか？というと、FP4 Dense が 720 PFLOPS => 1100 PFLOPS。1パッケージでは、10 PFLOPS => 15 PFLOPS です。つまり、1.5倍です。

H100 の仕様を再度見てみると、

Tensor Coreじゃ無い場合は、H100 => B200 では、1.5 倍。Tensor Core は、2.5倍