以下の内容はhttps://vengineer.hatenablog.com/entry/2025/04/26/080000より取得しました。


NVIDIA GB10 の L2 Cache を妄想する

はじめに

先日の B200 (Blackwell) の L2 Cache の妄想では、512bit の HBM3e に対して、1つの L2 Cache は、8MB じゃないのでは?としました。

今回は、同じ、Blackwell ベースの GPU を搭載している GB10 の L2 Cache を妄想したいと思います。

それでは、

Let's 妄想

GB10 の L2 Cache

vengineer.hatenablog.com

下図のブログに載せた図です。説明のために引用します。

左側が GPU die です。L2 Cache は、die の右側にあります。2つの L2 Cache ブロックがあり、1つの L2 Cache には、8 slice で構成されていると妄想します。

GB10 は、下記のブログでも取り上げましたが、サーバー用GPU なので、B200 の L2 Cache と同じ構成と 8 slice が一致しています。

vengineer.hatenablog.com

B200 (Blackwell) の 1 つの L2 Cache が 8MB なので、2つの L2 Cache では、16MB となります。つまり、1つの HBM3e (1024bit) Controller があると想定している感じですね。

B200は、1つのdieでは、80 SM、8つの L2 Cache なので、1つのL2 Cacheでは、10 SMって感じ。

GB10 の GPU die の左側には、4つのGPCがあります1つのGPCには、3個のSMから構成されているように見えます。となると、1つの L2 Cache では、6 SM になりますね。

(B200 の FP4 は、20 petaFLOPS に対して、GB10 は 1 petaFLOPS なので、1/20。SM の数は、160 に対して、12。12/160 = 1/13.333。まー、よさそう。

8個のSMで、1 peta FLOPS を出せるB200に対して、GB10 は 12個のSMで、1 peta FLOPS を出せるって感じなのでしょうかね。

おわりに

GB10 の L2 Cache は、8 MB + 8 MB になっているっぽいです。この L2 Cache は、CPU die に接続している 128 GB の LPDDR5X の一部を VRAM として使い、その VRAM に対するものだと思います。B200 では、1つのHBM3eの容量は、24GB なので、GB10 の VRAM は 24GB ぐらいになるのでは? B300 だと、HBM3e は 36GB になるので、もしかしたら、36GBとかできるけど、L2 Cache のサイズは増えないので、性能は変わらないでしょうが。。。。

今回は、ここまでで、次回も

Let's 妄想




以上の内容はhttps://vengineer.hatenablog.com/entry/2025/04/26/080000より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14