はじめに
先日の B200 (Blackwell) の L2 Cache の妄想では、512bit の HBM3e に対して、1つの L2 Cache は、8MB じゃないのでは?としました。
今回は、同じ、Blackwell ベースの GPU を搭載している GB10 の L2 Cache を妄想したいと思います。
それでは、
Let's 妄想
GB10 の L2 Cache
下図のブログに載せた図です。説明のために引用します。

左側が GPU die です。L2 Cache は、die の右側にあります。2つの L2 Cache ブロックがあり、1つの L2 Cache には、8 slice で構成されていると妄想します。
GB10 は、下記のブログでも取り上げましたが、サーバー用GPU なので、B200 の L2 Cache と同じ構成と 8 slice が一致しています。
B200 (Blackwell) の 1 つの L2 Cache が 8MB なので、2つの L2 Cache では、16MB となります。つまり、1つの HBM3e (1024bit) Controller があると想定している感じですね。
B200は、1つのdieでは、80 SM、8つの L2 Cache なので、1つのL2 Cacheでは、10 SMって感じ。
GB10 の GPU die の左側には、4つのGPCがあります1つのGPCには、3個のSMから構成されているように見えます。となると、1つの L2 Cache では、6 SM になりますね。
(B200 の FP4 は、20 petaFLOPS に対して、GB10 は 1 petaFLOPS なので、1/20。SM の数は、160 に対して、12。12/160 = 1/13.333。まー、よさそう。
8個のSMで、1 peta FLOPS を出せるB200に対して、GB10 は 12個のSMで、1 peta FLOPS を出せるって感じなのでしょうかね。
おわりに
GB10 の L2 Cache は、8 MB + 8 MB になっているっぽいです。この L2 Cache は、CPU die に接続している 128 GB の LPDDR5X の一部を VRAM として使い、その VRAM に対するものだと思います。B200 では、1つのHBM3eの容量は、24GB なので、GB10 の VRAM は 24GB ぐらいになるのでは? B300 だと、HBM3e は 36GB になるので、もしかしたら、36GBとかできるけど、L2 Cache のサイズは増えないので、性能は変わらないでしょうが。。。。
今回は、ここまでで、次回も
Let's 妄想