はじめに
AWS Trainium 2については、下記のブログに書きました。
下図は、Trainium 2 の Block Diagram です。説明のために引用します。

- 2 die
- 4 x NeuronCore-v3
- 1 die あたり、2個のHBM3E
- 1 die あたり、64個のDMA
- 1 die あたり、10個のCC-Core
は、わかります。
ここから、Trainium 2 の詳細を妄想します。
それでは、
Let's 妄想
HBM関連
昨日の Trainium の詳細から、1つのNeronCore-v2 には、1個の HBM が 16チャネルで接続していることが分かりました。

この構成は、NeuronCore-v3 になっても変わっていないと想定します。Trainium 2は、8個のNeuronCore-v3 を搭載していますが、HBM3E は4個しかありません。 つまり、1個のNeuronCore-v3 に対して、半分のHBM3Eになります。ちょっと足りないと思いますが、HBM2Eでは、16個の疑似チャネル(64it)でしたが、HBM3Eは32個の疑似チャネル(32bit)になっています。NeronCore-v3に対して、HBM3Eの疑似チャネル(32bit) が16になると、1個のHBM3Eで2個のNeuronCore-v3を接続できます。
Trainiumのメモリ帯域は、2個のHBM2Eで820GB/s、一方、Trainium 2のメモリ帯域は、4個のHBM3Eで2.9TB/sです。
820/2 = 410GB/s が NeruonCore-v2 1個当たりの帯域。一方、2.9TB/8 = 362.5 GB/s が NeronCore-v3 1個当たりの帯域になります。
1コア当たりのメモリ帯域は減りますが、大幅に減っている感じではありません。
DMAの数が32個から128個になったのは、コア数が2個から8個になったからです。16 x 2 = 32、16 x 8 = 128 ですから。
おわりに
ということで、NeuronCore-v2 => NeuronCore-3 での HBMとの接続は基本的には同じであるということが分かりました。
それでは、今回はここまでで。
次回も
Let's 妄想