以下の内容はhttps://vengineer.hatenablog.com/entry/2025/05/04/080000より取得しました。


AWS Trainium 2 の詳細を妄想する

はじめに

AWS Trainium 2については、下記のブログに書きました。

vengineer.hatenablog.com

下図は、Trainium 2 の Block Diagram です。説明のために引用します。

  • 2 die
  • 4 x NeuronCore-v3
  • 1 die あたり、2個のHBM3E
  • 1 die あたり、64個のDMA
  • 1 die あたり、10個のCC-Core

は、わかります。

ここから、Trainium 2 の詳細を妄想します。

それでは、

Let's 妄想

HBM関連

昨日の Trainium の詳細から、1つのNeronCore-v2 には、1個の HBM が 16チャネルで接続していることが分かりました。

この構成は、NeuronCore-v3 になっても変わっていないと想定します。Trainium 2は、8個のNeuronCore-v3 を搭載していますが、HBM3E は4個しかありません。 つまり、1個のNeuronCore-v3 に対して、半分のHBM3Eになります。ちょっと足りないと思いますが、HBM2Eでは、16個の疑似チャネル(64it)でしたが、HBM3Eは32個の疑似チャネル(32bit)になっています。NeronCore-v3に対して、HBM3Eの疑似チャネル(32bit) が16になると、1個のHBM3Eで2個のNeuronCore-v3を接続できます。

Trainiumのメモリ帯域は、2個のHBM2Eで820GB/s、一方、Trainium 2のメモリ帯域は、4個のHBM3Eで2.9TB/sです。

820/2 = 410GB/s が NeruonCore-v2 1個当たりの帯域。一方、2.9TB/8 = 362.5 GB/s が NeronCore-v3 1個当たりの帯域になります。

1コア当たりのメモリ帯域は減りますが、大幅に減っている感じではありません。

DMAの数が32個から128個になったのは、コア数が2個から8個になったからです。16 x 2 = 32、16 x 8 = 128 ですから。

おわりに

ということで、NeuronCore-v2 => NeuronCore-3 での HBMとの接続は基本的には同じであるということが分かりました。

それでは、今回はここまでで。

次回も

Let's 妄想




以上の内容はhttps://vengineer.hatenablog.com/entry/2025/05/04/080000より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14