はじめに
Hot Chips 2024 にて、Microsoft MAIA の詳細が公開されましたので、記録に残します。
下記の図(スライド)は、上記の記事から説明のために引用します。
Microsoft公式の Maia 100 の解説記事が出ました。
Spec
下記の図から
- ~ 820mm2
- TSMC 5nm
- TSMC CoSoW-S
- HBM2e:約3.5Gbps, 64GB, 1.8TB/s
- Peak Dense Tensor POPS : 6bit 3, 9bit 1.5P, BF16 0.8P (800 TFLOPS)
- NVIDIA H100 の BF16 が 1000 TFLOPS弱
- 12 x 400Gbps
- PCIe Gen5 x 8
- TDP : Design to, 700W, Provision : 500W

内部構成
4 Tiles x 16 Cluster で、64 Tiles

- Mesh-Like NOC topology optimizing for ML-WL
この図から妄想すると、1つの交点に、HBM2E Controller が接続されていると考えると、最大、入力 x 3 + 出力 x 3 = 6個が同時に動く。それをサポートするとなると、3.6Tbps / 6 = 600Gbps になり、NoCは、512bit x 1.xGHz?で動いているのかな?

Node
1 Node は、4 chip。chip間は、3 x 400Gbps で接続。各chip から 3 x 400Gbps が出ていて、Node からは、3 x 400Gbps x 4 = 12 x 400Gbps が出ている。

このビデオによると、12 x 400Gbps ではなく、24 x 200Gbps のように見える

このビデオによると、水冷

おわりに
Microsft Maia 100 と Intel Gaudi 3 を並べてみました。非常に似ています。HBMは、両方とも HBM2Eです。何故?HBM3ではないのでしょうか?
