はじめに
下記のYoutubeの動画。AMDのCPUの進化について、解説しています。
ZEN シリーズ
下記は、上記の動画から引用したものです。ZEN 2, ZEN 3, ZEN 4, ZEN 5 は、CCD x 2 + IOD x 1 の構成になっています。

CCD x 2 と IOD の間にはそれなりのスペースがあり、基板のこの間でCCDとIOD間の配線を行っています。
Strix Halo APU
Strix Halo APU の発表の時に、このブログに書きました。
AMD Ryzen AI Max の die shot を眺めて! - Vengineerの妄想 https://t.co/iAXl9So7j5
— Vengineerの妄想 (@Vengineer) 2025年9月30日
下記も上記のYoutubeの動画から、説明のために引用します。これは、Ryzen AI シリーズの、Strix Halo APU です。

上記の ZEN シリーズと違って、CCD x 2 と IOD の間にほぼスペースがありません。
下記も上記のYoutubeの動画から、説明のために引用します。左は Granite Ridge (ZEN 5 (Ryzen 9000)シリーズのコードネーム) の CCD で、右は Strix LHalo の CCD です。

大きな違いは、下の IOD との接続部分です。その部分を色付けしたのが、下図です。こちらも記のYoutubeの動画から、説明のために引用します。

左は、5 + 4 の塊 が2組あります。右は、中央部が IOD との D2D です。
この構成に変えたことにより、bit 当たりの消費電力が少なくなると言われています。この動画では、10倍、少なくなると予想しています。
上記のYoutubeの動画から、説明のために引用します。

メモリ性能
下記も上記のYoutubeの動画から、説明のために引用します。
Memory への帯域は、2倍ぐらい速くなっています。ただし、Latency が2倍になっています。何故でしょうか?

Grok 4 Fast Beta さんに聴いてみました。
質問 : Strix Halo APUのMemoryアクセスのLatencyが Zen 5 (Ryzen 9000) よりも遅くなったのは、何故ですか?
Strix Halo APU(AMDの次世代ハイエンドAPU、Ryzen AI Max+シリーズ)のメモリアクセスレイテンシが、Zen 5ベースのデスクトップCPU(Ryzen 9000シリーズ)よりも遅くなった主な理由は、SoCアーキテクチャの違いによるものです。具体的には、強力な統合GPU(iGPU)と共有リソースの影響が大きく、負荷下でCPUのメモリアクセスに追加の遅延が発生します。以下に主な要因をまとめます。
GPUとの共有リソースとコヒーレントファブリックStrix Haloは、40 Compute Units(CU)の大規模RDNA 3.5 iGPUを搭載し、32MBのMALL(Modified Advanced Last Level Cache、Infinity Cache相当)を主にGPUの帯域増強に割り当てています。このMALLはCPU/GPU間でコヒーレント(一貫性保持)ですが、CPUの書き込みデータはMALLにインストールされず、GPU優先の設計となっています。 結果として、CPUのメモリアクセスが共有のコヒーレントファブリック(データファブリック経由でメモリコントローラに到達)を通る際に、GPUの負荷が干渉し、レイテンシが増加します。デスクトップZen 5(Ryzen 9000)ではこうした大規模iGPUが存在せず、CPU専用のリソースが豊富なため、レイテンシが低く抑えられます。
ダイ・トゥ・ダイ接続の影響Strix Haloはトリプルダイ構成(CPUダイ、GPUダイ、I/Oダイ)で、"sea of wires"(ファンアウト配線技術)によるダイ間接続を採用しています。これは従来のSERDESインターフェースより低消費電力・低レイテンシですが、共有バスとして機能するため、CPU/GPU/NPUの同時アクセス時にボトルネックが生じ、追加遅延を引き起こします。Ryzen 9000のチップレットデザイン(CCD + I/Oダイ)も接続遅延がありますが、Strix Haloほど多様なコンポーネントの共有が激しくありません。
メモリタイプと帯域共有Strix HaloはLPDDR5Xメモリを採用(デスクトップのDDR5に対し)で、クロック速度が低く(ファブリッククロック1-2GHz程度)、オーバークロック耐性も低いです。また、帯域(最大256GB/s可能)がCPU/GPUで共有されるため、GPU負荷時にCPUのレイテンシが悪化します。一方、Ryzen 9000はDDR5の高い帯域とCPU優先設計で、シングルCCDあたり64GB/s程度の帯域でもレイテンシが安定しています。
と教えてくれました。。
GPUの負荷が干渉し、レイテンシが増加します。
とありました。
GPUをいっぱい使うと、CPUに影響を与えるのですね。。。R
Ryzen 9000はDDR5の高い帯域とCPU優先設計で、シングルCCDあたり64GB/s程度の帯域でもレイテンシが安定しています。
なんですね。
MALL について、詳しく!
もうちょっと、Grok 4 Fast Beta さんに聴いてみました。なるほど、と思いました。
MALLキャッシュの概要
MALL(Memory Access Latency Lowering cache)は、AMDのStrix Halo APU(Ryzen AI Max+シリーズ)で採用されている32MBの専用キャッシュです。これは、主に統合GPU(iGPU)のメモリアクセスを最適化するためのもので、Infinity Cacheの変種として設計されています。Strix Haloのトリプルダイ構成(CPUダイ、GPUダイ、I/Oダイ)の中で、共有リソースとして機能し、SoC全体のメモリ効率を向上させる役割を果たします。以下で詳細を説明します。
アーキテクチャ
- サイズと構造: 32MBの容量を持ち、コヒーレントファブリック(一貫性保持メカニズム)の一部として統合されています。コヒーレンスの最終チェックポイントではなく、データファブリック内のメモリコントローラ手前で動作します。これにより、GPUのグラフィックス処理に特化した帯域増強を実現しています。
- 設計目的: LPDDR5Xメモリの低帯域(GDDRに比べて劣る)を補うための「帯域アンプ」として機能。ステートレス(状態を保持しない)設計で、オン/オフがほぼ即時可能で、低消費電力を実現しています。
CPUとGPUとの統合
- GPU側: GPUのすべての書き込みデータがMALLにインストールされ、主に読込帯域の増強に活用されます。40 Compute Units(CU)の大規模RDNA 3.5 iGPUで特に有効で、LPDDRの帯域不足をカバーし、グラフィックス性能を10%以上の向上させる場合があります。将来的には、ビデオエンコード/デコードやNPUなどの他のコンポーネントもファームウェア更新で利用可能。
- CPU側: Zen 5コア(最大16コア)はMALLへの書き込みができません。CPUの書き込みデータはインストールされず、読み取り時のみコヒーレンスチェック(GPUのデータがMALLにある場合の転送)が行われます。これにより、CPUのメモリアクセスレイテンシがGPU負荷下で増加する要因となっていますが、現在のマイクロコードではCPUの帯域増強は想定されていません。
帯域とレイテンシの特性
| 特性 | 詳細説明 |
|---|---|
| 帯域 | GPU向けに倍以上の増強が可能(例: ダブルディジットのパフォーマンス向上)。CPUは1-2スレッドでDRAM帯域を飽和可能ですが、MALLの恩恵はGPU/NPU中心。LPDDR5Xのクロック(1-2GHz程度)と連動し、オーバークロック耐性が低い。 |
| レイテンシ | 低レイテンシ設計で、負荷下(15-20%)でも安定。ダイ間接続(sea of wires技術、1-2GHzクロック)により、従来のSERDESより低遅延・低消費電力を実現。CPUアクセス時はGPU干渉で10-20%増加する可能性あり。 |
Infinity Cacheとの違い
- Infinity Cache(例: Ryzen 7000/9000シリーズの3D V-Cache)はCPU/GPU両方で書き込み可能で、広範な帯域増強を目的とします。一方、MALLはGPU特化でCPU書き込みを制限し、グラフィックス優先の設計です。これにより、Strix Haloのモバイル/薄型向け効率を高めていますが、CPUのメモリレイテンシがデスクトップZen 5より悪化するトレードオフを生んでいます。
パフォーマンスへの影響
MALLはStrix HaloのiGPUをRTX 4070 Laptop相当に引き上げる鍵ですが、CPUのメモリアクセスでは共有リソースの影響でレイテンシが増加します。レビューでは、GPU負荷時の帯域増強が顕著ですが、BIOS/マイクロコード更新でCPU利用の柔軟性が向上する可能性があります。全体として、ハイエンドAPUの統合設計による効率化を象徴するコンポーネントです。
おわりに
他にも色々な説明をしていますので、是非、動画を見てみてください。