はじめに

下記のYoutubeの動画。AMDのCPUの進化について、解説しています。

www.youtube.com

ZEN シリーズ

下記は、上記の動画から引用したものです。ZEN 2, ZEN 3, ZEN 4, ZEN 5 は、CCD x 2 + IOD x 1 の構成になっています。

CCD x 2 と IOD の間にはそれなりのスペースがあり、基板のこの間でCCDとIOD間の配線を行っています。

Strix Halo APU

Strix Halo APU の発表の時に、このブログに書きました。

AMD Ryzen AI Max の die shot を眺めて！ - Vengineerの妄想 https://t.co/iAXl9So7j5
— Vengineerの妄想 (@Vengineer) 2025年9月30日

下記も上記のYoutubeの動画から、説明のために引用します。これは、Ryzen AI シリーズの、Strix Halo APU です。

上記の ZEN シリーズと違って、CCD x 2 と IOD の間にほぼスペースがありません。

下記も上記のYoutubeの動画から、説明のために引用します。左は Granite Ridge (ZEN 5 (Ryzen 9000)シリーズのコードネーム) の CCD で、右は Strix LHalo の CCD です。

大きな違いは、下の IOD との接続部分です。その部分を色付けしたのが、下図です。こちらも記のYoutubeの動画から、説明のために引用します。

左は、5 + 4 の塊が2組あります。右は、中央部が IOD との D2D です。

この構成に変えたことにより、bit 当たりの消費電力が少なくなると言われています。この動画では、10倍、少なくなると予想しています。

上記のYoutubeの動画から、説明のために引用します。

メモリ性能

下記も上記のYoutubeの動画から、説明のために引用します。

Memory への帯域は、2倍ぐらい速くなっています。ただし、Latency が2倍になっています。何故でしょうか？

Grok 4 Fast Beta さんに聴いてみました。

質問 : Strix Halo APUのMemoryアクセスのLatencyが Zen 5 (Ryzen 9000) よりも遅くなったのは、何故ですか？

Strix Halo APU（AMDの次世代ハイエンドAPU、Ryzen AI Max+シリーズ）のメモリアクセスレイテンシが、Zen 5ベースのデスクトップCPU（Ryzen 9000シリーズ）よりも遅くなった主な理由は、SoCアーキテクチャの違いによるものです。具体的には、強力な統合GPU（iGPU）と共有リソースの影響が大きく、負荷下でCPUのメモリアクセスに追加の遅延が発生します。以下に主な要因をまとめます。

GPUとの共有リソースとコヒーレントファブリックStrix Haloは、40 Compute Units（CU）の大規模RDNA 3.5 iGPUを搭載し、32MBのMALL（Modified Advanced Last Level Cache、Infinity Cache相当）を主にGPUの帯域増強に割り当てています。このMALLはCPU/GPU間でコヒーレント（一貫性保持）ですが、CPUの書き込みデータはMALLにインストールされず、GPU優先の設計となっています。結果として、CPUのメモリアクセスが共有のコヒーレントファブリック（データファブリック経由でメモリコントローラに到達）を通る際に、GPUの負荷が干渉し、レイテンシが増加します。デスクトップZen 5（Ryzen 9000）ではこうした大規模iGPUが存在せず、CPU専用のリソースが豊富なため、レイテンシが低く抑えられます。
ダイ・トゥ・ダイ接続の影響Strix Haloはトリプルダイ構成（CPUダイ、GPUダイ、I/Oダイ）で、"sea of wires"（ファンアウト配線技術）によるダイ間接続を採用しています。これは従来のSERDESインターフェースより低消費電力・低レイテンシですが、共有バスとして機能するため、CPU/GPU/NPUの同時アクセス時にボトルネックが生じ、追加遅延を引き起こします。Ryzen 9000のチップレットデザイン（CCD + I/Oダイ）も接続遅延がありますが、Strix Haloほど多様なコンポーネントの共有が激しくありません。
メモリタイプと帯域共有Strix HaloはLPDDR5Xメモリを採用（デスクトップのDDR5に対し）で、クロック速度が低く（ファブリッククロック1-2GHz程度）、オーバークロック耐性も低いです。また、帯域（最大256GB/s可能）がCPU/GPUで共有されるため、GPU負荷時にCPUのレイテンシが悪化します。一方、Ryzen 9000はDDR5の高い帯域とCPU優先設計で、シングルCCDあたり64GB/s程度の帯域でもレイテンシが安定しています。

と教えてくれました。。

GPUの負荷が干渉し、レイテンシが増加します。

とありました。

GPUをいっぱい使うと、CPUに影響を与えるのですね。。。R

Ryzen 9000はDDR5の高い帯域とCPU優先設計で、シングルCCDあたり64GB/s程度の帯域でもレイテンシが安定しています。

なんですね。

MALL について、詳しく！

もうちょっと、Grok 4 Fast Beta さんに聴いてみました。なるほど、と思いました。

MALLキャッシュの概要

MALL（Memory Access Latency Lowering cache）は、AMDのStrix Halo APU（Ryzen AI Max+シリーズ）で採用されている32MBの専用キャッシュです。これは、主に統合GPU（iGPU）のメモリアクセスを最適化するためのもので、Infinity Cacheの変種として設計されています。Strix Haloのトリプルダイ構成（CPUダイ、GPUダイ、I/Oダイ）の中で、共有リソースとして機能し、SoC全体のメモリ効率を向上させる役割を果たします。以下で詳細を説明します。

アーキテクチャ

サイズと構造: 32MBの容量を持ち、コヒーレントファブリック（一貫性保持メカニズム）の一部として統合されています。コヒーレンスの最終チェックポイントではなく、データファブリック内のメモリコントローラ手前で動作します。これにより、GPUのグラフィックス処理に特化した帯域増強を実現しています。
設計目的: LPDDR5Xメモリの低帯域（GDDRに比べて劣る）を補うための「帯域アンプ」として機能。ステートレス（状態を保持しない）設計で、オン/オフがほぼ即時可能で、低消費電力を実現しています。

CPUとGPUとの統合

GPU側: GPUのすべての書き込みデータがMALLにインストールされ、主に読込帯域の増強に活用されます。40 Compute Units（CU）の大規模RDNA 3.5 iGPUで特に有効で、LPDDRの帯域不足をカバーし、グラフィックス性能を10%以上の向上させる場合があります。将来的には、ビデオエンコード/デコードやNPUなどの他のコンポーネントもファームウェア更新で利用可能。
CPU側: Zen 5コア（最大16コア）はMALLへの書き込みができません。CPUの書き込みデータはインストールされず、読み取り時のみコヒーレンスチェック（GPUのデータがMALLにある場合の転送）が行われます。これにより、CPUのメモリアクセスレイテンシがGPU負荷下で増加する要因となっていますが、現在のマイクロコードではCPUの帯域増強は想定されていません。

帯域とレイテンシの特性

特性	詳細説明
帯域	GPU向けに倍以上の増強が可能（例: ダブルディジットのパフォーマンス向上）。CPUは1-2スレッドでDRAM帯域を飽和可能ですが、MALLの恩恵はGPU/NPU中心。LPDDR5Xのクロック（1-2GHz程度）と連動し、オーバークロック耐性が低い。
レイテンシ	低レイテンシ設計で、負荷下（15-20%）でも安定。ダイ間接続（sea of wires技術、1-2GHzクロック）により、従来のSERDESより低遅延・低消費電力を実現。CPUアクセス時はGPU干渉で10-20%増加する可能性あり。

Infinity Cacheとの違い

Infinity Cache（例: Ryzen 7000/9000シリーズの3D V-Cache）はCPU/GPU両方で書き込み可能で、広範な帯域増強を目的とします。一方、MALLはGPU特化でCPU書き込みを制限し、グラフィックス優先の設計です。これにより、Strix Haloのモバイル/薄型向け効率を高めていますが、CPUのメモリレイテンシがデスクトップZen 5より悪化するトレードオフを生んでいます。

パフォーマンスへの影響

MALLはStrix HaloのiGPUをRTX 4070 Laptop相当に引き上げる鍵ですが、CPUのメモリアクセスでは共有リソースの影響でレイテンシが増加します。レビューでは、GPU負荷時の帯域増強が顕著ですが、BIOS/マイクロコード更新でCPU利用の柔軟性が向上する可能性があります。全体として、ハイエンドAPUの統合設計による効率化を象徴するコンポーネントです。

おわりに

他にも色々な説明をしていますので、是非、動画を見てみてください。