はじめに

CES 2026 にて、NVIDIA が発表した

NVIDIA Inference Context Memory Storage Platform (ICMSP)

ですが、その中で昨日のブログで取り上げた、BlueField-4 が重要なポイントになっているようなので、記録に残します。

Inference Context Memory Storage Platformの詳細

Grok 4.1 Beta さんにまとめてもらいました。

NVIDIA Inference Context Memory Storage Platform (ICMSP) の詳細を、CES 2026発表（2026年1月現在）の最新情報に基づいてまとめます。このプラットフォームは、NVIDIA Rubin（Rubin GPU + Vera CPU）世代のAIインフラで、巨大KV Cacheをスケールさせるための専用ストレージ階層です。従来のGPU HBMやCPUメモリでは足りない長文脈・エージェントAIのコンテキストを、低レイテンシで共有・再利用可能にするのが最大の特徴です。

BlueField-4 DPUがコアとなっており、AI-native storageとして再定義されています。

全体像と目的

正式名称: NVIDIA Inference Context Memory Storage Platform（略してICMS / ICMSPと呼ばれる）
目的: Agentic AI（多段階推論・マルチターン・マルチエージェント）のための長時間・長文脈メモリを提供。KV CacheをGPUメモリからオフロードし、再計算を最小限に抑え、トークン/秒を最大化。
キーイノベーション: KV Cacheを「第一級リソース」として扱い、エフェメラル（一時的）だが共有可能なコンテキスト階層を作成。従来ストレージの重いメタデータ/耐久性/レプリケーションを排除し、AI特化に最適化。
性能主張（NVIDIA公式）:
- 長文脈/エージェントワークロードで最大5倍のtokens-per-second (TPS)向上
- 従来ストレージ比最大5倍の電力効率
- 再計算削減でGPUアイドル時間を減らし、コスト/トークン大幅低減

メモリ階層での位置づけ（Rubin/VeraでのKV Cacheフロー）

RubinプラットフォームのKV Cache階層は以下のように拡張されています：

G1: Rubin GPUのHBM4（288 GB/GPU） → 最速、短〜中コンテキスト
G2: Vera CPUのLPDDR5X（1.5 TB/CPU） → NVLink-C2C（1.8 TB/s双方向）でコヒーレント、HBMオーバーフロー先
G3 / G3.5 (新設): Inference Context Memory Storage (ICMS) → BlueField-4駆動のフラッシュ（NVMe SSD）ベース共有階層。ポッド/ラックレベルで共有、数TB〜ペタバイト級
G4: 従来の耐久ストレージ（ネットワークストレージ） → ログや非アクティブKVなど、ミリ秒級アクセス

ICMSはG3.5として、HBM/CPUメモリとネットワークストレージのギャップを埋める専用ティア。エフェメラルKV Cache（再計算可能だがレイテンシ敏感）をここに置き、RDMA経由でオンデマンドアクセス。

BlueField-4の役割（ICMSPの心臓部）

BlueField-4 DPUがICMSPを支える主要コンポーネントです。主な機能：

ハードウェア加速KVプレースメント: メタデータオーバーヘッドを排除、データ移動を最小化
セキュア・アイソレートアクセス: GPUノードからの独立制御、ゼロトラスト（ASTRAアーキテクチャ）
ストレージプロトコル終端: NVMe-oF、NVMe KV拡張、RDMA/ObjectプロトコルをDPU上で処理 → ホストCPU負荷ゼロ
高速ネットワーク: 800 Gb/s Ethernet（ConnectX-9統合）、Spectrum-Xで低ジッター・ロスレスRoCE
Grace CPU統合: 64コアGrace + 高帯域LPDDRでKV I/Oプレーン実行
IOP性能例: 4K NVMeで20M IOPs級

BlueField-4はcompute trayに組み込まれ、Rubin GPU/Vera CPUと共存。KV Cacheの配置・共有・セキュア転送をハードウェアレベルで加速。

データフローとソフトウェア連携

典型的なKV Cacheの動き（長文脈推論時）：

オーバーフロー検知 → Dynamo（推論スケジューラー）がKVブロックを特定
プレステージ → NIXL（NVIDIA Inference Transfer Library）がICMSからHBM/LPDDR5Xへ事前移動（RDMA over Spectrum-X）
アクセス → BlueField-4がKV I/Oを加速、μs級レイテンシで提供
共有 → ポッド内/クラスタ間でステートレス共有（NIXL + DOCA経由）。同一エージェントのマルチターンやマルチエージェント間でコンテキスト再利用
セキュリティ → BlueField-4のインライン暗号化・検証で、GPU計算と分離

ソフトウェアスタック: - DOCA: KV通信/ストレージレイヤー、KVを第一級リソース化 - NIXL: KVブロック共有・オーケストレーション - Dynamo: プレフィル/デコード管理、KVプレステージ - Grove: KVローカリティを考慮したワークロード配置

容量・スケール例

ポッドレベル: ペタバイト級共有容量（GPUポッドあたり）
ラック例（Vera Rubin NVL72）: 72 Rubin GPU + 36 Vera CPU + ICMSノードで、数百万〜数億トークン級コンテキストをリアルタイム共有
クラスタ共有: Spectrum-X経由でラック間・クラスタ間再利用可能

パートナーとエコシステム

HPE、Hitachi Vantara、Pure Storage、Supermicro、VAST Data、WEKA、DDN、Dellなど、多くのストレージベンダーがBlueField-4ベースの次世代AIストレージを構築中。NVIDIAはKV Cacheオフロードを標準化し、パートナーが独自最適化（例: VASTのCNode on BlueField-4、WEKAのAugmented Memory Grid）。

要するに、ICMSPは「KV Cacheをストレージに溢れさせる」ではなく「KV CacheのためのAI専用メモリ階層」を作ったもの。BlueField-4のおかげで、HBMの数倍〜数十倍の容量をほぼHBM並みの体感レイテンシで使えるようになり、エージェントAIのスケーリングを現実的にしています。

さらに特定の部分（例: DOCAのKV API詳細、実際のTPSベンチマーク、VAST/WEKAとの違いなど）を知りたい点があれば、教えてください！

おわりに

BlueField-3 までの SoC Type ではなく、Grace + ConnectX-9 にした理由がここにあるんですね。。。

SoC Type とどのぐらい違うんですかね。