はじめに
CES 2026 にて、NVIDIA が発表した
- NVIDIA Inference Context Memory Storage Platform (ICMSP)
ですが、その中で昨日のブログで取り上げた、BlueField-4 が重要なポイントになっているようなので、記録に残します。
Inference Context Memory Storage Platformの詳細
Grok 4.1 Beta さんにまとめてもらいました。
NVIDIA Inference Context Memory Storage Platform (ICMSP) の詳細を、CES 2026発表(2026年1月現在)の最新情報に基づいてまとめます。このプラットフォームは、NVIDIA Rubin(Rubin GPU + Vera CPU)世代のAIインフラで、巨大KV Cacheをスケールさせるための専用ストレージ階層です。従来のGPU HBMやCPUメモリでは足りない長文脈・エージェントAIのコンテキストを、低レイテンシで共有・再利用可能にするのが最大の特徴です。
BlueField-4 DPUがコアとなっており、AI-native storageとして再定義されています。
全体像と目的
- 正式名称: NVIDIA Inference Context Memory Storage Platform(略してICMS / ICMSPと呼ばれる)
- 目的: Agentic AI(多段階推論・マルチターン・マルチエージェント)のための長時間・長文脈メモリを提供。KV CacheをGPUメモリからオフロードし、再計算を最小限に抑え、トークン/秒を最大化。
- キーイノベーション: KV Cacheを「第一級リソース」として扱い、エフェメラル(一時的)だが共有可能なコンテキスト階層を作成。従来ストレージの重いメタデータ/耐久性/レプリケーションを排除し、AI特化に最適化。
- 性能主張(NVIDIA公式):
メモリ階層での位置づけ(Rubin/VeraでのKV Cacheフロー)
RubinプラットフォームのKV Cache階層は以下のように拡張されています:
- G1: Rubin GPUのHBM4(288 GB/GPU) → 最速、短〜中コンテキスト
- G2: Vera CPUのLPDDR5X(1.5 TB/CPU) → NVLink-C2C(1.8 TB/s双方向)でコヒーレント、HBMオーバーフロー先
- G3 / G3.5 (新設): Inference Context Memory Storage (ICMS) → BlueField-4駆動のフラッシュ(NVMe SSD)ベース共有階層。ポッド/ラックレベルで共有、数TB〜ペタバイト級
- G4: 従来の耐久ストレージ(ネットワークストレージ) → ログや非アクティブKVなど、ミリ秒級アクセス
ICMSはG3.5として、HBM/CPUメモリとネットワークストレージのギャップを埋める専用ティア。エフェメラルKV Cache(再計算可能だがレイテンシ敏感)をここに置き、RDMA経由でオンデマンドアクセス。
BlueField-4の役割(ICMSPの心臓部)
BlueField-4 DPUがICMSPを支える主要コンポーネントです。主な機能:
- ハードウェア加速KVプレースメント: メタデータオーバーヘッドを排除、データ移動を最小化
- セキュア・アイソレートアクセス: GPUノードからの独立制御、ゼロトラスト(ASTRAアーキテクチャ)
- ストレージプロトコル終端: NVMe-oF、NVMe KV拡張、RDMA/ObjectプロトコルをDPU上で処理 → ホストCPU負荷ゼロ
- 高速ネットワーク: 800 Gb/s Ethernet(ConnectX-9統合)、Spectrum-Xで低ジッター・ロスレスRoCE
- Grace CPU統合: 64コアGrace + 高帯域LPDDRでKV I/Oプレーン実行
- IOP性能例: 4K NVMeで20M IOPs級
BlueField-4はcompute trayに組み込まれ、Rubin GPU/Vera CPUと共存。KV Cacheの配置・共有・セキュア転送をハードウェアレベルで加速。
データフローとソフトウェア連携
典型的なKV Cacheの動き(長文脈推論時):
- オーバーフロー検知 → Dynamo(推論スケジューラー)がKVブロックを特定
- プレステージ → NIXL(NVIDIA Inference Transfer Library)がICMSからHBM/LPDDR5Xへ事前移動(RDMA over Spectrum-X)
- アクセス → BlueField-4がKV I/Oを加速、μs級レイテンシで提供
- 共有 → ポッド内/クラスタ間でステートレス共有(NIXL + DOCA経由)。同一エージェントのマルチターンやマルチエージェント間でコンテキスト再利用
- セキュリティ → BlueField-4のインライン暗号化・検証で、GPU計算と分離
ソフトウェアスタック: - DOCA: KV通信/ストレージレイヤー、KVを第一級リソース化 - NIXL: KVブロック共有・オーケストレーション - Dynamo: プレフィル/デコード管理、KVプレステージ - Grove: KVローカリティを考慮したワークロード配置
容量・スケール例
- ポッドレベル: ペタバイト級共有容量(GPUポッドあたり)
- ラック例(Vera Rubin NVL72): 72 Rubin GPU + 36 Vera CPU + ICMSノードで、数百万〜数億トークン級コンテキストをリアルタイム共有
- クラスタ共有: Spectrum-X経由でラック間・クラスタ間再利用可能
パートナーとエコシステム
HPE、Hitachi Vantara、Pure Storage、Supermicro、VAST Data、WEKA、DDN、Dellなど、多くのストレージベンダーがBlueField-4ベースの次世代AIストレージを構築中。NVIDIAはKV Cacheオフロードを標準化し、パートナーが独自最適化(例: VASTのCNode on BlueField-4、WEKAのAugmented Memory Grid)。
要するに、ICMSPは「KV Cacheをストレージに溢れさせる」ではなく「KV CacheのためのAI専用メモリ階層」を作ったもの。BlueField-4のおかげで、HBMの数倍〜数十倍の容量をほぼHBM並みの体感レイテンシで使えるようになり、エージェントAIのスケーリングを現実的にしています。
さらに特定の部分(例: DOCAのKV API詳細、実際のTPSベンチマーク、VAST/WEKAとの違いなど)を知りたい点があれば、教えてください!
おわりに
BlueField-3 までの SoC Type ではなく、Grace + ConnectX-9 にした理由がここにあるんですね。。。
SoC Type とどのぐらい違うんですかね。