以下の内容はhttps://vengineer.hatenablog.com/entry/2026/01/09/080000より取得しました。


NVIDIA BlueField-4 は、Inference Context Memory Storage Platform のかなめ!

はじめに

CES 2026 にて、NVIDIA が発表した

  • NVIDIA Inference Context Memory Storage Platform (ICMSP)

ですが、その中で昨日のブログで取り上げた、BlueField-4 が重要なポイントになっているようなので、記録に残します。

Inference Context Memory Storage Platformの詳細

Grok 4.1 Beta さんにまとめてもらいました。

NVIDIA Inference Context Memory Storage Platform (ICMSP) の詳細を、CES 2026発表(2026年1月現在)の最新情報に基づいてまとめます。このプラットフォームは、NVIDIA Rubin(Rubin GPU + Vera CPU)世代のAIインフラで、巨大KV Cacheをスケールさせるための専用ストレージ階層です。従来のGPU HBMやCPUメモリでは足りない長文脈・エージェントAIのコンテキストを、低レイテンシで共有・再利用可能にするのが最大の特徴です。

BlueField-4 DPUがコアとなっており、AI-native storageとして再定義されています。

全体像と目的

  • 正式名称: NVIDIA Inference Context Memory Storage Platform(略してICMS / ICMSPと呼ばれる)
  • 目的: Agentic AI(多段階推論・マルチターン・マルチエージェント)のための長時間・長文脈メモリを提供。KV CacheをGPUメモリからオフロードし、再計算を最小限に抑えトークン/秒を最大化。
  • キーイノベーション: KV Cacheを「第一級リソース」として扱い、エフェメラル(一時的)だが共有可能なコンテキスト階層を作成。従来ストレージの重いメタデータ/耐久性/レプリケーションを排除し、AI特化に最適化。
  • 性能主張NVIDIA公式):
    • 長文脈/エージェントワークロードで最大5倍のtokens-per-second (TPS)向上
    • 従来ストレージ比最大5倍の電力効率
    • 再計算削減でGPUアイドル時間を減らし、コスト/トークン大幅低減

メモリ階層での位置づけ(Rubin/VeraでのKV Cacheフロー)

RubinプラットフォームのKV Cache階層は以下のように拡張されています:

  1. G1: Rubin GPUのHBM4(288 GB/GPU) → 最速、短〜中コンテキスト
  2. G2: Vera CPUのLPDDR5X(1.5 TB/CPU) → NVLink-C2C(1.8 TB/s双方向)でコヒーレント、HBMオーバーフロー先
  3. G3 / G3.5 (新設): Inference Context Memory Storage (ICMS) → BlueField-4駆動のフラッシュ(NVMe SSD)ベース共有階層。ポッド/ラックレベルで共有、数TB〜ペタバイト
  4. G4: 従来の耐久ストレージ(ネットワークストレージ) → ログや非アクティブKVなど、ミリ秒級アクセス

ICMSはG3.5として、HBM/CPUメモリとネットワークストレージのギャップを埋める専用ティア。エフェメラルKV Cache(再計算可能だがレイテンシ敏感)をここに置き、RDMA経由でオンデマンドアクセス

BlueField-4の役割(ICMSPの心臓部)

BlueField-4 DPUがICMSPを支える主要コンポーネントです。主な機能:

  • ハードウェア加速KVプレースメント: メタデータオーバーヘッドを排除、データ移動を最小化
  • セキュア・アイソレートアクセス: GPUノードからの独立制御、ゼロトラスト(ASTRAアーキテクチャ
  • ストレージプロトコル終端: NVMe-oF、NVMe KV拡張、RDMA/ObjectプロトコルをDPU上で処理 → ホストCPU負荷ゼロ
  • 高速ネットワーク: 800 Gb/s Ethernet(ConnectX-9統合)、Spectrum-Xで低ジッター・ロスレスRoCE
  • Grace CPU統合: 64コアGrace + 高帯域LPDDRでKV I/Oプレーン実行
  • IOP性能例: 4K NVMeで20M IOPs級

BlueField-4はcompute trayに組み込まれ、Rubin GPU/Vera CPUと共存。KV Cacheの配置・共有・セキュア転送をハードウェアレベルで加速。

データフローとソフトウェア連携

典型的なKV Cacheの動き(長文脈推論時):

  1. オーバーフロー検知Dynamo(推論スケジューラー)がKVブロックを特定
  2. プレステージ → NIXL(NVIDIA Inference Transfer Library)がICMSからHBM/LPDDR5Xへ事前移動(RDMA over Spectrum-X)
  3. アクセス → BlueField-4がKV I/Oを加速、μs級レイテンシで提供
  4. 共有 → ポッド内/クラスタ間でステートレス共有(NIXL + DOCA経由)。同一エージェントのマルチターンやマルチエージェント間でコンテキスト再利用
  5. セキュリティ → BlueField-4のインライン暗号化・検証で、GPU計算と分離

ソフトウェアスタック: - DOCA: KV通信/ストレージレイヤー、KVを第一級リソース化 - NIXL: KVブロック共有・オーケストレーション - Dynamo: プレフィル/デコード管理、KVプレステージ - Grove: KVローカリティを考慮したワークロード配置

容量・スケール例

  • ポッドレベル: ペタバイト級共有容量(GPUポッドあたり)
  • ラック例(Vera Rubin NVL72): 72 Rubin GPU + 36 Vera CPU + ICMSノードで、数百万〜数億トークン級コンテキストをリアルタイム共有
  • クラスタ共有: Spectrum-X経由でラック間・クラスタ間再利用可能

パートナーとエコシステム

HPE、Hitachi Vantara、Pure Storage、Supermicro、VAST Data、WEKA、DDN、Dellなど、多くのストレージベンダーがBlueField-4ベースの次世代AIストレージを構築中。NVIDIAはKV Cacheオフロードを標準化し、パートナーが独自最適化(例: VASTのCNode on BlueField-4、WEKAのAugmented Memory Grid)。

要するに、ICMSPは「KV Cacheをストレージに溢れさせる」ではなく「KV CacheのためのAI専用メモリ階層」を作ったもの。BlueField-4のおかげで、HBMの数倍〜数十倍の容量をほぼHBM並みの体感レイテンシで使えるようになり、エージェントAIのスケーリングを現実的にしています。

さらに特定の部分(例: DOCAのKV API詳細、実際のTPSベンチマーク、VAST/WEKAとの違いなど)を知りたい点があれば、教えてください!

おわりに

BlueField-3 までの SoC Type ではなく、Grace + ConnectX-9 にした理由がここにあるんですね。。。

SoC Type とどのぐらい違うんですかね。




以上の内容はhttps://vengineer.hatenablog.com/entry/2026/01/09/080000より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14