https://error-daizenn.hatenablog.com/entry/2025/09/08/092653

2025年9月7日公開

NVIDIAの最新世代「Blackwell」アーキテクチャを採用したGeForce RTX 5090およびRTX PRO 6000において、仮想環境（VM）利用時に重大な不具合が発生していることが明らかになりました。クラウドGPUサービス事業者や一般ユーザーから「VM割り当て後にGPUが無反応となり、最終的にホスト全体の再起動が必要になる」という報告が相次いでいます。

この記事では、問題の詳細、影響範囲、NVIDIAの対応状況、そしてユーザーが取れる回避策を整理します。

発覚した不具合の内容

クラウドGPUサービス「CloudRift」の報告によると、RTX 5090とRTX PRO 6000を数日間VM環境で稼働させると完全に応答しなくなる現象が確認されました。

不具合の再現条件

GPUを VFIOドライバ を介してVMに割り当て
Function Level Reset（FLR）実行後、GPUが応答しなくなる
その結果、カーネル「ソフトロック」状態に陥り、ホストとゲスト双方がデッドロック
復旧にはホスト全体の再起動が必要

この症状はRTX 5090とRTX PRO 6000に限定されており、RTX 4090、Hopper H100、Blackwell B200では確認されていません。

コミュニティからの報告

CloudRiftの報告
「ノード全体を再起動しなければならないため、商用環境で極めて深刻な問題」
Proxmoxユーザーの証言
Windowsクライアントをシャットダウンした際にホストごとクラッシュ。「NVIDIAに報告したところ、同社は問題を再現できたと回答した」とのこと。
バグバウンティの発表
CloudRiftはこの問題を解決できる人に対して1,000ドルの賞金を提示するほど、事態は切迫しています。

NVIDIAの公式対応状況

現時点で公式のセキュリティ速報は出ていませんが、NVIDIA社内で不具合を再現済みとされ、修正版ドライバまたはファームウェア更新が準備されていると見られます。

特にこの不具合はAI・クラウド向けGPUの稼働にも影響するため、早急な修正が求められている状況です。

対象ユーザー層

RTX 5090を利用するハイエンドPCユーザー
RTX PRO 6000を搭載したサーバーやAI研究機関
ProxmoxやVMwareなどでGPUパススルーを行う仮想化環境ユーザー

一般的なゲーミング利用のみでは発生しないと見られますが、開発や仮想化を行うユーザーは注意が必要です。

ユーザーが取れる一時的回避策

現時点では恒久的な修正は提供されていないため、以下の回避策が推奨されます。

(1) RTX 5090 / RTX PRO 6000でのGPUパススルー利用を控える
(2) 仮想環境ではRTX 4090やH100、B200など影響のないモデルを利用する
(3) 商用環境では定期的にバックアップを取り、不測の再起動に備える
(4) NVIDIAからのドライバ更新情報を注視する

技術的な背景：なぜRTX 5090/RTX PRO 6000だけで起こるのか

今回のバグがRTX 5090とRTX PRO 6000に限定されているのは、Blackwellアーキテクチャの新しい仮想化処理とリセット挙動の仕様に原因があると考えられています。

Function Level Reset（FLR）の挙動
FLRは、PCIeデバイスをリセットして再利用可能にする仕組みですが、RTX 5090/PRO 6000ではFLR後にGPUが“無応答”状態に陥るとの報告があります。
VFIOとの相性
Linux系の仮想化環境で広く使われるVFIO（Virtual Function I/O）ドライバと新世代Blackwell GPUのリセット処理が噛み合わない可能性が高いです。
従来世代との違い
RTX 4090やH100ではこの問題は起きていないため、Blackwell特有のファームウェア実装かドライバの不具合とみられています。

今後の展開予測

NVIDIAによるドライバアップデート
公式が再現に成功しているため、近い将来ドライバ更新で修正が行われる可能性が極めて高いです。
クラウド事業者への優先配布
AIワークロードを運用するクラウドベンダーが最優先対象となり、早期パッチが限定提供される可能性も考えられます。
Linuxディストリビューション側での回避策
ProxmoxやKVMなどのコミュニティで、VFIO設定を調整する暫定的な回避策が公開される可能性があります。