以下の内容はhttps://error-daizenn.hatenablog.com/entry/2025/09/08/092653より取得しました。


NVIDIA RTX 5090・RTX PRO 6000に深刻な仮想化バグ発覚|VM利用後にGPUが無反応、システム再起動が必須に


2025年9月7日公開

NVIDIAの最新世代「Blackwell」アーキテクチャを採用したGeForce RTX 5090およびRTX PRO 6000において、仮想環境(VM)利用時に重大な不具合が発生していることが明らかになりました。クラウドGPUサービス事業者や一般ユーザーから「VM割り当て後にGPUが無反応となり、最終的にホスト全体の再起動が必要になる」という報告が相次いでいます。

この記事では、問題の詳細、影響範囲、NVIDIAの対応状況、そしてユーザーが取れる回避策を整理します。

発覚した不具合の内容

クラウドGPUサービス「CloudRift」の報告によると、RTX 5090とRTX PRO 6000を数日間VM環境で稼働させると完全に応答しなくなる現象が確認されました。

不具合の再現条件

  • GPUを VFIOドライバ を介してVMに割り当て

  • Function Level Reset(FLR)実行後、GPUが応答しなくなる

  • その結果、カーネル「ソフトロック」状態に陥り、ホストとゲスト双方がデッドロック

  • 復旧にはホスト全体の再起動が必要

この症状はRTX 5090とRTX PRO 6000に限定されており、RTX 4090、Hopper H100、Blackwell B200では確認されていません。

コミュニティからの報告

  • CloudRiftの報告
    「ノード全体を再起動しなければならないため、商用環境で極めて深刻な問題」

  • Proxmoxユーザーの証言
    Windowsクライアントをシャットダウンした際にホストごとクラッシュ。「NVIDIAに報告したところ、同社は問題を再現できたと回答した」とのこと。

  • バグバウンティの発表
    CloudRiftはこの問題を解決できる人に対して1,000ドルの賞金を提示するほど、事態は切迫しています。

NVIDIAの公式対応状況

現時点で公式のセキュリティ速報は出ていませんが、NVIDIA社内で不具合を再現済みとされ、修正版ドライバまたはファームウェア更新が準備されていると見られます。

特にこの不具合はAI・クラウド向けGPUの稼働にも影響するため、早急な修正が求められている状況です。

対象ユーザー層

  • RTX 5090を利用するハイエンドPCユーザー

  • RTX PRO 6000を搭載したサーバーやAI研究機関

  • ProxmoxやVMwareなどでGPUパススルーを行う仮想化環境ユーザー

一般的なゲーミング利用のみでは発生しないと見られますが、開発や仮想化を行うユーザーは注意が必要です。

ユーザーが取れる一時的回避策

現時点では恒久的な修正は提供されていないため、以下の回避策が推奨されます。

(1) RTX 5090 / RTX PRO 6000でのGPUパススルー利用を控える
(2) 仮想環境ではRTX 4090やH100、B200など影響のないモデルを利用する
(3) 商用環境では定期的にバックアップを取り、不測の再起動に備える
(4) NVIDIAからのドライバ更新情報を注視する

技術的な背景:なぜRTX 5090/RTX PRO 6000だけで起こるのか

今回のバグがRTX 5090とRTX PRO 6000に限定されているのは、Blackwellアーキテクチャの新しい仮想化処理とリセット挙動の仕様に原因があると考えられています。

  • Function Level Reset(FLR)の挙動
    FLRは、PCIeデバイスをリセットして再利用可能にする仕組みですが、RTX 5090/PRO 6000ではFLR後にGPUが“無応答”状態に陥るとの報告があります。

  • VFIOとの相性
    Linux系の仮想化環境で広く使われるVFIO(Virtual Function I/O)ドライバと新世代Blackwell GPUのリセット処理が噛み合わない可能性が高いです。

  • 従来世代との違い
    RTX 4090やH100ではこの問題は起きていないため、Blackwell特有のファームウェア実装かドライバの不具合とみられています。

今後の展開予測

  • NVIDIAによるドライバアップデート
    公式が再現に成功しているため、近い将来ドライバ更新で修正が行われる可能性が極めて高いです。

  • クラウド事業者への優先配布
    AIワークロードを運用するクラウドベンダーが最優先対象となり、早期パッチが限定提供される可能性も考えられます。

  • Linuxディストリビューション側での回避策
    ProxmoxやKVMなどのコミュニティで、VFIO設定を調整する暫定的な回避策が公開される可能性があります。

企業ユーザーへの影響

この不具合は、特にGPUクラウドを運営する事業者や研究機関に深刻な影響を与えています。

  • 大規模環境での「全ノード再起動」はコスト・ダウンタイムともに致命的

  • AIトレーニングジョブが途中でクラッシュすれば数十時間の計算が無駄に

  • サービス提供者にとっては「信頼性リスク」として直結

商用環境でRTX 5090/PRO 6000をすぐ導入するのは危険というのが現状の共通認識です。

ユーザーへの具体的アドバイス

  1. ホスト環境の再起動コストを考慮し、重要業務ではRTX 5090/PRO 6000を仮想化用途に使わない

  2. テスト環境でのみ利用し、本番投入は修正後に行う

  3. RTX 4090やB200など既知の安定モデルで代替

  4. NVIDIAのドライバ更新情報を日常的にチェックし、リリースノートを確認

フォーラム風コメント欄:コミュニティの反応

「RTX 5090を買ったばかりなのに、VMで落ちるとかマジで勘弁」
「AIクラスタを全部再起動するコスト考えると頭痛い…」
「4090で安定してるから、しばらくはそっちで回す」
「これって最悪ハード不具合だったりしないよね?ドライバで直るんだよね?」

あなたはこの不具合をどう見ますか?
「最新GPUだから仕方ない」と思いますか?それとも「NVIDIAは出荷前に検証不足」と感じますか?ぜひコメントで議論しましょう。

まとめ

  • RTX 5090 / RTX PRO 6000で仮想化環境利用時にGPUが無反応になるバグが発覚

  • 問題は VFIO+FLR処理で顕在化、復旧にはホスト再起動が必須

  • NVIDIAは問題を再現済み、修正ドライバの登場が期待される

  • 商用利用はリスクが高く、現状は4090やB200など安定モデルでの運用が推奨






以上の内容はhttps://error-daizenn.hatenablog.com/entry/2025/09/08/092653より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14