https://error-daizenn.hatenablog.com/entry/2025/09/09/151936

2025年9月8日、Nvidiaの最新世代「Blackwell（ブラックウェル）」GPUであるGeForce RTX 5090およびRTX Pro 6000において、仮想環境利用時に深刻な不具合が確認されました。対象となるのは主に仮想マシン（VM）を構築しているユーザーで、症状としてはGPUがリセット処理に応答せず、ホストシステムの再起動を余儀なくされる点が問題視されています。特にProxmoxやVMware、KVMといった仮想基盤を利用するエンジニアやクラウド事業者にとっては、業務やサービス提供に直接影響を及ぼす可能性があります。一般ユーザーでも、自宅でGPUパススルーを活用している場合は遭遇し得るため、注視すべき事例と言えるでしょう。

この不具合は、発生報告の多さや再現性の高さから、既にRedditや海外の技術フォーラムで議論が盛り上がっており、さらにGPUクラウド事業者「CloudRift」が最大1000ドルの報奨金をかけて調査協力を呼びかける事態にまで発展しています。今回の記事では、エラーコードの詳細、原因の推定、公式対応状況、ユーザーの体験談、そして暫定的な回避策について整理していきます。

発生したエラーコードの詳細と状況

今回の不具合では、仮想マシンをリセットした際に**「not ready 65535ms after FLR; giving up」**というエラーメッセージがカーネルから返されます。ここでいうFLRとは「Function-Level Reset」の略称で、PCI-Express接続されたデバイス（GPUなど）をリセットする標準的な手続きのことです。

通常であれば、FLRによってGPUが再初期化され、再び仮想マシンに割り当て直すことができます。しかし、RTX 5090／RTX Pro 6000においてはFLR後もGPUが反応せず、さらにlspciコマンドで「unknown header type 7f」と表示され、システムから正しく認識されなくなります。この状態になると、ユーザーはホストOS自体を再起動しない限りGPUを利用できなくなります。

つまり、不具合が発生すると業務継続が困難になり、運用環境では致命的な影響を及ぼす可能性があるのです。

不具合の発見経緯と報告事例

この問題を最初に大規模に報告したのは、GPUクラウドサービスを展開しているCloudRiftです。同社は複数のBlackwell世代GPUを用いた仮想化環境で同様の挙動を確認し、再現性があることを証明しました。クラウド事業者にとって、1台のサーバーで複数の仮想GPUを提供する仕組みは収益の根幹を成すため、このようなリセット不能バグは非常に深刻です。

一方で、RedditのProxmoxコミュニティやLevel1Techsフォーラムでも同じ報告が相次いでおり、個人ユーザーの間でも広く確認されています。特に自作PCやラボ環境でGPUパススルーを利用している人々が「VMをシャットダウンするとGPUが死ぬ」「再起動しないと復旧できない」と書き込みをしている様子が目立ちます。

興味深いのは、前世代であるRTX 4090（Ada世代）やRTX 6000 Adaでは同様の不具合が確認されていないことです。これにより、不具合はBlackwellアーキテクチャ特有の挙動に起因している可能性が高まっています。

不具合の原因（推定）

現時点でNvidiaから公式な発表はありません。しかし、専門家やユーザーの議論から以下のような推測が浮上しています。

第一に、Blackwell世代のGPUが採用している新しいPCIeリセットハンドリングが、従来のFLR動作と適合していない可能性です。FLRは仮想化基盤において極めて一般的な処理ですが、その内部でのレジスタリセットやデバイス初期化処理に不整合がある場合、GPUが応答不能になることが考えられます。

第二に、GPUファームウェアのバグの可能性です。特に、GPUパススルーでFLRを行うケースは一般的なゲーミング用途よりも発生頻度が高く、十分にテストされていなかった可能性も否定できません。これまでにないアーキテクチャ的改変がBlackwell世代に導入されているならば、その影響で従来のリセットシーケンスが破綻している可能性もあります。

原因がアーキテクチャ由来である場合、ドライバやファームウェアの修正が必要となるため、解決までに時間を要する可能性が高いと見られます。

Nvidiaの公式対応状況と今後の見通し

2025年9月9日時点で、Nvidiaはこの問題について公式コメントを発表していません。ドライバ更新履歴やサポートページを確認しても、RTX 5090やRTX Pro 6000に関連するFLR不具合についての記述は見当たりませんでした。そのため現段階では、ユーザー側での恒久的な解決策は存在しない状況です。

ただし、NvidiaのGPUはクラウド事業者や企業用途にも幅広く導入されているため、この問題が放置される可能性は低いと見られています。特に、仮想GPU（vGPU）市場において信頼性の欠如は致命的なリスクとなるため、今後のドライバアップデートやファームウェア修正で対応が行われる可能性が高いと予測されています。

CloudRiftが提示した懸賞金とその意味

今回の不具合が注目を集めた要因の一つが、GPUクラウドサービスを提供するCloudRiftによる「最大1000ドルの懸賞金」制度です。同社は自社環境で不具合を再現し、その原因または有効な回避策を提示できる人に報酬を与えると公表しました。

これは単なるユーザー参加型調査にとどまらず、オープンなコミュニティを巻き込んで問題解決を促進する姿勢の表れと捉えることができます。実際にRedditやLevel1Techsでは「どのカーネルバージョンなら安定するのか」「PCIeリセットの代替手段はないのか」といった技術的な議論が急速に活発化しています。

一般ユーザーが取れる暫定的な回避策

現時点で有効性が完全に確認された対処法はありませんが、複数のユーザーが共有している暫定的な回避策として、以下のような方法が挙げられています。

(1) 仮想マシンを強制終了する代わりに、可能な限り「シャットダウン」操作を用いる。
(2) 複数のGPUを搭載している場合、Blackwell世代GPUを仮想マシンに直結せず、前世代のGPUを利用する。
(3) 一部ユーザーは「カーネルのバージョンを6.9以前に戻すと発生頻度が下がる」と報告している。
(4) VMを頻繁に再起動せず、長時間稼働させ続ける運用に切り替える。

ただし、いずれも根本的な解決ではなく「症状の先延ばし」に過ぎないため、業務用途での運用には依然として大きなリスクが伴います。

フォーラムでの議論の広がり

RedditのProxmoxコミュニティでは、数十件に及ぶ報告スレッドが立ち、ユーザー間で「RTX 4090では安定していたのに5090で壊れる」「NVMeのIOMMU設定と関係があるのでは」といった推測が飛び交っています。Level1Techsでも「ホストOSの再起動が必須になるため、データセンター環境では致命的」といった声が目立ちました。

一方で、「Nvidiaがこれを無視することは考えにくい」「数週間以内にドライバのベータ版で修正が出るのでは」といった比較的楽観的な意見もあります。特に、企業向けに販売されているRTX Pro 6000で同じ不具合が確認されていることから、修正が優先される可能性は高いとみられます。

今回のバグから見える教訓

この事例は、最新世代のハードウェアを即座に本番環境に導入するリスクを改めて浮き彫りにしました。新アーキテクチャのGPUは性能向上が大きい一方で、従来と異なる挙動を示す可能性があり、特に仮想化やPCIeリセットといった高度な機能では予期せぬ不具合が起こり得るのです。

企業ユーザーや研究機関においては、今回のような障害を想定し、前世代の安定動作GPUを併用する「リスク分散運用」が重要であると考えられます。また、一般ユーザーにとっても、最先端ハードウェアに飛びつくのではなく、コミュニティからの検証情報を待って導入する姿勢が求められるでしょう。

コメント欄での議論へ

今回のNvidia RTX 5090／RTX Pro 6000の仮想化バグについて、みなさんはどう考えますか？
「自分の環境でも同じエラーが出た」「こうした回避策を試したら安定した」「Nvidiaがどのように動くべきか」など、ぜひコメント欄で意見を共有してください。

特に、異なるOSやカーネルバージョンでの検証結果や、Redditなどで見つけた有用な情報があれば、他のユーザーにとって大きな助けになります。みんなで知見を集め、最適な解決策を探る場にしていきましょう。