NVIDIAの
GPU「RTX 5090」および「RTX PRO 6000」には再現可能な不具合があるとして、
クラウドGPUサービスを提供するCloudRiftが問題の解決に1000ドル(約14万8000円)の報奨金を用意しました。
Bug Bounty: NVidia Reset Bug | CloudRift Blog
https://www.cloudrift.ai/blog/bug-bounty-nvidia-reset-bug

Nvidia RTX 5090 reset bug prompts $1,000 reward for a fix - cards become completely unresponsive and require a reboot after virtualization reset bug, also impacts RTX PRO 6000 | Tom's Hardware
https://www.tomshardware.com/pc-components/gpus/rtx-5090-pro-6000-bug-forces-host-reboot
CloudRiftによると、Blackwellを搭載したRTXシリーズ2製品には「仮想マシンで使用する際に応答不能になる」というバグがあるとのこと。
このバグはKVMとVFIOを使用して
GPUを仮想マシンに渡した後で発生します。ゲストOSのシャットダウン時または
GPU再割り当て時、
ホストはパススルーデバイスのクリーンアップ標準手順である
PCIe関数レベルリセット(FLR)を発行しますが、
GPUは正常状態に戻らず応答不能に陥り、FLR後65535ミリ秒経過しても準備完了せず、処理が放棄されるとのこと。CloudRiftによれば、電源を再投入するしか回復手段がないようです。

RTX 4090など旧世代の
モデルなどでは発生しないことから、RTX 5090およびRTX PRO 6000特有の問題だとCloudRiftは指摘。ProxmoxフォーラムやLevel1Techsコミュニティのスレッドでは、RTX 5090の一般ユーザーや早期購入者も同様の現象に遭遇していることが示唆されているそうです。
NVIDIAはこの問題を公式に認めておらず、回避策も存在しません。
CloudRiftは、有効な緩和策または修正案を提供した者に対して1000ドルの報奨金を与えると告知し、問題の解決手段を探るための協力を求めました。