https://error-daizenn.hatenablog.com/entry/2025/05/24/181445

2025年5月23日、米国カリフォルニア州サンタクララに本社を置くNVIDIAは、新型データセンター向けプラットフォーム「DGX B200」とBlackwell世代GPUを用いて、メタ社の大規模言語モデル「Llama 4 Maverick」（パラメータ数四〇〇〇億）で世界最速となる一ユーザー当たり一秒間一〇〇〇トークン超の生成速度を達成したと発表しました。これは独立系ベンチマーク機関Artificial Analysisが検証した正式記録であり、同社の従来指標を四倍上回る快挙です。

世界記録達成の概要

今回の記録は、最新世代GPU「Blackwell」を八基搭載する単一ノード構成で達成されました。一台のサーバーで毎秒七万二千トークン、一ユーザー当たり一千トークンを超える出力は従来の物理限界を一段引き上げたと評価されています。要因としてはハードウエア性能向上だけでなく、FP8演算やカーネル融合などソフトウエア面の大幅な最適化が重なった点が大きいとNVIDIAは説明しています。さらに、推論全体のレイテンシーを抑えるためドラフトモデルを併用する推測生成技術が効果を発揮し、ユーザー体感速度の向上に直結しました。Artificial Analysisはテスト条件を公開し、入力シーケンス長一二八、生成長一〇二四という厳格なシナリオを設定した上で、精度低下が統計的に無視できる水準であることも確認しました。これにより、研究用ベンチマークだけでなく、医療や金融取引など即応性が必須の実サービスにも適用可能であると示唆されます。言い換えれば、本成果は巨大モデル時代における「速さと大きさは両立できない」という常識を覆す転換点として位置付けられます。

Blackwellアーキテクチャ概観

Blackwell世代GPUは、前世代Hopperの設計哲学を継承しつつ、高速演算・高効率メモリ接続・柔軟な演算精度切替の三点を強化しています。特に一枚当たり一六〇〇億回／秒を超えるFP8行列積性能と、HBM3eによる一〇テラバイト毎秒超のバス帯域が、巨大モデル推論をボトルネックなしで支える基盤となっています。さらに、各GPUをNVLink-Switch 5.0で全結合することで、合計六四テラバイト毎秒というサーバークラス帯域を実現し、分散レイヤー正規化やAllReduceも単一GPU並みの待ち時間で完了します。これにより、パラメータシャーディングを最小化しながらマルチGPUを活用でき、モデルの保持・計算・通信すべてが同時にスケールする構成が可能となりました。また、Blackwellは第五世代テンソルコアを搭載し、倍精度からINT4まで幅広い演算を同一回路で処理できるため、学習・推論の両フェーズを一基でこなす「ユニファイドクラスタ」への道を開いています。この柔軟性は、開発速度だけでなく、サーバースペースや電力コストの削減にも寄与する点でデータセンター運用者から注目を集めています。

1000 TPSを超える意義

チャットボットや音声対話で使われる生成AIでは、入力から応答までの遅延が一〇〇ミリ秒を切ると「即答」に感じられ、業務効率や顧客満足度が大きく向上すると報告されています。Blackwellシステムは単一ユーザーに対してこの閾値を余裕で下回るレイテンシーを提供できるため、医療診断支援、株式高速取引、遠隔操作ロボットなど時間との勝負に直結する分野へ適用範囲が一気に広がります。並列推論でスループット重視の設定を行っても七万トークン／秒という出力は従来の三倍超にあたり、複数ユーザーが同時に利用するクラウド型LLMサービスでもコストパフォーマンスを高められます。開発者にとっては、モデル圧縮や量子化に頼らず本来の性能を維持したまま高速化できる点が魅力であり、製品投入までの作業負荷を軽減できます。さらに、この速度域ではモデルが予測したトークンを即座に再入力することで自己回帰ループを視覚的に感じさせない「リアルタイム補完」も可能となり、プログラミング支援やゲームAIなどインタラクティブな応用例が増加すると見込まれます。

FP8演算と精度維持

大規模モデルを高速に動かす鍵の一つが低ビット幅演算ですが、ビット幅を下げると数値丸め誤差による品質低下が付きまといます。BlackwellはFP8という八ビット浮動小数点形式を新たに採用し、指数部と仮数部を可変長で切り替えることで表現範囲と精度を両立しました。NVIDIAの最新検証では、FP8を用いてもBF16基準とほぼ同一のBLEU・MMLUスコアを達成し、低誤差を維持しながらメモリ使用量と計算時間を大幅に削減できることが確認されています。また、Mixture of ExpertsやAttention機構にもFP8カーネルを適用した結果、モデル全体サイズは約三〇％縮小し、キャッシュヒット率向上により実効帯域も伸びました。これにより、データ転送の待ち時間が減り、GPU演算ユニットを常時八〇％以上稼働させる高い利用率が実現しています。FP8化はソフト側での再学習を伴わないポストトレーニング量子化の形で導入できるため、既存チェックポイントを活用しやすく、小規模チームや研究機関でも導入ハードルが低い手法として注目されています。

カーネル融合戦略

GPU上では演算カーネル呼び出しのたびにレジスタ退避とメモリロードが発生し、回数が増えるほど待ち時間が蓄積します。そこでNVIDIAは、前処理・主演算・後処理を一つの大きなカーネルにまとめる「カーネル融合」を推し進めました。AllReduceとRMSNorm、さらに量子化操作を連結した新カーネルは、従来三回かかっていたメモリアクセスを一回に短縮し、個々のトークン生成レイテンシーを一二％削減しました。加えて、QKV生成とスケール適用をまとめたSelf-Attentionカーネル、全結合層とSwiGLU活性化をまとめた前方ネットワークカーネルなど、頻出パターンを重点的に対象化。これらの最適化はTensorRT-LLMのグラフモードで自動展開でき、開発者がCUDAを手書きせずともメリットを享受できます。その結果、ベンチマークのシーケンス生成パスではSM演算リソースのアイドル率がほぼゼロに近づき、実行波長がより長く安定することでスループットを落とさず低遅延を実現するという二兎を得ることに成功しました。これらの改善は、モデル規模がさらに拡大してもスケーリング則から外れにくいという副次的効果も指摘されています。

PDLで待ち時間を削減

Programmatic Dependent Launch（PDL）は、同一ストリーム上で相互依存するカーネルを部分的に重ね合わせ実行できるCUDAの新機能です。一次カーネルがまだ後半ブロックを処理中でも、二次カーネルの前半部分が開始できるため、GPU全体の使用率が向上しギャップ時間がほぼ解消されます。BlackwellではPDL対応SMが多数配置され、スケジューラがハードウエアレベルで依存管理を行うため、開発者はCUDA Graphに処理フローを登録するだけで複雑なイベント同期を組む必要がありません。NVIDIAの内部測定では自己回帰推論ループにおけるPDL導入で平均レイテンシーが一八％短縮し、特に短文生成やストリームモードで効果が顕著でした。また、PDLは汎用機能であるため画像処理や科学計算など他ドメインのワークロードでもメリットを持つと見られ、GPUの総合的な稼働率向上策としてデータセンター全体の電力効率改善にも寄与します。早期評価を行ったクラウドベンダーは、ピーク時におけるノード数削減効果を一割程度見込めると報告しています。

Speculative Decodingの仕組み

推測生成（Speculative Decoding）は、大きなターゲットモデルの予測を小さなドラフトモデルが先回りして提案し、まとめて検証することで生成トークン数を削減する手法です。NVIDIAはEAGLE-3系の軽量下書き層を採用し、ドラフト長三トークンで平均アクセプト長（AL）を二・五に高め、ターゲットモデル呼び出し回数を約四割削減しました。これにより、GPU間通信の頻度が減り、前述のPDLやカーネル融合効果と掛け合わせてさらに遅延を圧縮できます。失敗トークンが出ても次ループで即座に修正されるため品質は保たれ、ユーザーは高速かつ安定した応答を得られます。従来のBeam Searchや温度制御よりも実装が単純で、既存モデルの重みを変更しないことから、オープンモデルに対してもライセンスを侵害せず適用できる点も利点です。更に、ドラフトモデルのパラメータは共有埋め込みを活用して一部重みを固定できるため、ストレージ消費を最小に抑えている点も実運用で歓迎されます。教育用途でも推論コストを抑えて大モデル体験を提供できる仕組みとして、今後普及が期待されています。

ドラフト長最適化実験

ドラフトモデルが一度に提案するトークン数（ドラフト長）は、アクセプト長と検証コストの釣り合いで決まります。NVIDIAはドラフト長を一から五まで振り、Llama 4 Maverick上で速度と精度を計測しました。最終的にドラフト長三が、AL増加による速度向上と追加計算負荷のバランスが最も良いと判定されました。ドラフト長が短すぎる場合はターゲット呼び出し回数が減らず、長すぎると却下トークンが増えて無駄な演算が発生する傾向が確認されました。この知見は他サイズのモデルでもおおむね適用可能で、将来はデータセット特性や利用シナリオごとに動的にドラフト長を調整するアルゴリズムの開発が期待されます。なお、本実験は入力プロンプト長一二八、温度〇・八、トップＰ〇・九という一般的設定で行われたため、極端に長文や厳格な制約文生成では最適値が異なる可能性があります。研究者は自分の応用領域に合わせてドラフト長を再調整することで、さらなる遅延削減を図る余地があります。TensorRT-LLMにはチューニング用のプロファイラが付属しており、数分で探索できる点も実運用を後押ししています。

CUDA GraphとOverlap Scheduler

CUDA Graphは複数カーネルとメモリ操作を一つのグラフとして事前記録し、実行時オーバーヘッドを削減する仕組みです。TensorRT-LLMでは推論ループ全体を一つのGraphにまとめ、ターゲットモデルのフォワード計算と次ステップの入力準備をOverlap Schedulerで重ねることで実行効率を高めています。この改良により、ブラックウェル世代特有の幅広い並列実行ユニットを余すことなく使い切り、GPUがアイドル状態になる隙間時間を理論値の一桁台に抑えました。Graph化はホスト側API呼び出しを減らす効果もあり、マルチノード環境で顕著となるPCIeレイテンシーの影響を相殺します。さらに、GPUごとに独立したGraphを構築するのではなく、NVLink Switch上のマルチインスタンスをまたぐ形で単一Graphを共有する設計が採用され、ノード内全GPUが同一タイムラインで動作する「同期フリーパイプライン」が実現しました。これにより、最長経路遅延が短縮され、分散アテンション計算時のスプラッシュ遅延が半分以下に抑えられています。

Torch.compileによる自動融合

Speculative Decodingの検証ロジックはPyTorchネイティブ演算を多用するため、本来は数百の小カーネルが発行されます。これを手作業で最適化するのは現実的ではありません。NVIDIAはPyTorch 2.2で導入されたtorch.compile()を採用し、Tritonバックエンドにより動的にカーネルを再生成させることでドラフト層のオーバーヘッドを二五％から一八％まで低減しました。torch.compile()はAOT（Ahead-of-Time）キャッシュを併用できるため、本番環境へのデプロイ時も初回数秒のコンパイル後は安定した性能を維持します。開発者は高水準APIのまま性能を引き出せるため、生産性と速度の両立が図られました。さらに、生成されたTritonカーネルはFP8テンソルコアに自動マッピングされる最適化パスが用意されており、ブラックウェル固有のハード機能を最大限活用できます。これにより、プラットフォーム依存のローコードを挿入せずとも移植性を保ちつつ高速化できるという利点が得られました。

ベンチマーク方法と検証

Artificial Analysisは、公平性を確保するためベンチマーク手順書を公開し、入力プロンプト集合・推論パラメータ・測定スクリプトをリポジトリにホストしています。測定は連続三回実行し、中央値を採用することでスパイクを排除すると同時に、ウォームアップを含めた実系統時間を算出しています。加えて、同一構成のHopper H100ノードによる対照試験を行い、Blackwell世代が平均して四倍前後の速度向上を示すことが確認されました。メモリや電力計測結果も含まれており、性能当たり消費電力が約三割低減した点はサステナビリティの観点から大きな意味を持ちます。なお、推論精度の比較ではMMLU、GSM8K、HumanEvalなど多面的なベンチマークを採択し、誤差率の差が統計的有意水準を超えないことを確認しました。これにより「速度と精度のトレードオフなしに高速化した」というNVIDIAの主張に客観的裏付けが与えられています。結果データはCreative Commonsライセンスで公開され、再現実験が促進されている点もオープン科学の流れに沿っています。

ライバルシステムとの比較

生成AI向けアクセラレータ市場では、AMD MI300XやGoogle TPU v5eなども高性能をアピールしています。しかし、Llama 4 Maverickの推論において一千TPS／ユーザーを単一ノードで突破したのはBlackwellが初であり、この差はエコシステムの成熟度とソフトウェア最適化力の違いを映し出しています。AMD勢はHBM容量で優位を持つものの、FP8対応やSpeculative Decoding用スケジューラが未整備で、同等条件で七割程度の速度にとどまっています。TPU系は行列計算のスループットは競合しうるものの、CUDA Graphに相当する機能の整備が遅れており、ホストボトルネックが顕在化しています。ただし、これらのプラットフォームもオープンソースLLMでのベンチマークを進めており、年内に再逆転の可能性がないわけではありません。業界全体としては競争が刺激となり、ハードウエアとソフトウエアの協調最適化が加速する好循環が生まれていると評価できます。将来的には相互運用を視野に入れた共通API策定も議論されており、ユーザーにとっては選択肢の拡大が期待されます。

実産業での応用シナリオ

低遅延での巨大モデル推論は、従来バッチ処理で妥協していた業務プロセスをリアルタイム化する鍵となります。医療現場では救急画像を解析しながら同時に診断報告を生成するシステム、金融では高頻度取引ボットが市場変動を瞬時に解釈して注文を出すシステムなどが検討されています。また、ゲーム分野ではノンプレイヤーキャラクターの会話をプレイヤーの入力に即応させる「動的ストーリーテリング」が可能となり、没入感を大幅に高められます。製造業でも、工程監視カメラと連動した不良品予測モデルがミリ秒単位でアラートを出せるようになり、ライン停止を未然に防ぐ効果が報告されています。教育の現場では、学生の解答をリアルタイムに解析し、理解度に応じて次の問題や解説を自動提示するインタラクティブ教材の実装が視野に入りました。これらの応用例はすべて「遅いと価値を失う」領域であり、Blackwell世代の高速化は業界のサービス設計パラダイムを根底から変える可能性があります。ユーザー体験が向上すれば、課金率や継続利用率が伸びるため、導入コストを吸収しやすいビジネスモデルが成立する点も重要です。

課題と次なる研究

快挙の裏で課題も残っています。Blackwellは消費電力が一基七五〇ワット級と高く、冷却と電源インフラ整備が必須です。NVIDIAは液冷一体型ラックを提案していますが、導入には施設改修コストと運用ノウハウが要求され、データセンターの中小事業者にはハードルとなります。また、FP8は一部自然言語処理以外のタスクでまだ十分に検証されておらず、特殊領域では再学習が必要になるケースも報告されています。Speculative Decodingもドラフトモデル選定が難しく、ドメイン固有知識を扱うモデルでは却下率が上がる懸念が残ります。さらに、アクセラレータ価格自体も一ノードで数十万ドルに達し、ROI試算が難しい点が投資判断を遅らせる要因となっています。今後は省電力版Blackwellやチップレット化によるコストダウン、再利用可能なモジュール設計の拡大が解決策として期待されます。学術界では、FP8とFP16の混合精度トレーニングや動的量子化手法の研究が進んでおり、これらが実用化されれば課題の一部は軽減すると考えられます。

まとめと展望

Blackwell世代と多層的ソフト最適化の組み合わせにより、NVIDIAは巨大LLM推論で前例のない速度領域へ踏み込みました。一ユーザー当たり一秒間一千トークンという記録は、AIを「待つもの」から「即座に応答するもの」へ押し上げる象徴的マイルストーンです。技術的にはまだ改良の余地があるものの、本成果は業界全体に「性能ボトルネックは破れる」という明確なメッセージを示しました。今後、競合各社が追随し、さらなる低遅延と高効率を競い合うことで、利用者の選択肢は広がり、AIが社会インフラとして定着する速度は一段と加速するでしょう。同時に、消費電力やコスト、専門人材不足といった現実的課題にも目を向け、技術者と政策立案者が連携して持続可能な導入モデルを構築することが求められます。Blackwellの衝撃は、単に数字を塗り替えただけでなく、AI活用の設計思想そのものに変革を促す起爆剤となったのです。次のターゲットは「ゼロ遅延」に近い体験をどう実現するかであり、その鍵を握るのはソフトウエア側の革新とハードウエアの協調進化です。

FP8カーネル呼び出し例

Blackwell用TensorRT-LLMでは、わずか数行の設定でFP8高速化を有効にできます。設定を変更するだけで精度を保ったまま二倍以上のスループットが確認されるため、試さない手はありません。


import tensorrt_llm as trt
engine = trt.Engine("llama4.trt")
engine.set_precision("fp8")
engine.enable_speculative(draft_length=3)
with engine.create_session() as sess:
    print(sess.generate("Hello, world!", max_tokens=128))

上記例ではset_precision("fp8")とenable_speculative()を呼ぶだけで、FP8最適化と推測生成が同時に適用されます。ドラフト長や温度、トップPなどはオプションで変更でき、実験を通じて最速構成を見つけることができます。

データセンター運用者への提言

Blackwell導入を検討する運用者は、まず電源容量と冷却ループの再確認を行うことが推奨されます。標準DGX B200ラックは最大六〇キロワットの消費電力が想定され、液冷でも出口温度三五度を超えないよう冷却水フローを設計する必要があります。さらに、推論ワークロードは瞬間電力が激しく変動するため、余裕を持った変圧器と無停電電源装置（UPS）の選定が重要です。ソフト面ではTensorRT-LLMのGraphキャッシュをフラッシュするタイミングをナイトメンテナンス枠に合わせることで運用中断を回避できます。NVIDIAは導入ガイドラインを公開しており、事前シミュレーション用のHVACベンチマークも提供しているため、活用するとよいでしょう。費用対効果の面では、バッチ推論形式の旧システムと比較して一件当たり推論コストが半減したという試算もあり、追加の電力投資を加味しても運用三年目以降で黒字化するケースが多いと報告されています。ただし、冷却水漏れ検知センサーやリモート管理ソフトの更新も忘れず行い、安定稼働の保険をかけることが肝要です。

参考リソース

詳細な設定手順やベンチマークスクリプトは、NVIDIA公式ブログの2025年5月23日付記事およびArtificial AnalysisのGitHubリポジトリで公開されています。導入を急ぐ読者は公式ドキュメントだけでなく、コミュニティフォーラムの最新スレッドも併せて確認し、相性問題やパッチ情報を把握してからテスト環境を構築しましょう。これにより、予期せぬビルドエラーや性能低下を回避できます。