https://blog.fltech.dev/entry/2025/12/12/sc25-1-ja

はじめに

こんにちは、富士通研究所コンピューティング研究所の一場です。 2025年11月16日から21日までアメリカ合衆国セントルイスで開催された国際会議 SC25 に参加しましたので、その内容を紹介します。SC25について、富士通の様々な部署から、4回の連載でレポートする予定です。この記事では私が注目した論文発表の内容を主に紹介します。 SCでは企業、大学、研究機関など様々な組織が展示を行っており、富士通も展示を行っています。富士通の展示については、別の記事で紹介されます。

今回私は、HPCのトレンドを探るために参加しました。SCへの参加は、私の赴任先であるカナダのトロントからの参加であるため、日本からの参加と比べると移動が容易です。実際に今回の参加で、トロントからのフライト時間は2時間30分ほどであり、これまでと比べて開催地が近かったと思います。開催地の近さに加えて、SCにはこれまで参加したことがなかったため、この機会に参加させてもらうことにしました。

セントルイスの代表的なモニュメントであるゲートウェイアーチ。SC25会場から近い場所です

SCの概要

SCは、High-Performance Computing（HPC）の分野における世界最大の国際会議で、正式名称は "International Conference for High Performance Computing, Networking, Storage, and Analysis" となっています。論文発表や展示に加えて、TOP500を始めとする著名なスーパーコンピュータの最新ランキングの発表、ゴードンベル賞などが発表・授与される場になっています。

SC25では、参加者が16500人以上 *1、論文投稿は623件（前年比34%増加）で採択数136件、採択率22%となっています *2。さらに投稿件数については、昨年に続いて最高記録で、特に HPC for Machine Learning に関する投稿が2倍に増えたとのことです。

注目した論文発表

すべての論文をチェックしたわけではありませんが、個人的に興味を持ったものからいくつかの論文を紹介します。AI計算を想定したコンパイラ技術や、低精度演算・Sparse Tensor Coreを活用した最適化手法に注目しました。

High-Performance and Power-Efficient Emulation of Matrix Multiplication using INT8 Matrix Engines

この論文は、行列乗算に関する計算DGEMMやSGEMMなどを低精度なINT8を用いて実現する手法の提案となっており、cuBLASを利用したネイティブな実装よりもDGEMMで最大で1.4倍、SGEMMで3.0倍の高速化を実現しています。低精度演算がAI計算で重要であることは知っていますが、低精度演算器ハードウェアを用いることで、より高精度な演算を高速化できるという知見は、私にとって驚きでした。この論文は、ScalAH' 25 (16th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Heterogeneous Systems) というWorkshopでの発表でしたが、個人的には今回の参加のなかで最も強い印象が残っています。

論文へのリンク

PerfDojo: Automated ML Library Generation for Heterogeneous Architectures

Machine Learning用のライブラリは、ハードウェアの特性に応じた最適化を実施する必要がありますが、手動による最適化は困難になってきています。これに対して、強化学習 (Reinforcement Learning, RL) と大規模言語モデル (LLM) を組み合わせて、プログラムの表現方法と最適化を実現する手法を提案しています。特徴として、最適化を行う際に特定のハードウェア情報を用いずに、ハードウェアで実行した結果を報酬として学習に用いることがあげられます。これによって、最適化にあたって事前のハードウェア知識は不要であるという主張です。他にも多くの提案内容を含んでおり、興味深い内容だと思っています。

論文へのリンク

A Sample-Free Compilation Framework for Efficient Dynamic Tensor Computation

この論文では、入力データの形状（テンソルの次元やサイズ）が実行時に変化する場合に対応するため、コンパイルするカーネルを選定して、実行時に選ぶフレームワークを提案しています。従来は、特定のサンプルの入力を想定した上で、事前にコンパイルしておくのですが、想定外の入力の場合に性能が低下する可能性があります。これに対して、特定のサンプルに依存しない、sample-free なフレームワークを提案しています。これを実現するために複数のアプローチを組み合わせています。この論文が対象としている問題は、どう対応すべきか疑問に感じていた問題だったので、興味を持ちました。

論文へのリンク

Bridging the Gap Between Unstructured SpMM and Structured Sparse Tensor Cores

NVIDIAのSparse Tensor Coreは、連続する4要素中の2要素の値のみを使う (これは2:4 structured sparsityと呼ばれます) 計算を高速化するための仕組みが実装されています。この論文では、これを用いて SpMM (Sparse-dense Matrix Multiplication) を高速化する提案を行っています。Sparse Tensor Coreを使った高速化は、様々な手法が考えられるので以前から興味を持っていました。

論文へのリンク

SparStencil: Retargeting Sparse Tensor Cores to Scientific Stencil Computations via Structured Sparsity Transformation

こちらの論文もSparse Tensor Coreを用いた高速化を提案する内容ですが、ステンシル計算を対象にしている点が異なります。現在のHPCでは、GPUの重要性が高いですが、GPUの特徴を用いた論文が2件採録されていることから、改めてその重要性を感じました。

論文へのリンク

おわりに

はじめてSCに参加しましたが、参加者の多さに驚きました。私がこれまで参加してきた国際会議と比べても、展示会の規模が大きく、また同時に、日本からの展示が多いことからも、HPCへの注目度が高いことを実感しました。

今回は技術的に、特にAI計算に関するHPCのトレンドを探るために論文発表の聴講をメインに参加しました。これまで、入力データが実行時に変化する場合のコンパイラ最適化をどう実現するかや、Sparse Tensor Coreを活用した最適化手法に興味を持っていました。今回のSC25でこれらの研究発表がなされ、まさに多くの研究者が取り上げている研究テーマだとわかりました。さらに、INT8のような低精度演算器ハードウェアを用いた高速化は驚きでした。AI計算は非常に変化が早く多数の発表が行われるので、このような国際会議に参加して多数の研究に直接触れることがトレンドを把握する上で重要だと感じました。今回の知見を活かし、今後の研究開発につなげていきたいと思います。

*1:SC25のトップページ https://sc25.supercomputing.org より

*2:SC25 ProceedingsのPreface より