以下の内容はhttps://msyksphinz.hatenablog.com/entry/2025/10/25/040000より取得しました。


MICRO 2025の論文を概観する (2. Microarchitecture)

MICRO 2025の論文が公開されている。全部を一から読むのはきついので、AIに頼んで概要を掴んでみることにした。次はMicroarchitecture全般のセクション。

※このセクションはAI生成による文章を含みます。誤りや不正確な情報が含まれている可能性がありますので、ご注意ください。

タイトル A TRRIP Down Memory Lane: Temperature-Based Re-Reference Interval Prediction For Instruction Caching
背景 バイル向けアプリは複雑化と巨大な命令フットプリントにより、従来の命令キャッシュ置換では再参照間隔の長いホットコードを捉えにくく、フロントエンドのスタールが深刻化している。
課題 オンチップの観測だけでは十分な実行情報を追えず、電力・面積制約の中でホット/コールドの温度情報を置換判断に活かせていない。
提案 PGOで得たコード温度(ページ属性)をOS経由でハードに渡し、軽量拡張でRRIPを温度感応にするソフト・ハード協調方式 TRRIP。
評価 L2命令MPKIを26.5%低減し、PGO+RRIPに対して幾何平均3.9%の速度向上を実機適用可能なコストで達成。
Abstract 現代のモバイルCPUソフトウェアは実行時挙動が複雑で、同一命令の再実行までの距離が長くなり、従来の命令キャッシュ置換方針にとって難題となる。その結果、CPUフロントエンドのスタールが多発し、リソースが干上がる。コード規模の増大は電力・面積制約の厳しいオンチップメモリの伸びを上回るため、ハード中心の管理は不十分となる。本論文は、コンパイラが「温度(hot/cold)」に基づきコードを解析・変換し、コードページ属性を介してハードへ温度要約を渡すOSインタフェースと、温度属性で置換を最適化する軽量ハード拡張から成る TRRIP を提案する。TRRIP はホットコードの退避を抑え、実システム要件に適合するよう設計されており、PGO+RRIP済みのモバイルコード上でも命令L2 MPKIを26.5%削減し、幾何平均3.9%の高速化を示した。
タイトル ATR: Out-of-Order Register Release Exploiting Atomic Regions
背景 高ILP化で物理レジスタ数は肥大化し、ポート数・電力・周波数の観点でレジスタファイルがスケールのボトルネックに。
課題 既存の「早期解放」は安全性や保守性の問題から効果が限定的。
提案 分岐や例外を含まない atomic commit region を検出し、その先頭が確実にまとまってコミット/フラッシュされる性質を利用して、再定義のコミット待ちなしに Out-of-Order に物理レジスタを解放する ATR。
評価 SPEC2017intでレジスタ64エントリ構成にて平均5.13%の高速化(224エントリでも1.48%)。
Abstract 最新のスーパースカラは多数のインフライト命令を支える大規模物理レジスタを要するが、従来のリネームでは同一アーキテクチャレジスタの再定義命令がコミットするまで解放できず、非効率が生じる。先行研究の早期解放は安全性や保守性の制約で効果が限られる。本研究は、条件分岐や例外を含まず、命令列がまとめてコミット/フラッシュされる atomic commit region に着目し、領域先頭で割り当てられたレジスタを安全に先行解放できることを示す。スタックやキュー、シャドウセル不要の簡潔な機構で原子領域を同定し、死活・例外精度・デッドロックの問題を避けながら物理レジスタ圧を低減する。提案手法は、64エントリで平均5.13%、224エントリで1.48%の性能向上を達成した。
タイトル Drishti: Do Not Forget Slicing While Designing Last-Level Cache Replacement Policies for Many-Core Systems
背景 LLCのスライス化(NUCA)環境では、SOTA置換方針(Hawkeye, Mockingjay等)の前提が崩れ、局所的学習やサンプル集合の偏りが生じる。
課題 スライス毎の再利用予測は大局を見誤り、固定的なサンプルセットはミス分布の偏りで意思決定精度を落とす。
提案 各スライスはローカルなサンプルキャッシュを維持しつつ、コア単位・グローバル な再利用予測器を配置し、さらに 動的サンプル選択 で代表性を高める Drishti。
評価 32コアでHawkeye/Mockingjayの効果を増幅(LRU比でそれぞれ+5.6%/+13.2%向上、Drishtiなしでは+3.3%/+6.7%)。
Abstract 高性能LLC置換方針は、ミス低減のためサンプルドキャッシュと再利用予測を用いるが、多くはモノリシックLLC前提で、一般的な商用の スライス化LLC では十分に評価されていない。本研究は、スライス毎の予測が局所視野となる問題、サンプル集合が十分なミスを受けない問題を示し、コア単位のグローバル予測器+スライス局所サンプル、および スライスごとの動的サンプル選択 を提案する。4/16/32コア・8/32/64MB構成でHawkeyeとMockingjayを評価し、32コアではLRU比でそれぞれ5.6%、13.2%の性能向上を達成した。
タイトル LoopFrog: In-Core Hint-Based Loop Parallelization
背景 コアは広幅化・深いOoOでILPを伸ばしてきたが、面積・電力の二次的増大に対し、中粒度の並列性が未活用。
課題 古典的TLSは商用化に至らず、現代OoOの窓外にある中粒度ILP/TLPを安全低コストに引き出せていない。
提案 コンパイラ挿入のヒント(detach/reattach/sync)で スレッドレット を生成し、同一コア内でループ反復を並行実行する in-core TLS「LoopFrog」。
評価 LLVM統合でループ速度43%向上、SPEC2006/2017で全体9.2%/9.5%高速化、面積・電力の追加は小。
Abstract ILP拡大量のためにコアは深く広くなるが、世代ごとに複雑性・面積・エネルギーが二次的に増大する。小ループは大きな命令窓で恩恵を受け、大ループはコア間TLPで加速できる一方、中粒度の並列性は取り残される。LoopFrog は、コンパイラヒントを使って1スレッド内から将来のループ反復を 軽量スレッドレット として切り出し並行実行する。データ依存を監視して真正依存は転送し、違反時はスカッシュする。LLVMベース実装でループ幾何平均43%、SPEC2006/2017全体で9.2%/9.5%の高速化を、少ない面積・電力オーバーヘッドで示す。
タイトル Multi-Stream Squash Reuse for Control-Independent Processors
背景 難予測分岐での頻繁なフラッシュにより、IFUの先行取得が無駄になりバックエンド資源が遊ぶ。CI(制御独立)活用は効果があるが一般的な再合流を十分に扱えていない。
課題 従来は「直近の誤予測ストリーム」にしか着目せず、過去複数ストリームとの再合流機会を見逃している(平均10%、最大31%)。
提案 複数の過去スカッシュ列を同時追跡し、タグ付きリネーム写像(RGID) により任意2状態の依存関係とデータ再利用を判定する Multi-Stream Squash Reuse
評価 IPCをSPECint2006で+2.2%、SPECint2017で+0.8%、GAPで+2.4%改善(最大astarで+8.9%など)。
Abstract 単体性能は依然重要だが、難予測分岐により多くの命令がスカッシュされる。スカッシュ中にも将来必ず実行される 制御独立(CI) 命令が含まれるが、既存手法はif-else型などのイディオム中心で、より一般的な再合流を見落とす。本研究は、現在のフェッチ列が直近だけでなく過去の複数スカッシュ列とも再合流しうることを示し、Multi-Stream Squash Reuse を提案する。タグ付きリネームで実行状態を識別し、レジスタ/メモリの依存と再利用を判定して、誤経路の有効結果を正経路へ活用する。gem5と合成で評価し、SPEC/GAPで平均0.8–2.4%のIPC改善、最大8.9%などを示す。
タイトル SHADOW: Simultaneous Multi-Threading Architecture with Asymmetric Threads
背景 アプリはILP/TLP需要が動的に揺れ、従来CPUはどちらかに最適化して資源の遊休や性能低下を招く。
課題 既存SMT/モード切替はILPとTLPを同時に最適化できず、メモリバウンド時の効率が低い。
提案 同一コアで OoOスレッド+複数In-Orderスレッド を同時実行し、ワークスティーリングで動的に仕事を配分する 非対称SMT「SHADOW」。
評価 9種ベンチで最大3.16×、平均1.33×(OoO比)高速化、面積・電力オーバーヘッドは約1%。
Abstract 多くの重要アプリは不規則性やメモリアクセスにより、ILPとTLPの需要が変動する。従来CPUは片方への最適化に偏り、資源の未活用やボトルネックを招く。本論文は、同一コア上でOoOとIn-Orderのスレッドを 同時 に走らせ、ILPとTLPのバランスを動的に取る SHADOW を提案する。深いILPはOoOで、広いTLPは軽量In-Orderで担い、実行時に混在比率を最適化する。9ベンチで最大3.16×、平均1.33×の性能向上を、約1%の面積・電力増で達成した。
タイトル Titan-I: An Open-Source, High Performance RISC-V Vector Core
背景 ベクタ処理は柔軟性とDLPを両立するが、広いデータパス化でOoOのスカラ由来機構が面積・電力の壁となる。
課題 既存設計はMVL/幅の拡大でROB/リネーム等が膨張し、ILPとDLPの両立が難しい。
提案 RVV対応の OoOベクタコア Titan-I。広帯域Permutation、マスク用レジスタキャッシュ、細粒度チェイニング、issue-as-commit、メモリインターリーブ等でILP/DLPを同時にスケール。
評価 暗号でGB202比最大1.85×、GA102比最大2.41×、HPCでも小面積で競合性能、DDRのみでも耐レイテンシ性を示す。
Abstract CDC/Cray以来のベクタ処理はSVEやRVVで発展したが、現代ワークロードに向けて規模を拡大すると従来アーキのオーバーヘッドが障壁となる。Titan-I (T1) は、RVVに基づくOoOベクタアーキで、フロアプラン最適化、データパス全幅Permutation、マスクレジスタキャッシュ等により帯域とレイテンシを改善し、細粒度チェイニングやissue-as-commit、メモリインターリーブなどで広いデータパス上でもILPを最適化する。T1は他のベクタ/GP-GPUを上回る性能を示し、例えば暗号でNVIDIA GB202比最大1.85×、GA102比最大2.41×を達成しつつ、面積・メモリレイテンシ耐性でも優位性を示す。



以上の内容はhttps://msyksphinz.hatenablog.com/entry/2025/10/25/040000より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14