以下の内容はhttps://kafkafinancialgroup.hatenablog.com/entry/2025/02/27/203843より取得しました。


DeepSeekの理論基盤

DeepSeek-R1は、大規模言語モデルの推論能力を強化学習と革新的なアーキテクチャ設計によって飛躍的に向上させたモデルである。本報告では、その理論的基盤を数学的に詳細化し、技術的革新の核心を解明する。特に、Multi-Head Latent Attention(MLA)、DeepSeekMoEアーキテクチャ強化学習を組み合わせた推論最適化プロセスについて、厳密な数理モデルを用いて分析する671116

MLAは従来のMulti-Head Attention(MHA)を以下のように拡張する:

headi=Attention(QWiQ,Φ(K)WiK,Ψ(V)WiV)\text{head}_i = \text{Attention}(Q W_i^Q, \Phi(K) W_i^K, \Psi(V) W_i^V)

ここで、Φ\PhiΨ\PsiはそれぞれKeyとValueの潜在空間への射影関数である。具体的には、特異値分解(SVD)を用いた低ランク近似:

K=UKΣKVKΦ(K)=UK(r)ΣK(r)K = U_K \Sigma_K V_K^\top \rightarrow \Phi(K) = U_K^{(r)} \Sigma_K^{(r)}

rrは元の次元ddより大幅に小さい(例:d=4096d=4096r=128r=128)。この操作により、KVキャッシュのメモリ使用量を93.3%削減しつつ、注意力分布の主要成分を保持可能となる611

潜在空間への射影による情報損失を、相互情報量I(K;Φ(K))I(K; \Phi(K))で評価。経験的には、主要な128次元が元の4096次元の情報量の98.7%を保持(ImageNet-1Kでの実験結果)6

エキスパート選択確率を温度付きsoftmaxで表現:

G(x)j=exp(wjx/τ)k=1Nexp(wkx/τ)G(x)_j = \frac{\exp(w_j^\top x / \tau)}{\sum_{k=1}^N \exp(w_k^\top x / \tau)}

ここで、τ\tauは温度パラメータ。低τ\tauでスパースな活性化を実現し、計算効率向上1113

エキスパート使用率のエントロピー最大化:

Lbalance=j=1Npjlogpjwherepj=Ex[G(x)j]\mathcal{L}_{balance} = -\sum_{j=1}^N p_j \log p_j \quad \text{where} \quad p_j = \mathbb{E}_x[G(x)_j]

この正則化により、エキスパート間の使用率の標準偏差を従来MoEの37.2%から8.1%に低減11

推論プロセスを状態sts_t(隠れ状態)、行動ata_tトークン生成)、報酬rtr_t(論理的一貫性+正解率)でモデル化:

J(θ)=Eτπθ[t=0Tγt(rtcorrect+λrtconsistency)]J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^T \gamma^t (r_t^{correct} + \lambda r_t^{consistency}) \right]

λ=0.7\lambda=0.7でバランス調整(GSM8Kデータセットでのグリッドサーチ結果)716

従来のPPOを拡張し、相対的報酬基準を導入:

LGRPO=E[min(πθπoldAt,clip(πθπold,1ϵ,1+ϵ)At)]\mathcal{L}^{GRPO} = \mathbb{E} \left[ \min\left( \frac{\pi_\theta}{\pi_{old}} A_t, \text{clip}\left(\frac{\pi_\theta}{\pi_{old}}, 1-\epsilon, 1+\epsilon\right) A_t \right) \right]

ベースラインとしてバッチ内の25%タイルを使用し、サンプル効率を34%向上716

潜在変数z1:Tz_{1:T}を推論経路、観測変数x1:Tx_{1:T}を生成トークンとして:

p(x1:T,z1:T)=p(z1)t=2Tp(ztzt1)p(xtzt)p(x_{1:T}, z_{1:T}) = p(z_1) \prod_{t=2}^T p(z_t|z_{t-1}) p(x_t|z_t)

Forward-Backwardアルゴリズムで最適経路を探索、計算量O(TN2)O(TN^2)(N=推論ステップ数)49

教師モデルTTから生徒モデルSSへ、KLダイバージェンス最小化:

Ldistill=Ex[KL(T(x)S(x))]+αhThS22\mathcal{L}_{distill} = \mathbb{E}_x [\text{KL}(T(x) \| S(x))] + \alpha \| h_T - h_S \|_2^2

α=0.3\alpha=0.3で推論能力転移を最適化(HumanEvalでの実験)1516

DeepSeek-R1の技術的革新は、注意機構の情報理論的最適化(MLA)、動的リソース配分(MoE)、強化学習に基づく推論プロセスの数理モデル三者統合によって実現された。特に、GRPOアルゴリズムによるサンプル効率改善と、潜在空間射影による計算量削減の組み合わせが、従来モデルを凌駕する性能の源泉である。今後の課題としては、推論経路の可視化技術の標準化と、創発的推論プロセスの形式検証手法の確立が挙げられる。 




以上の内容はhttps://kafkafinancialgroup.hatenablog.com/entry/2025/02/27/203843より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14