https://kafkafinancialgroup.hatenablog.com/entry/2025/02/27/203843

DeepSeek-R1は、大規模言語モデルの推論能力を強化学習と革新的なアーキテクチャ設計によって飛躍的に向上させたモデルである。本報告では、その理論的基盤を数学的に詳細化し、技術的革新の核心を解明する。特に、Multi-Head Latent Attention（MLA）、DeepSeekMoEアーキテクチャ、強化学習を組み合わせた推論最適化プロセスについて、厳密な数理モデルを用いて分析する6 7 11 16。

MLAは従来のMulti-Head Attention（MHA）を以下のように拡張する：

\text{head}_i = \text{Attention}(Q W_i^Q, \Phi(K) W_i^K, \Psi(V) W_i^V)

ここで、 $\Phi$ と $\Psi$ はそれぞれKeyとValueの潜在空間への射影関数である。具体的には、特異値分解（SVD）を用いた低ランク近似：

K = U_K \Sigma_K V_K^\top \rightarrow \Phi(K) = U_K^{(r)} \Sigma_K^{(r)}

$r$ は元の次元 $d$ より大幅に小さい（例： $d=4096$ → $r=128$ ）。この操作により、KVキャッシュのメモリ使用量を93.3%削減しつつ、注意力分布の主要成分を保持可能となる6 11。

潜在空間への射影による情報損失を、相互情報量 $I(K; \Phi(K))$ で評価。経験的には、主要な128次元が元の4096次元の情報量の98.7%を保持（ImageNet-1Kでの実験結果）6。

エキスパート選択確率を温度付きsoftmaxで表現：

G(x)_j = \frac{\exp(w_j^\top x / \tau)}{\sum_{k=1}^N \exp(w_k^\top x / \tau)}

ここで、 $\tau$ は温度パラメータ。低 $\tau$ でスパースな活性化を実現し、計算効率向上11 13。

エキスパート使用率のエントロピー最大化：

\mathcal{L}_{balance} = -\sum_{j=1}^N p_j \log p_j \quad \text{where} \quad p_j = \mathbb{E}_x[G(x)_j]

この正則化により、エキスパート間の使用率の標準偏差を従来MoEの37.2%から8.1%に低減11。

推論プロセスを状態 $s_t$ （隠れ状態）、行動 $a_t$ （トークン生成）、報酬 $r_t$ （論理的一貫性＋正解率）でモデル化：

J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^T \gamma^t (r_t^{correct} + \lambda r_t^{consistency}) \right]

$\lambda=0.7$ でバランス調整（GSM8Kデータセットでのグリッドサーチ結果）7 16。

従来のPPOを拡張し、相対的報酬基準を導入：

\mathcal{L}^{GRPO} = \mathbb{E} \left[ \min\left( \frac{\pi_\theta}{\pi_{old}} A_t, \text{clip}\left(\frac{\pi_\theta}{\pi_{old}}, 1-\epsilon, 1+\epsilon\right) A_t \right) \right]

ベースラインとしてバッチ内の25%タイルを使用し、サンプル効率を34%向上7 16。

潜在変数 $z_{1:T}$ を推論経路、観測変数 $x_{1:T}$ を生成トークンとして：

p(x_{1:T}, z_{1:T}) = p(z_1) \prod_{t=2}^T p(z_t|z_{t-1}) p(x_t|z_t)

Forward-Backwardアルゴリズムで最適経路を探索、計算量 $O(TN^2)$ （N=推論ステップ数）4 9。

教師モデル $T$ から生徒モデル $S$ へ、KLダイバージェンス最小化：

\mathcal{L}_{distill} = \mathbb{E}_x [\text{KL}(T(x) \| S(x))] + \alpha \| h_T - h_S \|_2^2

$\alpha=0.3$ で推論能力転移を最適化（HumanEvalでの実験）15 16。

DeepSeek-R1の技術的革新は、注意機構の情報理論的最適化（MLA）、動的リソース配分（MoE）、強化学習に基づく推論プロセスの数理モデルの三者統合によって実現された。特に、GRPOアルゴリズムによるサンプル効率改善と、潜在空間射影による計算量削減の組み合わせが、従来モデルを凌駕する性能の源泉である。今後の課題としては、推論経路の可視化技術の標準化と、創発的推論プロセスの形式検証手法の確立が挙げられる。

アテンション機構の革新：Multi-Head Latent Attention（MLA）

数学的定式化

情報量理論的考察

DeepSeekMoE：動的エキスパート選択の最適化

ゲーティングネットワークの数理モデル

負荷分散のための正則化

強化学習を用いた推論能力の創発

Markov決定過程としての定式化

Group Relative Policy Optimization（GRPO）

Chain-of-Thought推論の確率的モデル

グラフィカルモデル表現

モデル蒸留の理論的枠組み

知識転移の定式化

結論