https://htn20190109.hatenablog.com/entry/2025/12/31/193011

https://statisticsschool.com/%e3%83%99%e3%83%ab%e3%83%9e%e3%83%b3%e6%96%b9%e7%a8%8b%e5%bc%8f%e3%82%92%e3%82%8f%e3%81%8b%e3%82%8a%e3%82%84%e3%81%99%e3%81%8f%e8%a7%a3%e8%aa%ac%e5%bc%b7%e5%8c%96%e5%ad%a6%e7%bf%92%e3%82%84%e5%8b%95/

・モデルベース
環境モデルを既知あるいは学習対象として、学習する手法。
AlphaGo、AlphaZero
・モデルフリー
経験を通じて直接最適な行動を学習する手法。
・・価値ベースの手法
特定の方策での期待累積報酬を表す価値関数を最適化することで、最適な方策を間接的に求める手法。
最初に見つけた局所解に収束しやすい。
連続した行動を離散化必要。
DQN、TD法、Q学習、SARSA
・・方策ベースの手法
行動を選択する確率分布を直接最適化する手法。
さまざまな局所解を探索可能。
連続行動空間をそのまま対応可能。

A3C(Asynchronous Advantage Actor-Critic)、方策勾配法

モンテカルロ法の状態価値関数更新式
$\displaystyle \hat{V}(s_t) := \hat{V}(s_t)+ \alpha_{t} \left( r_{t} + \gamma^{1} r_{t+1} + \gamma^{2} r_{t+2} + ... - \hat{V}(s_t) \right)$

TD法の状態価値関数更新式
$\displaystyle \hat{V}(s_t) := \hat{V}(s_t)+ \alpha_{t} \left( r_{t} + \gamma \hat{V}(s_{t+1}) - \hat{V}(s_t) \right)$

SARSAの行動価値関数更新式
$\displaystyle \hat{Q}(s_t, a_t) := \hat{Q}(s_t, a_t)+ \alpha_{t} \left( r_{t} + \gamma \hat{Q}(s_{t+1}, a_{t+1}) - \hat{Q}(s_t, a_t) \right)$

Q学習の行動価値関数更新式
$\displaystyle \hat{Q}(s_t, a_t) := \hat{Q}(s_t, a_t)+ \alpha_{t} \left( r_{t} + \gamma \max_{a' \in A} \hat{Q}(s_{t+1}, a') - \hat{Q}(s_t, a_t) \right)$

状態価値関数のベルマン方程式
$\displaystyle V^\pi(s) = R^\pi(s)+ \gamma \sum_{s'} P^\pi(s' \mid s) V^\pi(s')$

行動価値関数のベルマン方程式

$\displaystyle Q^\pi(s, a) = \sum_{s'} P(s' \mid s, a) R(s,a,s') + \gamma \sum_{s'}\sum_{a'} \pi(a' \mid s') P(s' \mid s, a) Q^\pi(s', a')$

行動価値関数の推定方法
(1)方策オン型
SARSA
学習安定
選択した行動の結果のみを使用して行動価値関数を更新
目的方策と行動方策が必ず同じ

(2)方策オフ型
Q学習
学習不安定
行動価値関数の最大値を使用して行動価値関数を更新
目的方策と行動方策が異なる場合がある

DQNのテクニック
(1) 深層ニューラルネットワークで行動価値関数を近似
(2) 経験再生
(3) 固定Qターゲット
(4) 報酬のクリッピング

・方策勾配法

目的関数
$\displaystyle J(\theta)= \mathbb{E}_{\pi} \left[ \sum_{t=0}^{\infty} \gamma^t R_{t}| \theta \right]$

方策勾配定理
$\displaystyle \nabla_\theta J(\theta)= \mathbb{E}_{\pi} \left[ \nabla_\theta \log \pi(a \mid s , \theta) \, (Q(s, a) - b(s)) \right]$

更新式
$\displaystyle \hat \theta = \theta + \alpha \nabla_\theta J(\theta)$

・Actor-Critic
Actor -> 方策ベースでエージェントの行動を制御する
Critic -> 価値ベースで行動の価値を評価する

更新式
$\displaystyle \hat \theta = \theta + \alpha \dfrac{1}{n} \sum_{t} \nabla_\theta \log \pi(a_{t} \mid s_{t} ) \, (Q_{\theta '}(s_{t}, a_{t}) - b(s_{t}))$

・A3C
複数エージェントが異なる環境で平行学習
各エージェントが経験を共有する
アドバンテージ関数で行動価値を直接評価