以下の内容はhttps://htn20190109.hatenablog.com/entry/2025/12/31/193011より取得しました。


深層強化学習

https://statisticsschool.com/%e3%83%99%e3%83%ab%e3%83%9e%e3%83%b3%e6%96%b9%e7%a8%8b%e5%bc%8f%e3%82%92%e3%82%8f%e3%81%8b%e3%82%8a%e3%82%84%e3%81%99%e3%81%8f%e8%a7%a3%e8%aa%ac%e5%bc%b7%e5%8c%96%e5%ad%a6%e7%bf%92%e3%82%84%e5%8b%95/

・モデルベース
環境モデルを既知あるいは学習対象として、学習する手法。
AlphaGo、AlphaZero
・モデルフリー
経験を通じて直接最適な行動を学習する手法。
・・価値ベースの手法
特定の方策での期待累積報酬を表す価値関数を最適化することで、最適な方策を間接的に求める手法。
最初に見つけた局所解に収束しやすい。
連続した行動を離散化必要。
DQN、TD法、Q学習、SARSA
・・方策ベースの手法
行動を選択する確率分布を直接最適化する手法。
さまざまな局所解を探索可能。
連続行動空間をそのまま対応可能。

A3C(Asynchronous Advantage Actor-Critic)、方策勾配法


モンテカルロ法の状態価値関数更新式

\displaystyle
\hat{V}(s_t) := 
\hat{V}(s_t)+ \alpha_{t} \left( r_{t} + \gamma^{1} r_{t+1} + \gamma^{2} r_{t+2} + ... - \hat{V}(s_t) \right)

TD法の状態価値関数更新式

\displaystyle
\hat{V}(s_t) := 
\hat{V}(s_t)+ \alpha_{t} \left( r_{t} + \gamma \hat{V}(s_{t+1}) - \hat{V}(s_t) \right)

SARSAの行動価値関数更新式

\displaystyle
\hat{Q}(s_t, a_t) :=
\hat{Q}(s_t, a_t)+ \alpha_{t} 
\left( r_{t} + \gamma \hat{Q}(s_{t+1}, a_{t+1}) - \hat{Q}(s_t, a_t) \right)

Q学習の行動価値関数更新式

\displaystyle
\hat{Q}(s_t, a_t) :=
\hat{Q}(s_t, a_t)+ \alpha_{t} 
\left( r_{t} + \gamma \max_{a' \in A} \hat{Q}(s_{t+1}, a') - \hat{Q}(s_t, a_t) \right)


状態価値関数のベルマン方程式

\displaystyle
V^\pi(s)
= R^\pi(s)+ \gamma
\sum_{s'} P^\pi(s' \mid s)  V^\pi(s')


行動価値関数のベルマン方程式


\displaystyle
Q^\pi(s, a)
= \sum_{s'}
P(s' \mid s, a) R(s,a,s') + \gamma
\sum_{s'}\sum_{a'} \pi(a' \mid s') P(s' \mid s, a)  Q^\pi(s', a')



行動価値関数の推定方法
(1)方策オン型
SARSA
学習安定
選択した行動の結果のみを使用して行動価値関数を更新
目的方策と行動方策が必ず同じ

(2)方策オフ型
Q学習
学習不安定
行動価値関数の最大値を使用して行動価値関数を更新
目的方策と行動方策が異なる場合がある

DQNのテクニック
(1) 深層ニューラルネットワークで行動価値関数を近似
(2) 経験再生
(3) 固定Qターゲット
(4) 報酬のクリッピング




・方策勾配法

目的関数

\displaystyle
J(\theta)= \mathbb{E}_{\pi}
\left[
\sum_{t=0}^{\infty} \gamma^t R_{t}| \theta
\right]

方策勾配定理

\displaystyle
\nabla_\theta J(\theta)=
\mathbb{E}_{\pi}
\left[
\nabla_\theta \log \pi(a \mid s , \theta)
\, (Q(s, a) - b(s))
\right]

更新式

\displaystyle
\hat \theta =
\theta + \alpha
\nabla_\theta J(\theta)




・Actor-Critic
Actor -> 方策ベースでエージェントの行動を制御する
Critic -> 価値ベースで行動の価値を評価する

更新式

\displaystyle
\hat \theta =
\theta + \alpha
\dfrac{1}{n}
\sum_{t}
\nabla_\theta \log \pi(a_{t} \mid s_{t} )
\, (Q_{\theta '}(s_{t}, a_{t}) - b(s_{t}))




・A3C
複数エージェントが異なる環境で平行学習
各エージェントが経験を共有する
アドバンテージ関数で行動価値を直接評価




以上の内容はhttps://htn20190109.hatenablog.com/entry/2025/12/31/193011より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14