・モデルベース
環境モデルを既知あるいは学習対象として、学習する手法。
AlphaGo、AlphaZero
・モデルフリー
経験を通じて直接最適な行動を学習する手法。
・・価値ベースの手法
特定の方策での期待累積報酬を表す価値関数を最適化することで、最適な方策を間接的に求める手法。
最初に見つけた局所解に収束しやすい。
連続した行動を離散化必要。
DQN、TD法、Q学習、SARSA
・・方策ベースの手法
行動を選択する確率分布を直接最適化する手法。
さまざまな局所解を探索可能。
連続行動空間をそのまま対応可能。
A3C(Asynchronous Advantage Actor-Critic)、方策勾配法
モンテカルロ法の状態価値関数更新式
TD法の状態価値関数更新式
SARSAの行動価値関数更新式
Q学習の行動価値関数更新式
状態価値関数のベルマン方程式
行動価値関数のベルマン方程式
行動価値関数の推定方法
(1)方策オン型
SARSA
学習安定
選択した行動の結果のみを使用して行動価値関数を更新
目的方策と行動方策が必ず同じ
(2)方策オフ型
Q学習
学習不安定
行動価値関数の最大値を使用して行動価値関数を更新
目的方策と行動方策が異なる場合がある
DQNのテクニック
(1) 深層ニューラルネットワークで行動価値関数を近似
(2) 経験再生
(3) 固定Qターゲット
(4) 報酬のクリッピング
・方策勾配法
目的関数
方策勾配定理
更新式
・Actor-Critic
Actor -> 方策ベースでエージェントの行動を制御する
Critic -> 価値ベースで行動の価値を評価する
更新式
・A3C
複数エージェントが異なる環境で平行学習
各エージェントが経験を共有する
アドバンテージ関数で行動価値を直接評価