昨日は、前方観測的見方と後方観測的見方が等価であることを示した。
今日は、Sarsa法に適格度トレースの考えを適用したSarsa()法について説明する。
Sarsa(
)法
といっても、もう準備は終わっていて、強化学習について学んでみた。(その25) - いものやま。で示した更新方法を使う。
もう一度書いておくと、適格度トレースを
TD誤差を
としたとき、
と更新する。
あとはSarsa法と同じことをやればいいだけ。
具体的なアルゴリズムは、以下のとおり:
を任意に初期化。
- 以下を繰り返す:
- すべての
、
について、
とする。
を初期化。
から導かれるソフト方策を用いて行動
を選択する。
- 各ステップについて、以下を繰り返す:
- 行動
を行い、報酬
と次状態
を観測する。
から導かれるソフト方策を用いて行動
を選択する。
- すべての
、
について:
、
とする。
が終端状態なら、繰り返しを終了。
- 行動
- すべての
Q(
)・・・?
ところで、Sarsa法はこれでいいとして、Q学習は?という話。
Q学習に適格度トレースの考えを適用したアルゴリズムとしては、2つの方法が提案されているらしく、それぞれ、WatkinsのQ()、PengのQ(
)と呼ばれているみたい。
ただ、WatkinsのQ()については、あまり適格度トレースの恩恵を受けること出来ないみたいで、学習速度はQ学習からあまり改善されないらしい。
一方、PengのQ()はSarsa(
)法と同程度の性能は出るものの、実装が複雑らしい。
なので、ここでは省略。
気になる人は、本を参照。
今日はここまで!
- 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
- 出版社/メーカー: 森北出版
- 発売日: 2000/12/01
- メディア: 単行本(ソフトカバー)
- 購入: 5人 クリック: 76回
- この商品を含むブログ (29件) を見る