以下の内容はhttps://end0tknr.hateblo.jp/entry/20230607/1686130053より取得しました。


強化学習におけるマルコフ決定過程 (MDP : Markov Decision Process)

メモ

マルコフ決定過程とは?

次の状態(正確には次の状態になる確率)は現在の状態と行動によってのみ決まる(過去の状態に依存しない)状態遷移モデル

参考url https://qiita.com/pocokhc/items/953585fa60fa71651969

マルコフ決定過程の弱点

環境の遷移確率と報酬関数を事前に知る必要がある。 現実の問題ではこれらのモデルが未知であることが一般的な為。

マルコフ決定過程の弱点のない手法

例えば、Q学習 ( Q-Learning ) やSARSA




以上の内容はhttps://end0tknr.hateblo.jp/entry/20230607/1686130053より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14