強化学習におけるマルコフ決定過程 (MDP : Markov Decision Process)

メモ

マルコフ決定過程とは?

次の状態（正確には次の状態になる確率）は現在の状態と行動によってのみ決まる（過去の状態に依存しない）状態遷移モデル

環境の遷移確率と報酬関数を事前に知る必要がある。現実の問題ではこれらのモデルが未知であることが一般的な為。

例えば、Q学習 ( Q-Learning ) やSARSA

以上の内容はhttps://end0tknr.hateblo.jp/entry/20230607/1686130053より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14