分布型強化学習

2021年06月26日

従来の強化学習では収益の期待値を推定していくが、分布型強化学習は収益の確率分布を推定する。（強化学習において収益(return)とは現在から将来にわたって受け取る報酬(reward)の合計のことである。）2017年のICMLではDeepMindから分布型強化学習のアルゴリズムであるC51が ... もっと読む

関数解析

2021年06月23日

関数解析は、微積分の線形代数化や無限次元の線形代数とも言われて機械学習にも応用される。関数解析では、関数を集合の要素とした関数空間を考える。まず基本となるものが線形空間（ベクトル空間）で、これは和とスカラー倍の演算が定義された集合である。線形空間にノルム ... もっと読む

ブラウン運動と確率微分方程式

2021年06月18日

確率過程は時間によって変化する確率変数であり、サンプルと時間の２つをパラメータとする関数である。確率過程では時間の経過と共に情報（生成される事象の数）は増大して、これをフィルトレーションと呼ぶ。確率過程において時間での増分が独立で平均が一定となるときに ... もっと読む

確率論とルベーグ積分

2021年06月18日

古典的確率論おいて確率は場合の数の割り算によって定義されていて、これは直感的で分かりやすい。しかし20世紀になるとコルモゴロフの公理的確率論によってより一般的に定義された。公理的確率論では、（標本空間、事象、確率測度）の組からなる確率空間を考える。確率は、 ... もっと読む

方策勾配による強化学習

2021年06月14日

強化学習の目的は最適な方策を求めることだが、そのために従来の方法ではまずベルマン方程式に基づいて最適価値関数を求めていた。（最適な価値関数が求まれば最適な方策も自動で求めることが出来る。）このような価値関数を推定していくアルゴリズムは価値ベースと呼ばれ、Q ... もっと読む

強化学習の考え方

2021年06月11日

強化学習が他の最適化手法と違うのは環境との相互作用を考えていることだ。エージェントはステップごとに状態による応答を受けて、とるべき行動を学習することが出来る。他の最適化では単純に方法を探索するのみで、環境と相互作用しない。前に強化学習の理論はマルコフ決定 ... もっと読む