能動的推論で強化学習問題を解く

2022年12月27日

能動的推論（自由エネルギー最小化）は、表形式の単純なタスクでのモデルとして当てはめられることが多かった。しかし本来はもっと複雑なモデリングも出来ると思われる。以下の論文では実際の強化学習のタスクを解いている。論文：Deep active inference as variational poli ... もっと読む

分布型強化学習

2021年06月26日

従来の強化学習では収益の期待値を推定していくが、分布型強化学習は収益の確率分布を推定する。（強化学習において収益(return)とは現在から将来にわたって受け取る報酬(reward)の合計のことである。）2017年のICMLではDeepMindから分布型強化学習のアルゴリズムであるC51が ... もっと読む

方策勾配による強化学習

2021年06月14日

強化学習の目的は最適な方策を求めることだが、そのために従来の方法ではまずベルマン方程式に基づいて最適価値関数を求めていた。（最適な価値関数が求まれば最適な方策も自動で求めることが出来る。）このような価値関数を推定していくアルゴリズムは価値ベースと呼ばれ、Q ... もっと読む

強化学習の考え方

2021年06月11日

強化学習が他の最適化手法と違うのは環境との相互作用を考えていることだ。エージェントはステップごとに状態による応答を受けて、とるべき行動を学習することが出来る。他の最適化では単純に方法を探索するのみで、環境と相互作用しない。前に強化学習の理論はマルコフ決定 ... もっと読む

World Models

2021年04月12日

World Modelsは2018年に発表された生成モデルで、強化学習の環境を生成する。論文：https://arxiv.org/abs/1803.10122 論文ではVAEによって画像を潜在変数に圧縮し、行動と合わせてLSTMに入力することで未来予測を行う。これによって環境を生成する内部モデルであるWorld ... もっと読む

NeuroLabとPyBrain

2020年10月11日

これも少し古いパッケージだが、Neurolabというパッケージを見つけた。Deep Learning以前のニューラルネットワークを試すことが出来るようだ。https://github.com/zueve/neurolab似たようなパッケージとしてPyBrainというパッケージも見つけた。これは強化学習も実装できるよ ... もっと読む

逆強化学習

2020年07月17日

逆強化学習(Inverse Reinforcement Learning)という手法を最近聞くようになった。https://www.slideshare.net/EijiUchibe/ss-175448283強化学習は環境の報酬から最適な行動を求める手法だが、逆強化学習は熟練者の行動から環境の報酬を推定するものらしい。実際に強化学習の ... もっと読む