『強化学習』(MLPシリーズ) 勉強会 ~Chapter 2 プランニング~

2021.05.11

0.はじめに

社内の有志で

の勉強会を始めました．この本は数学的な記法がしっかりしていて何冊か買ってみた中で一番読みやすいです．このブログでは，勉強会を通じて理解した数式のお気持ちや，大事そうな部分などをまとめていきます．今回は「Chapter2 プランニング」です．

※本編のpdfは「強化学習 (機械学習プロフェッショナルシリーズ)」を読んだ私の解釈，追加説明です．本がなくてもわかるように書いたつもりですが，本を手元において読んでいただくと理解が深まると思います．

逐次的意思決定問題のうち，環境(遷移確率と報酬関数)が既知である状況で最適関数を求めるのがプランニングである．

実は，マルコフ決定過程では最適方策は決定的な定常方策として常に存在し，プランニングでは動的計画法によってこの最適方策を解析的に導出することができる．このとても強い主張を証明するための主な道具がベルマン作用素である．

Chapter2はほとんどずっと難しいが，ここでの議論が全体的に効いてくるので匙は投げられない．ベルマン作用素の性質に関する命題については，お気持ちと証明をやや冗長に書いた．特に重要なのはp50命題2.4の「ベルマン方程式の解の一意性b」で，ここが最適方策の必要十分条件にダイレクトに効いてくる．

それでは本編に入っていきましょう．以下のpdfをご覧ください．

\ いいなと思ったらシェア /