0.はじめに

社内の有志で

の勉強会を始めました.この本は数学的な記法がしっかりしていて何冊か買ってみた中で一番読みやすいです.このブログでは,勉強会を通じて理解した数式のお気持ちや,大事そうな部分などをまとめていきます.今回は「Chapter6 関数近似を用いた強化学習」です.

  1. Chapter1 準備
  2. Chapter2 プランニング
  3. Chapter3 探索と活用のトレードオフ
  4. Chapter4 モデルフリー型の強化学習
  5. Chapter6 関数近似を用いた強化学習←Now

※本編のpdfは「強化学習 (機械学習プロフェッショナルシリーズ)」を読んだ私の解釈,追加説明です.本がなくてもわかるように書いたつもりですが,本を手元において読んでいただくと理解が深まると思います.

1.概要

ここまでは,任意の状態行動対に対して価値関数を推定することで学習を行なってきたが,状態行動空間が膨大な場合はこれが難しい.そこで価値関数をパラメトライズして関数近似を行う.
6章が本書のクライマックスだと考える.強化学習系の論文の多くで前提とされている方策勾配定理などを取り扱うからだ.この章が理解できれば読める論文もいくつか出てくるのではないかと思う.方策勾配定理,アクタークリティック方策勾配法をきちんとわかるためには,近似TD法の部分を深く読むのが良い.

2.難しいポイント

方策勾配定理は初見では「なんだこのlogは!?」と思うかもしれないが,よく見ると非常に直感的である.pdfのp17下から3式目にある通り,「任意の関数は微分するとlogで表すことができる」からだ.

3.本編

それでは本編に入っていきましょう.以下のpdfをご覧ください.

強化学習 第6章「関数近似を用いた強化学習」