0.はじめに
社内の有志で
の勉強会を始めました.この本は数学的な記法がしっかりしていて何冊か買ってみた中で一番読みやすいです.このブログでは,勉強会を通じて理解した数式のお気持ちや,大事そうな部分などをまとめていきます.今回は「Chapter4 モデルフリー型の強化学習」です.
- Chapter1 準備
- Chapter2 プランニング
- Chapter3 探索と活用のトレードオフ
- Chapter4 モデルフリー型の強化学習←Now
- Chapter6 関数近似を用いた強化学習
※本編のpdfは「強化学習 (機械学習プロフェッショナルシリーズ)」を読んだ私の解釈,追加説明です.本がなくてもわかるように書いたつもりですが,本を手元において読んでいただくと理解が深まると思います.
1.概要
逐次的意思決定問題において,環境(遷移確率と報酬関数)が未知である状況で最適関数を求めるのが強化学習である.本章では特に.環境を同定せずに最適方策を学習するモデルフリー型を扱う.
Chapter2 プランニングで,価値関数を求めることで自動的に最適方策が定常な決定方策として決まることを見た.そのため,「状態,行動,報酬」のサンプルから価値関数を推定し,動的計画法のアプローチを適用することが考えられる.
2. 難しいポイント
基本的にChapter2を理解していれば大したことはなく,「期待値→標本平均」の置き換えを繰り返すだけ.
3.本編
それでは本編に入っていきましょう.以下のpdfをご覧ください.