reinforcement learning

Reinforcement Learning

[RL] 7. Policy Gradient Methods

David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 0. Introduction In the last lecture we approximated the value or action-value function using parameter $\theta$. Then policy was generated directly from the value function(e.g. $\epsilon$-greedy) $$\begin{array}{rcl} V_{\theta} & \approx &V^{\pi}(s) \\ Q_{\theta}(s,a) & \approx & Q^{\pi}(s,a) \end{array}$$ In this lecture we will directly parametrize the po..

Reinforcement Learning

[RL] 5. Model-Free Control

David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 현재 배우고 있는 내용의 흐름은 다음과 같다. 4장 Model-Free prediction: Estimate the value of an unknown MDP(Policy Evaluation) 5장 Model-Free control: Optimize the value function of an unkown MDP(환경이 주어지지 않았을 때 어떻게 reward를 최대로 하는 방향으로 모델을 학습시킬 것인가) MDP로 모델링 될 수 있는 문제들은 Elevator, Robocup Soccer, Ship Steering, Helicoper, Game of Go, Robot walking, Protein Folding등으로 다양하다. 이 문제들..

Reinforcement Learning

[RL] 4. Model-Free Prediction

David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 현재 배우고 있는 내용의 흐름은 다음과 같다. 3장 Planning by DP: known MDP를 푸는 방법(find optimal behavior of MDP that maximizes the amount of rewards agent can expect to get from any state of environment) 4장 Model-Free prediction: Estimate the value of an unknown MDP(Policy Evaluation) 5장 Model-Free control: Optimize the value function of an unkown MDP 1. Monte-Carlo Reinforceme..

Fine애플
'reinforcement learning' 태그의 글 목록