Policy Gradient 개념과 대표적인 알고리즘인 REINFORCE 내용을 정리하고자 한다. 1. 개념 (1) Monte Carlo methods Monte Carlo methods are a group of methods that samples randomly from a distribution to eventually localize to some solution. In the context of RL, we use monte carlo methods to estimate the reward by averaging the rewards over many episodes of interaction with the environment. (출처) (2) Policy Gradient methods P..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 0. Introduction RL은 아래와 같이 굉장히 큰 크기의 문제들을 풀 수 있다. Backgammon: $10^{20}$ states Computer Go: $10^{170}$ states Helicopter: continuous state space 5장에서 배웠던 model-free 환경에서의 prediction, control 문제들에 대해 scale up 할 수 있는 방법을 이번 장에서 배울 것이다. *So far we, we have represented valu function by a lookup table. Every state $s$ has an entry $V(s)$ Or every state-action pa..