Policy Gradient 개념과 대표적인 알고리즘인 REINFORCE 내용을 정리하고자 한다. 1. 개념 (1) Monte Carlo methods Monte Carlo methods are a group of methods that samples randomly from a distribution to eventually localize to some solution. In the context of RL, we use monte carlo methods to estimate the reward by averaging the rewards over many episodes of interaction with the environment. (출처) (2) Policy Gradient methods P..
Markov Decision Process(MDP)에서 policy가 존재할 때 value function은 Bellman Equation으로 표현되며, 다음과 같이 두 가지가 있다. The state-value function $\color{red}v_{\pi}(s)$ of an MDP is the expected return from state $s$, and then following policy $\pi$ $$\color{black}v_{\pi}(s) = \mathbb{E}_{\pi}[G_{t}\ |\ S_{t}=s]$$ The action-value function $\color{red}q_{\pi}(s,a)$ is the expected return starting from state $s$,..
Reinforcement Learning 관련 내용 중 하나인 Multi-Armed Bandits(MAB)에 대한 내용을 정리하고자 한다(논문링크). The Multi-Armed Bandit problem (MAB) is a toy problem that models sequential decision tasks where the learner must simultaneously exploit their knowledge and explore unknown actions to gain knowledge for the future (exploration-exploitation tradeoff)(출처). 0. Introduction: Scope and Motivation 1) Example Multi-arm..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 0. Introduction In the last lecture we approximated the value or action-value function using parameter $\theta$. Then policy was generated directly from the value function(e.g. $\epsilon$-greedy) $$\begin{array}{rcl} V_{\theta} & \approx &V^{\pi}(s) \\ Q_{\theta}(s,a) & \approx & Q^{\pi}(s,a) \end{array}$$ In this lecture we will directly parametrize the po..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 0. Introduction RL은 아래와 같이 굉장히 큰 크기의 문제들을 풀 수 있다. Backgammon: $10^{20}$ states Computer Go: $10^{170}$ states Helicopter: continuous state space 5장에서 배웠던 model-free 환경에서의 prediction, control 문제들에 대해 scale up 할 수 있는 방법을 이번 장에서 배울 것이다. *So far we, we have represented valu function by a lookup table. Every state $s$ has an entry $V(s)$ Or every state-action pa..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 현재 배우고 있는 내용의 흐름은 다음과 같다. 4장 Model-Free prediction: Estimate the value of an unknown MDP(Policy Evaluation) 5장 Model-Free control: Optimize the value function of an unkown MDP(환경이 주어지지 않았을 때 어떻게 reward를 최대로 하는 방향으로 모델을 학습시킬 것인가) MDP로 모델링 될 수 있는 문제들은 Elevator, Robocup Soccer, Ship Steering, Helicoper, Game of Go, Robot walking, Protein Folding등으로 다양하다. 이 문제들..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 현재 배우고 있는 내용의 흐름은 다음과 같다. 3장 Planning by DP: known MDP를 푸는 방법(find optimal behavior of MDP that maximizes the amount of rewards agent can expect to get from any state of environment) 4장 Model-Free prediction: Estimate the value of an unknown MDP(Policy Evaluation) 5장 Model-Free control: Optimize the value function of an unkown MDP 1. Monte-Carlo Reinforceme..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 3강은 MDP 문제를 푸는 방법에 대한 내용이다. 1. Dynamic Programming MDP 문제는 대부분 Dynamic Programming을 통해 풀 수 있다. DP는 복잡한 문제를 subproblem으로 나눠서 푸는 방식이다. DP는 다음과 같은 두 특성을 가지고 있다. Optimal substructure: Optimal solution can be decomposed into subproblems(Principle of optimality가 적용됨) Overlapping subproblems: Subproblems recur many time and solutions can be cached and reused MDP는 ..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 1. Introduction Morkov Decision Process는 environment가 fully observable한 세팅을 의미한다. In mathematics, a Markov decision process (MDP) is a discrete-time stochastic control process. It provides a mathematical framework for modeling decision making in situations where outcomes are partly random and partly under the control of a decision maker. MDPs are useful for..
David Silver 교수님의 강의 내용을 정리하고자 한다(링크). 1. Introduction 강화학습은 다음과 같은 특징이 있다. Supervisor가 없고 오직 reward signal만 있음 Feedback은 즉시 올 수도 있지만 지연될 수도 있음 시간을 고려해야 함(sequential, non i.i.d data) Agent의 action이 이후 데이터들에 영향을 줌 2. RL 문제 정의 1) Reward Reward($R_{t}$)는 $t$ 시점에서 agent가 얼마나 잘하고 있는지에 대한 scalar feedback signal이며, 강화학습은 아래와 같은 reward hypothesis를 기반으로 한다. Reward Hypothesis All goals can be described by..