Markov Decision Process(MDP)에서 policy가 존재할 때 value function은 Bellman Equation으로 표현되며, 다음과 같이 두 가지가 있다.
The state-value function $\color{red}v_{\pi}(s)$ of an MDP is the expected return from state $s$, and then following policy $\pi$
$$\color{black}v_{\pi}(s) = \mathbb{E}_{\pi}[G_{t}\ |\ S_{t}=s]$$
The action-value function $\color{red}q_{\pi}(s,a)$ is the expected return starting from state $s$, taking action $a$, and then following policy $\pi$
$$\color{black}q_{\pi}(s,a) = \mathbb{E}_{\pi}[G_{t}\ |\ S_{t}=s, A_{t}=a]$$
$$(G_{t} = R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}\cdots)$$
이때 expection이 계산되기 위한 확률값이 무엇인지 궁금했었는데, StackExchange글에서 원하는 답변을 찾았고 정리하고자 한다.
$v_{\pi}(s) = \mathbb{E}_{\pi}[G_{t}\ |\ S_{t}=s]$가 계산되는 과정을 이해하기 위해서는 $S_{t}=s$에서 시작될 수 있는 trajectory에 대한 확률분포를 생각해봐야 하며, 이는 다음과 같다.
$$p(S_{T},R_{T},A_{T-1},S_{T-1},R_{T-1},\cdots,S_{t+1},R_{t+1},A_{t}|S_{t}=s )$$
즉 어떤 trajectory든 하나의 확률값으로 표현될 수 있다. 이를 chain rule과 Markov property로 분해하면 다음과 같이 이해할 수 있다.
$$\begin{array}{rcl}
& = & p(S_{T},R_{T}|A_{T-1},S_{T-1})\pi(A_{T-1}|S_{T-1})\cdot p(S_{T-1},R_{T-1}|A_{T-2},S_{T-2})\pi(A_{T-2}|S_{T-2}) \\
& & \cdots p(S_{t+1},R_{t+1}|A_{t},S_{t}=s)\pi(A_{t}|S_{t}=s)
\end{array}$$
즉, 이렇게 trajectory를 확률로 표현하면 $v_{\pi}(s) = \mathbb{E}_{\pi}[G_{t}\ |\ S_{t}=s]$를 계산할 수 있다.
(p.s. $G_{t}$에 대한 notation이 조금 다를 수 있는데 이는 reward를 받게 되는 시점을 어떻게 표현하느냐의 차이이다.)
[출처]
'Reinforcement Learning' 카테고리의 다른 글
[RL] Policy Gradient(REINFORCE) (0) | 2023.07.16 |
---|---|
[RL] Introduction to Multi-Armed Bandits (1) (0) | 2023.06.26 |
[RL] 7. Policy Gradient Methods (0) | 2023.05.04 |
[RL] 6. Value Function Approximation (0) | 2023.04.15 |
[RL] 5. Model-Free Control (2) | 2023.04.05 |