3. Value Functions RL의 핵심은 agent가 어떤 MDP 문제를 해결하는데 가장 최적화된(i.e. return이 높은) policy를 찾는 것이다. 이를 위해서는 각각의 state에서 agent가 어떤 action을 선택할 수 있도록 수치화 된 기준을 제공할 필요가 있다. Value function은 agent가 처한 state, 혹은 해당 state에서 agent가 취한 action에 점수를 부여함으로써 action selection을 돕는다. 앞단원에서 잠시 등장했던 Q 또한 value function의 일종이다. State-value function $V_{\pi}(s)$ 어떤 action selection policy하에서 주어지는 state의 값을 의미한다. 이는 곧 agent가..