reinforcement learning 3

[RL] 3. Value Functions

3. Value Functions RL의 핵심은 agent가 어떤 MDP 문제를 해결하는데 가장 최적화된(i.e. return이 높은) policy를 찾는 것이다. 이를 위해서는 각각의 state에서 agent가 어떤 action을 선택할 수 있도록 수치화 된 기준을 제공할 필요가 있다. Value function은 agent가 처한 state, 혹은 해당 state에서 agent가 취한 action에 점수를 부여함으로써 action selection을 돕는다. 앞단원에서 잠시 등장했던 Q 또한 value function의 일종이다. State-value function $V_{\pi}(s)$ 어떤 action selection policy하에서 주어지는 state의 값을 의미한다. 이는 곧 agent가..

[RL] 1. Reinforcement Learning Overview & Terminology

1. Reinforcement Learning Overview & Terminology 뭘 배워도 뒤돌면 까먹는 30대 중반의 뇌를 가진 나. 최근에 학습한 Reinforcement Learning을 최대한 안까먹기 위해 복습 차원에서 이 글을 남긴다. 본 글의 내용은 도서 *'Reinforcement Learning (R. Sutton, A. Barto)'** 를 참고했습니다. 1.1 Overview Reinforcement Learning(강화학습): Agent가 인간의 지도 없이 스스로 Environment와 trial and error 방식으로 상호작용 함으로써 누적 reward 가 maximize 될 수 있도록 학습시키는 기법. 전통적으로 정의되어 온 Machine Learning..

[2020.06.20] 내 첫 Coursera Certificate 획득!

드디어 오늘 내 첫 Coursera Specialization을 획득했다! 과정은 내 논문분야가 될(수도 있는) 강화학습! 알파고에 활용된 기술이라 이전부터 관심이 많았었다. 대학원 입학 지원서에도 연구 관심분야라고 적었었다. 하지만 그때는 그 기술이 강화학습인줄은 모르고 그냥 머신러닝이라고만 알았었지만 말이다. 작년 NeurIPS에서 꽤 화제가 되었던 주제였어서 배워보고 싶었지만 우리 학교에선 마땅한 과목이 없어 들을수가 없었다. 다행히 Coursera에서 이론 및 실습을 할 수 있는 강좌가 있어서 시간가는줄 모르고 공부했다. 원래는 audit만 하고 끝내려 했지만 뭔가 욕심이 생겨서 본격적으로 시작했었는데 이렇게 certi까지 받으니 매우 뿌듯하다. 이 Specialization의 가장 큰 장점은 바..