캐나다 대학원 32

(2021.08.02) 석사과정의 막바지를 바라보며

석사과정 마무리를 앞두고 든 잡다한 생각들. 이제 석사논문 발표가 2주도 안남았다. 논문은 이미 committee에 제출했고, 요즘엔 defence를 준비하는 중이다. 요 며칠 캐나다 서부가 폭염 및 산불에 시달려서 참 쉽지 않은 나날을 보냈다. 에어컨이 익숙하지 않은 동네다 보니 낮기온 42도, 밤기온 30도를 웃도는 더위를 그대로 견뎌내야 했다. 내년에도 이러면 정말 곤란하다ㅠㅠ 그럼에도 불구하고 defence준비는 잘 되어가고 있다. 이게 다 지도교수님이 많이 도와주신 덕분이다. co-op도 이제 약 한달밖에 남지 않았다. 프로젝트 하나정도 하기 충분한 시간이다. 거의 8개월을 몸담은 회사인데, 막상 팀원들 얼굴을 face-to-face로 본적은 단 한번도 없다는 점이 좀 아쉽다. 캐나다에서의 첫 ..

(2021.05.12) 캐나다 석사 마지막 학기를 맞이하며

내 인생을 송두리째 바꿔버린 결정을 내리고 캐나다에서 공부를 시작한지도 이제 거의 2년이 다 되어간다. 원래는 블로그에 강화학습관련 글을 이것저것 올릴 예정이었으나, 인턴쉽과 졸업논문 작업을 동시에 하게 되면서 도무지 시간이 나지 않아 거의 방치중이다. 몇 안되는 구독 이웃들에게 매우 죄송한 마음이다. 잠시 짬이 난 관계로 그동안 있었던 일들을 간단히 적어보려 한다. 석사논문 defence는 8월 중순쯤 있을 예정이다. 작년 중순만 해도 졸업논문 주제가 도무지 떠오르지 않아 마음이 불편했는데... 역시 할려면 다 하게 되어있나보다. 아! 중요한 뉴스가 있다. 석사를 졸업하면 SFU에서 박사과정도 밟을 예정이다. 박사를 하느냐 마느냐를 가지고 엄청 고민했는데, 결국엔 '후회하지 않는 삶을 살기'위해 박사를..

[RL] 3. Value Functions

3. Value Functions RL의 핵심은 agent가 어떤 MDP 문제를 해결하는데 가장 최적화된(i.e. return이 높은) policy를 찾는 것이다. 이를 위해서는 각각의 state에서 agent가 어떤 action을 선택할 수 있도록 수치화 된 기준을 제공할 필요가 있다. Value function은 agent가 처한 state, 혹은 해당 state에서 agent가 취한 action에 점수를 부여함으로써 action selection을 돕는다. 앞단원에서 잠시 등장했던 Q 또한 value function의 일종이다. State-value function $V_{\pi}(s)$ 어떤 action selection policy하에서 주어지는 state의 값을 의미한다. 이는 곧 agent가..

[RL] 2. Multi-Armed Bandits Problem

2. Multi-Armed Bandits Problem 처음에 들었을 때 bandits라고 해서 '도둑이라는 뜻 말고 다른게 있나?'하며 의아해 했던 기억이 있다. 알고보니 여기서 bandit은 슬롯머신을 말하는 것이었다. 즉, 여러개의 레버가 달린 슬롯머신을 떠올리면 될 것 같다. 여기서 문제는 슬롯머신에 달린 여러개의 레버 중에 어떤것을 당기는 것이 수익률이 가장 높을 것인가 하는 것이다. 이를 RL의 문제로 다시 풀어내면, 어떤 시점 t에 k 개의 action 중 하나를 선택할 수 있다. action을 선택하면 그에따른 reward를 받는다. Agent의 목표는 정해진 시간동안 받는 total reward를 maximize 하는 것이다. 일단 모든 레버를 당기기 전에는 어떤 레버가 얼..

[RL] 1. Reinforcement Learning Overview & Terminology

1. Reinforcement Learning Overview & Terminology 뭘 배워도 뒤돌면 까먹는 30대 중반의 뇌를 가진 나. 최근에 학습한 Reinforcement Learning을 최대한 안까먹기 위해 복습 차원에서 이 글을 남긴다. 본 글의 내용은 도서 *'Reinforcement Learning (R. Sutton, A. Barto)'** 를 참고했습니다. 1.1 Overview Reinforcement Learning(강화학습): Agent가 인간의 지도 없이 스스로 Environment와 trial and error 방식으로 상호작용 함으로써 누적 reward 가 maximize 될 수 있도록 학습시키는 기법. 전통적으로 정의되어 온 Machine Learning..

VSCode + WSL+ Python 환경을 세팅하다 (부제: 개삽질)

발단 요즘 강화학습을 공부하느라 python으로 OpenAI의 gym 패키지를 이용해서 실습해보고 있었다. 그런데 Atari의 Pong 게임에 Deep Q-Network를 적용해보려고 했는데 gym이 제대로 import 되지 않는 것이었다. 알아보니 atari 모듈이 (공식적으로는) 윈도우에선 제대로 지원이 안되는 것이었다! 억지로라도 윈도우에서 쓰려면 다른사람이 customize한 atari 모듈을 설치하고, Visual Studio에서 약 4GB에 육박하는 c/c++관련 뭐시기를 깔아야 하고 등등... 뭔가 매우 귀찮아보였다. 그렇다고 멀쩡한 윈도우 노트북을 놔두고 맥을 살수도 없는 노릇. 결국 Windows Subsystem for Linux(이하 WSL)을 설치해서 써보기로 했다. 이를 위해 Li..

[2020.06.20] 내 첫 Coursera Certificate 획득!

드디어 오늘 내 첫 Coursera Specialization을 획득했다! 과정은 내 논문분야가 될(수도 있는) 강화학습! 알파고에 활용된 기술이라 이전부터 관심이 많았었다. 대학원 입학 지원서에도 연구 관심분야라고 적었었다. 하지만 그때는 그 기술이 강화학습인줄은 모르고 그냥 머신러닝이라고만 알았었지만 말이다. 작년 NeurIPS에서 꽤 화제가 되었던 주제였어서 배워보고 싶었지만 우리 학교에선 마땅한 과목이 없어 들을수가 없었다. 다행히 Coursera에서 이론 및 실습을 할 수 있는 강좌가 있어서 시간가는줄 모르고 공부했다. 원래는 audit만 하고 끝내려 했지만 뭔가 욕심이 생겨서 본격적으로 시작했었는데 이렇게 certi까지 받으니 매우 뿌듯하다. 이 Specialization의 가장 큰 장점은 바..

[캐나다 대학원] 나도 졸업논문작업 하고싶다

캐나다에서 석사공부를 시작한지도 이제 두학기가 지났다. 이제 슬슬 졸업논문 주제를 잡아야 할 때가 온 것 같기도 하다. 하지만 난 아직 뚜렷하게 연구하고싶은 주제가 없다. 많이들 '그냥 교수님이 주는거 하면 되는거 아니야?' 그러는데, 우리 교수님은 딱 '요거 해라'라며 주진 않더라. 그냥 '이쪽으로 한번 생각해봐라' 라며 큰 주제정도 제시해주시는 편. 들어보니 서양에서는 보통 이런다네? 그에반해 같은 과 친구는 자기네 지도교수님이 아예 학위과정 시작부터 뭐부터 해야하고 어떤 논문을 읽어야 하는지 리스트를 만들어서 줬다고 하더라. 뭐 그런방법이 딱 최고의 방법이라고 생각하진 않는다. 내 지도교수님은 학생의 자율성을 최대한 존중해주는 편이고, 다른 교수님은 그 학생이 어느부분을 연구했으면 좋겠다 하는 확고..

[캐나다 대학원] COVID19 사태가 대학원 생활에 미치는 영향

현재 상태 (16.May.2020 기준) BC주 학교는 아직까지 모두 폐쇄 상태. 수업과 미팅 등등 교내활동에 대한 모든 것들은 온라인으로 진행중. 교내 편의시설들(헬스장 등) 모두 폐쇄. Physical distancing을 준수하자는 포스터가 곳곳에 부착되어있음. 도시 내 생필품을 파는 마트들을 제외한 모든 가게들도 폐쇄. 식당들도 takeout외에는 운영하지 않음. 이제 조금씩 lockdown level을 완화할거라고 함. 내 생활에 미친 영향 머리 못자른지 세달 다되감. 긴머리 적응중. 지도교수님이 COVID19 관련 연구를 따내서 주중엔 풀타임으로 그거 도와주고있음. 내 졸업논문 주제도 이쪽으로 한번 고려해보라고 하심. 하지만 난 그쪽엔 그닥 관심없음... 틈틈히 내가 흥미있는 주제 따로 공부중..

[2019.10.30] 시간을 관리하며 산다는 것

# 왜 항상 시간이 부족할까? 요즘 부쩍 시간이 많이 부족하다고 느낀다. 몇달전만 해도 하루가 한달같이 길게 느껴지던 때가 종종 있었음을 생각하면 정말 큰 변화다. 대학원생의 삶이 원래 이런 것인지, 아니면 나만 이런 것인지 고민하게 된다. 내 일상을 차지하는 것들은 다음과 같다. 수업 수업내용 복습 조교활동 과제 연구관련 활동 (전공책 읽기, 논문 읽기, 연구실 미팅) 운동 식사 집안일 (청소, 빨래 등) 영어공부 인턴쉽 준비 자유시간 언뜻 보면 그리 많아보이진 않지만, 저 중 하루에 소화해야 하는게 대여섯개정도 되면 시간관리가 매우 힘들어진다. 대학원생이 되니 과제의 난이도도 너무나 높아지고, 특히 레포트 쓰기 같은건 현지애들은 서너시간이면 뚝딱 할 것을 영어가 부족한 나는 대여섯시간은 족히 걸리니 ..