분류 전체보기 56

(2022.05.22) 운동일지 - upper body & core

아직 코로나로 인한 잔기침이 남아있지만 오후가 되니 몸이 너무 찌뿌둥해져서 다시 운동을 해보기로 했다. 유튜브+애플피트니스로 가득채운 오늘의 운동 기록. Strength with Gregg (Ep16, 30mins): Upper body - back, biceps, shoulder, chest. 막판에 크런치+덤벨 push 하는 동작에서 자세가 좀 흐트러졌음. 전체적으로 난이도 적당. Core with Betina (Ep22, 20mins): 매트에서 대부분의 동작 소화. 부분부분 집중해서 하기보다는 코어 전체를 통으로 단련하는 느낌. 난이도 적당하고 재밌었음. Mindful cooldown with Molly (Ep9, 10mins): Upper body stretching. 어려운 동작 없고 사이드 ..

일상 2022.05.23

(2022.05.08) 코로나, 그 치열했던 일주일의 기록

나같은 집돌이한테도 코로나가 찾아왔다. 이제 캐나다는 마스크 제한이 모두 풀려있어서 가끔 학교나 헬스장에 오갈 때 마스크를 안끼고 다닌것이 문제였던 듯 하다. 내가 아무리 유행 쫓아가는걸 좋아한다고는 하지만 이런 트렌드는 좀 스킵하고 싶었는데... 혹시나 궁금해하는 사람들이 있을까봐 코로나 생존 수기를 건조하게나마 남겨본다. 2022.04.29 (Day 0) 오전 11시반쯤 점심을 먹으려는데 갑자기 열이나고 오한이 느껴졌다. 동시에 온몸의 관절들이 아프기 시작했다. 이때만 해도 그저 요 며칠 시험준비+프로젝트준비+운동 등등 너무 바쁘게 살다보니 몸살이 났는갑다 싶었다. 일찍 푹 자면 괜찮겠지 싶었다. 하지만 막상 눕고나니 열과 오한이 더 심해졌다. 한 이삼일 가겠네 싶었다. 2022.04.30 열+오한은..

(2022.03.20) 봄은 언제 오는가

어디에선가 읽은 것 같다. '학부생은 자기가 다 아는 것 같고, 석사생은 이제는 좀 알 것 같다고 느끼며, 박사생은 아무것도 모른다는 것을 깨닫는다'고. 정말 너무너무 공감된다. 새롭게 공부하고 있는 분야는 말할 것도 없고, 기존엔 그냥 주어진 것이라고 여겨졌던 것들의 근원을 파고들다보니 그동안 내 지적 기반이 너무나도 부족했음이 팍팍 느껴지는 요 몇달이다. 어디로 고개를 돌려도 온통 새로운 것(이자 해야할 것) 투성이이다보니 망망대해를 튜브 하나에 의지해 헤엄치는 기분이지만, 틈틈이 물장구도 치고 파도도 타보면서 공부의 즐거움과 피로함을 한껏 느끼고 있다. 공부도 공부이지만 제일 중요한 것은 역시나 건강이다. 출시하자마자 구매에 성공한 애플워치 덕분에 거의 몇달동안 꾸준히 운동도 하고있다. 홈트+달리기..

(2021.12.13) 한국 방문 (feat. 격리 날벼락)

치열했던 박사 첫학기가 마무리 되었다. 프로젝트도 잘 마무리 되었고, 이젠 마음놓고 휴식을 취할 시간이다. 12월의 SFU 캠퍼스는 정말 우울하다. 안그래도 회색빛 건물인데 겨울이라 비도 맨날 오고, 거기에 버나비 산 전체에 안개가 자욱하게 끼기라도 하면 정말 멘탈 약한사람은 우울증이 올 수도 있겠더라. 곧 크리스마스도 다가오는데 가족들도 만나고, 한국 친구들 얼굴도 한번 볼까 해서 한국으로 향하는 비행기표를 샀다. 난 이미 백신을 두번 맞았으므로, 격리면제서를 발급받으면 자가격리도 면제라길래 어렵사리 발급도 받았고, PCR test (코 쑤시는 그거)를 받지않으면 비행기를 못탄다 그래서 다운타운까지 가서 거금 $150을 내고 test도 받기로 했다. 그런데 웬걸? 12월 3일 이후 입국자들은 모두 10..

(2021.10.30) 석사 끝 + 박사과정 첫학기 근황

무사히 석사과정을 끝내고 박사과정 첫학기에 돌입했다. 그동안 정말 너무나도 많은 일이 있었는데, 그걸 여기 다 담을 수 있을지 모르겠다. 석사논문 defense, 성공적 내 석사논문 제목은 Q-learning with online trees 이다. Q-learning은 보통 DNN과 experience replay를 엮어서 Deep Q-network 라는 알고리즘으로 사용한다. Deepmind가 Atari를 깰 때 이 방법으로 했었다. 난 일개 석사생이었으므로 Deepmind 레벨의 뭔가를 하진 못하고... 대신 Q-learning과 online random forest + experience replay를 합쳐서 알고리즘을 만들어봤다. 석사과정 내내 관심이 많이 갔던 강화학습이지만, 막상 내 논문주제가..

(2021.08.02) 석사과정의 막바지를 바라보며

석사과정 마무리를 앞두고 든 잡다한 생각들. 이제 석사논문 발표가 2주도 안남았다. 논문은 이미 committee에 제출했고, 요즘엔 defence를 준비하는 중이다. 요 며칠 캐나다 서부가 폭염 및 산불에 시달려서 참 쉽지 않은 나날을 보냈다. 에어컨이 익숙하지 않은 동네다 보니 낮기온 42도, 밤기온 30도를 웃도는 더위를 그대로 견뎌내야 했다. 내년에도 이러면 정말 곤란하다ㅠㅠ 그럼에도 불구하고 defence준비는 잘 되어가고 있다. 이게 다 지도교수님이 많이 도와주신 덕분이다. co-op도 이제 약 한달밖에 남지 않았다. 프로젝트 하나정도 하기 충분한 시간이다. 거의 8개월을 몸담은 회사인데, 막상 팀원들 얼굴을 face-to-face로 본적은 단 한번도 없다는 점이 좀 아쉽다. 캐나다에서의 첫 ..

(2021.05.12) 캐나다 석사 마지막 학기를 맞이하며

내 인생을 송두리째 바꿔버린 결정을 내리고 캐나다에서 공부를 시작한지도 이제 거의 2년이 다 되어간다. 원래는 블로그에 강화학습관련 글을 이것저것 올릴 예정이었으나, 인턴쉽과 졸업논문 작업을 동시에 하게 되면서 도무지 시간이 나지 않아 거의 방치중이다. 몇 안되는 구독 이웃들에게 매우 죄송한 마음이다. 잠시 짬이 난 관계로 그동안 있었던 일들을 간단히 적어보려 한다. 석사논문 defence는 8월 중순쯤 있을 예정이다. 작년 중순만 해도 졸업논문 주제가 도무지 떠오르지 않아 마음이 불편했는데... 역시 할려면 다 하게 되어있나보다. 아! 중요한 뉴스가 있다. 석사를 졸업하면 SFU에서 박사과정도 밟을 예정이다. 박사를 하느냐 마느냐를 가지고 엄청 고민했는데, 결국엔 '후회하지 않는 삶을 살기'위해 박사를..

[RL] 3. Value Functions

3. Value Functions RL의 핵심은 agent가 어떤 MDP 문제를 해결하는데 가장 최적화된(i.e. return이 높은) policy를 찾는 것이다. 이를 위해서는 각각의 state에서 agent가 어떤 action을 선택할 수 있도록 수치화 된 기준을 제공할 필요가 있다. Value function은 agent가 처한 state, 혹은 해당 state에서 agent가 취한 action에 점수를 부여함으로써 action selection을 돕는다. 앞단원에서 잠시 등장했던 Q 또한 value function의 일종이다. State-value function $V_{\pi}(s)$ 어떤 action selection policy하에서 주어지는 state의 값을 의미한다. 이는 곧 agent가..

[RL] 2. Multi-Armed Bandits Problem

2. Multi-Armed Bandits Problem 처음에 들었을 때 bandits라고 해서 '도둑이라는 뜻 말고 다른게 있나?'하며 의아해 했던 기억이 있다. 알고보니 여기서 bandit은 슬롯머신을 말하는 것이었다. 즉, 여러개의 레버가 달린 슬롯머신을 떠올리면 될 것 같다. 여기서 문제는 슬롯머신에 달린 여러개의 레버 중에 어떤것을 당기는 것이 수익률이 가장 높을 것인가 하는 것이다. 이를 RL의 문제로 다시 풀어내면, 어떤 시점 t에 k 개의 action 중 하나를 선택할 수 있다. action을 선택하면 그에따른 reward를 받는다. Agent의 목표는 정해진 시간동안 받는 total reward를 maximize 하는 것이다. 일단 모든 레버를 당기기 전에는 어떤 레버가 얼..

[RL] 1. Reinforcement Learning Overview & Terminology

1. Reinforcement Learning Overview & Terminology 뭘 배워도 뒤돌면 까먹는 30대 중반의 뇌를 가진 나. 최근에 학습한 Reinforcement Learning을 최대한 안까먹기 위해 복습 차원에서 이 글을 남긴다. 본 글의 내용은 도서 *'Reinforcement Learning (R. Sutton, A. Barto)'** 를 참고했습니다. 1.1 Overview Reinforcement Learning(강화학습): Agent가 인간의 지도 없이 스스로 Environment와 trial and error 방식으로 상호작용 함으로써 누적 reward 가 maximize 될 수 있도록 학습시키는 기법. 전통적으로 정의되어 온 Machine Learning..