목록전공 공부/강화학습 (9)
버티의 블로그
지금까지 본 강화학습은 모두 value-based로, value function값을 예측하고, greedy하게 policy를 선택했었다. 이러면 특정 state에 대한 optimal action이 하나로 결정되는 deterministic model을 생성하는데, 이는 가위바위보와 같이 랜덤하게 다양한 선택을 하는 것이 중요한 stochastic한 상황에서는 한계가 있다. 따라서 이젠 policy-based로 시도해보고자 한다. 8장에서 본 value function approximation과 비슷하게, policy-based에서는 policy 자체를 approximation한다. 7장에서는 w라는 파라메터를 사용하는 approximator였다면, 여기서는 θ를 사용한다.이 방식의 장단점은 다음과 같다.빠..
앞장에서 본 SARSA와 Q-Learning는 Table로 만들어서 값을 기억하는 방법이라 할 수 있는데, 현실은 continuous state space이기에 state가 거의 무한대에 가까우므로 수용할 메모리도 부족하고 계산도 기하급수적으로 복잡해진다. 따라서 이제부터는 value function의 근사값을 사용하고자 한다. 그래서 이제는 w라는 새로운 변수로 value function 값을 함수화하는 것이다. 그림으로 다시 보면, w라는 파라메터로 조정되는 함수가 state나 action값을 받아 근사값을 출력해낸다. 그래서 앞으로는 학습을 통해 Q function을 업데이트 하는 것이 아닌 w를 업데이트를 하게 된다. 여기서 업데이트를 하는 방식은 Gradient Descent이다. Gradi..
이번 장에서는 TD를 사용하는 model-free control 중on-policy에서의 SARSA와 off-policy에서의 Q-Learning을 알아본다.SARSATD(0)에서 state value를 업데이트하는 식은 다음과 같았다.이를 action value function을 적용하여 표현하면 다음과 같을 것이다.기존 state value function을 사용했던 것과 다르게 action value function을 사용해서 state와 action의 pair을 통해 계산되는 것을 볼 수 있는데, 이를 SARSA라고 한다. SARSA는 현재 policy를 통해 얻어낸 A와 A'으로 바로 policy를 업데이트 하므로 on-policy 방식이라 할 수 있는 것이다. SARSA는 이전 장에서 언급한 ..
앞선 3장에서는 MDP 환경에서 policy를 evaluation하고 improvement하는 방법을 공부했는데, 이제 model-free 상황에서 어떻게 좋은 policy를 얻어낼 것인지를 살펴볼 것이다. 6장은 이를 위한 기초를 잡고 가는 단원이라 생각하면 된다.On and Off-Policy LearningOn-Policy : 현재의 policy로 샘플링을 하여 현재 policy를 개선해 나간다. 즉 에이전트가 행동을 선택하고 그 행동의 결과를 기반으로 policy를 업데이트 해간다.SARSAOff-Policy : 에이전트가 샘플링을 위한 정책(행동 정책)과 학습을 위한 정책(목표 정책)으로 나누어 policy를 개선한다. 행동 정책에서 더 다양한 탐험을 하여, 목표 정책에 가까워지게 하는 것이 목..
n-Step Prediction and Return 4장에서본 TD는 바로 다음 시점인 t+1에서의 reward와 state value만을 TD Target으로 설정해서 state value를 업데이트 했다. 사실 이 방식은 1 step마다 state value를 업데이트 하는 1-step TD방식이었고, 이 step을 n만큼 늘려 적용할 수 있는데 이를 n-step TD라고 한다. 예를 들어, 3-step TD는 3 step마다 업데이트를 진행하며, t+3까지의 상황을 고려한다. 만약 무한히 가는 n-step TD로 확장하면 MC와 거의 동일하게 된다. 따라서 n-step TD를 일반화 하면 위와 같이 MC의 식과 거의 유사해진다. 그래서 n-step TD에서는 적당한 n값을 설정해주는 것이 중요한데..
Model-Free Reinforcement Learning기존의 MDP는 모델 기반이라 환경에 적합한 모델을 정확히 알고 있어야 하는데, 이는 복잡한 환경에서는 현실적으로 어려울 수 있다. 따라서 환경에 대한 정보 없이도 학습이 가능한 Model-Free RL이 존재하는데, 이번 단원에서 Model-Free RL의 대표적인 방식인 MC와 TD를 알아볼 것이다. Monte-Carlo(MC) : 에피소드가 진행되는 동안 발생한 reward들을 Gt에 저장했다가 에피소드가 종료되면 Gt값으로 평균을 계산해서 한번에 V(s)를 업데이트한다. 그래서 에피소드가 종료 시점이 존재하는 완전한 에피소드에서만 사용 가능하다. 이로 인해 에피소드가 끝날때까지 기다려야 한다는 단점이 존재한다.N(St) : 방문한 stat..