목록2024/05/19 (3)
버티의 블로그
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bqVgEX/btsGn1KF2gF/22JOzlk5Jb3r2ZYOISaJC1/img.png)
Model-Free Reinforcement Learning기존의 MDP는 모델 기반이라 환경에 적합한 모델을 정확히 알고 있어야 하는데, 이는 복잡한 환경에서는 현실적으로 어려울 수 있다. 따라서 환경에 대한 정보 없이도 학습이 가능한 Model-Free RL이 존재하는데, 이번 단원에서 Model-Free RL의 대표적인 방식인 MC와 TD를 알아볼 것이다. Monte-Carlo(MC) : 에피소드가 진행되는 동안 발생한 reward들을 Gt에 저장했다가 에피소드가 종료되면 Gt값으로 평균을 계산해서 한번에 V(s)를 업데이트한다. 그래서 에피소드가 종료 시점이 존재하는 완전한 에피소드에서만 사용 가능하다. 이로 인해 에피소드가 끝날때까지 기다려야 한다는 단점이 존재한다.N(St) : 방문한 stat..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/kJtrv/btsHtiFMTX1/UTnB7Dr7W6hxEEJRhesXvk/img.png)
MDP에 대한 정보를 모두 알고 있을 때, 이들을 사용하여 policy를 개선하는 과정을 MDP Planning이라고 한다. 이러한 최적의 policy를 찾는 이유는 에이전트가 받게 되는 보상을 최대화하기 위함이다. 이 MDP Planning은 크게 Policy Iteration과 Value Iteration이 있다.Policy IterationPolicy Iteration은 크게 두 과정으로 나뉘고 이를 최적의 policy를 찾기 전까지 계속 반복하는 형태이다.Policy Evaluation : 정해진 Policy로 state value값들을 업데이트하는 단계Policy Improvement : 업데이트된 state value로 새로운 policy를 결정하는 단계1) Policy Evaluation초기..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/biK80E/btsHuQAQ3PS/Q02Kz9354WFtY1l64O8nNK/img.png)
Markov Decision Process기존 MRP는 상태 전이가 확률적으로만 결정됐지만, MDP는 에이전트가 행동을 선택하는 것을 추가하여 이에 따른 상태 변화와 보상이 달라지는 환경을 뜻한다. MDP는 아래 4가지 요소로 구성된다.S : 에이전트의 상태A : 에이전트가 취할 수 있는 모든 가능한 actionP : 특정 s에서 특정 a를 취했을 때 다음 s로 전이될 확률, P(s′∣s,a)가 이 의미이다.R : 특정 s에서 특정 a를 취했을 때 받는 보상, R(s,a,s′)로 표기한다. π : 에이전트가 행동을 결정하는 규칙으로, 상태 s에서 행동 a를 선택할 확률을 π(a∣s)로 나타낸다.Bellman Expectation Equation 1장에서 살펴본 state value function은 특정..