목록전공 공부/강화학습 (9)
버티의 블로그
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/kJtrv/btsHtiFMTX1/UTnB7Dr7W6hxEEJRhesXvk/img.png)
MDP에 대한 정보를 모두 알고 있을 때, 이들을 사용하여 policy를 개선하는 과정을 MDP Planning이라고 한다. 이러한 최적의 policy를 찾는 이유는 에이전트가 받게 되는 보상을 최대화하기 위함이다. 이 MDP Planning은 크게 Policy Iteration과 Value Iteration이 있다.Policy IterationPolicy Iteration은 크게 두 과정으로 나뉘고 이를 최적의 policy를 찾기 전까지 계속 반복하는 형태이다.Policy Evaluation : 정해진 Policy로 state value값들을 업데이트하는 단계Policy Improvement : 업데이트된 state value로 새로운 policy를 결정하는 단계1) Policy Evaluation초기..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/biK80E/btsHuQAQ3PS/Q02Kz9354WFtY1l64O8nNK/img.png)
Markov Decision Process기존 MRP는 상태 전이가 확률적으로만 결정됐지만, MDP는 에이전트가 행동을 선택하는 것을 추가하여 이에 따른 상태 변화와 보상이 달라지는 환경을 뜻한다. MDP는 아래 4가지 요소로 구성된다.S : 에이전트의 상태A : 에이전트가 취할 수 있는 모든 가능한 actionP : 특정 s에서 특정 a를 취했을 때 다음 s로 전이될 확률, P(s′∣s,a)가 이 의미이다.R : 특정 s에서 특정 a를 취했을 때 받는 보상, R(s,a,s′)로 표기한다. π : 에이전트가 행동을 결정하는 규칙으로, 상태 s에서 행동 a를 선택할 확률을 π(a∣s)로 나타낸다.Bellman Expectation Equation 1장에서 살펴본 state value function은 특정..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bttT7b/btsGn0Ll79f/6yIKB7O4sLG6Ynt7PMUsLK/img.png)
강화학습(Reinforcement Learning)은 agent가 environment와 상호작용하면서 학습하는 과정을 뜻한다.이 과정에서 agent는 어떤 state에서 어떤 action을 해야 최대의 reward를 갖는지를 학습한다.강화학습의 목표는 특정 환경 내에서 주어진 목표를 달성하기 위한 최적의 policy를 학습하는 것이다.Agent : 학습하는 주체, 어떤 action을 취할지 결정한다.Environment : agent를 제외한 모든 것으로, agent의 action에 맞게 state와 reward를 제공한다.State : environment의 현재 상황을 나타내는 정보, agent가 action을 결정하는데 사용한다.Action : agent가 취할 수 있는 모든 행동, action에..