버티의 블로그
[강화학습 #01] Reinforcement Learning Basic 본문
강화학습(Reinforcement Learning)은 agent가 environment와 상호작용하면서 학습하는 과정을 뜻한다.
이 과정에서 agent는 어떤 state에서 어떤 action을 해야 최대의 reward를 갖는지를 학습한다.
강화학습의 목표는 특정 환경 내에서 주어진 목표를 달성하기 위한 최적의 policy를 학습하는 것이다.
- Agent : 학습하는 주체, 어떤 action을 취할지 결정한다.
- Environment : agent를 제외한 모든 것으로, agent의 action에 맞게 state와 reward를 제공한다.
- State : environment의 현재 상황을 나타내는 정보, agent가 action을 결정하는데 사용한다.
- Action : agent가 취할 수 있는 모든 행동, action에 따라 environment에 영향을 미친다.
- Reward : agent의 action에 따라 environment가 제공하는 것, agent 학습의 기준이 된다.
- Policy : agent가 action을 결정하기 위한 일종의 기준 혹은 방법으로, Episode당 하나씩 존재한다.
- Episode : agent가 environment와 상호작용 하는 일련의 단계, 하나의 시퀀스를 의미한다.
Markov Process
현재 state가 오직 직전 state의 영향만 받는 성질을 Markov Property라고 하는데, 이러한 성질을 따르는 모델을 Markov Process 또는 Markov Chain Model이라고 한다. Markov Process는 state 전이가 확률적으로 발생하여 Conditional Probability Distribution이라 하기도 하며, 과거의 상태는 전혀 영향을 미치지 않기에 Memoryless하다고 볼 수 있다.
위 사진 예시는 코카콜라를 고른 사람이 90% 확률로 코카콜라를 다시 고르고, 10% 확률로 펩시를 고른다는 의미다.
Markov Reward Process (MRP)
Markov Process에 Reward 개념을 추가한 것으로, 각 state 전이에 따른 보상을 더해 고려한다.
- S : 모든 state의 집합
- P : state별 전이 확률을 모두 나타낸 행렬, P(s,s′)는 state s에서 state s'로 이동할 확률이다.
- R : state 전이에 따른 reward function, R(s,s')는 state s에서 state s'로 이동했을 때의 보상의 기대값이다.
- γ : discount factor, 0에 가까우면 agent가 즉각적인 보상만 고려하고, 1에 가까우면 장기적인 보상을 고려한다.
State Value Function
Policy π가 존재할 때, π에서의 각 state들의 가치를 평가하는 함수이다. 다시 말해, 특정 state에서 시작해서 해당 policy를 따랐을 때 agent가 기대할 수 있는 보상의 총합을 나타낸다. state value function으로 agent가 최적의 action을 결정하기 위해 어떤 state를 추구해야 하는지 이해하는데 도움을 준다.
- V(s) : 시간 t에서 state가 s이고, 여기서 시작해서 해당 policy를 따를 때의 기대하는 보상의 총합이다.
- G_t : 시간 t+1부터 취한 action으로 받은 보상들을 모두 더한 값이다.
- 'E'는 기대값(Expectation)을 계산한다는 의미이다.
→ E[X]는 확률변수 X의 가능한 모든 값 xi에 대해 xi가 발생할 확률 P(xi)를 곱한 값들의 합으로 정의
'AI > 강화학습' 카테고리의 다른 글
[강화학습 #06] Model-Free Control (0) | 2024.06.04 |
---|---|
[강화학습 #05] λ-returns on TD (0) | 2024.05.20 |
[강화학습 #04] Monte-Carlo and Temporal-Difference (0) | 2024.05.19 |
[강화학습 #03] MDP Planning (0) | 2024.05.19 |
[강화학습 #02] Markov Decision Process (0) | 2024.05.19 |