목록2024/06/05 (1)
버티의 블로그
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/1nNHy/btsHOhsk0Ba/KtYtoDGBPYi4iId9iPSG3k/img.png)
이번 장에서는 TD를 사용하는 model-free control 중on-policy에서의 SARSA와 off-policy에서의 Q-Learning을 알아본다.SARSATD(0)에서 state value를 업데이트하는 식은 다음과 같았다.이를 action value function을 적용하여 표현하면 다음과 같을 것이다.기존 state value function을 사용했던 것과 다르게 action value function을 사용해서 state와 action의 pair을 통해 계산되는 것을 볼 수 있는데, 이를 SARSA라고 한다. SARSA는 현재 policy를 통해 얻어낸 A와 A'으로 바로 policy를 업데이트 하므로 on-policy 방식이라 할 수 있는 것이다. SARSA는 이전 장에서 언급한 ..
전공 공부/강화학습
2024. 6. 5. 00:51