목록2024/06/13 (1)
버티의 블로그
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/r3ywZ/btsHWCpFN31/2gUT9pAJESaDlTfpnvCcD0/img.png)
지금까지 본 강화학습은 모두 value-based로, value function값을 예측하고, greedy하게 policy를 선택했었다. 이러면 특정 state에 대한 optimal action이 하나로 결정되는 deterministic model을 생성하는데, 이는 가위바위보와 같이 랜덤하게 다양한 선택을 하는 것이 중요한 stochastic한 상황에서는 한계가 있다. 따라서 이젠 policy-based로 시도해보고자 한다. 8장에서 본 value function approximation과 비슷하게, policy-based에서는 policy 자체를 approximation한다. 7장에서는 w라는 파라메터를 사용하는 approximator였다면, 여기서는 θ를 사용한다.이 방식의 장단점은 다음과 같다.빠..
전공 공부/강화학습
2024. 6. 13. 00:14