'2024/06/05 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2024/06 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록2024/06/05 (1)

버티의 블로그

[강화학습 #07] SARSA and Q-Learning

이번 장에서는 TD를 사용하는 model-free control 중on-policy에서의 SARSA와 off-policy에서의 Q-Learning을 알아본다.SARSATD(0)에서 state value를 업데이트하는 식은 다음과 같았다.이를 action value function을 적용하여 표현하면 다음과 같을 것이다.기존 state value function을 사용했던 것과 다르게 action value function을 사용해서 state와 action의 pair을 통해 계산되는 것을 볼 수 있는데, 이를 SARSA라고 한다. SARSA는 현재 policy를 통해 얻어낸 A와 A'으로 바로 policy를 업데이트 하므로 on-policy 방식이라 할 수 있는 것이다. SARSA는 이전 장에서 언급한 ..

전공 공부/강화학습 2024. 6. 5. 00:51

이전 Prev 1 Next 다음

목록2024/06/05 (1)

버티의 블로그

티스토리툴바