목록2024/06/04 (2)
버티의 블로그
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/ccFUVb/btsHMROBmng/0D6Kt1iG7TZ5KNzClrmBWK/img.png)
기존에는 프로세스 전체를 메모리에 load하고 빼는 Swapping이란 방식을 사용했다. 그러나 이 방법으로 하면 오랜 문맥 교환 시간이 소요될 뿐더러, 메모리 용량보다 더 큰 프로그램은 실행할 수 없었고 프로세스들의 버퍼는 OS 영역 안에 남아있다는 문제점이 존재했다. 또한 다음과 같은 I/O 문제도 있었다.Pending I/O : 대기 중인 I/O가 있을 경우에 swapping을 하면 잘못된 프로세스에 I/O가 전달될 수 있다.Double Buffering : Pending I/O를 해결하기 위함으로, 데이터를 커널 공간으로 한번 더 전송한 후 I/O 디바이스로 전송하는 방식인데, 이는 추가적인 오버헤드를 발생시킨다.따라서 아래의 virtual memory를 사용하게 되었다. Vitrual memor..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/daAo64/btsHL4tp54O/3cs8yzWGJEUGqQGFC21pG1/img.png)
앞선 3장에서는 MDP 환경에서 policy를 evaluation하고 improvement하는 방법을 공부했는데, 이제 model-free 상황에서 어떻게 좋은 policy를 얻어낼 것인지를 살펴볼 것이다. 6장은 이를 위한 기초를 잡고 가는 단원이라 생각하면 된다.On and Off-Policy LearningOn-Policy : 현재의 policy로 샘플링을 하여 현재 policy를 개선해 나간다. 즉 에이전트가 행동을 선택하고 그 행동의 결과를 기반으로 policy를 업데이트 해간다.SARSAOff-Policy : 에이전트가 샘플링을 위한 정책(행동 정책)과 학습을 위한 정책(목표 정책)으로 나누어 policy를 개선한다. 행동 정책에서 더 다양한 탐험을 하여, 목표 정책에 가까워지게 하는 것이 목..