목록2024/06/06 (2)
버티의 블로그
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/mh0sS/btsHRmTtX52/zSD2iZTMyggJa8YZ6IADBK/img.png)
앞장에서 본 SARSA와 Q-Learning는 Table로 만들어서 값을 기억하는 방법이라 할 수 있는데, 현실은 continuous state space이기에 state가 거의 무한대에 가까우므로 수용할 메모리도 부족하고 계산도 기하급수적으로 복잡해진다. 따라서 이제부터는 value function의 근사값을 사용하고자 한다. 그래서 이제는 w라는 새로운 변수로 value function 값을 함수화하는 것이다. 그림으로 다시 보면, w라는 파라메터로 조정되는 함수가 state나 action값을 받아 근사값을 출력해낸다. 그래서 앞으로는 학습을 통해 Q function을 업데이트 하는 것이 아닌 w를 업데이트를 하게 된다. 여기서 업데이트를 하는 방식은 Gradient Descent이다. Gradi..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cBewXA/btsHQBQ9KpY/VqVQoB4LKJeEtAsG0efkUK/img.png)
Page Replacement AlgorithmOptimal Algorithm사실 페이지 교체 시 가장 이상적인 알고리즘은, 미래에 사용될 페이지 중 가장 적게 사용할 페이지를 교체해주는 것이다. 위에서도 frame이 7, 0, 1까지 채워진 상황에서 미래시를 보면 7을 가장 나중에 사용하기에 7을 2로 교체해준 것을 볼 수 있다. 그러나 당연히도 이 방법은 미래를 알 수 없기에, 이 알고리즘과 가장 비슷한 성능이 나오는 알고리즘을 찾고자 한다.FIFO Algorithm 기존의 FIFO와 동일한 개념으로, 가장 처음 들어온 페이지를 교체해준다. 언제나 단순한 방법이지만 그다지 좋은 성능을 보이지 못하며, 아래와 같이 특정 frame 수에서 오히려 page fault수가 늘어나는 Belady's Anoma..