'2024/06/04 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2024/06 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

목록2024/06/04 (2)

버티의 블로그

[운영체제 #14] Virtual Memory

기존에는 프로세스 전체를 메모리에 load하고 빼는 Swapping이란 방식을 사용했다. 그러나 이 방법으로 하면 오랜 문맥 교환 시간이 소요될 뿐더러, 메모리 용량보다 더 큰 프로그램은 실행할 수 없었고 프로세스들의 버퍼는 OS 영역 안에 남아있다는 문제점이 존재했다. 또한 다음과 같은 I/O 문제도 있었다.Pending I/O : 대기 중인 I/O가 있을 경우에 swapping을 하면 잘못된 프로세스에 I/O가 전달될 수 있다.Double Buffering : Pending I/O를 해결하기 위함으로, 데이터를 커널 공간으로 한번 더 전송한 후 I/O 디바이스로 전송하는 방식인데, 이는 추가적인 오버헤드를 발생시킨다.따라서 아래의 virtual memory를 사용하게 되었다. Vitrual memor..

전공 공부/운영체제 2024. 6. 4. 22:54

[강화학습 #06] Model-Free Control

앞선 3장에서는 MDP 환경에서 policy를 evaluation하고 improvement하는 방법을 공부했는데, 이제 model-free 상황에서 어떻게 좋은 policy를 얻어낼 것인지를 살펴볼 것이다. 6장은 이를 위한 기초를 잡고 가는 단원이라 생각하면 된다.On and Off-Policy LearningOn-Policy : 현재의 policy로 샘플링을 하여 현재 policy를 개선해 나간다. 즉 에이전트가 행동을 선택하고 그 행동의 결과를 기반으로 policy를 업데이트 해간다.SARSAOff-Policy : 에이전트가 샘플링을 위한 정책(행동 정책)과 학습을 위한 정책(목표 정책)으로 나누어 policy를 개선한다. 행동 정책에서 더 다양한 탐험을 하여, 목표 정책에 가까워지게 하는 것이 목..

전공 공부/강화학습 2024. 6. 4. 00:32

이전 Prev 1 Next 다음

목록2024/06/04 (2)

버티의 블로그

티스토리툴바