목록2024/04/04 (2)
버티의 블로그
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bttT7b/btsGn0Ll79f/6yIKB7O4sLG6Ynt7PMUsLK/img.png)
강화학습(Reinforcement Learning)은 agent가 environment와 상호작용하면서 학습하는 과정을 뜻한다.이 과정에서 agent는 어떤 state에서 어떤 action을 해야 최대의 reward를 갖는지를 학습한다.강화학습의 목표는 특정 환경 내에서 주어진 목표를 달성하기 위한 최적의 policy를 학습하는 것이다.Agent : 학습하는 주체, 어떤 action을 취할지 결정한다.Environment : agent를 제외한 모든 것으로, agent의 action에 맞게 state와 reward를 제공한다.State : environment의 현재 상황을 나타내는 정보, agent가 action을 결정하는데 사용한다.Action : agent가 취할 수 있는 모든 행동, action에..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/w549k/btsGkB6QgEt/aAIyKZn4k3c72SAzm4QFqK/img.png)
Process : 실행중인 프로그램을 가리키는 말, 반드시 순차적인 방식으로 진행된다. 하나의 프로그램은 여러 프로세스가 될 수도 있다. 위 그림의 stored-program concept를 따른다. Stack : 임시 데이터(지역변수, 파라메터, return주소)등을 저장 Heap : 동적으로 할당된 메모리를 저장 Data : 전역 변수와 static 변수를 저장 Text : Binary 형태로 프로그램 코드를 저장 CPU : 여러 레지스터로 구성되어 있으며, 명령어 처리를 담당한다. 모두 binary 데이터로 구성되어 있다. Program Counter : 다음 실행될 명령어의 주소를 저장 Instruction Register : 현재 실행중인 명령어의 주소를 저장 Process State New :..