강화학습1 로봇 기술 탐구: 로봇의 뇌(인공지능) 어디까지 왔나? - 3 (강화학습) 강화학습은 보상과 패널티로 최적의 행동을 유도하는 학습방법 강화학습은 현재의 상태(State)에서 어떤 행동(Action)을 취하는 것이 최적인지를 인공지능이 보상을 통해 학습하는 것을 말한다. AI 는 올바른 행동을 취할 때마다 외부 환경에서 보상(Reward)을 받는다. 반면 반대 방향으로 행동을 할 때마다 패널티를 받으며 보상을 최대화하는 방향으로 학습한다. 예를 들어 로봇에게 A 지점에 있는 상자를 가지고 다시 원점으로 돌아오는 학습을 한다고 가정해보자. 곧바로 A 지점으로 이동하면 +3 점이라는 Reward 를 부여하고, A 지점이 아닌 B 지점으로 이동하면 -2 점을 부여한다. 같은 방법으로 상자를 원점으로 가져오면 +4 점, 가져오는 과정에서 물건을 떨어트린다면 -3 점을 부여하게 된다. 이.. 2022. 12. 31. 이전 1 다음