정책 학습
로봇이 특정 상태에서 목표를 달성하기 위해 수행해야 할 최적의 행동 시퀀스를 학습하는 과정으로, 강화학습이나 모방학습이 주로 사용된다.
12가지 설계 원칙으로 로봇 제어의 한계를 넘다, VLANeXt 공개