보상 설계
에이전트가 원하는 목표를 달성하도록 보상 함수를 정의하고 조정하는 과정이다. 보상이 너무 희소하면 학습이 어렵기 때문에, 적절한 피드백을 지속적으로 제공하는 밀집 보상(Dense Reward) 구조를 만드는 것이 핵심이다.