구조화된 보상 신호
강화학습에서 에이전트의 행동을 평가하기 위해 여러 구성 요소로 나뉜 보상 체계를 의미한다. 본 프로젝트에서는 8개의 컴포넌트로 구성된 신호를 통해 에이전트에게 정밀한 피드백을 제공한다.