continuous-control
행동 공간이 이산적인 선택지가 아닌 연속적인 수치(예: 로봇 관절의 각도)로 구성된 제어 문제이다. SAC나 TD3와 같은 알고리즘이 주로 사용되며, 행동 부패와 같은 스트레스에 민감하게 반응할 수 있다.
보상만으로는 부족하다? RL 에이전트의 '멘탈'을 측정하는 ARCUS-H 프레임워크