행동 공간
에이전트가 환경 내에서 취할 수 있는 모든 가능한 행동의 집합이다. 슈퍼 마리오의 경우 점프, 이동, 공격 등의 조합으로 구성되며, 이를 효율적으로 제한하는 것이 학습 복잡도를 줄이는 데 중요하다.
"성공률 9%에서 82%로" 코딩 에이전트 성능을 극대화하는 스킬 평가 전략
Claude Code를 더 똑똑하게 만드는 '스킬' 평가의 핵심 비결
슈퍼 마리오를 직접 플레이하는 AI, PPO로 구현하고 실시간으로 관찰하기