observation-space
에이전트가 환경으로부터 매 단계마다 수신하는 모든 정보의 집합이다. 이 정보가 불완전하거나 마스킹되면 에이전트가 최적의 결정을 내리는 데 방해가 된다.
수학적으로 완벽한 환경인데 왜 RL 모델은 80%에서 멈출까요?