action-saturation
에이전트의 출력값이 허용된 범위의 최댓값이나 최솟값에 고정되는 현상이다. 자율주행에서는 핸들을 끝까지 꺾거나 가속 페달을 꽉 밟는 등 불안정한 제어로 나타난다.
같은 TD3 코드로 학습했는데 왜 내 모델만 핸들을 꺾을까?