정책 조건화
관측값에 목표나 컨텍스트 정보를 추가하여 에이전트가 상황에 맞게 행동을 조절하도록 유도하는 기법이다. 에이전트가 다양한 작업이나 환경 변화에 적응할 수 있게 돕는 핵심적인 설계 방식이다.
평균 보상은 비슷해도 안정성은 23배? 강화학습 조건화의 비밀