정책 조건화
관측값에 목표나 컨텍스트 정보를 추가하여 에이전트가 상황에 맞게 행동을 조절하도록 유도하는 기법이다. 에이전트가 다양한 작업이나 환경 변화에 적응할 수 있게 돕는 핵심적인 설계 방식이다.