오프정책 감독 (off-policy-supervision) 용어 설명 | AI Trends
off-policy-supervision
오프정책 감독
중급
온정책 샘플링으로 얻은 궤적과는 별도로 고품질의 SFT 궤적을 섞어 정책 업데이트를 진행하는 방법이다. 본 논문에서는 오프정책 데이터를 온정책 데이터와 동일한 중요비율(policy ratio)로 처리하여 비교 공정성을 유지하는 CLIP 기반 목표함수를 사용했다. 이 방식은 우수한 행동을 안내하지만 샘플링 분포 불일치로 인해 KL 스파이크를 유발할 수 있다.