디스틸레이션 보강 RL 목표
-context-conditioned_ 탐색에서 발견된 고-가치 행동을 base 프롬프트의 정책으로 디스틸링하여 일반화시키는 학습 목표다. LDistill를 통해 효과적인 행동만 정책에 반영한다.