온폴리시 미세 조정
모델이 학습 중에 직접 생성한 데이터(궤적)를 바탕으로 다시 학습을 진행하여 오류를 수정하는 방식이다. 학습 시의 이상적인 상태와 실제 추론 시의 오차 누적 사이의 간극을 줄여 장기 예측의 안정성을 높인다.