미래 KL 영향 정책 최적화
미래 단계에 큰 영향을 미치는 토큰에 더 많은 가중치를 부여하는 정책 최적화 기법이다. 추론 모델의 논리 전개 과정을 4K에서 10K 토큰 이상으로 확장하여 복잡한 수학적 추론 능력을 극대화하는 데 기여한다. 모델이 더 깊고 긴 사고 과정을 유지하게 함으로써 o1-mini와 같은 프런티어 모델 수준의 성능을 구현한다.