사고 압축
모델이 복잡한 추론 과정을 수행할 때 불필요한 토큰 소비를 줄이도록 학습하는 기법이다. 추론 시간이 길어질 때 페널티를 부여함으로써 모델이 더 적은 수의 단어로 동일하거나 더 나은 정답을 도출하게 유도하여 효율성을 높인다.