추론 모델을 어떻게 파인튜닝할 것인가? 학생 일관성 SFT 데이터 합성을 위한 교사-학생 협력 프레임워크

강력한 모델이 생성한 데이터를 작은 모델에 학습시키는 기존 방식은 추론 모델의 고유한 스타일과 충돌하여 성능을 떨어뜨리는 문제가 있었다. 이 논문은 교사 모델의 지식과 학생 모델의 스타일을 결합하는 새로운 합성 방식을 통해 추론 모델의 성능을 효과적으로 높이는 방법을 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

TESSY 데이터 합성 프레임워크 제안

교사 모델과 학생 모델이 교대로 토큰을 생성하여 교사의 추론 능력과 학생의 스타일 일관성을 동시에 확보하는 TESSY(Teacher-Student Cooperation Data Synthesis) 프레임워크를 개발했다.

추론 모델의 스타일 불일치 문제 규명

추론 모델의 SFT 성능 저하 원인이 교사 모델과 학생 모델 간의 문체적 차이(Stylistic Divergence)에 있음을 실험적으로 증명했다.

생성 후 롤백 전략 도입

경계 예측기(Boundary Predictor)를 사용하여 교사와 학생 모델의 생성 범위를 정밀하게 제어하고 토큰 유형이 바뀔 때 역할을 전환하는 Generate-then-rollback 전략을 구현했다.

코드 생성 벤치마크 성능 개선

Qwen3-8B 모델을 대상으로 한 실험에서 기존 Teacher-Only 방식 대비 LiveCodeBench-Pro에서 11.25%, OJBench에서 6.68%의 성능 향상을 기록했다.

핵심 아이디어 이해하기

기존의 지식 증류(Knowledge Distillation)나 SFT는 더 똑똑한 교사 모델이 쓴 정답지를 학생 모델이 그대로 외우게 하는 방식이다. 하지만 추론 모델은 단순한 정답뿐만 아니라 '생각하는 과정(Thinking Trace)'을 포함하는데, 모델마다 이 과정을 서술하는 고유한 말투나 형식이 다르다. 교사의 말투가 학생의 원래 말투와 너무 다르면 학생 모델은 지식을 배우기보다 낯선 말투에 적응하느라 오히려 기존에 가진 능력을 잃어버리는 '카타스트로픽 포게팅(Catastrophic Forgetting)' 현상이 발생한다.

TESSY는 이 문제를 해결하기 위해 '내용은 선생님이, 말투는 학생이' 담당하도록 역할을 나눈다. Transformer 구조에서 다음 토큰을 예측할 때, 문제 해결에 직접적인 핵심 지식(Capability tokens)은 교사 모델의 확률 분포를 따르고, 문장을 이어주는 수식어나 말투(Style tokens)는 학생 모델의 확률 분포를 따르도록 설계했다.

결과적으로 합성된 데이터는 학생 모델이 평소에 쓰던 문체와 매우 유사하면서도 그 안에는 교사 모델의 고도화된 논리 구조가 담기게 된다. 이를 통해 학생 모델은 스타일 충돌 없이 순수하게 추론 로직만을 효과적으로 학습할 수 있게 되어 전체적인 성능이 크게 향상된다.

방법론

TESSY는 교사 모델(MT)과 학생 모델(MS)이 교대로 응답을 생성하는 반복적 프로세스를 기반으로 한다. 전체 응답 y는 학생이 생성한 스타일 구간(s)과 교사가 생성한 역량 구간(t)의 교차 배열인 [s1, t1, s2, t2, ...] 구조를 가진다. 생성은 항상 학생 모델이 'Okay, let's see'와 같은 도입부를 생성하는 것으로 시작한다.

정밀한 역할 분담을 위해 '생성 후 롤백(Generate-then-rollback)' 전략을 사용한다. 각 단계에서 모델은 고정된 k개의 토큰을 먼저 생성하고, 경계 예측기(Boundary Predictor)가 해당 구간의 끝을 판단한다. [입력 시퀀스 → 경계 예측기의 이진 분류 → 마지막 유효 토큰 위치 결정] 과정을 거쳐 스타일에서 역량으로, 또는 그 반대로 전환되는 지점을 찾아내고 초과 생성된 토큰은 폐기한다.

경계 예측기는 Qwen3-0.6B-Base와 같은 경량 모델을 기반으로 하며, 토큰 단위의 시퀀스 레이블링을 수행한다. 교사 모델이 'Wait', 'However'와 같은 스타일 토큰과 수식, 코드와 같은 역량 토큰을 구분하도록 학습 데이터 10만 건을 주석 처리하여 훈련시켰다.

최종 답변(Final Answer) 생성 단계에서는 스타일 일관성을 극대화하기 위해 교사 모델을 배제하고 오직 학생 모델만이 답변을 작성하도록 설계했다. 이는 추론 과정에서 얻은 논리를 바탕으로 학생 모델이 가장 자연스러운 형식으로 결론을 내리게 유도하는 장치이다.

주요 결과

메인 실험에서 GPT-OSS-120B를 교사로, Qwen3-8B를 학생으로 설정했을 때 TESSY는 압도적인 성능을 보였다. 기존 Teacher-Only 방식이 LiveCodeBench-Pro에서 3.25%, OJBench에서 10.02% 성능 하락을 보인 반면, TESSY는 각각 11.25%, 6.68%의 성능 향상을 달성했다. 특히 LCB-V5에서는 55.09에서 62.87로 점수가 크게 상승했다.

모델 범용성 분석 결과, DeepSeek-R1이나 Qwen3-235B를 교사 모델로 사용했을 때도 TESSY는 일관되게 Teacher-Only 방식보다 높은 성능을 기록했다. 특히 교사와 학생의 체급 차이가 클수록 스타일 불일치 완화 효과가 두드러지게 나타났다.

Ablation Study를 통해 최종 답변을 교사가 생성할 경우 성능이 12.33%~13.58% 급락함을 확인했다. 이는 추론 과정뿐만 아니라 최종 출력 형식의 일관성이 SFT 성공에 결정적인 요소임을 시사한다.

데이터 효율성 측면에서 TESSY로 생성된 데이터는 Teacher-Only 데이터보다 평균 토큰 수가 유의미하게 적었다. GPT-OSS-120B 기준 약 7,594개의 토큰이 감소했음에도 불구하고 추론 품질은 더 높게 유지되어 학습 및 추론 효율성이 모두 개선되었다.

관련 Figure

#1Chart
더 강력한 MoE 모델인 Qwen3-30B-A3B에서도 TESSY가 Teacher-Only 대비 LiveCodeBench-Pro와 OJBench에서 각각 5.52%, 8.41% 추가 향상을 보임을 입증한다. 이는 TESSY의 효과가 소형 모델에만 국한되지 않음을 보여준다.
Qwen3-30B-A3B 모델을 학생으로 사용했을 때 Teacher-Only와 TESSY의 성능 비교 차트

#3Chart
교사 모델의 종류와 관계없이 TESSY가 Teacher-Only 방식보다 항상 우수한 성능을 냄을 보여준다. 특히 스타일 차이가 큰 이기종 모델(GPT-OSS)을 교사로 쓸 때 성능 향상 폭이 가장 크다.
다양한 교사 모델(Qwen3-235B, DS-R1, GPT-OSS-120B)에 따른 TESSY의 성능 향상 폭 비교

기술 상세

TESSY는 SFT 손실 함수를 역량 손실(L_Cap)과 스타일 손실(L_Sty)로 분해하여 접근한다. 기존 방식은 이 둘을 구분하지 않아 스타일 불일치가 역량 학습을 방해(Interference)하지만, TESSY는 스타일 토큰은 학생의 분포(P_MS)에서, 역량 토큰은 교사의 분포(P_MT)에서 샘플링하여 스타일 손실을 최소화한다.

구현 측면에서 vLLM 프레임워크와 Prefix Caching을 활용하여 교사와 학생 모델 간의 빈번한 스위칭 오버헤드를 줄였다. 단일 반복당 최대 토큰 수(k)를 20으로 설정하여 세밀한 경계 제어를 수행하며, 서로 다른 어휘집(Vocabulary) 간의 불일치를 방지하기 위해 서브워드 단위의 정밀한 절단 로직을 포함한다.

학습 과정에서 LoRA(Low-Rank Adaptation)보다 전체 파라미터 파인튜닝(Full Fine-tuning)이 추론 모델의 분포 적응에 더 효과적임을 발견했다. LoRA는 제한된 업데이트 용량으로 인해 복잡한 추론 데이터의 분포 차이를 극복하지 못하고 성능이 크게 떨어지는 경향을 보였다.

관련 Figure

#5Chart
이미 사후 학습된 Thinking 모델을 시작점으로 삼는 것이 Base 모델부터 학습하는 것보다 훨씬 높은 성능을 냄을 보여준다. 또한 Base 모델에서도 TESSY가 스타일 충돌을 완화하여 더 나은 결과를 얻음을 확인할 수 있다.
Base 모델과 Thinking 모델 학습 시 TESSY와 Teacher-Only의 성능 차이 비교

한계점

TESSY는 동일한 최대 생성 길이(40K 토큰) 내에서는 교사 모델 단독 생성보다 우수하지만, 생성 길이에 제한이 없는 환경에서는 여전히 거대 교사 모델의 상한선에는 미치지 못한다. 또한 현재 프레임워크는 텍스트 기반 추론에 집중되어 있어 멀티모달 환경에서의 스타일-역량 분리 가능성은 추가 연구가 필요하다.

실무 활용

오픈 소스 추론 모델을 특정 도메인이나 기업 내부 데이터에 맞춰 파인튜닝할 때 발생하는 성능 저하 문제를 해결하는 데 즉시 적용 가능하다.

소형 추론 모델(7B~8B)을 대형 모델(100B+)의 지식을 활용해 성능을 극대화하고자 할 때
특정 프로그래밍 언어나 도메인 특화 코딩 어시스턴트를 구축하기 위한 SFT 데이터 합성
추론 모델의 '생각하는 과정'을 유지하면서 응답 속도를 높이기 위한 데이터 경량화

코드 공개 여부: 공개

코드 저장소 보기

키워드

SFT(지도 미세 조정)Synthetic Data(합성 데이터)Reasoning Model(추론 모델)Knowledge Distillation(지식 증류)Code Generation(코드 생성)

추론 모델을 어떻게 파인튜닝할 것인가? 학생 일관성 SFT 데이터 합성을 위한 교사-학생 협력 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

TESSY 데이터 합성 프레임워크 제안

추론 모델의 스타일 불일치 문제 규명

추론 모델의 SFT 성능 저하 원인이 교사 모델과 학생 모델 간의 문체적 차이(Stylistic Divergence)에 있음을 실험적으로 증명했다.

생성 후 롤백 전략 도입

코드 생성 벤치마크 성능 개선

Qwen3-8B 모델을 대상으로 한 실험에서 기존 Teacher-Only 방식 대비 LiveCodeBench-Pro에서 11.25%, OJBench에서 6.68%의 성능 향상을 기록했다.

핵심 아이디어 이해하기

방법론

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

오픈 소스 추론 모델을 특정 도메인이나 기업 내부 데이터에 맞춰 파인튜닝할 때 발생하는 성능 저하 문제를 해결하는 데 즉시 적용 가능하다.

소형 추론 모델(7B~8B)을 대형 모델(100B+)의 지식을 활용해 성능을 극대화하고자 할 때
특정 프로그래밍 언어나 도메인 특화 코딩 어시스턴트를 구축하기 위한 SFT 데이터 합성
추론 모델의 '생각하는 과정'을 유지하면서 응답 속도를 높이기 위한 데이터 경량화

코드 공개 여부: 공개

코드 저장소 보기

키워드

SFT(지도 미세 조정)Synthetic Data(합성 데이터)Reasoning Model(추론 모델)Knowledge Distillation(지식 증류)Code Generation(코드 생성)

추론 모델을 어떻게 파인튜닝할 것인가? 학생 일관성 SFT 데이터 합성을 위한 교사-학생 협력 프레임워크

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

추론 모델을 어떻게 파인튜닝할 것인가? 학생 일관성 SFT 데이터 합성을 위한 교사-학생 협력 프레임워크

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드