핵심 요약
기존의 Supervised Fine-Tuning(SFT)은 정답 데이터만 기계적으로 학습하여 모델의 창의성을 해치고 강화학습(RL)과의 시너지를 떨어뜨리는 문제가 있었다. 이 논문은 SFT를 강화학습의 특수한 사례로 재해석하고, 그룹 기반의 비교 학습과 동적 가중치 조절을 통해 지식 주입 효율과 일반화 성능을 동시에 높이는 새로운 사후 학습 프레임워크를 제시한다.
왜 중요한가
기존의 Supervised Fine-Tuning(SFT)은 정답 데이터만 기계적으로 학습하여 모델의 창의성을 해치고 강화학습(RL)과의 시너지를 떨어뜨리는 문제가 있었다. 이 논문은 SFT를 강화학습의 특수한 사례로 재해석하고, 그룹 기반의 비교 학습과 동적 가중치 조절을 통해 지식 주입 효율과 일반화 성능을 동시에 높이는 새로운 사후 학습 프레임워크를 제시한다.
관련 Figure

SFT가 베이스 모델 대비 성능을 오히려 떨어뜨리는 카타스트로픽 포게팅 현상과, SFT 이후 RL을 적용했을 때 RL 단독 적용보다 결과가 나쁜 '시너지 딜레마'를 시각화하여 연구의 필요성을 강조한다.
SFT와 GRPO의 성능 저하 및 시너지 부족 현상을 보여주는 차트이다.
핵심 기여
SFT의 이론적 한계 규명 및 재해석
SFT를 극도로 희소한 보상을 가진 Policy Gradient 최적화의 특수 사례로 정의하고, 이로 인해 발생하는 단일 경로 의존성(Single-path dependency)과 그래디언트 폭주(Gradient explosion)가 모델의 일반화 성능을 저해함을 수학적으로 증명했다.
Group Fine-Tuning (GFT) 프레임워크 제안
SFT의 한계를 극복하기 위해 Group Advantage Learning(GAL)과 Dynamic Coefficient Rectification(DCR)이라는 두 가지 핵심 메커니즘을 결합한 통합 사후 학습 프레임워크를 구축했다.
데이터 효율성 및 강화학습 시너지 입증
GFT는 기존 SFT 대비 10%의 데이터만으로도 동등하거나 우수한 성능을 보였으며, 특히 SFT 이후 RL을 수행할 때 발생하는 성능 정체 현상을 해결하여 최종 모델의 성능 상한선을 크게 높였다.
핵심 아이디어 이해하기
기존의 Supervised Fine-Tuning(SFT)은 모델이 전문가의 답변(정답)을 그대로 복제하도록 Gradient Descent를 수행한다. 이는 수학적으로 보면 정답 경로에만 1의 보상을 주고 나머지는 0을 주는 극단적인 강화학습과 같다. 이 과정에서 모델은 정답이 아닌 다른 유익한 답변 경로를 탐색할 기회를 잃는 '엔트로피 붕괴'를 겪으며, 익숙하지 않은 토큰을 만날 때 역확률 가중치가 급증하여 학습이 불안정해지는 '그래디언트 폭주'가 발생한다.
GFT는 이를 해결하기 위해 '그룹' 개념을 도입한다. 하나의 질문에 대해 전문가의 답변뿐만 아니라 모델 스스로 생성한 답변, 다른 우수한 모델(Teacher)의 답변을 한데 모아 그룹을 만든다. 이후 Softmax와 유사한 원리로 그룹 내에서 상대적인 우수성(Advantage)을 계산하여 학습 신호로 사용한다. 이는 모델이 단순히 정답을 외우는 것이 아니라, 여러 선택지 중 무엇이 더 나은지 비교하며 배우게 만든다.
또한, 학습 중 가중치가 너무 커져서 모델이 망가지는 것을 막기 위해 동적인 임계값을 설정한다. 확률이 너무 낮은 토큰에 대해서는 업데이트 강도를 강제로 제한함으로써, 지식 주입의 효율은 유지하면서도 학습의 안정성을 확보한다. 결과적으로 모델은 기존 지식을 잊지 않으면서도 새로운 문제를 해결하는 유연한 사고 능력을 유지하게 된다.
방법론
GFT는 크게 두 가지 단계로 구성된다. 첫째, Group Advantage Learning(GAL)은 각 쿼리에 대해 전문가 시연, 타 모델 추출 데이터, 자가 생성 샘플을 포함하는 하이브리드 응답 그룹을 구성한다. 각 응답에 대해 규칙 기반 보상 R(y)을 부여하고, 그룹 내 평균과 표준편차를 이용해 표준화된 어드밴티지 점수 A(y)를 계산한다. [응답별 보상값 입력 → 그룹 통계 기반 정규화 연산 → 상대적 우위 점수 출력] 과정을 통해 모델은 단일 경로가 아닌 다양한 추론 경로를 비교 학습한다.
둘째, Dynamic Coefficient Rectification(DCR)은 SFT의 불안정한 역확률 가중치 1/πθ를 제어한다. 특정 토큰의 예측 확률 πt가 신뢰 임계값 τ보다 낮을 경우, 그래디언트 계산 시 해당 확률값을 상수로 고정(Stop-gradient)하여 가중치 폭주를 억제한다. [토큰 확률값 πt 입력 → 임계값 τ와 비교 및 클리핑 연산 → 보정된 업데이트 계수 출력] 이 메커니즘은 모델이 생소한 데이터를 학습할 때 발생하는 수치적 불안정성을 제거한다.
최종적으로 GFT 목적 함수는 GAL의 어드밴티지와 DCR의 보정 계수를 결합한 형태의 Policy Gradient로 정의된다. 이를 통해 모델은 시퀀스 수준에서는 다양한 답변의 질을 평가하고, 토큰 수준에서는 안정적인 가중치 갱신을 수행하며 학습 효율을 극대화한다.
주요 결과
Qwen2.5-Math 및 Llama-3 등 다양한 모델을 대상으로 한 실험에서 GFT는 10k의 데이터만으로 100k 데이터를 사용한 SFT 및 그 변형 모델(DFT, ASFT)들을 능가하는 성능을 보였다. 특히 수학 추론 벤치마크인 MATH와 Minerva에서 기존 SFT 대비 큰 폭의 정확도 향상을 기록했다.
Ablation Study 결과, GAL을 제거했을 때는 복잡한 추론 능력이 급감했고, DCR을 제거했을 때는 학습 과정의 변동성이 심화되어 성능이 불안정해짐이 확인됐다. 이는 두 메커니즘의 시너지가 GFT의 핵심임을 입증한다.
강화학습(GRPO)과의 호환성 실험에서는 SFT 이후 RL을 적용할 때보다 GFT 이후 RL을 적용할 때 성능 향상 폭이 훨씬 컸다. SFT는 모델의 탐색 공간을 좁혀 RL의 효과를 반감시키지만, GFT는 높은 엔트로피를 유지하여 RL이 더 나은 전략을 찾을 수 있는 토대를 제공했다.
관련 Figure

DCR이 없으면 학습 초기 정확도가 심하게 요동치며(불안정성), GAL이 없으면 최종 도달 성능이 낮아짐을 보여줌으로써 두 모듈의 필수적인 역할을 입증한다.
GFT의 핵심 구성 요소인 GAL과 DCR의 유무에 따른 학습 곡선 비교 그래프이다.

SFT+GFT+GRPO 조합이 가장 높은 성능을 기록함을 보여주며, GFT가 SFT와 RL 사이의 가교 역할을 성공적으로 수행하여 전체 성능 상한을 높임을 증명한다.
다양한 학습 파이프라인 조합에 따른 벤치마크 성능 비교 결과이다.
기술 상세
GFT 아키텍처는 SFT의 Cross-Entropy Loss를 RL의 Policy Gradient 프레임워크로 통합한 단일 단계 학습 구조를 가진다. 핵심 차별점은 SFT의 암시적 보상 함수를 그룹 내 상대적 어드밴티지로 대체하여 보상의 희소성 문제를 해결했다는 점이다. 수학적으로 SFT의 그래디언트는 1/πθ라는 불안정한 중요도 샘플링 가중치를 포함하는데, GFT는 이를 DCR을 통해 적응적으로 바운딩하여 수치적 안정성을 확보한다.
학습 시 하이브리드 응답 그룹은 전문가 데이터 1개, Teacher 모델 데이터 3개, 자가 생성 샘플 4개로 구성될 때 최적의 성능을 보였다. 이는 전문가의 가이드라인(Anchor)과 모델의 자가 탐색(Exploration) 사이의 균형이 중요함을 시사한다. 또한 KL Divergence 분석을 통해 GFT가 SFT보다 베이스 모델의 분포에서 덜 벗어나면서도 성능을 높인다는 점을 확인했으며, 이는 일반적인 지식 보존 능력이 뛰어남을 의미한다.
관련 Figure

SFT는 베이스 모델로부터 급격하게 멀어지는 반면, GFT는 GRPO와 유사하게 낮은 KL 수준을 유지하여 기존 지식을 더 잘 보존함을 정량적으로 보여준다.
학습 단계에 따른 베이스 모델과의 KL Divergence 변화를 나타낸 그래프이다.

τ가 약 0.7일 때 가장 높은 정확도를 보이며, 너무 낮으면 불안정하고 너무 높으면 학습 효율이 떨어지는 역 U자형 관계를 통해 최적의 밸런스 지점을 제시한다.
하이퍼파라미터 τ(임계값) 변화에 따른 정확도 및 토큰 교정 비율의 관계를 보여준다.
한계점
현재 GFT는 수학적 추론과 같이 객관적인 정답과 보상 규칙이 존재하는 작업에 집중되어 있다. 주관적인 선호도가 중요한 오픈 엔드(Open-ended) 대화 작업에 적용하기 위해서는 별도의 보상 모델 설계가 필요하다. 또한 8B 이하의 모델에서 주로 검증되었으므로, 70B 이상의 초대형 모델에서의 확장성 검증이 향후 과제로 남아있다.
실무 활용
GFT는 적은 양의 고품질 데이터로도 강력한 성능을 내야 하는 도메인 특화 모델 학습에 매우 적합하다. 특히 수학, 코딩과 같이 정답이 명확한 추론 분야에서 SFT의 고질적인 문제인 '암기 위주 학습'을 탈피하고자 할 때 즉각적인 효과를 볼 수 있다.
- 수학 문제 풀이 및 논리적 추론 능력이 필요한 특화 LLM 개발
- SFT 이후 추가적인 강화학습(PPO, GRPO)을 계획 중인 사후 학습 파이프라인 최적화
- 제한된 전문가 데이터셋 환경에서 데이터 효율성을 극대화해야 하는 경우
- 모델의 카타스트로픽 포게팅(Catastrophic Forgetting)을 최소화하며 새로운 지식을 주입할 때
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.