핵심 요약
LLM의 사후 학습 과정에서 강화학습을 사용할 때 너무 쉽거나 어려운 샘플은 학습 신호를 주지 못하는 문제가 있다. 이 논문은 퍼플렉시티를 기준으로 샘플을 정밀하게 분류하고 보상을 재할당하여 모델의 추론 성능과 학습 안정성을 동시에 개선하는 방법론을 제시한다.
왜 중요한가
LLM의 사후 학습 과정에서 강화학습을 사용할 때 너무 쉽거나 어려운 샘플은 학습 신호를 주지 못하는 문제가 있다. 이 논문은 퍼플렉시티를 기준으로 샘플을 정밀하게 분류하고 보상을 재할당하여 모델의 추론 성능과 학습 안정성을 동시에 개선하는 방법론을 제시한다.
핵심 기여
Perplexity Space Disentangling (PSD) 전략
퍼플렉시티와 정답 확률의 상관관계를 분석하여 전체 샘플 공간을 탐색(High PPL)과 활용(Low PPL) 서브스페이스로 정밀하게 분할하는 메커니즘을 도입했다.
Bidirectional Reward Reallocation (BRR) 메커니즘
검증 보상 분포에 대한 간섭을 최소화하면서 퍼플렉시티 신호를 통합하여, 학습 신호가 부족한 극단적 샘플 그룹에 보상을 재할당함으로써 안정적인 정책 최적화를 가능하게 했다.
수학적 추론 및 함수 호출 성능 향상
Qwen3 및 Llama 3.1 모델을 활용한 실험에서 AIME24, MATH 등 주요 벤치마크 점수를 유의미하게 끌어올리며 제안 기법의 범용성을 입증했다.
핵심 아이디어 이해하기
강화학습에서 모델은 새로운 시도를 하는 '탐색(Exploration)'과 이미 아는 지식을 강화하는 '활용(Exploitation)' 사이의 균형을 맞춰야 한다. 기존 GRPO 방식에서는 모든 샘플이 정답이거나 오답인 경우 Advantage가 0이 되어 학습을 위한 기울기(Gradient)가 발생하지 않는 문제가 발생한다. 이는 모델이 더 발전할 기회를 놓치게 만든다.
DiPO는 Perplexity(PPL)를 모델의 확신도로 해석하여 이 문제를 해결한다. 일반적으로 오답은 PPL이 높고 정답은 PPL이 낮은 경향이 있지만, 실제로는 오답임에도 확신이 강하거나(Low PPL) 정답임에도 확신이 낮은(High PPL) 예외적인 샘플들이 존재한다. 이러한 샘플들이야말로 모델의 성능을 높이는 데 핵심적인 정보를 담고 있다.
논문은 PSD를 통해 PPL 공간을 네 개의 구역으로 나누고, 특히 '확신이 강한 오답'은 탐색을 유도하고 '확신이 없는 정답'은 활용을 유도하도록 설계했다. 이를 통해 학습 신호가 사라진 극단적인 상황에서도 모델이 지속적으로 개선될 수 있는 동력을 제공한다.
방법론
Perplexity Space Disentangling (PSD)은 PPL 큐를 유지하며 정답 확률 분포 Pr(R|P)를 온라인으로 추정한다. PPL 임계값 τ를 기준으로 정답/오답 분류 오류를 최소화하는 최적의 τ를 계산하여 탐색 공간(ErS)과 활용 공간(EiS)을 분리한다. [PPL 값과 보상 쌍을 입력으로] → [분류 오류 최소화 수식을 연산하여] → [최적 임계값 τ를 도출하고] → [샘플을 네 가지 세부 그룹으로 분류한다].
Bidirectional Reward Reallocation (BRR)은 PSD에서 분류된 샘플 중 학습 신호가 없는 그룹에 보상을 재할당한다. EiS에 속한 하드 그룹(전부 오답)의 최대 PPL 샘플 보상을 1로 설정하고, ErS에 속한 이지 그룹(전부 정답)의 최대 PPL 샘플 보상을 0으로 설정한다. [그룹 내 샘플들의 PPL을 입력으로] → [최대 PPL 샘플의 인덱스를 추출하여] → [보상 값을 0 또는 1로 치환하고] → [기존 검증 보상과 직교하는 새로운 보상 신호를 생성한다].
주요 결과
Qwen3-8B-Base 모델 기준, DiPO는 수학적 추론 벤치마크 평균 점수 54.79%를 기록하며 GRPO(53.24%) 및 CDE(53.37%) 대비 우수한 성능을 보였다. 특히 난도가 높은 AIME24에서는 35.00%를 달성하여 베이스라인 대비 약 3.3%p 향상된 결과를 나타냈다.
함수 호출(Function Calling) 작업에서도 Qwen2.5-7B-Instruct 모델을 사용하여 BFCLv3 벤치마크에서 62.51%의 정확도를 기록했다. 이는 기존 ToolRL+DAPO(61.06%)를 능가하는 수치이며, 특히 멀티 턴 대화 정확도에서 24.50%를 기록하며 복잡한 상호작용 능력이 크게 개선되었음을 확인했다.
관련 Figure

DAPO는 정답과 오답의 PPL 분포가 크게 겹치는 반면, DiPO는 오답 샘플이 고PPL 영역에 더 많이 위치하고 정답 샘플은 저PPL 영역에 집중되어 탐색과 활용이 더 명확하게 분리됨을 보여준다.
DAPO와 DiPO 학습 후 정답 및 오답 샘플의 PPL 분포 비교 차트

학습 초기에는 두 방법의 차이가 적으나, 후기 단계에서 DAPO는 성능 성장이 둔화되는 반면 DiPO는 지속적인 개선을 유지하여 더 높은 성능 상한선에 도달함을 입증한다.
AIME24 및 AIME25 벤치마크에서 학습 스텝에 따른 DiPO와 DAPO의 성능 곡선
기술 상세
DiPO는 GRPO 아키텍처를 기반으로 하며, 별도의 가치 네트워크(Value Network) 없이 그룹 내 상대적 보상을 사용한다. 핵심 차별점은 PPL을 직접적인 보상 Shaping 요소로 쓰지 않고, 보상 재할당을 위한 '필터'로 활용하여 검증 보상(Verification Reward)의 본질적인 분포를 해치지 않는다는 점이다. 수학적으로는 최대 PPL 샘플에 보상을 주거나 페널티를 주는 행위가 모델의 평균 엔트로피를 각각 증가시키거나 감소시킴을 증명하여 탐색과 활용의 이론적 근거를 마련했다. 구현 시 하이퍼파라미터 α를 통해 재할당된 보상의 가중치를 조절하며, 실험적으로 α=0.1에서 최적의 성능을 보였다.
한계점
논문은 LLM의 파라미터 공간이 매우 방대하고 복잡하기 때문에 제시된 수학적 증명이 몇 가지 이상적인 가정에 기반하고 있으며, 실제 학습 환경에서의 엔트로피 변화 추정치임을 명시하고 있다.
실무 활용
추론 능력이 중요한 LLM의 사후 학습 단계에서 학습 효율을 극대화하고 안정성을 높이는 데 즉시 활용 가능하다.
- 수학 및 코딩 등 정답 검증이 가능한 도메인의 LLM 강화학습 최적화
- 복잡한 API 호출 및 도구 사용(Tool Use) 시나리오에서의 에이전트 성능 개선
- 학습 데이터 중 너무 쉽거나 어려운 샘플이 많아 학습이 정체되는 상황 해결
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.