핵심 요약
기존의 LLM 강화학습 방식인 GRPO 등은 보상 신호를 근사적으로만 처리하여 학습의 안정성이 떨어지는 문제가 있었다. 이 논문은 응답들을 하나의 확률 공간(Simplex)으로 정의하고 수학적으로 정확한 타겟에 직접 투영하는 LPO 기법을 통해 학습 효율과 응답의 다양성을 동시에 확보했다.
왜 중요한가
기존의 LLM 강화학습 방식인 GRPO 등은 보상 신호를 근사적으로만 처리하여 학습의 안정성이 떨어지는 문제가 있었다. 이 논문은 응답들을 하나의 확률 공간(Simplex)으로 정의하고 수학적으로 정확한 타겟에 직접 투영하는 LPO 기법을 통해 학습 효율과 응답의 다양성을 동시에 확보했다.
핵심 기여
그룹 기반 정책 경사법의 기하학적 재해석
GRPO와 같은 기존 알고리즘들이 실제로는 응답 심플렉스 상에서 역 KL 발산을 최소화하려는 1차 근사 시도임을 수학적으로 증명했다.
Listwise Policy Optimization (LPO) 프레임워크
타겟 분포 구축과 발산 투영 단계를 분리하여, 근사치가 아닌 정확한 폐쇄형 솔루션을 통해 정책을 업데이트하는 명시적 투영 메커니즘을 도입했다.
다양한 발산 척도 지원 및 모드 커버리지 확보
Forward KL과 Reverse KL을 모두 지원하며, 특히 Forward KL 변체는 응답의 다양성을 보존하면서도 추론 성능을 높이는 Mode-Coverage 특성을 제공한다.
핵심 아이디어 이해하기
기존의 LLM 강화학습은 여러 응답 중 좋은 응답의 확률은 높이고 나쁜 응답은 낮추는 과정을 개별 응답 단위의 점수(Advantage)에 의존해 수행한다. 이는 마치 안개 속에서 경사면을 따라 한 걸음씩 이동하는 것과 같아, 전체적인 응답 분포의 균형을 맞추기 어렵고 학습이 불안정해지기 쉽다.
LPO는 샘플링된 응답 전체를 하나의 '리스트'로 묶어 확률의 합이 1이 되는 기하학적 공간인 심플렉스(Simplex) 위에 배치한다. 이 공간에서는 어떤 응답이 가장 이상적인지 나타내는 '타겟 분포'를 수학적으로 정확하게 계산할 수 있다. 안개 속을 걷는 대신, 지도 위에 목표 지점을 정확히 찍고 그곳으로 직접 이동하는 방식을 취한다.
이러한 명시적 투영 방식은 학습 과정에서 발생하는 오차를 스스로 교정하는 성질을 갖는다. 특히 Forward KL 방식을 사용하면 모델이 정답 하나에만 매몰되지 않고 다양한 정답 경로를 탐색하도록 유도하여, 복잡한 수학이나 코딩 문제에서 더 강인한 성능을 발휘하게 된다.
방법론
LPO는 각 반복 회차를 타겟 구축과 정책 투영의 두 단계로 분리한다. 첫 번째 단계에서는 현재 정책과 보상 값을 입력으로 받아 로컬 근사 RL 목적 함수를 최대화하는 Gibbs 타겟 분포 w를 계산한다. 이때 w = softmax(R/τ + log Pt) 연산을 수행하는데, 보상 R을 온도 파라미터 τ로 나누고 이전 정책의 로그 확률을 더한 뒤 Softmax를 취해 합이 1인 확률 분포를 얻는다.
두 번째 단계에서는 현재 정책 Pθ를 계산된 타겟 w에 가깝게 이동시키는 투영을 수행한다. Forward KL을 사용할 경우 ∇θ L = Σ (Pθ,k - wk) ∇θ log πθ(yk|x) 공식을 사용한다. 이는 현재 모델의 예측 확률과 타겟 확률의 차이(Gap)를 입력으로 하여, 그 차이만큼 로그 확률의 기울기를 조정하는 연산이다. 결과적으로 확률 오차의 합이 항상 0이 되는 Zero-sum 특성을 갖게 되어 학습의 분산을 획기적으로 줄인다.
구현 측면에서는 기존 GRPO 프레임워크의 Advantage 계산 로직만 LPO의 계수(Coefficient) 계산으로 교체하면 되므로 추가적인 연산 비용 없이 즉시 적용 가능하다. τ 값은 기존 알고리즘의 표준 편차나 평균 통계량을 활용해 적응적으로 설정한다.
주요 결과
Qwen3, Llama-3.1 등 다양한 모델 백본을 사용한 실험에서 LPO는 기존 GRPO, Dr.GRPO, MaxRL 대비 일관된 성능 우위를 보였다. MATH 데이터셋 기반 수학 추론 실험에서 Qwen3-8B 모델 기준 Pass@1 정확도가 GRPO 대비 약 2.7%p 향상된 50.3%를 기록했다.
응답 다양성 측면에서도 우수한 결과를 보였다. Pass@k 지표에서 LPO 변체들이 모든 설정에서 베이스라인을 능가했으며, 특히 Forward KL 기반의 LPO-fwd는 학습 후반부에도 높은 응답 엔트로피를 유지하며 성능 저하 없이 안정적으로 수렴했다.
확장성 검증을 위해 Qwen3-14B 모델과 Polaris 데이터셋을 사용한 실험에서도 LPO-fwd는 GRPO가 200단계에서 도달한 성능을 단 70단계 만에 달성하는 높은 샘플 효율성을 입증했다.
관련 Figure

LPO(빨간색, 노란색 선)가 기존 GRPO 및 MaxRL(회색 선) 대비 거의 모든 설정에서 더 빠르고 높은 정확도에 도달함을 보여준다. 특히 수학(MATH) 및 기하학(Geometry) 작업에서 성능 격차가 뚜렷하게 나타난다.
다양한 모델과 작업에서 LPO와 베이스라인의 Pass@1 정확도 학습 곡선 비교
기술 상세
LPO는 그룹 기반 RLVR을 응답 심플렉스 상의 타겟 투영 문제로 정형화한다. 기존 Policy Gradient가 On-policy 지점에서 Reverse KL의 1차 근사임을 수학적으로 증명하고, 이를 Off-policy 상황에서도 유효한 명시적 투영으로 확장했다. LPO의 그래디언트 계수는 Bounded(|ck| ≤ 1), Zero-sum(Σck = 0), Self-correcting(Pθ → w*일 때 ck → 0)이라는 세 가지 핵심 수학적 특성을 보유하여 최적화 안정성을 보장한다.
관련 Figure

LPO가 베이스라인보다 높은 응답 엔트로피를 유지하여 다양성을 보존하고, 더 낮고 안정적인 그래디언트 노름을 통해 최적화 안정성을 확보함을 입증한다. 또한 LPO가 더 긴 응답을 생성하며 더 깊은 추론 과정을 탐색하는 경향을 보인다.
LPO와 GRPO의 응답 엔트로피, 그래디언트 노름, 응답 길이 변화 추이
한계점
현재 LPO는 시퀀스 레벨의 보상을 사용하는 설정에 최적화되어 있으며, 단계별(Step-level) 보상을 활용하는 미세 조정 시나리오에 대한 확장은 향후 과제로 남아 있다.
실무 활용
LPO는 기존 GRPO 기반의 학습 파이프라인을 사용하는 개발자들에게 즉각적인 성능 향상을 제공할 수 있는 드롭인(Drop-in) 교체 솔루션이다.
- 수학, 로직, 프로그래밍 등 검증 가능한 보상(Verifiable Rewards)이 존재하는 도메인의 LLM 사후 학습
- 응답의 다양성이 중요한 창의적 글쓰기나 다각도 문제 해결 에이전트 개발
- 제한된 컴퓨팅 자원에서 빠른 수렴이 필요한 강화학습 프로젝트
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.