Target Policy Optimization: 타겟 정책 최적화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

강화학습에서 보상이 드물게 발생하는 희소 보상(Sparse Reward) 문제는 학습의 안정성을 크게 해치는 고질적인 과제였다. 이 논문은 목표 분포를 먼저 설정하고 이를 추종하도록 학습을 분리하는 TPO 방식을 통해, 복잡한 추론이나 긴 시퀀스 생성 작업에서 기존 GRPO나 PPO보다 훨씬 빠르고 정확한 학습 성능을 증명했다.

왜 중요한가

강화학습에서 보상이 드물게 발생하는 희소 보상(Sparse Reward) 문제는 학습의 안정성을 크게 해치는 고질적인 과제였다. 이 논문은 목표 분포를 먼저 설정하고 이를 추종하도록 학습을 분리하는 TPO 방식을 통해, 복잡한 추론이나 긴 시퀀스 생성 작업에서 기존 GRPO나 PPO보다 훨씬 빠르고 정확한 학습 성능을 증명했다.

핵심 기여

목표 분포 설정과 정책 적합의 분리

기존의 정책 경사(Policy Gradient) 방식이 확률 재분배와 파라미터 업데이트를 동시에 수행하여 발생하는 오버슈팅 문제를 해결하기 위해, 타겟 분포 qi를 먼저 계산하고 교차 엔트로피(Cross-Entropy)를 통해 정책을 적합시키는 TPO 알고리즘을 제안했다.

희소 보상 환경에서의 탁월한 성능

보상이 시퀀스의 끝에서만 주어지는 Token Reversal 작업에서 GRPO와 DG가 무작위 수준에 머무는 반면, TPO는 1% 미만의 에러율로 수렴하며 압도적인 학습 효율성을 보였다.

Billion 단위 LLM RLVR 적용 가능성 입증

Qwen3-1.7B 및 DeepSeek-R1-Distill-Qwen-1.5B 모델을 사용한 수학(GSM8K) 및 논리 추론(Reasoning Gym) 실험에서 GRPO 대비 더 빠른 초기 학습 속도와 높은 최종 정확도를 달성했다.

핵심 아이디어 이해하기

강화학습의 핵심인 Policy Gradient는 현재 모델이 생성한 결과물 중 좋은 것에 더 높은 확률을 부여하도록 가중치를 조정한다. 하지만 학습률(Learning Rate)이나 클리핑(Clipping) 같은 최적화 설정에 따라 확률 변화량이 너무 크거나 작아지는 불안정성이 존재한다. 특히 정답을 맞히기 어려운 희소 보상 환경에서는 이러한 '업데이트 메커니즘'과 '원하는 확률 분포' 사이의 결합이 학습을 방해하는 요소가 된다.

TPO는 이 과정을 두 단계로 나눈다. 먼저 현재 샘플링된 결과물들의 점수를 바탕으로 '우리가 도달하고 싶은 이상적인 확률 분포(Target Distribution)'를 수학적으로 정의한다. 그 다음, 모델이 이 타겟 분포를 그대로 흉내 내도록 Cross-Entropy 손실 함수를 사용하여 학습시킨다. 이는 마치 정답지가 있는 지도 학습(Supervised Learning)처럼 강화학습을 수행하는 것과 유사한 효과를 준다.

이 방식의 핵심은 정책이 타겟 분포에 도달하면 그래디언트(Gradient)가 자연스럽게 0이 되어 사라진다는 점이다. 기존 방식들이 학습이 끝난 후에도 불필요하게 가중치를 계속 흔드는 것과 달리, TPO는 최적점에 도달하면 스스로 업데이트를 멈추므로 훨씬 안정적이고 정교한 수렴이 가능해진다.

방법론

TPO는 컨텍스트 x에 대해 K개의 후보군 y를 샘플링하고 점수 s를 계산하는 것으로 시작한다. 각 그룹 내에서 점수를 표준화(Standardize)하여 ui를 얻는데, 이는 [개별 점수 s - 평균 s] → [표준편차 σ로 나눔] → [상대적 우위 지표 u 생성] 과정을 거쳐 점수 단위에 무관한 안정적인 학습 신호를 만든다.

타겟 분포 qi는 기존 정책의 확률 p_old에 지수화된 점수 exp(ui/η)를 곱하여 생성한다. [이전 확률 × 개선 가중치] → [전체 합으로 정규화] → [새로운 목표 확률 q 생성] 단계를 통해 현재 정책에서 보상이 높은 쪽으로 부드럽게 기울어진 타겟을 도달점으로 설정한다.

최종 학습은 타겟 q를 고정된 레이블로 간주하고 모델의 로그 확률 log p_theta와의 Cross-Entropy를 최소화하는 방향으로 진행된다. 손실 함수의 미분값은 p_theta - q가 되며, 이는 모델의 현재 출력이 타겟과 일치하는 순간 업데이트가 종료됨을 의미한다. 이러한 구조는 별도의 Critic 모델 없이도 닫힌 형태(Closed-form)의 최적해를 제공한다.

주요 결과

MNIST 컨텍스트 밴딧 실험에서 TPO는 2.9%의 최종 에러율을 기록하며 DG(3.2%)나 GRPO(5.9%)보다 우수한 성능을 보였다. 특히 보상이 희소한 Token Reversal 작업(V=16)에서는 TPO가 102단계 만에 1% 에러율에 도달한 반면, GRPO는 148단계, PPO는 259단계가 소요되어 학습 속도 면에서 큰 차이를 나타냈다.

LLM RLVR 실험의 경우, Qwen3-1.7B 모델 기반 GSM8K 작업에서 TPO는 GRPO보다 약 10단계 빠르게 50% 정확도 지점에 도달했다. 더 난도가 높은 Graph Coloring 작업에서는 GRPO가 학습에 실패하여 0점에 머무는 동안 TPO는 0.96점의 높은 점수로 수렴하며 복잡한 추론 작업에서의 강점을 입증했다.

Ablation Study를 통해 타겟 분포 설정 시 이전 정책(p_old)을 앵커로 사용하는 것이 학습 안정성에 필수적임을 확인했다. 앵커를 제거할 경우 에러율이 99% 이상으로 치솟으며 학습이 붕괴되는 현상이 관찰되었다.

기술 상세

TPO의 수학적 기반은 KL-정규화된 정책 개선 목표를 샘플링된 후보군 집합(Simplex)으로 제한하여 최적화하는 데 있다. 타겟 q는 r * u - η * KL(r || p_old)를 최대화하는 유일한 해로 정의되며, 이는 MPO나 REPS와 같은 Mirror Descent 계열 알고리즘의 원리를 공유하지만 Critic 없이 닫힌 형태의 업데이트가 가능하다는 차별점이 있다.

알고리즘 구현 측면에서 TPO는 그래디언트가 스스로 소멸(Self-extinguishing)하는 특성을 갖는다. 이는 정책이 타겟에 가까워질수록 업데이트 강도가 자연스럽게 줄어듦을 의미하며, 이로 인해 다중 에포크(Multi-epoch) 학습 시에도 정책이 발산하지 않고 안정적으로 데이터를 추출할 수 있게 한다. 실험적으로 TPO는 16 에포크까지 안정적인 성능을 유지했으나, GRPO는 에포크 수에 따라 성능이 크게 요동치는 비단조적(Non-monotonic) 특성을 보였다.

또한, TPO는 그룹 내 점수 표준화를 통해 온도 파라미터 η에 대한 민감도를 크게 낮추었다. 표준화 과정이 점수의 절대적 수치가 아닌 상대적 순위를 학습 신호로 변환해주기 때문에, 다양한 작업 환경에서도 하이퍼파라미터 튜닝 없이 일관된 성능을 보장한다.

한계점

TPO는 주어진 후보군(Candidates) 내에서 확률을 재분배하는 방식이므로, 샘플링된 후보군 자체의 품질이 낮거나 다양성이 부족할 경우 학습 효율이 급격히 떨어진다. 또한 점수 표준화 과정에서 그룹 내 점수 차이가 매우 작을 경우 미세한 수치 차이가 과도하게 증폭되어 타겟 분포가 지나치게 날카로워지는 'Difficulty-bias' 문제가 발생할 수 있다.

실무 활용

TPO는 별도의 가치 함수(Value Function)나 Critic 모델 없이도 작동하므로 메모리 효율적인 LLM 강화학습 구현에 즉시 적용 가능하다. 특히 정답 여부가 명확하지만 도달하기 어려운 수학, 코딩, 논리 추론 분야의 RLHF/RLVR 파이프라인에서 GRPO의 강력한 대안이 될 수 있다.

수학 및 과학 문제 풀이 모델의 보상 기반 미세 조정 (RLVR)
코드 생성 모델의 단위 테스트 통과율 최적화
복잡한 논리 구조를 가진 에이전트의 단계별 추론(Reasoning) 강화
제한된 컴퓨팅 자원 환경에서의 효율적인 정책 최적화

코드 공개 여부: 공개

코드 저장소 보기

키워드

TPO(타겟 정책 최적화)Sparse Reward(희소 보상)RLVR(강화학습 기반 검증)GRPO(그룹 상대 정책 최적화)Policy Gradient(정책 경사)