LEAD: 길이 기반의 적응적 동적 추론으로 대형 언어 모델의 길이 효율화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

CoT 추론은 문제의 난이도와 무관하게 길이가 증가하는 경향이 있다. 고정된 길이 제어는 다양한 프롬프트의 요구를 모두 충족하지 못하고, 학습 진행에 따라 최적의 정확도-효율성 트레이드오프가 달라진다. LEAD는 온라인으로 보상 가중치를 조정하고 문제별 목표 길이를 추정해 불필요한 추론을 줄이면서도 정확도를 유지한다.

왜 중요한가

CoT 추론은 문제의 난이도와 무관하게 길이가 증가하는 경향이 있다. 고정된 길이 제어는 다양한 프롬프트의 요구를 모두 충족하지 못하고, 학습 진행에 따라 최적의 정확도-효율성 트레이드오프가 달라진다. LEAD는 온라인으로 보상 가중치를 조정하고 문제별 목표 길이를 추정해 불필요한 추론을 줄이면서도 정확도를 유지한다.

핵심 기여

온라인 동적 보상 가중치

PSI를 통해 correctness와 efficiency 보상의 상대적 학습 신호를 인터넷상에서 실시간으로 조정한다. 보상은 각 reward별로 독립적으로 정규화되며, 가중치는 불안정성과 헤드룸에 따라 업데이트된다.

문제별 목표 길이 추정

올바른 롤아웃의 길이 평균을 L*q로 온라인에서 계산하고, L*q 주위에서 대칭형 효율 보상(rℓ)을 적용하여 과도한 추론과 과소 축약을 모두 벌준다.

문제 난이도에 따른 비전형적 토큰 예산 분배

전역 예산이 아닌 문제별 타깃 길이를 사용해 어려운 프롬프트에 더 많은 추론을 허용하고 쉬운 프롬프트는 더 많이 압축한다.

강력한 AES 성능 및 재현성

다섯 개의 수학 벤치마크에서 RL 학습 기반 방법 중 최고 AES를 달성했고, 1.5B 및 8K 예산에서도 여행치가 잘 유지되며 평균 정확도와 길이의 개선을 동시에 달성한다.

정책 학습에 대한 Ablation 근거

정적 가중치 대비 동적 가중치의 이점과 Mean-of-correct를 L*q 집계로 사용하는 구성의 우수성을 실험적으로 확인했다.

핵심 아이디어 이해하기

출발점: Chain-of-Thought(CoT) 기반 추론은 문제 난이도에 따라 필요한 추론 양이 다르지만, 기존 연구는 고정된 길이 제약으로 이 다양성을 반영하지 못한다. LEAD는 (1) 각 보상을 독립적으로 정규화한 뒤 온라인에서 가중치를 조정하는 PSI를 도입하고, (2) 문제별로 올바른 롤아웃의 길이 평균을 Lq로 산출해 대칭 형태의 효율 보상을 적용한다. 이를 통해 hard 프롬프트에는 더 많은 추론을 남기고 easy 프롬프트에는 더 짧은 경향을 유지하게 된다. 학습이 진행되면 가중치는 정확도 중심으로, 이후에는 효율성 중심으로 서서히 바뀌며, per-problem Lq가 변화에 따라 자동으로 조정된다. 결과적으로 동적 보상 가중치와 문제별 타깃 길이의 결합은 불필요한 추론의 감소를 이끌고, 전체 AES를 향상시킨다.

방법론

Decoupled group normalization으로 보상의 규모 차이를 제거한다. r의 두 구성요소 c( correctness ), ℓ( efficiency )를 각각 A(c)와 A(ℓ)로 정규화하고, λc, λℓ를 합이 1이 되도록 하여 Ãq,j를 얻는다. BatchWhiten으로 전체를 단위 분산으로 재정규화한다. 2) PSI 컨트롤러로 각 reward의 불안정성과 남은 여강(headroom)을 계산하고 Ψk = CVgk · Pk로 가중치를 업데이트한다. EMA로 λ(t)를 업데이트하고 λc의 하한을 보장하며 λℓ = 1 − λc로 보정한다. 3) L*q를 Cq의 길이 평균으로 정의하고, |Cq|=0일 때 Bmax를 대입한다. rℓ은 대칭 보상으로 Δ를 정규화하고, ℓ=q,j의 롤아웃 전체에 대해 A(ℓ)와 rℓ를 결합한다. 4) 학습은 GRPO 절차를 사용하되, Ãq,j를 BatchWhiten으로 정규화한 뒤 정책 업데이트를 수행한다. 5) 데이터셋은 MATH의 Level 3–5로 구성하고, DeepSeek-R1-Distill-Qwen-1.5B/7B 모델을 사용한다. 4K 최대 출력 길이에서 8K까지 확장된 실험도 수행한다.

주요 결과

주요 결과: 다섯 벤치마크에서 LEAD가 평균 정확도와 AES에서 RL-baselines를 상회했다. 1.5B 모델에서 Acc=35.00, Len=5133, AES=0.68로 Base 대비 개선되었고, DRPO 대비 AES가 0.18 포인트 증가했다. 7B 모델에서도 Acc=44.67, Len=6631, AES=−0.11로 다른 RL baselines를 능가하는 AES를 기록했다. 8K 예산에서도 LEAD가 Acc=54.44, AES=0.54로 최상위를 유지했다. Ablation에서 Static 가중치보다 동적 가중치가 우수했고, Mean-of-correct(L*q) 집계가 가장 좋은 성능을 보였다. 또한 hard 프롬프트에서 LEAD가 더 많은 토큰을 소비하는 경향이 관찰되어, 난이도에 따른 토큰 배분이 효과적임이 확인되었다.

기술 상세

LEAD는 세 가지 핵심 구성요소로 구성된다. 첫째, decoupled group normalization으로 보상의 크기 차이를 제거하고, 두 보상(c, ℓ)을 λc, λℓ로 선형 결합한 뒤 BatchWhiten으로 단위 분산으로 정규화한다. 둘째, Potential-Scaled Instability(PSI) 컨트롤러로 각 보상의 instability와 headroom을 이용해 가중치를 온라인으로 업데이트하며, EMA로 안정적으로 수렴하도록 한다. 셋째, per-problem online target-length Calibrater로 각 프롬프트 q에 대해 올바른 롤아웃 길이 평균 L*q를 산출하고, 이를 중심으로 대칭형 효율 보상 rℓ을 적용한다. 최종적으로 Ãq,j를 BatchWhiten으로 정규화한 뒤 GRPO objective를 통해 정책 θ를 업데이트한다.

한계점

LEAD는 Correctness를 신뢰성 있게 평가할 수 있는 RL 설정에 적합하며, open-ended 생성이나 주관적 선호를 다루는 경우 task-specific 보상 모델이 필요할 수 있다. 한 개의 스칼라 타깃 길이만 사용하는 설계는 다양한 해결 스타일에 완전한 다양성을 반영하지 못할 수 있다. 또한 학습-시간에 따른 압축에 집중하므로 추론 시점의 엄격한 토큰 예산 제어와는 다를 수 있다.

실무 활용

LEAD는 RL 기반 추론의 길이를 줄이면서도 정확도를 유지하도록 학습하는 방법으로, 수학 추론 등에서 추론 비용을 줄이고 효율성을 높일 수 있다.

수학 추론용 LLM 학습 시 추론 비용 및 latency 감소
프롬프트 난이도에 따른 동적 토큰 예산 관리
RL 기반 추론 파이프라인의 성능-비용 트레이드오프 개선
타 RL 기반 추론 시스템에 길이 보상 및 문제별 타깃 길이 적용
인퍼런스 타임 예산 제어와 병행하는 학습 시간 효율화

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLMreinforcement-learningChain-of-Thoughtlength-based-rewardper-problem-target-lengthPSIgroup-normalizationadaptive-weighting