핵심 요약
검증기를 활용한 강화학습(Reinforcement Learning with Verifiers, RLVR)은 대형 언어 모델(Large Language Model, LLM)의 추론 능력을 향상시키는 핵심 패러다임이지만, 기존 방법론들은 종종 제한된 탐색 문제로 어려움을 겪는다. 정책이 소수의 추론 패턴으로 붕괴(Collapse)되거나 깊은 탐색을 조기에 중단하는 경향이 있으며, 전통적인 엔트로피 정규화(Entropy Regularization)는 국소적인 확률성만을 도입할 뿐 의미 있는 경로 수준의 다양성을 유도하지 못해 그룹 기반 정책 최적화(Group-based Policy Optimization)에서 약하고 불안정한 학습 신호를 초래한다. 본 논문에서는 LLM 추론의 다양성을 전역적(Global) 구성 요소와 결합(Coupling) 구성 요소로 분해하는 이중 척도 다양성 정규화(Dual-Scale Diversity Regularization, DSDR) 강화학습 프레임워크를 제안한다. 전역적으로 DSDR은 서로 다른 솔루션 모드를 탐색하기 위해 정답 추론 궤적 간의 다양성을 촉진한다. 국소적으로는 정답 궤적에 제한된 길이 불변 토큰 수준 엔트로피 정규화를 적용하여, 정답을 유지하면서 각 모드 내의 엔트로피 붕괴를 방지한다. 이 두 척도는 더 독특한 정답 궤적에 대해 국소 정규화를 강조하는 전역-국소 할당 메커니즘을 통해 결합된다. DSDR이 유계 정규화(Bounded Regularization) 하에서 최적의 정답률을 유지하고, 그룹 기반 최적화에서 정보가 풍부한 학습 신호를 지속시키며, 원칙적인 전역-국소 결합 규칙을 산출함을 이론적으로 뒷받침한다. 여러 추론 벤치마크 실험 결과, 정확도와 pass@k의 일관된 향상을 입증하여 RLVR에서 깊은 탐색을 위한 이중 척도 다양성의 중요성을 강조한다.
핵심 기여
이중 척도 다양성 정규화(DSDR) 프레임워크 제안
LLM 추론 다양성을 전역적 궤적 수준과 국소적 토큰 수준으로 분해하여 관리하는 새로운 강화학습 프레임워크를 설계했다.
전역-국소 결합 메커니즘 개발
궤적의 독특함에 따라 국소 정규화 강도를 조절하는 할당 메커니즘을 통해 두 수준의 다양성을 효과적으로 통합했다.
이론적 최적성 및 안정성 증명
제안된 정규화 방식이 모델의 정답률을 해치지 않으면서도 그룹 기반 최적화에서 유의미한 학습 신호를 유지함을 이론적으로 입증했다.
방법론
DSDR은 추론 과정을 전역적 궤적 다양성과 국소적 토큰 엔트로피로 나누어 정규화한다. 전역적으로는 서로 다른 정답 경로를 찾도록 유도하고, 국소적으로는 각 경로 내에서 토큰 선택의 다양성을 유지하는 길이 불변 엔트로피 정규화를 적용하며, 이를 전역-국소 할당 메커니즘으로 연결한다.
주요 결과
여러 추론 벤치마크 실험에서 기존 RLVR 방식 대비 정확도와 pass@k 지표가 일관되게 향상되었다. 특히 정책 붕괴를 방지함으로써 더 넓은 솔루션 공간을 탐색하고 안정적인 학습 신호를 확보하여 성능 최적화를 기록했다.
시사점
LLM의 추론 성능을 높이기 위한 강화학습 과정에서 단순한 엔트로피 증가보다 구조적인 다양성 확보가 중요함을 시사한다. 복잡한 수학이나 코딩 문제 해결을 위한 모델 학습 시, 다양한 해결 경로를 탐색하게 함으로써 모델의 일반화 성능과 강건성을 높이는 데 기여한다.
키워드
섹션별 상세
이중 척도 다양성 정규화(DSDR) 프레임워크 제안
전역-국소 결합 메커니즘 개발
이론적 최적성 및 안정성 증명
AI 요약 · 북마크 · 개인 피드 설정 — 무료