가중 상호 정보량 데이터 선택을 통한 효율적인 RLVR 학습

핵심 요약

강화학습(Reinforcement Learning, RL)은 대형 언어 모델(LLM)의 추론 능력 향상과 정렬(Alignment)에 핵심적인 역할을 하지만, 학습 효율은 훈련 데이터 선택 방식에 크게 의존합니다. 기존의 온라인 선택 전략은 주로 난이도 기반 휴리스틱(Difficulty-based heuristics)에 의존하며, 중간 정도의 성공률을 가진 데이터 포인트를 선호합니다. 이는 난이도를 정보량과 동일시하는 경향이 있어, 제한된 증거로 인해 발생하는 인식론적 불확실성(Epistemic uncertainty)을 간과하게 됩니다. 본 연구에서는 가중 상호 정보량(Weighted Mutual Information) 목적 함수를 기반으로 한 정보 유도형 데이터 샘플링 방법인 InSight(INformation-guided data SamplInG metHod for RL Training)를 소개합니다. 베이지안 잠재 성공률(Bayesian latent success rates)을 통해 데이터 결과를 모델링함으로써, 기대 불확실성 감소가 난이도 의존적 성분과 증거 의존적 성분으로 분해됨을 보여주며, 난이도 전용 선택 방식의 근본적인 한계를 밝혀냅니다. 이러한 관찰을 바탕으로 InSight는 노이즈가 섞인 샘플링 결과 대신 데이터 포인트의 성공에 대한 평균 믿음(Mean belief)을 기반으로 안정적인 획득 점수(Acquisition score)를 구축하며, 검증 가능한 보상을 동반한 강화학습(Reinforcement Learning with Verifiable Rewards, RLVR)에서 흔히 사용되는 다중 롤아웃(Multi-rollout) 설정으로 자연스럽게 확장됩니다. 광범위한 실험 결과, InSight는 일관되게 최첨단 성능을 달성하고 학습 효율을 개선하여, 계획 및 수학(Planning & Mathematics) 벤치마크에서 평균 +1.41점, 일반 추론에서 +1.01점의 향상을 기록했으며, 무시할 수 있는 수준의 추가 계산 비용만으로 최대 약 2.2배의 가속화를 실현했습니다.

난이도고급

핵심 기여

InSight 프레임워크 제안

가중 상호 정보량(Weighted Mutual Information)을 활용하여 인식론적 불확실성을 고려한 새로운 데이터 샘플링 방법론인 InSight를 개발했다.

난이도 기반 선택의 한계 규명

기존의 난이도 기반 휴리스틱이 증거 부족으로 인한 불확실성을 무시함을 수학적으로 분석하고, 이를 보완하는 증거 의존적 성분을 정의했다.

베이지안 잠재 성공률 모델링

데이터의 성공 여부를 베이지안 관점에서 모델링하여 노이즈에 강건하고 안정적인 획득 점수(Acquisition score) 산출 방식을 구축했다.

RLVR 및 다중 롤아웃 확장성 확보

검증 가능한 보상을 사용하는 강화학습(RLVR) 환경의 특성인 다중 롤아웃 설정에 최적화된 데이터 선택 메커니즘을 제공한다.

방법론

InSight는 가중 상호 정보량(Weighted Mutual Information)을 목적 함수로 사용하여 데이터의 정보 가치를 평가합니다. 베이지안 잠재 성공률(Bayesian latent success rates)을 도입하여 각 데이터 포인트의 성공 확률을 확률 분포로 모델링하고, 이를 통해 기대 불확실성 감소량을 난이도와 증거 기반의 두 가지 요소로 분해하여 계산합니다. 최종적으로 샘플링된 결과값이 아닌 사후 분포의 평균 믿음(Mean belief)을 사용하여 안정적인 획득 점수를 생성하고 데이터를 선택합니다.

주요 결과

계획 및 수학(Planning & Mathematics) 벤치마크에서 평균 1.41점의 성능 향상을 기록했으며, 일반 추론(General reasoning) 과제에서는 1.01점의 개선을 보였습니다. 특히 학습 속도 측면에서 기존 방식 대비 최대 2.2배의 가속화를 달성하면서도 추가적인 계산 오버헤드는 거의 발생하지 않는 효율성을 입증했습니다.

시사점

RLVR 학습 시 단순히 어려운 문제를 푸는 것보다 모델이 아직 확신하지 못하는 정보를 포함한 데이터를 선택하는 것이 중요함을 시사합니다. 이는 LLM의 수학적 추론이나 복잡한 계획 수립 능력을 강화할 때 학습 자원을 훨씬 효율적으로 배분할 수 있게 하며, 실무적으로는 동일한 컴퓨팅 자원으로 더 높은 성능의 모델을 더 빠르게 구축하는 데 기여할 수 있습니다.

키워드

강화학습(Reinforcement Learning)검증 가능한 보상을 동반한 강화학습(RLVR)데이터 선택(Data Selection)인식론적 불확실성(Epistemic Uncertainty)상호 정보량(Mutual Information)

섹션별 상세

InSight 프레임워크 제안

가중 상호 정보량(Weighted Mutual Information)을 활용하여 인식론적 불확실성을 고려한 새로운 데이터 샘플링 방법론인 InSight를 개발했다.

난이도 기반 선택의 한계 규명

기존의 난이도 기반 휴리스틱이 증거 부족으로 인한 불확실성을 무시함을 수학적으로 분석하고, 이를 보완하는 증거 의존적 성분을 정의했다.

베이지안 잠재 성공률 모델링

데이터의 성공 여부를 베이지안 관점에서 모델링하여 노이즈에 강건하고 안정적인 획득 점수(Acquisition score) 산출 방식을 구축했다.

RLVR 및 다중 롤아웃 확장성 확보

검증 가능한 보상을 사용하는 강화학습(RLVR) 환경의 특성인 다중 롤아웃 설정에 최적화된 데이터 선택 메커니즘을 제공한다.

가중 상호 정보량 데이터 선택을 통한 효율적인 RLVR 학습

핵심 요약

핵심 기여

방법론

주요 결과

시사점

키워드

섹션별 상세

InSight 프레임워크 제안

난이도 기반 선택의 한계 규명

베이지안 잠재 성공률 모델링

RLVR 및 다중 롤아웃 확장성 확보

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글