참조 가이드 미세 조정을 통한 강화학습 중 고난도 문제 학습

핵심 요약

수학적 추론을 위한 강화학습(Reinforcement Learning, RL)은 보상 희소성(Reward Sparsity) 문제로 인해 어려움을 겪을 수 있습니다. 즉, 도전적인 문제에 대해 대형 언어 모델(LLM)이 어떠한 정답 궤적도 샘플링하지 못하여 강화학습이 의미 있는 긍정적 피드백을 받지 못하게 됩니다. 동시에, AoPS와 같은 문제들과 함께 인간이 작성한 참조 풀이가 존재하는 경우가 많지만, 이러한 솔루션에 대해 직접 미세 조정(Fine-tuning)을 수행하는 것은 모델이 자신의 추론 분포 밖에 있는 인간의 증명을 모방하지 못하는 경우가 많기 때문에 이점이 없습니다. 우리는 고난도 문제에 대해 인간이 작성한 참조 풀이를 활용하여 긍정적인 궤적을 합성하고 강화학습 전에 이를 학습시키는 간단하고 효과적인 방법인 참조 가이드 미세 조정(Reference-Guided Fine-Tuning, ReGFT)을 도입합니다. 각 문제에 대해 모델에게 부분적인 참조 풀이를 제공하고 모델 스스로 추론 흔적(Reasoning Trace)을 생성하게 함으로써, 결과 궤적이 참조 가이드의 혜택을 받으면서도 모델의 추론 공간 내에 머물도록 보장합니다. 이러한 참조 가이드 궤적에 대한 미세 조정은 해결 가능한 문제의 수를 늘리고 강화학습 중에 더 많은 긍정적 보상을 받는 체크포인트를 생성합니다. 세 가지 벤치마크(AIME24, AIME25, BeyondAIME)에 걸쳐, ReGFT는 지도 학습 정확도를 일관되게 향상시키고, DAPO 학습을 가속화하며, 강화학습의 최종 성능 한계(Plateau)를 높입니다. 우리의 결과는 ReGFT가 보상 희소성을 효과적으로 극복하고 더 강력한 강화학습 기반 수학적 추론을 가능하게 함을 보여줍니다.

난이도고급

핵심 기여

보상 희소성 극복을 위한 ReGFT 프레임워크

모델이 스스로 정답을 찾기 어려운 고난도 수학 문제에서 인간의 참조 솔루션을 가이드로 사용하여 유의미한 학습 데이터를 생성하는 방법론을 구축했다.

모델 분포 내 정답 경로 합성 기법

인간의 풀이를 그대로 학습하는 대신 부분적인 힌트로 제공하여 모델이 자신의 추론 스타일로 정답에 도달하게 함으로써 학습 효율과 일반화 성능을 높였다.

강화학습 성능 한계 돌파 및 가속화

사전 학습된 체크포인트의 품질을 개선하여 강화학습 단계에서 더 높은 최종 성능을 달성하고 DAPO 학습 속도를 유의미하게 단축했다.

방법론

ReGFT는 인간의 참조 솔루션을 부분적으로 입력(Partial Reference)으로 제공하고, 모델이 나머지 추론 과정을 완성하도록 유도하여 정답 궤적을 생성합니다. 생성된 궤적 중 정답인 것들만 선별하여 지도 학습(SFT)을 수행함으로써 모델의 추론 분포를 유지하면서도 난이도 높은 문제에 대한 해결 능력을 배양합니다. 이후 DAPO(Direct Alignment with Preference Optimization)와 같은 강화학습 알고리즘을 적용하여 성능을 추가로 최적화합니다.

주요 결과

AIME24, AIME25, BeyondAIME 벤치마크에서 기존 방식 대비 지도 학습 정확도가 크게 향상되었으며, 강화학습 적용 시 더 높은 최종 점수를 기록했다. 특히 보상이 거의 발생하지 않던 고난도 문제 세트에서 유의미한 정답 샘플링 성공률을 보이며 학습 가속화를 증명했다.

시사점

수학적 추론과 같이 정답 경로를 찾기 힘든 도메인에서 외부 지식인 인간의 풀이를 모델의 내부 지식으로 변환하는 효과적인 전략을 제시합니다. 이는 복잡한 논리적 추론이 필요한 에이전트 학습이나 과학적 문제 해결 모델 개발 시 보상 설계의 어려움을 극복하는 실무적 대안이 될 수 있습니다.

키워드

강화학습(Reinforcement Learning)수학적 추론(Mathematical Reasoning)보상 희소성(Reward Sparsity)참조 가이드 미세 조정(ReGFT)DAPO 학습(DAPO Training)

섹션별 상세

보상 희소성 극복을 위한 ReGFT 프레임워크

모델 분포 내 정답 경로 합성 기법

강화학습 성능 한계 돌파 및 가속화

사전 학습된 체크포인트의 품질을 개선하여 강화학습 단계에서 더 높은 최종 성능을 달성하고 DAPO 학습 속도를 유의미하게 단축했다.

핵심 요약

난이도고급

핵심 기여

보상 희소성 극복을 위한 ReGFT 프레임워크

모델 분포 내 정답 경로 합성 기법

강화학습 성능 한계 돌파 및 가속화

사전 학습된 체크포인트의 품질을 개선하여 강화학습 단계에서 더 높은 최종 성능을 달성하고 DAPO 학습 속도를 유의미하게 단축했다.

방법론

주요 결과

시사점

키워드

강화학습(Reinforcement Learning)수학적 추론(Mathematical Reasoning)보상 희소성(Reward Sparsity)참조 가이드 미세 조정(ReGFT)DAPO 학습(DAPO Training)

섹션별 상세

보상 희소성 극복을 위한 ReGFT 프레임워크

모델 분포 내 정답 경로 합성 기법

강화학습 성능 한계 돌파 및 가속화

사전 학습된 체크포인트의 품질을 개선하여 강화학습 단계에서 더 높은 최종 성능을 달성하고 DAPO 학습 속도를 유의미하게 단축했다.

참조 가이드 미세 조정을 통한 강화학습 중 고난도 문제 학습

핵심 요약

핵심 기여

방법론

주요 결과

시사점

키워드

섹션별 상세

보상 희소성 극복을 위한 ReGFT 프레임워크

모델 분포 내 정답 경로 합성 기법

강화학습 성능 한계 돌파 및 가속화

참조 가이드 미세 조정을 통한 강화학습 중 고난도 문제 학습

핵심 요약

핵심 기여

방법론

주요 결과

시사점

키워드

섹션별 상세

보상 희소성 극복을 위한 ReGFT 프레임워크

모델 분포 내 정답 경로 합성 기법

강화학습 성능 한계 돌파 및 가속화

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글