GRPO: 추론 모델 학습을 위한 효율적인 강화학습 알고리즘 이해

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

최근 o3나 Gemini와 같은 프론티어 추론 모델들이 수학과 코딩 벤치마크에서 인간을 능가하는 성과를 내는 핵심 동력은 GRPO(Group Relative Policy Optimization) 알고리즘이다. 기존 강화학습 방식이 별도의 가치 모델을 학습시켜 보상을 예측했던 것과 달리, GRPO는 동일 프롬프트에 대해 생성된 여러 응답의 평균 점수를 기준점(Baseline)으로 삼아 상대적인 우위를 계산한다. 이 방식은 학습 연산량을 절반 가까이 줄이면서도 정답 확인이 명확한 수학이나 코드 생성 작업에서 매우 강력한 성능을 발휘한다. 결과적으로 개발자들은 복잡한 보상 모델 설계 없이도 검증 가능한 보상 함수만으로 고성능 추론 에이전트를 구축할 수 있게 되었다.

배경

강화학습(RL)의 기본 개념 (Policy, Reward, Baseline), LLM 미세 조정(Fine-tuning) 및 SFT에 대한 이해, KL Divergence 및 정규화 기법에 대한 기초 지식

대상 독자

LLM 추론 성능 개선 및 효율적인 강화학습 도입을 고민하는 AI 엔지니어 및 연구자

의미 / 영향

GRPO는 고비용의 가치 모델 없이도 강력한 추론 모델을 만들 수 있음을 증명하여 중소 규모 연구소나 기업의 모델 학습 진입 장벽을 낮췄습니다. 특히 수학, 코딩, 에이전틱 RAG와 같이 정답 확인이 자동화된 영역에서 모델 성능을 극대화하는 표준 도구로 자리 잡을 전망입니다.

섹션별 상세

강화학습은 단순히 예시를 복제하는 지도 미세 조정(SFT)과 달리 특정 결과의 최적화를 학습시킨다. 모델은 정답을 도출하는 과정을 직접 보여주지 않아도 정답 여부에 따른 보상을 통해 스스로 유효한 추론 전략을 탐색하고 학습한다. 이러한 탐색 과정 덕분에 최신 모델들은 단순한 다음 토큰 예측을 넘어 문제 해결을 위한 최적의 경로를 찾아낼 수 있다. 수학이나 로직 퍼즐처럼 정답 확인은 쉽지만 풀이 과정을 시연하기 어려운 작업에서 특히 효과적이다.

강화학습 업데이트가 유의미하려면 절대적인 보상 수치가 아닌 상대적인 우위를 나타내는 어드밴티지(Advantage) 계산이 필수적이다. 모든 응답이 유사한 점수를 받을 경우 모델은 어떤 행동을 강화해야 할지 판단할 수 없으므로, 보상에서 기대치인 기준점(Baseline)을 빼서 양수 또는 음수의 신호를 생성한다. 어드밴티지가 0보다 크면 해당 응답의 확률을 높이고, 0보다 작으면 확률을 낮추는 방식으로 정책을 업데이트한다. 이 기준점을 어떻게 설정하느냐가 강화학습 알고리즘의 핵심적인 차별화 요소가 된다.

GRPO는 별도의 가치 모델(Value Model) 없이 모델 스스로 생성한 응답 그룹의 평균을 기준점으로 활용한다. 하나의 프롬프트에 대해 G개의 응답을 샘플링하고 각 응답의 점수를 매긴 뒤, 그룹 평균과 표준편차를 이용해 각 샘플의 어드밴티지를 계산한다. `advantage = (r_i - mean) / std` 공식을 통해 모델은 외부의 기준이 아닌 자신의 현재 수준과 비교하여 더 나은 결과물을 학습한다. 이 과정에서 가치 모델 학습에 필요한 연산 비용을 제거하여 전체 학습 효율을 크게 개선한다.

추론 작업에서 GRPO의 보상 함수는 주로 정답 일치 여부와 출력 형식의 정확성이라는 두 가지 규칙 기반 지표를 사용한다. 수학 문제는 최종 답안의 문자열 매칭으로, 코드는 단위 테스트 통과 여부로 보상을 즉각적이고 명확하게 산출할 수 있다. 인간의 선호도를 학습한 복잡한 보상 모델이 필요 없으므로 보상 모델의 오버피팅이나 대리 보상(Proxy)의 불일치 문제를 원천적으로 방지한다. 이러한 특성 덕분에 MATH나 AIME 같은 고난도 벤치마크에서 SFT만으로는 도달할 수 없던 성능 기록을 경신하고 있다.

모델이 보상만을 쫓아 비정상적인 출력을 내놓는 '보상 해킹'을 방지하기 위해 KL 발산 페널티를 정규화 요소로 도입한다. 학습 중인 정책이 초기 참조 모델(Reference Model)로부터 너무 멀어지지 않도록 비용을 부과하여 출력의 일관성과 품질을 유지한다. 손실 함수는 어드밴티지에 로그 확률을 곱한 값에 KL 항을 더한 형태인 `loss = -advantage * log_prob + beta * KL`로 구성된다. 여기서 베타(beta) 값을 정밀하게 튜닝하는 것이 모델의 환각을 방지하고 학습 안정성을 확보하는 핵심적인 기술적 레버가 된다.

실무 Takeaway

수학 문제 풀이나 유닛 테스트 생성처럼 결과값이 명확히 검증 가능한 도메인에서는 GRPO를 통해 보상 모델 학습 비용 없이 효율적인 RL 파이프라인을 구축할 수 있다.
시스템 프롬프트 준수 여부나 특정 JSON 포맷 출력 등 규칙 기반으로 검증 가능한 항목을 보상 함수에 포함시키면 모델의 지시 이행 능력을 비약적으로 높일 수 있다.
학습 안정성을 위해 KL 발산 페널티의 베타 값을 조정하여 모델이 보상 해킹(Reward Hacking)에 빠지지 않고 참조 모델의 기본 능력을 유지하도록 관리해야 한다.