SageMaker AI에서 GRPO를 활용한 검증 가능한 보상 기반 강화학습 구현하기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

전통적인 강화학습은 보상 신호의 신뢰성 문제로 인해 모델이 의도치 않은 방식으로 점수를 높이는 보상 해킹에 취약하다. 이를 해결하기 위해 수학이나 코드처럼 정답이 명확한 분야에서 규칙 기반의 피드백을 제공하는 검증 가능한 보상 기반 강화학습(RLVR)이 대안으로 제시됐다. 본문은 Amazon SageMaker 환경에서 Qwen2.5-0.5B 모델에 GRPO 알고리즘과 QLoRA를 적용하여 GSM8K 데이터셋으로 학습시키는 과정을 상세히 다룬다. 실험 결과 8-shot 환경에서 학습된 모델은 기본 모델 대비 3.7배 향상된 41%의 정확도를 기록하며 논리적 추론 능력이 크게 강화됨을 입증했다.

배경

AWS 계정 및 SageMaker IAM 권한, ml.p4d.24xlarge 인스턴스 쿼터, Python 3.12 이상 환경

대상 독자

LLM 추론 성능 개선 및 강화학습 파이프라인을 구축하려는 AI 엔지니어

의미 / 영향

이 연구는 고비용의 인간 피드백 없이도 특정 도메인에서 LLM의 논리적 추론 능력을 획기적으로 높일 수 있음을 보여줍니다. 특히 GRPO와 RLVR의 조합은 중소규모 모델(0.5B)에서도 강력한 성능 향상을 이끌어낼 수 있어 효율적인 특화 모델 개발의 표준이 될 가능성이 큽니다.

섹션별 상세

전통적인 강화학습의 보상 신호 불확실성은 모델이 잘못된 방향으로 최적화되는 보상 해킹 문제를 야기한다. RLVR은 인간의 주관적 평가 대신 프로그래밍된 규칙으로 정답을 검증하여 투명하고 객관적인 피드백 루프를 구축한다. 이를 통해 모델은 모호한 지침 대신 명확한 성공 기준을 바탕으로 반복적인 성능 개선이 가능하다.

GRPO 알고리즘은 전체 데이터가 아닌 그룹 내 상대적 비교를 통해 정책을 업데이트함으로써 학습의 안정성을 높인다. 각 프롬프트에 대해 여러 응답을 생성하고 그룹 내에서 더 나은 응답의 확률을 높이는 방식으로 작동하여 분산을 줄이고 수렴을 가속화한다. 특히 수학적 추론과 같이 정답 경로가 다양한 작업에서 균형 잡힌 성능 향상을 이끌어낸다.

수학적 추론 학습을 위해 응답의 구조를 확인하는 형식 보상과 정답의 수치를 대조하는 정확도 보상의 이중 체계를 구축한다. 정규표현식을 사용하여 응답 내 특정 패턴을 감지하고 부동 소수점 오차를 고려한 정밀도 비교를 통해 보상을 산출한다. 이 방식은 최대 1.5점의 결합 보상을 제공하여 모델이 올바른 형식과 정확한 답을 동시에 학습하도록 유도한다.

python

#Correctness reward function
def correctness_reward_func_qa(completions, final_answer, **kwargs):
    rewards = []
    for completion, ground_truth in zip(completions, final_answer):
        try:
            match = re.search(r'####.*?([\d,]+(?:\.\d+)?)', completion)
            if match:
                answer = match.group(1)
                for remove_char in [',', '$', '%', 'g']:
                    answer = answer.replace(remove_char, '')
                if abs(float(answer)-float(ground_truth)) < 1e-3:
                    rewards.append(1.0)
                else:
                    rewards.append(0.0)
            else:
                rewards.append(0.0)
        except ValueError:
            rewards.append(0.0)
    return rewards

추출된 수치 정답과 실제 정답을 비교하여 수학적 정확도에 따라 1.0 또는 0.0의 보상을 부여하는 함수

실험 결과 8-shot 예시를 포함한 GRPO 학습 모델은 기본 모델의 11% 정확도 대비 41%로 성능이 급격히 향상됐다. 특정 개수 이상의 예시(4-shot 이상)가 주어질 때 추론 능력이 활성화되는 비선형적 스케일링 패턴이 관찰됐다. 이는 모델이 그룹 비교를 통해 최적의 추론 경로를 선택하는 법을 학습했음을 시사하며 검증 가능한 도메인에서의 강력한 효용성을 보여준다.

실무 Takeaway

수학이나 코딩처럼 정답이 객관적인 도메인에서는 인간 피드백(RLHF) 대신 규칙 기반 보상(RLVR)을 사용하여 비용을 절감하고 학습 속도를 높일 수 있다.
GRPO 학습 시 Few-shot 예시를 템플릿으로 제공하면 모델의 탐색 공간이 좁아져 추론 패턴 활성화가 훨씬 효율적으로 이루어진다.
SageMaker Training Jobs를 활용하면 분산 GPU 환경을 자동으로 구성하고 학습 종료 후 자원을 즉시 해제하여 대규모 모델 학습 비용을 최적화할 수 있다.

언급된 리소스

GitHubAmazon SageMaker Generative AI GitHub Repo

논문Reinforcement Learning for Reasoning in Large Language Models with One Training Example