GRPO를 이용한 코드 실행 예측 학습 중 72% 정확도 정체 문제 해결 방법 문의

핵심 요약

Qwen3-4B 모델을 GRPO로 학습시켜 코드 실행 예측 정확도 72%를 달성했으나, 보상 함수 임계값 문제로 인한 성능 정체를 해결하고자 커뮤니티에 조언을 구하고 있다.

배경

Qwen3-4B 모델의 코드 실행 예측 성능을 높이기 위해 GRPO와 조밀한 보상(Dense Reward)을 사용했으나, 정확도 72% 지점에서 학습이 더 이상 진전되지 않아 기술적 돌파구를 찾고 있다.

커뮤니티 반응

작성자가 구체적인 수치와 실험 로그(Weights & Biases) 공유 의사를 밝히며 매우 상세한 질문을 올려, 전문적인 RL 연구자들의 심도 있는 답변이 기대되는 상황이다.

주요 논점

01중립다수

현재의 보상 설계가 72% 이상의 정밀도를 확보하기에는 변별력이 부족할 수 있다는 분석이다.

실용적 조언

정확도 정체 구간에서는 조밀한 보상(Dense Reward)보다 검증 가능한 보상(Verifiable Reward) 기반의 RLVR 접근법을 고려할 필요가 있다.
보상 값이 1에 근접했을 때의 그래디언트 소실 문제를 해결하기 위해 보상 스케일링이나 커리큘럼 학습 도입이 권장된다.

언급된 도구

GRPO추천

강화학습 알고리즘 (Group Relative Policy Optimization)

Qwen3-4B중립

기반 언어 모델

Weights & Biases추천링크

실험 관리 및 로그 모니터링

섹션별 상세

Qwen3-4B 모델에 GRPO(Group Relative Policy Optimization)를 적용하여 코드 실행 결과 예측 작업을 수행했다. 초기에는 조밀한 보상(Dense Reward) 신호를 조합하여 정확도를 72%까지 끌어올리는 데 성공했다. 이 과정에서 소형 Qwen 모델의 고질적 문제인 '무한 반복 저주(Repeat Curse)'를 해결했으며 학습 과정 자체는 매우 안정적이었다.

정확도가 72%에 도달한 이후 성능 향상이 극도로 정체되는 현상이 발생했다. 보상 값이 1에 가까워질수록(0.972, 0.984 등) 모델이 정답과 완벽히 일치하는 출력을 내놓는 데 어려움을 겪고 있다. 코드 실행 예측 특성상 정답과 조금만 달라도 오답으로 처리되기 때문에, 보상 함수가 포화 상태에 이르면서 학습 동력이 상실된 것으로 분석된다.

성능 정체를 해결하기 위해 희소 보상(Sparse Reward) 전환, 학습률 및 KL 계수 조정, 배치 크기 변경 등 다양한 실험을 시도했다. 또한 데이터셋을 변경하거나 수일간 장기 학습을 진행했음에도 불구하고 72%라는 성능 벽을 넘지 못했다. 작성자는 GRPO나 RLVR(Reinforcement Learning from Verifiable Rewards) 경험자들의 구체적인 피드백을 요청하고 있다.

실무 Takeaway

GRPO와 조밀한 보상 조합은 소형 모델의 반복 생성 문제를 해결하고 초기 성능을 올리는 데 효과적이다.
코드 실행 예측과 같이 엄격한 정답 일치가 필요한 작업에서는 보상 값이 1에 수렴할수록 학습 난이도가 급격히 상승한다.
단순한 하이퍼파라미터 튜닝이나 데이터셋 교체만으로는 특정 임계치 이상의 성능 돌파가 어려울 수 있다.