강화학습에서 그룹 수준 자연어 피드백을 통한 탐색 부트스트래핑

왜 중요한가

기존 강화학습은 성공/실패라는 단순한 숫자 점수(스칼라 보상)에만 의존하여 복잡한 문제에서 정답을 찾는 '탐색' 과정이 매우 비효율적이었다. 이 논문은 모델이 시도한 여러 답변을 묶어 '왜 틀렸는지'와 '다른 시도와 무엇이 다른지'를 자연어로 설명해줌으로써, 모델이 정답에 훨씬 빠르게 도달할 수 있는 가이드라인을 제공한다. 이는 학습 데이터가 부족한 상황에서도 모델의 성능을 비약적으로 끌어올리는 핵심 기술이 된다.

핵심 기여

그룹 수준 자연어 피드백 통합 프레임워크 GOLF 구축

외부 비평(External Critique)과 그룹 내 시도 간 비교(Intra-group Comparison)를 결합하여 단순 스칼라 보상보다 풍부한 정보를 담은 그룹 수준 피드백을 생성하고 이를 강화학습 루프에 통합했다.

적응형 피드백 주입 메커니즘 설계

보상이 낮은 영역에서만 고품질의 수정된 답변을 오프-폴리시(Off-policy) 샘플로 주입하여, 모델이 정답을 찾지 못해 학습이 정체되는 '엔트로피 붕괴' 현상을 방지했다.

생성과 수정을 동시에 최적화하는 통합 학습 구조 구현

문제 해결 능력과 스스로의 답변을 수정하는 능력을 하나의 RL 루프에서 공동 최적화함으로써, 수정 능력이 향상됨에 따라 더 나은 학습 가이드를 제공하는 선순환 구조를 만들었다.

핵심 아이디어 이해하기

강화학습(RL)은 모델이 내놓은 결과물에 대해 +1 또는 -1과 같은 스칼라 보상만을 제공한다. 이는 마치 시험을 본 학생에게 '틀렸다'는 결과만 알려주고 '왜 틀렸는지'는 알려주지 않는 것과 같다. 특히 수학 문제나 복잡한 코딩처럼 정답을 맞히기 어려운 경우, 모델은 우연히 정답을 찾을 때까지 무의미한 시도를 반복하게 되며, 이 과정에서 탐색 효율이 극도로 낮아진다.

GOLF는 모델이 한 번에 생성한 여러 개의 답변(그룹)을 통째로 분석하여 이 문제를 해결한다. 외부 모델의 비평뿐만 아니라, 같은 그룹 내의 다른 오답들과 비교하여 'A 답변은 이 부분이 좋았지만 B 답변은 저 부분이 틀렸다'는 식의 입체적인 피드백을 생성한다. 이를 통해 모델은 단순한 성공/실패 여부를 넘어, 자신의 논리적 오류가 어디에 있는지 구체적으로 파악한다.

이렇게 생성된 고품질의 수정된 답변은 학습 과정에서 일종의 '정답 가이드' 역할을 한다. 모델이 정답을 전혀 찾지 못하는 어려운 문제 구간에서 이 가이드를 학습 데이터에 섞어줌으로써, 모델이 정답으로 가는 길을 빠르게 찾도록 돕는다. 결과적으로 모델은 스스로의 오류를 수정하는 법을 배우는 동시에, 더 정확한 정답을 생성하는 능력을 발전시킨다.

방법론

GOLF는 세 가지 구성 요소로 이루어진다. 첫째는 그룹 수준 피드백 집계(Aggregated Feedback Refinement)로, 특정 프롬프트에 대해 생성된 N개의 응답과 각각의 비평을 하나로 묶어 더 나은 수정안을 생성한다. 이때 개별 수정이 아닌 그룹 전체의 정보를 활용하여 다양한 실패 패턴을 학습한다.

둘째는 적응형 가이드 주입(Adaptive Guidance Injection)이다. 그룹의 평균 보상이 임계값(τ) 이하인 저보상 영역에서만 고품질 수정안을 학습 샘플에 주입한다. [그룹 평균 보상 s(x)를 계산한다. N개의 응답 보상을 입력으로 → 산술 평균 연산을 수행해 → 0에서 1 사이의 실수 s(x)를 얻고 → 이 값이 임계값 τ보다 작으면 탐색이 정체된 저보상 영역임을 의미한다.] 이 과정을 거쳐 유용한 그래디언트를 복구한다.

셋째는 혼합 정책 최적화(Mixed Policy Optimization)와 공동 최적화(Joint Optimization)이다. 온-폴리시(On-policy) 샘플과 주입된 오프-폴리시(Off-policy) 샘플을 함께 사용하여 정책을 업데이트한다. 문제 해결(Generation)과 피드백 기반 수정(Refinement) 능력을 동시에 학습시켜, 수정 능력이 좋아질수록 더 강력한 학습 가이드를 생성하는 선순환을 만든다.

주요 결과

비검증 가능 태스크(AlpacaEval, WildBench 등)에서 GOLF는 Llama-3.1-8B-Instruct 기준 기존 최강 모델 대비 평균 점수를 9.27점 향상시켰다. 특히 샘플 효율성 측면에서 기존 RL 방식보다 2.2배 빠른 학습 속도를 보이며 성능 한계치를 높였다.

검증 가능 태스크(수학, 코드, 지시 이행)에서도 일관된 성능 향상을 입증했다. Qwen-3-8B 모델에서 AIME 25 벤치마크 점수를 GRPO 대비 3.63점 높였으며, 코드 생성(LCBv6)에서도 1.5배의 샘플 효율성 개선과 함께 SOTA급 성능을 달성했다.

Ablation Study 결과, 외부 비평만 사용하거나 그룹 내 비교만 사용할 때보다 두 정보를 모두 결합했을 때 성능이 가장 높았다. 또한 적응형 주입 방식이 모든 샘플에 무조건 주입하는 방식보다 27.37% 더 우수한 결과를 보여, 필요한 곳에만 가이드를 제공하는 전략의 유효성을 증명했다.

실무 활용

GOLF는 보상이 희소하여 학습이 어려운 복잡한 추론이나 창의적 글쓰기 도메인에서 강화학습의 효율을 극대화할 수 있는 실용적인 프레임워크이다. 특히 정답이 명확하지 않은 주관적 태스크에서도 자연어 피드백을 통해 모델을 효과적으로 정렬한다.

복잡한 수학 및 논리 추론 모델의 학습 가속화
특정 스타일이나 제약 조건을 엄격히 준수해야 하는 지시 이행(Instruction Following) 모델 튜닝
코드 리뷰 및 자동 수정 능력이 강화된 코딩 에이전트 개발
사용자 피드백을 학습 신호로 직접 활용하는 대화형 AI 시스템 구축

기술 상세

GOLF는 GRPO(Group Relative Policy Optimization) 아키텍처를 기반으로 하며, 가치 함수(Value Function) 없이 그룹 내 상대적 이득을 계산한다. 핵심 차별점은 단순 스칼라 보상에 의존하는 대신, 자연어 피드백을 통해 정보 밀도가 높은 학습 신호를 생성한다는 점이다.

수학적으로는 혼합 정책 목적 함수(Mixed Policy Objective)를 사용한다. [온-폴리시와 오프-폴리시 확률 비율을 입력으로 → reshaping 함수 f(u)=u/(u+λ) 연산을 수행해 → 조정된 가중치를 얻고 → 이는 드물게 발생하는 유익한 행동의 학습 신호를 강화하는 역할을 한다.]

학습 과정에서 생성 그룹(G_gen)과 수정 그룹(G_ref)을 하나의 배치로 묶어 처리한다. 각 그룹 내에서 이득(Advantage)을 독립적으로 정규화한 뒤, 단일 RL 프로세스 내에서 정책 가중치를 업데이트함으로써 문제 해결과 자가 수정 능력을 통합적으로 개선한다.

엔트로피 분석 결과, GOLF는 학습 전반에 걸쳐 기존 방식보다 높은 정책 엔트로피를 유지한다. 이는 모델이 특정 모드에 조기 고착(Mode Collapse)되지 않고, 그룹 수준 피드백의 안내를 받아 더 넓은 솔루션 공간을 지속적으로 탐색하고 있음을 시사한다.

한계점

GOLF는 그룹 내 여러 응답을 생성하고 이에 대한 피드백을 집계하는 과정을 포함하므로, 학습 시 계산 비용(Rollout 횟수 및 보상 모델 호출)이 기존 RL 대비 증가한다. 또한 고품질 피드백을 생성하기 위해 강력한 성능을 가진 외부 모델(Judge)에 대한 의존도가 존재한다.

키워드

RL(강화학습)Natural Language Feedback(자연어 피드백)GRPO(그룹 상대 정책 최적화)Exploration(탐색)Sample Efficiency(샘플 효율성)