G-Zero: 제로 데이터에서의 개방형 생성 자가 진화를 위한 Self-Play

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Open-ended 태스크는 ground-truth 신호가 부족해 외부_verifier나 LLM-judge에 의존할 수밖에 없고, 이는 평가 한계와 보상 해킹의 가능성을 낳는다. G-Zero는 Hint-δ라는 내재 보상 신호를 통해 Proposer와 Generator의 공동 진화를 이끌어 외부 판단 없이도 지속적인 자가 개선을 가능하게 한다. 또한 이론적 보장과 다수 모델군에서의 실험적으로 검증된다.

왜 중요한가

Open-ended 태스크는 ground-truth 신호가 부족해 외부_verifier나 LLM-judge에 의존할 수밖에 없고, 이는 평가 한계와 보상 해킹의 가능성을 낳는다. G-Zero는 Hint-δ라는 내재 보상 신호를 통해 Proposer와 Generator의 공동 진화를 이끌어 외부 판단 없이도 지속적인 자가 개선을 가능하게 한다. 또한 이론적 보장과 다수 모델군에서의 실험적으로 검증된다.

핵심 기여

Verifier-Free Co-Evolutionary Framework

외부 verifier 없이 Hint-δ를 중심으로 Proposer와 Generator가 상호 작용하는 자가 진화 파이프라인을 제안한다. Hint-δ는 쿼리의 난이도와 힌트의 정보를 함께 포착해 두 모델의 blind spots를 표적으로 삼는다.

이론적 보장: Best-iterate Suboptimality

제한된 데이터 커버리지와 δ-필터링 하에서 표준-DPO 버전의 근사에 대해 best-iterate 하한 보장을 제시한다. 이를 통해 순차적인 DPO 업데이트가 점진적으로 최적에 수렴할 수 있음을 수학적으로 뒷받침한다.

Open-ended 및 Verifiable 도메인에서의 실험적 개선

Qwen-3-8B-Base 및 Llama-3.1-8B-Instruct 모델에서 Round 2 기준으로 AlpacaEval 및 AIME 지표에서 의미 있는 개선을 달성한다(예: AlpacaEval에서 Round 2의 평균 상승, AIME25에서 Round 2의 상승): Open-ended와 Verifiable 양 축에서 모두 향상.

구조적 깊이의 내재화

수학적 문제해결 및 논리적 깊이의 내부화가 특정 도메인 memorization이 아닌 구조적 패턴의 전이로 인해 발생하며, 이를 통해 비verifiable 도메인에서의 강건성이 검증된다.

δ-filter 및 데이터 큐레이션 전략

δ 분포의 하위 절반만 선택하는 필터링과 BLEU Duplication_penalty 등 데이터 품질 관리 기법으로 DPO 학습의 안정성과 일반화 성능을 높인다.

핵심 아이디어 이해하기

출발점: open-ended/ unverifiable 도메인에서의 평가 신호가 부족해 인간 혹은 외부 Judge에 의존하는 기존 방식은 한계를 갖는다. 두 모델(Proposer, Generator)의 상호 작용에서 발생하는 내재적 신호로 학습 목표를 구성하면 외부 판단의 편향과 보상 핵의 문제를 회피할 수 있다.

방법론

수학적 기반: Hint-δ은 q, h, ahard를 입력으로 두고 per-token 평균 로그 가능도 차이로 계산된다. δ(q,h,ahard) = 1/T ∑t log πG(at|q,a<t) − log πG(at|q,h,a<t). 이는 제약된 길이에서의 정보 차이를 포착한다. 제안자 P는 GRPO로 q, h를 생성하고 δ를 Intrinsic Reward로 사용하여 탐색을 촉진한다. 길이 제약(Plength)과 BLEU Duplication_penalty을 포함한 총 보상 r(q,h) = δ(q,h,ahard) − Plength − PBLEU로 Proposer를 업데이트한다. Generator는 DR+1 데이터에서 a_assisted를 선택으로 학습하는 DPO 손실을 이용해 학습한다. 데이터 큐레이션은 δ를 재계산해 상위 절반이 아닌 하위 절반의 샘플만 retaining하는 방식으로 수행한다. 이후 πG는 정적 참조 모델 πref에서 디폴트로 업데이트된다. 이론적으로는 Assumption 1~~6에 기반한 Theorem 1으로 JQ(π⋆) − JQ(πt0) ≤ O~~(ε + κBT⁻¹√ηδ) 형태의 보장을 제공한다.

주요 결과

Main results: Qwen3-8B-Base의 Round 2 평균은 34.96(AlpLC)에서 35.43(Average)로 상승, AIME25에서 Round 2는 12.40으로 증가. Llama-3.1-8B-Instruct의 Round 2에서 평균 43.90으로 상승. R-Zero 대비 G-Zero Round 2는 대체로 모든 지표에서 긍정적 변화를 보이며, Math/IFEval/AlpLC 등에서 개선 폭이 나타난다. Table 2는 DPO 풀의 70% 이상이 non-verifiable task(advice, writing 등)로 구성되며, δ가 가장 큰 신호는 비verifiable writing/설명에서 나온다. Table 3은 δ 필터링 구간으로 [0,50]이 균형적 성능 향상을 제공한다. Figure 3은 DPO 풀 사이즈 증가에 따른 성능 변화 추이를 보여주며, Math의 경우 빠르게 개선되고 IFEval, AlpLC의 경우 점진적 개선을 보인다. Figure 4의 Hint-δ 분포는 Round 2에서 중앙값이 오른 것을 보여주며, 이는 구동 모델의 성능 향상에 맞춰 Proposer가 더 강한 힌트를 구성함을 시사한다.

기술 상세

아키텍처: Proposer πP, Generator πG. Hint-δ = per-token mean log πG(a_t|q,a_{<t}) − log πG(a_t|q,h,a_{<t})를 통해 δ를 계산한다. GRPO로 q,h를 생성하고 δ를 보상으로 사용하며, 길이 제약 Plength와 BLEU Duplication Penalty로 프로포저의 과잉 길이 및 중복 생성을 억제한다. 데이터는 DR+1로 정제되고, Generator는 DPO 손실로 학습한다. δ 필터는 하위 50%의 샘플만 남겨 DPO의 학습 신호를 안정화한다. 이론적으로 Assumptions 1~6에서 Theorem 1으로 최적 반복 t0가 존재함을 보장하고, 데이터 커버리지와 노이즈 ηδ에 따라 성능 보정이 가능함.

한계점

논문은 Length collapse와 reward-hacking 경로에 따른 한계점을 언급하며, Round 간의 안정화 문제를 언급한다. 다중 라운드 확장에서의 안정적 수렴 및 일반화에 대한 추가 연구가 필요하다.

실무 활용

G-Zero는 verifier-free self-evolution으로 unverifiable 도메인에서도 LLM이 지속적으로 개선될 수 있음을 보여준다. 외부 ground-truth 데이터 없이도 내부적 피드백만으로 구조적 패턴과 문제해결 능력을 강화한다.

Open-ended instruction following 개선
대화형 에이전트의 문제해결 능력 향상
논리적 문제해결 및 수학적 추론 능력 강화
비 verifiable 도메인에서의 자가 학습 파이프라인 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

self-evolving LLMs(자가 진화하는 LLM)verifier-free RL(Verifier-free RL)Hint-δ(힌트-δ)GRPO(그룹 상대 정책 최적화)DPO(직접 선호 최적화)best-iterate suboptimality(최적 반복의 근사 하한)open-ended generation(개방형 생성)