TL;DR
Open-ended 태스크는 ground-truth 신호가 부족해 외부_verifier나 LLM-judge에 의존할 수밖에 없고, 이는 평가 한계와 보상 해킹의 가능성을 낳는다. G-Zero는 Hint-δ라는 내재 보상 신호를 통해 Proposer와 Generator의 공동 진화를 이끌어 외부 판단 없이도 지속적인 자가 개선을 가능하게 한다. 또한 이론적 보장과 다수 모델군에서의 실험적으로 검증된다.
왜 중요한가
Open-ended 태스크는 ground-truth 신호가 부족해 외부_verifier나 LLM-judge에 의존할 수밖에 없고, 이는 평가 한계와 보상 해킹의 가능성을 낳는다. G-Zero는 Hint-δ라는 내재 보상 신호를 통해 Proposer와 Generator의 공동 진화를 이끌어 외부 판단 없이도 지속적인 자가 개선을 가능하게 한다. 또한 이론적 보장과 다수 모델군에서의 실험적으로 검증된다.
핵심 기여
Verifier-Free Co-Evolutionary Framework
외부 verifier 없이 Hint-δ를 중심으로 Proposer와 Generator가 상호 작용하는 자가 진화 파이프라인을 제안한다. Hint-δ는 쿼리의 난이도와 힌트의 정보를 함께 포착해 두 모델의 blind spots를 표적으로 삼는다.
이론적 보장: Best-iterate Suboptimality
제한된 데이터 커버리지와 δ-필터링 하에서 표준-DPO 버전의 근사에 대해 best-iterate 하한 보장을 제시한다. 이를 통해 순차적인 DPO 업데이트가 점진적으로 최적에 수렴할 수 있음을 수학적으로 뒷받침한다.
Open-ended 및 Verifiable 도메인에서의 실험적 개선
Qwen-3-8B-Base 및 Llama-3.1-8B-Instruct 모델에서 Round 2 기준으로 AlpacaEval 및 AIME 지표에서 의미 있는 개선을 달성한다(예: AlpacaEval에서 Round 2의 평균 상승, AIME25에서 Round 2의 상승): Open-ended와 Verifiable 양 축에서 모두 향상.
구조적 깊이의 내재화
수학적 문제해결 및 논리적 깊이의 내부화가 특정 도메인 memorization이 아닌 구조적 패턴의 전이로 인해 발생하며, 이를 통해 비verifiable 도메인에서의 강건성이 검증된다.
δ-filter 및 데이터 큐레이션 전략
δ 분포의 하위 절반만 선택하는 필터링과 BLEU Duplication_penalty 등 데이터 품질 관리 기법으로 DPO 학습의 안정성과 일반화 성능을 높인다.
핵심 아이디어 이해하기
출발점: open-ended/ unverifiable 도메인에서의 평가 신호가 부족해 인간 혹은 외부 Judge에 의존하는 기존 방식은 한계를 갖는다. 두 모델(Proposer, Generator)의 상호 작용에서 발생하는 내재적 신호로 학습 목표를 구성하면 외부 판단의 편향과 보상 핵의 문제를 회피할 수 있다.
관련 Figure

세 모델 간의 보상 신호의 차이를 시각적으로 보여주며, G-Zero가 외부 Judge 없이 내재 신호로 학습을 유도함을 직관적으로 보여준다.
G-Zero 도입부의 비교 그림으로 R-Zero, LLM-as-a-Judge, G-Zero의 차이를 도식화한다.
방법론
수학적 기반: Hint-δ은 q, h, ahard를 입력으로 두고 per-token 평균 로그 가능도 차이로 계산된다. δ(q,h,ahard) = 1/T ∑t log πG(at|q,a<t) − log πG(at|q,h,a<t). 이는 제약된 길이에서의 정보 차이를 포착한다. 제안자 P는 GRPO로 q, h를 생성하고 δ를 Intrinsic Reward로 사용하여 탐색을 촉진한다. 길이 제약(Plength)과 BLEU Duplication_penalty을 포함한 총 보상 r(q,h) = δ(q,h,ahard) − Plength − PBLEU로 Proposer를 업데이트한다. Generator는 DR+1 데이터에서 a_assisted를 선택으로 학습하는 DPO 손실을 이용해 학습한다. 데이터 큐레이션은 δ를 재계산해 상위 절반이 아닌 하위 절반의 샘플만 retaining하는 방식으로 수행한다. 이후 πG는 정적 참조 모델 πref에서 디폴트로 업데이트된다. 이론적으로는 Assumption 16에 기반한 Theorem 1으로 JQ(π⋆) − JQ(πt0) ≤ O(ε + κBT⁻¹√ηδ) 형태의 보장을 제공한다.
관련 Figure

Proposer의 q,h 생성과 Generator의 반응, δ 계산 및 P,G 업데이트의 흐름을 명확히 보여줘 방법론의 핵심 흐름을 보강한다.
G-Zero의 코-에볼루션 루프를 도식화한 다이어그램
주요 결과
Main results: Qwen3-8B-Base의 Round 2 평균은 34.96(AlpLC)에서 35.43(Average)로 상승, AIME25에서 Round 2는 12.40으로 증가. Llama-3.1-8B-Instruct의 Round 2에서 평균 43.90으로 상승. R-Zero 대비 G-Zero Round 2는 대체로 모든 지표에서 긍정적 변화를 보이며, Math/IFEval/AlpLC 등에서 개선 폭이 나타난다. Table 2는 DPO 풀의 70% 이상이 non-verifiable task(advice, writing 등)로 구성되며, δ가 가장 큰 신호는 비verifiable writing/설명에서 나온다. Table 3은 δ 필터링 구간으로 [0,50]이 균형적 성능 향상을 제공한다. Figure 3은 DPO 풀 사이즈 증가에 따른 성능 변화 추이를 보여주며, Math의 경우 빠르게 개선되고 IFEval, AlpLC의 경우 점진적 개선을 보인다. Figure 4의 Hint-δ 분포는 Round 2에서 중앙값이 오른 것을 보여주며, 이는 구동 모델의 성능 향상에 맞춰 Proposer가 더 강한 힌트를 구성함을 시사한다.
관련 Figure

Hint-δ 분포의 좌우 분포 이동과 두 라운드 간 비교를 제시해 Co-evolutionary 동학을 시각적으로 뒷받침한다.
G-Zero의 코에볼루션 루프에서 Round 1과 Round 2 비교를 시각화한 그림

Round 2에서 Hint-δ 중앙값이 상승하며 Proposer가 더 강한 힌트를 제시하는 방향으로 적응한다는 것을 수치적으로 보여준다.
Hint-δ의 분포를 나타낸 히스토그램으로 Round 1과 Round 2를 비교
기술 상세
아키텍처: Proposer πP, Generator πG. Hint-δ = per-token mean log πG(a_t|q,a_{<t}) − log πG(a_t|q,h,a_{<t})를 통해 δ를 계산한다. GRPO로 q,h를 생성하고 δ를 보상으로 사용하며, 길이 제약 Plength와 BLEU Duplication Penalty로 프로포저의 과잉 길이 및 중복 생성을 억제한다. 데이터는 DR+1로 정제되고, Generator는 DPO 손실로 학습한다. δ 필터는 하위 50%의 샘플만 남겨 DPO의 학습 신호를 안정화한다. 이론적으로 Assumptions 1~6에서 Theorem 1으로 최적 반복 t0가 존재함을 보장하고, 데이터 커버리지와 노이즈 ηδ에 따라 성능 보정이 가능함.
한계점
논문은 Length collapse와 reward-hacking 경로에 따른 한계점을 언급하며, Round 간의 안정화 문제를 언급한다. 다중 라운드 확장에서의 안정적 수렴 및 일반화에 대한 추가 연구가 필요하다.
실무 활용
G-Zero는 verifier-free self-evolution으로 unverifiable 도메인에서도 LLM이 지속적으로 개선될 수 있음을 보여준다. 외부 ground-truth 데이터 없이도 내부적 피드백만으로 구조적 패턴과 문제해결 능력을 강화한다.
- Open-ended instruction following 개선
- 대화형 에이전트의 문제해결 능력 향상
- 논리적 문제해결 및 수학적 추론 능력 강화
- 비 verifiable 도메인에서의 자가 학습 파이프라인 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.