FrontierSmith: 대규모로 오픈-엔드 코딩 문제를 합성하는 자동화 시스템

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

오픈-엔드 코딩 문제는 최적해의 존재를 보장하기 어렵고 구성 비용이 크다. FrontierSmith은 닫힌-ended 문제를 기초로 삼아 목표·출력·입력의 변형(mutations)을 통해 오픈-엔드 문제를 자동으로 확장하며, 다양한 해결 전략을 이끌어내는 문제를 선별한다. 아이디어 발산(d(div)) 지표를 활용해 다중 해결 전략의 가능성을 정량화하고, 테스트 케이스와_verifier를 자동으로 생성해 지속적으로 평가한다. 이를 통해 합성 데이터로도 인간 큐레이션 데이터에 근접한 학습 효과를 얻을 수 있음을 보인다.

왜 중요한가

오픈-엔드 코딩 문제는 최적해의 존재를 보장하기 어렵고 구성 비용이 크다. FrontierSmith은 닫힌-ended 문제를 기초로 삼아 목표·출력·입력의 변형(mutations)을 통해 오픈-엔드 문제를 자동으로 확장하며, 다양한 해결 전략을 이끌어내는 문제를 선별한다. 아이디어 발산(d(div)) 지표를 활용해 다중 해결 전략의 가능성을 정량화하고, 테스트 케이스와_verifier를 자동으로 생성해 지속적으로 평가한다. 이를 통해 합성 데이터로도 인간 큐레이션 데이터에 근접한 학습 효과를 얻을 수 있음을 보인다.

핵심 기여

Mutation-based open-ended problem synthesis

닫힌-ended 문제를 세 가지 축(O, CO, CI)으로 변형해 오픈-ended를 만든다: Changing goals(O→O′), Restricting outputs(CO→CO′O), Generalizing inputs(CI→CI′). 이로써 최적해의 존재가 불투명하고 질이 점진적으로 평가되는 문제를 만든다.

Idea divergence as problem-quality signal

LLM-은 서로 다른 전략의 확률을 추정하는 d(c)를 도입한다. 두 독립 솔버의 솔루션이 서로 다른 알고리즘을 사용할 확률로, 두 단계(LLM-judge 기반 추정, 실행 기반 점수 벡터 간 거리)로 측정한다.

Automated test-case and verifier generation with cross-validation

각 후보에 대해 테스트 케이스 생성자와 verifier 생성기를 구성하고, 서로를 교차 검증하는 절차를 거친다. 10회 반복으로 수렴하며, 실패한 후보는 여과한다.

Empirical gains and long-horizon behavior

FrontierSmith로 합성된 데이터로 Qwen3.5-9B/27B를 학습하면 FrontierCS/ALE-bench에서 사람 큐레이션 데이터와 유사하거나 그 이상으로 성능이 올라간다. 또한 장기호라이즌(code agents의 turn 수/토큰 수 증가)을 유도한다.

핵심 아이디어 이해하기

출발점은 closed-ended 문제다. O, CI, CO의 조합으로 구성된 문제 형식을 정의하고, O를 최적해가 아닌 목적 함수으로 바꿔 오픈-ended를 만들며, CO를 제약으로 축소하는 방식으로 문제를 확장한다. 이때 솔버가 서로 다른 알고리즘을 사용하도록 유도해야 오픈-ended의 본질이 유지된다. 아이디어 발산(d(c))은 두 독립 솔버가 서로 다른 알고리즘을 쓸 확률로 정의되며, LLm-judge의 판단과 실행 기반 점수 벡터 간 거리를 통해 추정한다. 이로써 단일 전략으로 귀결되는 문제를 피하고, 다양한 해결 접근법을 촉진하는 문제를 선별할 수 있다. 검증 파이프라인은 테스트 케이스와 verifier를 교차 검증하는 방식으로 구성되며, 이때 얻은 점수는 연속적이며 RL 학습에 사용할 수 있는 신호를 제공한다. 합성된 문제는 인간 큐레이션 데이터와 유사한 긴 호라이즌 행동을 이끌어내며, 데이터의 다양성과 품질에 모두 기여한다.

방법론

Mutation 기반 처리: 문제 형식의 세 축(O, CI, CO)을 바꾸는 Mutation을 적용한다. 목표를 최적해가 존재하지 않는 형태로 바꾸거나, 각 출력에 대한 제약을 강화하거나, 입력 도메인을 확장한다. LLM 기반 추정: 각 후보 c에 대해 n개의 솔루션 s1..sn을 생성하고, 이들 간의 전략 차이를 LLM-judge에 의해 판단해 d̂(c)를 얻는다. 실행 기반 추정: 테스트 케이스 t1..tm과 verifier Vc로 각 솔루션 si의 점수 벡터 qi를 얻고, d̂(c) = (1/n(n-1)) Σi<j ||qi - qj||2의 형태로 측정한다. 두 추정치를 순차적으로 사용해 top-Ndiv를 선택하고, 이후 BuildAndValidate를 거쳐 Tc, Vc를 얻고, d̂(c) 재랭킹으로 최종 top-Nfinal을 선정한다. 테스트 인프라는 테스트 케이스 생성자와 verifier 생성기로 구성되며, 교차 검증 프로토콜을 통해 수렴한다. 합성된 문제는 seed 풀에 재추가되어 차후 라운드의 seed로 사용된다.

주요 결과

주요 벤치마크에서 합성 데이터가 인간 큐레이션 데이터에 근접한 성능을 보인다. Qwen3.5-9B의 FrontierCS Avg@5: 10.62, Best@5: 15.73; ALE-bench Best@5: 29.38, Avg@5: 633.58. Qwen3.5-27B의 FrontierCS Avg@5: 19.82, Best@5: 29.38; ALE-bench Avg@5: 661.64, Best@5: 938.10. 대조군으로 HardTests 및 Random Reward 대비 FrontierSmith의 성능 상승이 확인되며, 200개 문제의 구성에서 No Filter 대비 약 2~3포인트의 Avg@5 상승 및 ALE-bench에서 의미 있는 향상을 보인다. 또한 10%의 사례를 제외하는 Cross-Validation에서 문제의 선별이 실제 오픈-엔드 특성을 반영한다는 결론이 도출되었다. 차이점: Forced-open-ended 구성의 필요성과 다양한 해법의 도출 가능성을 확인했다. Open-ended 데이터는 인간 큐레이션 데이터의 대체재로 작동하며, 장기 호라이즌 행동을 유도한다.

기술 상세

문제 형식은 (O, CI, CO)로 표현되며, O는 목표 함수 또는 최적화 목표를 의미한다. Mutation 유형은 세 가지가 있다: (1) Changing goals: 목표를 최적 해가 존재하는 이진 결정에서 최적화 문제로 바꾸는 것, (2) Restricting outputs: 출력에 대한 제약을 강화하는 것, (3) Generalizing inputs: 입력 도메인을 확장하는 것. 각 후보 c에 대해 n개의 솔루션 s1..sn를 생성하고, d̂(c) = (1/ C(n,2)) Σi<j 1 if 전략(si) ≠ 전략(sj) else 0을 LLM-judge로 추정한다. 실행 기반 추정은 qi = (Vc(si, t1), ..., Vc(si, tm))를 계산하고, d̂(c) = (1/n) Σi<j 1/√m ||qi - qj||2로 계산한다. 두 추정치를 결합해 top-Ndiv를 선택하고, BuildAndValidate를 통해 Tc, Vc를 얻고, d̂(c) 재랭킹으로 top-Nfinal을 선정한다. 최종 P를 Seed 풀에 추가하여 다음 라운드의 seed로 활용한다.

실무 활용

대규모 LLM 코딩 데이터 생성을 자동화하여 오픈-ended 학습 데이터를 확장한다. 이를 통해 장기적 학습 신호를 제공하고, 벤치마크 간 일반화 성능을 높인다.

오픈-ended 코딩 벤치마크를 위한 문제 세트 자동 확장
다양한 해결 전략을 요구하는 코드 에이전트의 학습 신호 확보
테스트 케이스 생성 및 검증기 자동화로 코드 퀄리티 보증 체계 강화
다양한 벤치마크 간 도메인 일반화 연구

코드 공개 여부: 공개

코드 저장소 보기

키워드

open-ended coding(오픈 엔드 코딩)problem synthesis(문제 합성)idea divergence(아이디어 발산)test-case generation(테스트 케이스 생성)verifier generation(검증기 생성)FrontierCS(FrontierCS)ALE-bench(ALE-bench)