핵심 요약
대규모 모델에 의존하던 복잡한 리서치 작업을 4B 규모의 소형 모델로도 수행할 수 있음을 증명했다. 단 1만 개의 공개 데이터와 효율적인 강화학습 기법만으로 구축되어 비용과 개인정보 보호가 중요한 엣지 환경 배포에 새로운 가능성을 제시한다.
왜 중요한가
대규모 모델에 의존하던 복잡한 리서치 작업을 4B 규모의 소형 모델로도 수행할 수 있음을 증명했다. 단 1만 개의 공개 데이터와 효율적인 강화학습 기법만으로 구축되어 비용과 개인정보 보호가 중요한 엣지 환경 배포에 새로운 가능성을 제시한다.
핵심 기여
2단계 학습 레시피 구축
데이터 정제 및 리샘플링을 포함한 Agentic SFT 단계와 정보 이득(Information Gain) 기반의 보상을 활용한 Agentic RL 단계를 통해 소형 모델의 리서치 능력을 극대화했다.
Turn-aware Resampling 기법
SFT 단계에서 100턴 이상의 긴 궤적(trajectory)에 최대 5배의 가중치를 부여하여 모델이 장기적인 계획 수립과 증거 통합 능력을 학습하도록 유도했다.
IGPO 기반의 Turn-level 보상 설계
최종 정답 여부만 따지는 희소한 보상 대신, 각 단계가 정답 확률을 얼마나 높였는지 측정하는 정보 이득 보상과 형식 패널티를 결합하여 학습 효율을 높였다.
엣지 규모 모델의 성능 한계 돌파
DR-Venus-4B는 BrowseComp 등 주요 벤치마크에서 9B 이하 모델 중 최고 성능을 기록했으며, 30B급 모델과의 격차를 크게 줄였다.
핵심 아이디어 이해하기
기존의 리서치 에이전트는 수백 번의 도구 사용과 추론이 이어지는 긴 과정(long-horizon)을 견뎌야 하므로 주로 거대 모델(LLM)을 기반으로 제작되었다. 소형 모델은 복잡한 궤적에서 발생하는 노이즈나 형식 오류에 민감하며, 강화학습 시 정답에 도달하는 성공 사례가 너무 적어 학습이 진행되지 않는 'Advantage Collapse' 현상을 겪기 쉽다.
이 논문은 이를 해결하기 위해 '정보 이득(Information Gain)' 개념을 강화학습의 핵심 보상으로 삼는다. 모델이 정답을 맞혔는지뿐만 아니라, 특정 검색이나 브라우징 행동이 정답에 대한 확신도를 얼마나 높였는지를 매 턴마다 계산하여 보상으로 제공한다. 이는 마치 시험 문제를 풀 때 최종 점수만 주는 것이 아니라, 풀이 과정의 각 단계가 정답에 얼마나 가까워졌는지 실시간으로 피드백을 주는 것과 같다.
결과적으로 4B라는 작은 파라미터 규모에서도 모델은 불필요한 검색을 줄이고 유의미한 정보를 찾는 브라우징에 집중하게 된다. 또한 테스트 시점에 여러 번 시도하는 Test-time Scaling을 적용할 경우 성능 상한선이 급격히 높아지는 특성을 확인하여 소형 모델의 실용적 가치를 입증했다.
방법론
전체 학습은 2단계로 구성된다. 1단계인 Agentic SFT에서는 REDSearcher 데이터셋의 10,001개 궤적을 정제하여 사용한다. 중복된 브라우징 기록을 제거하고 Qwen3-235B를 판별기로 사용하여 정답이 맞은 9,365개의 고품질 궤적만 남긴다. 이후 턴 수에 따라 샘플링 가중치를 차등 부여하는 Turn-aware Resampling을 적용해 긴 호흡의 작업을 학습시킨다.
2단계인 Agentic RL에서는 IGPO(Information Gain-based Policy Optimization)를 사용한다. 각 턴 t에서 모델이 생성한 토큰 시퀀스 u_t가 주어질 때, 정답 g에 대한 로그 확률값의 변화량인 r_i,t = log π(g|h_≤t) - log π(g|h_≤t-1)을 계산하여 정보 이득 보상을 산출한다. [이전까지의 기록 h_≤t-1과 현재 행동 u_t를 입력으로] → [정답 토큰 시퀀스 g가 생성될 확률의 로그값 차이를 연산하여] → [양수 또는 음수의 보상값을 얻고] → [이 값이 현재 행동이 정답 도출에 기여한 정보량을 의미하게 된다].
추가적으로 형식 오류를 방지하기 위해 Turn-level Format Penalty를 도입했다. [각 턴의 출력 형식이 미리 정의된 XML 태그 등을 준수하는지 확인하여] → [위반 시 고정된 감점값 -λ_fmt를 부여하는 연산을 수행해] → [최종 보상에 합산함으로써] → [모델이 장기 추론 과정에서도 일관된 출력 형식을 유지하도록 강제한다]. 또한 IG-Scale 기법을 통해 최종 결과 보상이 너무 희소할 때 정보 이득 보상이 학습을 지배하지 않도록 보상 크기를 적응적으로 조절한다.
주요 결과
DR-Venus-4B-RL은 BrowseComp 벤치마크에서 29.1점을 기록하여 기존 4B 모델인 AgentCPM-Explore(24.1점)를 크게 앞질렀다. 특히 중국어 벤치마크인 BrowseComp-ZH에서는 37.7점을 기록하며 30B급 모델인 WebSailor-V2-30B-RL(44.1점)과의 격차를 좁히는 성과를 거두었다. xBench-DS-2505에서는 74.7점을 기록해 30B 모델인 Tongyi-DR-30B(75.0점)와 대등한 수준에 도달했다.
Ablation Study 결과, SFT 단계에서 긴 궤적을 리샘플링하는 것만으로도 BrowseComp에서 +4.0점의 성능 향상이 있었으며, 일반적인 GRPO 대신 제안된 IGPO를 사용했을 때 성능이 하락하지 않고 오히려 +2.3점 상승하는 안정적인 강화학습 효과를 확인했다. 도구 사용 분석 결과, 강화학습 이후 모델이 단순 검색(Search)보다 세부 페이지 확인(Browse) 비중을 높여 더 깊이 있는 정보를 수집하는 경향을 보였다.
기술 상세
DR-Venus는 Qwen3-4B-Thinking-2507을 백본 모델로 사용한다. 아키텍처적으로는 표준적인 Transformer 구조를 유지하되, 학습 전략에서 소형 모델의 취약점인 '긴 문맥에서의 형식 유지'와 '낮은 성공률로 인한 강화학습 정체'를 해결하는 데 집중했다. IGPO 알고리즘은 GRPO의 효율적인 롤아웃 스키마를 계승하면서도 턴 단위의 세밀한 신용 할당(Credit Assignment)을 가능하게 한다.
구현 측면에서는 verl 프레임워크와 FSDP(Fully Sharded Data Parallel)를 활용하여 8~16장의 A100 GPU 환경에서 학습을 진행했다. SFT 시에는 최대 200K 토큰의 컨텍스트를 처리하며, RL 단계에서는 턴당 최대 8,192 토큰 생성을 허용하고 전체 쿼리당 최대 200회의 상호작용 단계를 허용하도록 설정하여 매우 긴 리서치 프로세스를 지원한다.
한계점
현재 강화학습에 사용된 데이터가 주로 영어에 집중되어 있어, 중국어 등 타 언어 벤치마크에서의 강화학습 효과가 영어 대비 상대적으로 낮게 나타나는 데이터 분포 불일치 문제가 존재한다.
실무 활용
저사양 하드웨어에서도 구동 가능한 고성능 리서치 에이전트를 구축할 수 있는 실무적 방법론을 제시한다. 공개된 10K 수준의 데이터만으로도 충분한 성능을 낼 수 있어 특정 도메인용 에이전트 개발에 용이하다.
- 엣지 디바이스(노트북, 모바일) 내장형 개인 비서의 웹 리서치 기능 구현
- 기업 내부 보안망 내에서 외부 유출 없이 작동하는 소형 전문 리서치 에이전트 구축
- 대규모 모델 호출 비용을 절감하기 위한 1차 정보 수집용 경량 에이전트 활용
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.