핵심 요약
기존 리서치 에이전트는 복잡한 추론 과정에서 발생하는 오류가 누적되어 성능이 저하되는 한계가 있었다. 이 논문은 데이터 생성부터 추론 단계까지 '검증' 프로세스를 핵심으로 설계하여, 상대적으로 작은 8B 파라미터 모델로도 거대 모델 수준의 정교한 정보 탐색과 문제 해결 능력을 갖출 수 있음을 증명했다.
왜 중요한가
기존 리서치 에이전트는 복잡한 추론 과정에서 발생하는 오류가 누적되어 성능이 저하되는 한계가 있었다. 이 논문은 데이터 생성부터 추론 단계까지 '검증' 프로세스를 핵심으로 설계하여, 상대적으로 작은 8B 파라미터 모델로도 거대 모델 수준의 정교한 정보 탐색과 문제 해결 능력을 갖출 수 있음을 증명했다.
핵심 기여
검증 중심의 QA 데이터 합성
지식 그래프와 에이전트 기반 탐색을 결합하고, 정답의 유일성과 정확성을 보장하는 적대적 검증 메커니즘을 도입해 고품질 학습 데이터를 생성했다.
검증 기반 궤적 구성
학습용 궤적(trajectory)에 중간 단계 확인 및 최종 정답 검증 패턴을 명시적으로 주입하여 에이전트가 스스로 오류를 수정하는 능력을 학습하게 했다.
검증기 가이드 기반 테스트 시간 스케일링
추론 시 에이전트 자체를 검증기로 활용하고, 실패 시 컨텍스트를 초기화하여 재시도하는 'Discard All' 전략을 통해 어려운 문제의 해결률을 높였다.
8B 모델의 SOTA 성능 달성
Qwen3-8B를 기반으로 BrowseComp 등 주요 벤치마크에서 기존 8B 에이전트를 압도하고 30B급 모델과 대등하거나 능가하는 성능을 기록했다.
핵심 아이디어 이해하기
Transformer 기반 LLM은 다음 토큰을 예측하며 문장을 생성한다. 리서치 에이전트는 이 능력을 활용해 검색 도구를 호출하고 결과를 요약하는데, 이 과정이 길어지면 이전 단계의 사소한 오해가 뒤따르는 모든 추론을 오염시킨다. 이는 Gradient Descent 과정에서 노이즈가 섞인 데이터로 학습하는 것과 유사한 악영향을 미친다.
Marco DeepResearch는 '검증'을 손실 함수나 단순한 필터링을 넘어 시스템의 기본 아키텍처로 통합했다. 특히 데이터 생성 시 생성기(Generator)가 문제를 만들면 공격자(Attacker)가 다른 답이 있는지 공격하고, 분석기(Analyzer)가 이를 중재하는 적대적 구조를 도입했다. 이는 GAN(Generative Adversarial Network)이 서로 경쟁하며 품질을 높이는 원리와 유사하다.
추론 시에는 'Discard All'이라는 전략을 사용한다. 이는 복잡한 연산 중 에러가 감지되면 현재의 상태를 유지하며 수정하려 애쓰는 대신, 입력값(Query)만 남기고 모든 중간 연산 결과를 초기화하는 것이다. 이를 통해 모델은 잘못된 추론의 굴레에서 벗어나 완전히 새로운 탐색 경로를 찾을 수 있게 된다.
방법론
데이터 합성 단계에서는 지식 그래프 기반의 역방향 생성 방식을 수행한다. 정답 엔티티를 먼저 선택하고 경로를 탐색하여 질문을 생성하며, 생성기, 공격자, 분석기로 구성된 3인 체제 루프를 통해 정답의 유일성을 검증한다.
궤적 구성에서는 멀티 에이전트 협업 구조를 활용한다. 메인 에이전트가 과제를 분할하면 검색 서브 에이전트가 해결하고, 검증 서브 에이전트가 웹 도구로 교차 검증을 수행한다. 이 과정에서 발생한 오류-수정 패턴을 기록하여 단일 에이전트 학습용 데이터로 변환한다.
학습 파이프라인은 SFT 이후 GRPO 알고리즘을 적용한다. [그룹 내 각 샘플의 보상 r_i와 전체 평균/표준편차를 입력으로] -> [보상에서 평균을 빼고 표준편차로 나누는 정규화 연산을 수행해] -> [상대적 이득 A_hat_i를 얻고] -> [해당 샘플이 그룹 내 다른 시도들에 비해 얼마나 우수한지를 나타내는 지표로 활용하여 정책을 업데이트한다].
테스트 시간 스케일링에서는 'Discard All' 전략을 결합한다. 최대 단계 도달이나 정답 도출 실패 신호가 발생하면 [기존 도구 호출 이력을 입력으로] -> [전체 삭제 연산을 수행해] -> [시스템 프롬프트와 쿼리만 남은 상태를 얻고] -> [깨끗한 컨텍스트에서 다시 추론을 시작하여 에러 전파를 차단한다].
주요 결과
BrowseComp 벤치마크에서 31.4점을 기록하여 MiroThinker-8B(31.1)를 앞섰으며, 특히 중국어 벤치마크인 BrowseComp-ZH에서는 47.1점으로 30B급인 Tongyi DeepResearch(43.4)를 능가하는 성과를 보였다.
GAIA(text-only) 데이터셋에서 69.9점을 기록하며 8B 규모 모델 중 최상위권 성능을 입증했다. xBench-DeepSearch-2510에서는 42.0점을 기록하여 기존 8B 모델들(23~34점대) 대비 비약적인 향상을 나타냈다.
Ablation Study 결과, 검증 기반 궤적 학습을 추가했을 때 평균 2.03점의 성능 향상이 있었으며, 테스트 시간 스케일링 적용 시 GAIA에서 +8.7점, BrowseComp-ZH에서 +17.8점이라는 성능 이득을 확인했다.
기술 상세
아키텍처의 핵심은 Qwen3-8B 백본에 YaRN 기술을 결합한 것이다. RoPE의 주파수를 조정하여 보간함으로써, 추가 학습 없이도 모델이 인지할 수 있는 토큰 거리를 128K까지 확장해 방대한 웹 페이지 정보를 한 번에 처리할 수 있게 했다.
학습 파이프라인은 SFT 이후 GRPO를 적용한다. GRPO는 별도의 가치 모델 없이 그룹 내 샘플들의 보상 평균을 기준점으로 삼아 이득을 계산한다. 이는 계산 복잡도를 낮추면서도 에이전트가 더 나은 도구 호출 시퀀스를 선택하도록 유도한다.
보상 설계는 결과 기반 방식을 채택했다. 최종 정답의 정확성만을 평가하며, 판정의 신뢰도를 높이기 위해 Qwen-Turbo와 GPT-4o를 교차 활용하는 2단계 LLM-as-Judge 시스템을 구축했다.
데이터 합성 시 도입된 'Entity Obfuscation'은 지식 그래프 상의 엔티티 명칭을 추상적인 설명으로 대체하는 기법이다. 이는 모델이 사전 학습된 지식에 의존해 답을 맞히는 것을 방지하고, 반드시 제공된 컨텍스트 내에서 논리적 연결 고리를 찾아내도록 강제한다.
실무 활용
복잡한 웹 검색과 다단계 추론이 필요한 전문 리서치 업무에 즉시 활용 가능한 8B 규모의 효율적인 에이전트다.
- 웹 기반의 심층 시장 조사 및 보고서 자동 작성
- 복잡한 다단계 질문에 대한 사실 기반 답변 생성
- 오류 수정 능력이 강화된 자율형 웹 브라우징 에이전트 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.