핵심 요약
최근의 딥 리서치 에이전트(deep research agents)들은 주로 추론 깊이(reasoning depth)를 확장하여 성능을 향상시키지만, 이는 검색 집약적인 시나리오에서 높은 추론 비용과 지연 시간을 초래합니다. 또한, 서로 다른 연구 환경 간의 일반화(generalization)는 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 효율성과 일반화 모두를 목표로 하는 장기 에이전트 검색(long-horizon agentic search) 프레임워크인 'Search More, Think Less(SMTL)'를 제안합니다. SMTL은 순차적 추론을 병렬적 증거 확보(parallel evidence acquisition)로 대체하여 제한된 컨텍스트 예산(context budget) 내에서 효율적인 컨텍스트 관리(context management)를 가능하게 합니다. 다양한 작업 유형에 대한 일반화를 지원하기 위해, 결정론적 질의응답(deterministic question answering)부터 개방형 연구 시나리오까지 아우르는 검색 작업을 적절한 평가 지표와 함께 구축하는 통합 데이터 합성 파이프라인(unified data synthesis pipeline)을 도입했습니다. 지도 미세 조정(Supervised Fine-Tuning, SFT)과 강화학습(Reinforcement Learning, RL)을 사용하여 엔드투엔드 에이전트를 학습시켰으며, BrowseComp(48.6%), GAIA(75.7%), Xbench(82.0%), DeepResearch Bench(45.9%)를 포함한 벤치마크에서 강력하고 종종 최첨단(state-of-the-art)의 성능을 달성했습니다. Mirothinker-v1.0과 비교했을 때, 최대 100회의 상호작용 단계를 가진 SMTL은 BrowseComp에서 정확도를 높이면서도 평균 추론 단계 수를 70.7% 줄였습니다.
핵심 기여
SMTL 프레임워크 제안
순차적 추론을 병렬적 증거 확보로 대체하여 검색 중심 작업에서 추론 비용과 지연 시간을 대폭 감소시킴.
통합 데이터 합성 파이프라인 구축
결정론적 QA와 개방형 연구 시나리오를 모두 포함하는 데이터를 생성하여 에이전트의 범용적 일반화 능력을 강화함.
효율적인 컨텍스트 관리 기법
제한된 컨텍스트 예산 내에서 병렬로 수집된 증거들을 최적으로 관리하여 정보 손실을 최소화함.
SFT 및 RL 기반 엔드투엔드 학습
지도 미세 조정과 강화학습을 결합하여 복잡한 검색 환경에서의 의사결정 성능을 최적화함.
방법론
SMTL은 기존의 깊은 순차적 추론 구조 대신 여러 증거를 동시에 수집하는 병렬적 증거 확보 아키텍처를 채택했습니다. 통합 데이터 합성 파이프라인을 통해 생성된 다양한 난이도의 데이터를 바탕으로 지도 미세 조정(SFT)을 수행한 후, 보상 모델을 활용한 강화학습(RL)을 적용하여 에이전트의 탐색 및 요약 능력을 극대화했습니다.
주요 결과
BrowseComp에서 48.6%, GAIA에서 75.7%, Xbench에서 82.0%, DeepResearch Bench에서 45.9%의 성능을 기록했다. 특히 Mirothinker-v1.0과 비교하여 BrowseComp 벤치마크에서 정확도를 개선함과 동시에 평균 추론 단계 수를 70.7% 절감하는 효율성을 입증했다.
시사점
리서치 에이전트의 고질적인 문제인 높은 추론 비용과 지연 시간을 병렬 처리를 통해 해결함으로써 실무 환경에서의 실시간 연구 보조 가능성을 높였습니다. 다양한 도메인에 대한 일반화 성능이 검증되어 특정 분야에 국한되지 않는 범용 AI 리서치 도구로의 확장이 기대됩니다.
키워드
섹션별 상세
SMTL 프레임워크 제안
통합 데이터 합성 파이프라인 구축
효율적인 컨텍스트 관리 기법
SFT 및 RL 기반 엔드투엔드 학습
AI 요약 · 북마크 · 개인 피드 설정 — 무료