핵심 요약
대규모 자본이 투입되는 복잡한 강화학습(RL) 파이프라인 없이도, 고품질의 데이터 설계만으로 세계 최고 수준의 검색 에이전트를 개발할 수 있음을 입증했다. 학계나 오픈소스 커뮤니티에서도 적은 비용으로 고성능 에이전트를 구축할 수 있는 새로운 방법론을 제시했다.
왜 중요한가
대규모 자본이 투입되는 복잡한 강화학습(RL) 파이프라인 없이도, 고품질의 데이터 설계만으로 세계 최고 수준의 검색 에이전트를 개발할 수 있음을 입증했다. 학계나 오픈소스 커뮤니티에서도 적은 비용으로 고성능 에이전트를 구축할 수 있는 새로운 방법론을 제시했다.
핵심 기여
고난도 데이터 합성 전략 도입
지식 그래프 확장, 도구 세트 다양화, 저단계 필터링이라는 세 가지 단순한 수정을 통해 모델이 다단계 추론을 수행하도록 강제하는 10.6k개의 고품질 궤적 데이터를 구축했다.
단순 SFT 기반의 SOTA 성능 달성
복잡한 CPT나 RL 단계 없이 Supervised Fine-Tuning만으로 BrowseComp(46.0%), xbench(78.0%) 등 주요 벤치마크에서 기존 산업계 모델을 능가하는 성과를 거두었다.
검색 에이전트 연구의 민주화
순수 학술 팀이 공개된 모델과 방법론만으로 고성능 에이전트를 제작하여 모델 가중치를 오픈소스로 공개함으로써 연구 접근성을 크게 높였다.
핵심 아이디어 이해하기
기존의 검색 에이전트는 대규모 말뭉치에 대한 지속적 사전 학습(CPT)과 복잡한 강화학습(RL)을 통해 성능을 높여왔다. 하지만 이는 막대한 연산 자원을 필요로 하며, 데이터의 양에 비해 실제 에이전트가 복잡한 문제를 해결하는 '사고의 깊이'를 학습하는 효율은 낮다는 한계가 있다.
OpenSeeker-v2는 모델이 학습하는 '경험의 질'에 집중한다. 지식 그래프에서 노드 간의 연결을 확장하여 모델이 정답에 도달하기 위해 반드시 여러 단계를 거치도록 환경을 설계한다. 이는 딥러닝의 Embedding 공간에서 멀리 떨어진 정보들을 Attention 메커니즘이 논리적으로 연결하도록 유도하는 것과 같다.
특히 '저단계 필터링'을 통해 짧은 단계 내에 해결되는 쉬운 문제는 과감히 버리고, 최소 수십 번의 도구 호출이 필요한 고난도 문제만 학습시킨다. 결과적으로 모델은 짧은 경로를 찾는 편법 대신, 긴 호흡의 추론과 정보 취합 과정을 내재화하게 된다.
방법론
데이터 합성 파이프라인을 세 가지 핵심 축으로 개선했다. 첫째, Scaling graph size를 통해 작업 합성에 사용되는 국부 서브그래프의 확장 예산을 k에서 K로 늘려 더 풍부한 증거 노드를 포함시킨다. [원본 그래프 입력 → 확장 예산 적용 → 거대 서브그래프 출력 → 다중 노드 정보 취합이 필요한 복잡한 질문 생성 의미]
둘째, Expanding the tool set을 통해 에이전트가 사용할 수 있는 도구의 가짓수를 늘려 다단계 ReAct 궤적을 생성한다. [질문 입력 → 확장된 도구함 참조 → 다단계 행동/관찰 시퀀스 생성 → 유연한 문제 해결 전략 학습 의미]
셋째, Strict low-step filtering을 적용하여 도구 호출 횟수 T가 임계값 T_min보다 작은 궤적을 제거한다. [생성된 궤적 입력 → 호출 횟수 계산 → 기준 미달 데이터 삭제 → 고난도 추론 데이터셋 구축 의미]. 최종적으로 Qwen3-30B-A3B-Thinking-2507 모델을 기반으로 10.6k개의 필터링된 데이터셋을 사용하여 표준 SFT를 수행했다.
주요 결과
OpenSeeker-v2-30B-SFT는 30B 규모의 ReAct 패러다임 모델 중 가장 강력한 성능을 기록했다. BrowseComp에서 46.0%, BrowseComp-ZH에서 58.1%, Humanity's Last Exam(HLE)에서 34.6%, xbench에서 78.0%를 달성했다. 이는 대규모 CPT와 RL을 거친 Alibaba의 Tongyi DeepResearch(각각 43.4%, 46.7%, 32.9%, 75.0%)를 모든 지표에서 앞선 결과이다.
Ablation study 결과, OpenSeeker-v1 대비 BrowseComp 점수가 29.5에서 46.0으로 급상승했으며, 이는 데이터의 난이도와 풍부함이 에이전트 성능의 핵심임을 시사한다. 특히 평균 도구 호출 횟수가 64.67회로 나타나, 기존 모델들(RedSearcher 36.01회)보다 훨씬 깊이 있는 정보 탐색을 수행함을 확인했다.
관련 Figure

OpenSeeker-v2의 평균 도구 호출 횟수(64.67회)가 OpenSeeker-v1(46.97회)이나 RedSearcher(36.01회)보다 현저히 높음을 보여준다. 이는 저단계 필터링 전략이 성공적으로 작동하여 모델이 더 길고 복잡한 문제 해결 과정을 학습했음을 시사한다.
OpenSeeker-v2와 기존 모델들의 학습 데이터 내 도구 호출 횟수 분포를 비교한 히스토그램이다.
기술 상세
OpenSeeker-v2는 Qwen3-30B-A3B-Thinking-2507 아키텍처를 기반으로 하며, 256k의 긴 컨텍스트 윈도우를 활용한다. 추론 시에는 3B의 파라미터만 활성화되는 효율적인 구조를 가진다. 핵심 차별점은 데이터 합성 시 지식 그래프의 위상적 연결성을 활용해 다중 홉(Multi-hop) 의존성을 강제했다는 점이다.
학습 과정에서 RL 없이 SFT만 사용했음에도 불구하고, 데이터 필터링을 통해 모델이 '지름길'을 찾는 대신 긴 추론 궤적을 따르도록 정렬(Alignment)되었다. 이는 에이전트 학습에서 데이터의 양(Quantity)보다 난이도와 정보 밀도(Difficulty & Richness)가 성능 상한을 결정하는 더 중요한 요소임을 기술적으로 증명한다.
한계점
본 논문은 ReAct 패러다임 내에서의 성능 향상에 집중하고 있으며, 컨텍스트 관리나 더 복잡한 에이전트 아키텍처 자체의 구조적 개선에 대한 논의는 상대적으로 제한적이다.
실무 활용
고성능 검색 및 연구 에이전트를 적은 비용으로 구축하고자 하는 기업이나 연구소에 즉시 적용 가능한 방법론과 모델을 제공한다.
- 심층 학술 연구 및 논문 분석 자동화 에이전트 구축
- 복잡한 웹 검색 및 다국어 정보 취합 시스템 개발
- 제한된 컴퓨팅 자원 환경에서의 고성능 도구 사용(Tool-use) 모델 학습
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.