OpenSeeker: 학습 데이터 전면 공개를 통한 최첨단 검색 에이전트의 대중화

왜 중요한가

고성능 검색 에이전트 개발은 그동안 방대한 비공개 데이터를 보유한 거대 기업들의 전유물이었습니다. 이 연구는 고품질 데이터를 스스로 생성하는 혁신적인 합성 기법을 통해, 적은 양의 데이터만으로도 상용 모델을 뛰어넘는 성능을 낼 수 있음을 증명하고 모든 데이터와 모델을 공개하여 연구 생태계의 진입 장벽을 허물었습니다.

핵심 기여

사실 기반의 확장 가능한 제어 가능 QA 합성 기법

웹 그래프를 역공학하여 복잡한 멀티홉 추론 문제를 생성하고, 엔티티 난독화를 통해 단순 키워드 검색으로 해결할 수 없는 고난도 과제를 자동으로 합성하는 프레임워크를 구축했다.

노이즈 제거 기반의 궤적 합성 및 비대칭 학습 전략

보조 LLM을 활용해 도구 응답의 노이즈를 제거한 상태에서 최적의 행동 궤적을 생성하고, 학습 시에는 모델이 원본 노이즈 데이터로부터 핵심 정보를 추출하도록 훈련하여 견고한 추론 능력을 확보했다.

OpenSeeker 모델 및 11.7k개 고품질 데이터셋 전면 공개

30B 규모의 모델 가중치와 함께 복잡한 QA 쌍 및 상세 실행 궤적이 포함된 전체 학습 데이터를 공개하여 검색 에이전트 연구의 투명성과 협력적 발전을 도모했다.

핵심 아이디어 이해하기

기존 검색 에이전트는 웹 페이지의 방대한 텍스트에서 정답을 찾는 과정에서 발생하는 노이즈와 복잡한 추론 요구 사항을 처리하는 데 한계가 있었다. 특히 Attention Mechanism이 모든 입력 토큰 간의 관계를 계산할 때, 검색 결과에 포함된 광고나 메뉴 같은 불필요한 정보가 정답 추출을 방해하는 노이즈로 작용하여 추론의 정확도를 떨어뜨리는 문제가 발생한다.

OpenSeeker는 이를 해결하기 위해 웹의 하이퍼링크 구조를 그래프로 모델링하고, 이를 역으로 추적하여 정답에 도달하기 위해 반드시 여러 단계를 거쳐야만 하는 멀티홉(Multi-hop) 문제를 설계한다. 또한 특정 키워드만으로 정답을 유추하지 못하도록 엔티티를 모호하게 표현하는 난독화 과정을 거쳐 모델이 실제 논리적 추론을 수행하도록 강제한다.

결과적으로 모델은 단순히 텍스트를 매칭하는 수준을 넘어, 복잡한 웹 생태계에서 필요한 정보를 선별하고 논리적으로 연결하는 능력을 내재화하게 된다. 이는 대규모 기업용 모델이 방대한 데이터로 학습하는 방식을 효율적인 데이터 합성 전략으로 대체할 수 있음을 보여주며, 적은 양의 고품질 데이터가 모델 성능에 결정적임을 입증한다.

방법론

Fact-grounded QA Synthesis는 웹 코퍼스에서 시드 페이지를 선택한 후 하이퍼링크를 따라 그래프를 확장하는 Topological Graph Expansion을 수행한다. [웹 페이지 노드 입력 → 링크 기반 그래프 확장 → 엔티티 추출 및 관계 정립 → 다단계 추론이 필요한 질문 생성] 과정을 통해 사실에 기반하면서도 난이도가 조절된 문제를 확보한다. 이후 Entity Obfuscation 단계에서 질문 내의 구체적인 엔티티를 모호한 설명으로 대체한다. [구체적 엔티티 e 입력 → 설명적 참조 Φ(e)로 변환 → 질문 재작성 → 검색을 통한 엔티티 식별 필요성 증대] 순으로 연산하여 모델이 단순 패턴 매칭이 아닌 실제 정보 탐색을 수행하게 유도한다.

Denoised Trajectory Synthesis는 교사(Teacher) 모델이 노이즈가 제거된 요약 정보를 바탕으로 최적의 행동을 결정하게 한다. [원문 도구 응답 입력 → 보조 LLM을 통한 요약 생성 → 요약본 기반 추론 및 행동 결정 → 골드 궤적 생성] 과정을 거친다. 이후 학습 단계에서는 비대칭 컨텍스트 전략을 사용한다. [원본 노이즈 데이터 입력 → 교사의 골드 행동 예측 → 손실 계산 및 가중치 업데이트] 과정을 통해 학생 모델이 스스로 노이즈를 걸러내고 핵심 신호를 추출하는 능력을 습득하도록 훈련한다.

데이터 검증을 위해 Rejection Sampling을 도입하여 두 가지 기준을 적용한다. 첫째, 도구 없이 모델의 내부 지식만으로 풀 수 있는 쉬운 문제는 배제한다. 둘째, 정답 엔티티 그래프가 주어졌을 때 논리적으로 풀 수 없는 오류 데이터는 제거하여 데이터의 신뢰성을 보장한다.

주요 결과

OpenSeeker-v1-30B-SFT는 단 한 번의 학습 실행만으로 BrowseComp(29.5%), BrowseComp-ZH(48.4%), xbench-DeepSearch(74.0%), WideSearch(59.4%) 등 주요 벤치마크에서 SOTA를 달성했다. 특히 BrowseComp-ZH에서는 대규모 자본이 투입되고 복잡한 강화학습(RL)을 거친 Alibaba의 Tongyi DeepResearch(46.7%)를 앞지르는 성과를 보였다.

데이터 효율성 분석 결과, 단 11.7k개의 합성 데이터만으로도 147k개의 데이터를 사용한 MiroThinker 등 기존 오픈소스 모델보다 월등한 성능을 기록했다. 이는 데이터의 단순한 양보다 합성 전략을 통한 질적 향상과 난이도 제어가 검색 에이전트 성능에 더 결정적인 영향을 미친다는 사실을 뒷받침한다.

실무 활용

기업 내부 문서나 복잡한 웹 환경에서 정보를 탐색하고 요약하는 자율형 검색 에이전트 구축에 즉시 활용 가능합니다. 특히 적은 양의 고품질 데이터로도 고성능을 낼 수 있는 학습 파이프라인을 제공하므로 특정 도메인에 특화된 지능형 검색 도구 개발에 매우 유리합니다.

복잡한 시장 조사 및 다국어 정보 합성 자동화 에이전트
기업 내부 지식 베이스 기반의 멀티홉 질의응답 및 보고서 작성 시스템
웹 브라우징을 통한 실시간 정보 검증 및 자율적 팩트 체크 도구
고난도 추론 능력이 필요한 전문 분야 고객 지원 AI 챗봇

기술 상세

아키텍처는 Qwen3-30B-A3B-Thinking-2507을 베이스 모델로 하며, 30B 파라미터 중 추론 시 3B가 활성화되는 Mixture-of-Experts(MoE) 구조를 갖는다. 최대 256k의 컨텍스트 윈도우를 지원하며 도구 호출 제한은 200회로 설정되어 장기 실행(Long-horizon) 과제 수행에 최적화되어 있다.

학습 전략은 복잡한 강화학습이나 지속적 사전학습 없이 순수하게 Supervised Fine-tuning(SFT)만으로 수행되었다. 이는 데이터 합성 단계에서 도입한 비대칭 컨텍스트 학습이 모델의 견고한 노이즈 제거 능력을 형성했기 때문이다. 교사 모델이 요약된 정보를 보고 내린 결정을 학생 모델이 원본 데이터를 보고 따라 하도록 학습시킴으로써 정보 추출 능력을 극대화했다.

QA 생성 시에는 웹 아카이브에서 테라바이트 단위의 데이터를 활용하여 확장성을 확보했다. 시드 페이지에서 시작된 그래프 확장은 k개의 연결된 노드를 포함하는 로컬 종속성 서브그래프를 형성하며, 이를 통해 단일 페이지에 머물지 않는 복잡한 지식 기반을 구축한다. 이 과정에서 텍스트 노이즈를 제거하고 엔티티 간의 위상적 연결만을 보존하는 Entity Subgraph를 추출하여 추론 경로의 명확성을 확보했다.

한계점

리소스 제한으로 인해 하이퍼파라미터 최적화나 정교한 데이터 필터링 없이 단일 학습 실행 결과만을 제시했다. 또한 현재 영어 데이터의 난이도가 중국어 데이터에 비해 상대적으로 낮게 설정되어 있어 향후 업데이트를 통한 성능 향상 여지가 남아 있다.

키워드

Search Agent(검색 에이전트)Data Synthesis(데이터 합성)Multi-hop Reasoning(멀티홉 추론)SFT(지도 미세 조정)Open Source(오픈소스)Web Intelligence(웹 지능)