왜 중요한가
기존의 AI 연구 에이전트 학습 데이터는 유료 검색 API에 의존하여 비용이 많이 들고 재현이 어려웠다. 이 논문은 1,500만 개의 문서를 활용한 오프라인 환경을 구축하여 누구나 저비용으로 고품질의 연구 데이터를 생성하고 모델을 학습시킬 수 있는 길을 열었다.
핵심 기여
오프라인 연구 궤적 합성 파이프라인 구축
유료 API 없이 1,500만 개의 문서 코퍼스 위에서 작동하는 재현 가능한 데이터 생성 환경을 구축하여 데이터 수집 비용을 획기적으로 낮췄다.
명시적 브라우저 프리미티브 도입
search, open, find라는 세 가지 핵심 동작을 정의하여 모델이 정보를 단순히 검색하는 것을 넘어 세부 내용을 탐색하고 검증하도록 유도했다.
97,000개 이상의 고품질 연구 데이터셋 공개
100회 이상의 도구 호출을 포함하는 복잡한 장기적 연구 과정이 담긴 대규모 데이터셋을 합성하고 이를 오픈소스로 배포했다.
30B 규모의 오픈소스 연구 에이전트 성능 입증
합성된 데이터를 통해 파인튜닝된 모델이 BrowseComp-Plus에서 54.8%의 정확도를 기록하며 유료 상용 모델을 상회하는 성능을 보였다.
핵심 아이디어 이해하기
기존 LLM은 단발성 질문 답변에는 능숙하지만, 여러 단계를 거쳐 정보를 찾고 검증하는 '심층 연구'에는 한계가 있다. 특히 학습에 필요한 데이터가 실시간 웹 검색 결과에 의존하다 보니, 시간이 지나면 검색 결과가 바뀌어 실험을 똑같이 재현하기 어렵고 API 비용 부담도 크다.
OpenResearcher는 이 문제를 해결하기 위해 1,500만 개의 문서를 미리 확보하여 '박제'된 오프라인 검색 환경을 만들었다. 여기에 search(검색), open(문서 열기), find(내용 찾기)라는 세 가지 기본 동작을 설계하여, 모델이 마치 사람이 브라우저를 쓰듯 단계별로 증거를 수집하는 과정을 학습하게 했다.
이 방식을 통해 생성된 97,000개의 연구 과정(trajectory)은 모델이 단순히 정답만 맞히는 것이 아니라, 어떤 키워드로 검색하고 어떤 문서를 꼼꼼히 읽어야 하는지 그 '사고의 흐름'을 내면화하게 돕는다. 결과적으로 30B 규모의 상대적으로 작은 모델도 복잡한 다단계 추론을 수행할 수 있는 능력을 갖추게 된다.
방법론
파이프라인은 질문 수집, 오프라인 코퍼스 구축, 궤적 합성의 3단계로 구성된다. MiroVerse에서 복잡한 다단계 추론이 필요한 6,000개의 질문을 추출하고, 이에 대응하는 10,000개의 '골드 문서'를 온라인 부트스트래핑으로 확보한 뒤 FineWeb의 1,500만 문서와 병합하여 검색 환경을 조성했다.
검색 엔진은 Qwen3-Embedding-8B를 사용하여 각 문서를 벡터화하고 FAISS 인덱스를 구축했다. 에이전트가 쿼리 벡터 v_q를 입력하면 인덱스 내 문서 벡터 v_d들과의 내적(Dot Product)을 계산한다. 이 연산 결과값이 클수록 의미적 유사도가 높음을 의미하며, 이 점수를 기준으로 정렬하여 가장 관련 있는 상위 K개의 문서 스니펫을 모델에게 반환한다.
궤적 합성은 GPT-OSS-120B를 교사 모델로 활용했다. 모델은 search로 후보를 찾고, open으로 전체 텍스트를 가져오며, find로 특정 문자열을 매칭하는 과정을 반복한다. 각 단계에서 [현재 상태 → 추론 → 도구 호출 → 관찰 결과] 순으로 데이터를 기록하며 최대 150턴까지 탐색을 허용했다. 최종적으로 정답을 맞힌 궤적만 선별하여 30B-A3B 모델을 SFT로 학습시켰다.
주요 결과
BrowseComp-Plus 벤치마크에서 OpenResearcher-30B-A3B 모델은 54.8%의 정확도를 기록했다. 이는 베이스 모델인 Nemotron-3-Nano(20.8%) 대비 34.0%p 향상된 수치이며, GPT-4.1(36.4%)이나 Claude-4-Opus(36.8%) 같은 강력한 상용 모델을 크게 상회하는 결과다.
실시간 웹 환경인 GAIA와 xbench-DeepSearch에서도 각각 64.1%, 65.0%의 정확도를 달성하며 높은 범용성을 입증했다. 오프라인 환경에서 학습했음에도 불구하고 실제 인터넷 검색 환경으로의 지식 전이가 성공적으로 이루어졌음을 보여준다.
분석 결과, 성공적인 연구 궤적은 평균 38.4회의 도구 호출을 수행한 반면 실패한 사례는 71.7회로 나타났다. 이는 실패 원인이 탐색 부족이 아니라 비효율적인 검색 전략이나 잘못된 방향 설정에 있음을 시사하며, open 도구를 통해 문서를 직접 확인하는 과정이 최종 정확도와 밀접한 관련(상관관계 86.7%)이 있음을 확인했다.
실무 활용
기업 내부의 방대한 문서고나 특정 도메인의 데이터셋을 활용하여 고성능 연구 에이전트를 구축하려는 개발자에게 최적의 프레임워크를 제공한다. 유료 API 비용 없이 대규모 학습 데이터를 생성할 수 있어 경제적이다.
- 사내 위키 및 기술 문서를 기반으로 한 전문 연구 에이전트 구축
- 특정 학술 분야의 논문 수만 권을 분석하는 자동 리뷰 시스템 개발
- 복잡한 사실 확인(Fact-checking)이 필요한 저널리즘 보조 도구 학습
- 저비용으로 고품질의 다단계 추론 데이터셋 합성
기술 상세
아키텍처는 NVIDIA-Nemotron-3-Nano-30B-A3B-Base를 기반으로 하며, Mamba와 Transformer가 결합된 하이브리드 MoE(Mixture-of-Experts) 구조를 채택했다. 총 31.6B 파라미터 중 토큰당 3.2B 파라미터가 활성화되어 효율적인 추론이 가능하다.
학습 데이터 큐레이션에는 거부 샘플링(Rejection Sampling)을 적용했다. 합성된 97,000개의 궤적 중 최종 정답이 일치하는 약 55,000개의 데이터만 선별하여 SFT(Supervised Fine-Tuning)를 진행했다. 학습은 8장의 NVIDIA H100 GPU에서 약 8시간 동안 수행되었다.
장기적 문맥 처리를 위해 최대 256K 토큰의 시퀀스 길이를 지원하도록 데이터를 패킹(Packing)했다. 이를 통해 긴 연구 과정에서 발생하는 문맥 단절이나 정보 손실을 방지하고 전체 추론 체인을 보존했다.
브라우저 프리미티브 설계에서 find 도구는 현재 열린 문서 내에서 정확한 문자열 매칭을 수행한다. 이는 모델이 긴 문서 내에서 특정 엔티티나 수치를 정확히 특정하게 함으로써, 단순 스니펫 기반 검색의 고질적 문제인 정보 왜곡(Hallucination)을 억제하는 역할을 한다.
한계점
오프라인 코퍼스가 구축 시점의 데이터로 고정되어 있어 실시간성이 필요한 최신 정보 검색에는 한계가 있을 수 있다. 또한, 15M 문서 규모가 실제 웹의 방대함에 비하면 여전히 작아 아주 지엽적인 정보에 대한 연구 궤적 생성 시 '골드 문서' 부트스트래핑 의존도가 높다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.