MiroThinker-1.7 및 H1: 검증을 통한 고성능 연구용 에이전트 구축

복잡한 다단계 추론이 필요한 연구 과제에서 AI 에이전트의 신뢰성을 높이는 검증 중심의 아키텍처를 제시한다. 특히 오픈소스 모델로 공개되어 효율적인 연구용 에이전트 개발의 새로운 기준을 마련했으며, 기존 상용 모델 대비 적은 추론 횟수로도 높은 정확도를 확보했다.

핵심 요약

왜 중요한가

핵심 기여

Agentic Mid-training 단계 도입

계획 수립, 단계별 추론, 도구 사용, 답변 요약 등 에이전트의 원자적 능력을 강화하기 위한 대규모 중간 학습 단계를 설계했다. 이를 통해 각 상호작용 단계의 신뢰성을 높이고 장기 추론 시 발생하는 노이즈 누적 문제를 완화했다.

로컬 및 글로벌 검증 메커니즘

MiroThinker-H1은 추론 과정의 각 단계(로컬)와 전체 궤적(글로벌)을 독립적으로 감사하는 검증기를 통합했다. 중간 의사결정을 실시간으로 평가하고 수정함으로써 더 정교한 검색과 논리적 일관성을 보장한다.

이중 루프 상호작용 구조

에피소드 루프와 스텝 루프로 구성된 구조를 통해 궤적 수준의 재시작과 단계별 추론을 분리했다. 최대 턴 수 도달 시 깨끗한 상태에서 재시작하는 정책을 통해 문맥 오염을 방지하고 성공률을 높였다.

고품질 QA 합성 프레임워크

지식 그래프 기반의 Corpus-based 파이프라인과 웹 검색 기반의 WebHop 파이프라인을 결합하여 난이도가 정밀하게 조정된 다단계 추론 학습 데이터를 대량으로 생성했다.

핵심 아이디어 이해하기

기존 LLM 에이전트는 추론 단계가 길어질수록 사소한 오류가 누적되어 전체 경로가 탈선하는 '노이즈 전파' 문제에 취약하다. 이는 Transformer의 Attention 메커니즘이 과거의 모든 토큰을 참조하지만, 그중 어떤 정보가 현재 문제 해결에 결정적인지 스스로 판단하고 검증하는 능력이 부족하기 때문이다.

MiroThinker는 이 문제를 해결하기 위해 각 단계의 결과물을 즉시 평가하는 '검증(Verification)'을 핵심 엔진으로 삼는다. 이는 마치 연구자가 논문을 쓸 때 각 인용구의 출처를 확인하고 전체 논리가 맞는지 수시로 점검하는 과정과 같다. 특히 로컬 검증기는 모델이 관성적으로 내놓는 답변 대신 더 넓은 탐색을 유도하여 최적의 경로를 찾게 돕는다.

결과적으로 에이전트는 단순히 다음 토큰을 예측하는 것을 넘어, 자신의 추론 궤적이 증거에 기반하고 있는지 스스로 감시한다. 이러한 구조적 개선은 추론 횟수를 늘리는 것보다 각 단계의 품질을 높이는 것이 장기 추론 성능 향상에 더 효과적임을 입증한다.

방법론

ReAct 패러다임을 확장한 이중 루프 구조를 기반으로 한다. 에피소드 루프는 전체 작업의 성공 여부를 관리하며, 실패 시 모든 상태를 초기화하고 원본 쿼리에서 다시 시작하여 문맥 퇴화를 방지한다. 스텝 루프 내에서는 사고(Thought), 행동(Action), 관찰(Observation)이 반복된다.

컨텍스트 관리를 위해 Sliding-window Filtering 전략을 사용한다. 현재 단계 t에서 최근 K개의 관찰값만 상세히 유지하고 이전 단계들은 요약하거나 마스킹한다. [최근 K개 관찰값 선택 → 토큰 제한 내 절단 → 유효 컨텍스트 생성] 순으로 연산하여 고정된 토큰 예산 내에서 수백 단계의 상호작용을 유지한다.

학습은 4단계 파이프라인으로 진행된다. 1단계 Mid-training에서는 원자적 능력을 배양하고, 2단계 SFT에서는 전문가 궤적을 모방한다. 3단계 DPO는 정답 여부만을 신호로 사용하여 의사결정을 최적화하며, 4단계 RL에서는 GRPO를 적용한다. GRPO는 [G개의 궤적 샘플링 → 그룹 평균 대비 이득 계산 → 정책 업데이트] 과정을 거쳐 온라인 환경에서의 자율적 탐색 능력을 극대화한다.

주요 결과

MiroThinker-H1은 BrowseComp에서 88.2, GAIA에서 88.5를 기록하며 GPT-5.4 및 Gemini-3.1-Pro 등 주요 상용 모델을 능가하는 SOTA 성능을 달성했다. 특히 심층 연구 벤치마크인 xbench-DeepResearch에서 72.0점을 기록하여 복잡한 정보 합성 능력을 입증했다.

전문 도메인 평가에서도 강력한 결과를 보였다. 과학 추론 벤치마크인 FrontierScience-Olympiad에서 79.0, 금융 분석인 FinSearchComp에서 73.9를 기록했다. 이는 범용 에이전트 능력이 전문 지식 활용 능력과 결합되었을 때의 시너지를 보여준다.

효율성 측면에서 MiroThinker-1.7-mini(30B급)는 이전 버전인 1.5 대비 상호작용 횟수를 평균 43.0% 줄이면서도 더 높은 성능을 냈다. 특히 HLE 벤치마크에서는 61.6% 적은 라운드만으로 17.4% 향상된 정확도를 기록하여 단계별 추론 품질의 중요성을 수치로 증명했다.

실무 활용

MiroThinker는 복잡한 웹 검색, 데이터 추출, 논리적 검증이 필요한 전문 연구 업무에 즉시 투입 가능한 수준의 성능을 제공한다. 오픈소스로 공개된 1.7 및 1.7-mini 모델을 통해 기업 내부 데이터와 결합한 맞춤형 연구 에이전트 구축이 가능하다.

심층 시장 조사 및 경쟁사 분석 리포트 자동 생성
금융 공시 자료 및 뉴스 기반의 투자 가설 검증
과학 논문 데이터베이스에서의 증거 추출 및 교차 검증
복잡한 기술 문서의 단계별 요약 및 질의응답 시스템

기술 상세

MiroThinker-1.7은 Qwen3 MoE 체크포인트를 기반으로 개발되었으며, 최대 256K 토큰의 컨텍스트 길이를 지원한다. 추론 시에는 온도(Temperature) 1.0, Top-p 0.95 설정을 기본으로 사용하며, 최대 출력 길이는 16,384 토큰으로 설정되어 긴 보고서 생성에 최적화되어 있다.

강화학습 단계에서 도입된 엔트로피 제어 메커니즘은 낮은 로그 확률을 가진 토큰에 대해 보조적인 KL 패널티를 부여한다. [낮은 확률 토큰 식별 → KL 패널티 계산 → 손실 함수 반영] 과정을 통해 모델이 특정 답변에 매몰되지 않고 건강한 수준의 탐색을 유지하도록 유도한다.

데이터 구축 시에는 'WebHop' 파이프라인을 통해 지식의 깊이를 확보했다. [시드 문서 샘플링 → 지식 그래프 확장 → 웹 검색을 통한 실시간 정보 주입 → 계층적 해결 가능성 검증] 단계를 거쳐, 단순히 학습된 지식에 의존하지 않고 외부 도구를 반드시 사용해야 풀 수 있는 고난도 문제를 생성하여 학습에 활용했다.

한계점

논문은 주로 성능 향상과 방법론의 우수성에 집중하고 있으며, 특정 도메인에서의 실패 사례나 계산 자원 소모량에 대한 구체적인 한계점은 명시적으로 언급하지 않았다.

키워드

Research Agent(연구 에이전트)Long-horizon Reasoning(장기 추론)Verification(검증)GRPO(그룹 상대 정책 최적화)Multi-step Interaction(다단계 상호작용)

MiroThinker-1.7 및 H1: 검증을 통한 고성능 연구용 에이전트 구축

핵심 요약

왜 중요한가

핵심 기여

Agentic Mid-training 단계 도입

로컬 및 글로벌 검증 메커니즘

이중 루프 상호작용 구조

고품질 QA 합성 프레임워크

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

심층 시장 조사 및 경쟁사 분석 리포트 자동 생성
금융 공시 자료 및 뉴스 기반의 투자 가설 검증
과학 논문 데이터베이스에서의 증거 추출 및 교차 검증
복잡한 기술 문서의 단계별 요약 및 질의응답 시스템

기술 상세

한계점

키워드

Research Agent(연구 에이전트)Long-horizon Reasoning(장기 추론)Verification(검증)GRPO(그룹 상대 정책 최적화)Multi-step Interaction(다단계 상호작용)

MiroThinker-1.7 및 H1: 검증을 통한 고성능 연구용 에이전트 구축

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

MiroThinker-1.7 및 H1: 검증을 통한 고성능 연구용 에이전트 구축

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글