핵심 요약
기존 AI 검색 에이전트는 추론 깊이를 늘려 성능을 높이려 했으나, 이는 높은 비용과 지연 시간을 초래했다. SMTL은 순차적 추론 대신 병렬 증거 수집과 효율적인 컨텍스트 관리를 도입하여 검색 효율성과 다양한 작업에 대한 일반화 능력을 동시에 확보했다.
왜 중요한가
기존 AI 검색 에이전트는 추론 깊이를 늘려 성능을 높이려 했으나, 이는 높은 비용과 지연 시간을 초래했다. SMTL은 순차적 추론 대신 병렬 증거 수집과 효율적인 컨텍스트 관리를 도입하여 검색 효율성과 다양한 작업에 대한 일반화 능력을 동시에 확보했다.
핵심 기여
병렬 에이전트 워크플로우 제안
순차적 추론을 병렬 증거 수집으로 대체하여 제한된 컨텍스트 예산 내에서 효율적인 장기 검색을 수행하는 프레임워크를 구축했다.
일반화된 데이터 구축 파이프라인 도입
결정론적 질의응답과 개방형 연구 시나리오를 모두 아우르는 고다양성, 고밀도 데이터 합성 파이프라인을 통해 에이전트의 일반화 능력을 강화했다.
SOTA 성능 및 효율성 입증
BrowseComp, GAIA 등 주요 벤치마크에서 기존 모델을 능가하면서도 추론 단계를 최대 78%, 지연 시간을 2.6배 감소시키는 성과를 거뒀다.
핵심 아이디어 이해하기
기존 에이전트는 Transformer의 순차적 토큰 생성 특성상 한 번에 하나의 도구만 호출하고 그 결과를 바탕으로 다음 단계를 생각하는 선형적 추론 방식을 따랐다. 이는 검색 결과가 많아질수록 추론 경로가 길어지고, 컨텍스트 윈도우가 가득 차면서 중요한 정보를 망각하거나 연산 비용이 폭증하는 한계를 낳았다.
SMTL은 이 문제를 해결하기 위해 문제를 독립적인 하위 작업으로 분해하고 병렬로 실행하는 구조를 채택했다. Attention 메커니즘이 모든 토큰을 동시에 고려하듯, 에이전트가 여러 검색 쿼리를 동시에 던지고 수집된 증거들을 한 번에 통합하여 판단함으로써 불필요한 '생각(추론 단계)'을 줄이고 '검색(데이터 확보)'에 집중한다.
또한, 수집된 방대한 정보를 관리하기 위해 주기적인 계획 갱신과 컨텍스트 압축 기법을 사용한다. 이를 통해 모델은 수백 단계의 상호작용이 필요한 복잡한 과제에서도 핵심 정보를 잃지 않고 효율적으로 정답에 도달할 수 있게 된다.
방법론
병렬 에이전트 워크플로우는 초기 계획 수립, 병렬 실행 및 도구 조정, 동적 계획 갱신의 3단계로 구성된다. 복잡한 과제가 주어지면 이를 상호 연관된 하위 작업 집합으로 분해하여 초기 계획을 생성한다. 실행 단계에서는 준비된 하위 작업들을 동시에 처리하며, 각 병렬 실행의 관찰 결과를 통합 추론 상태로 집계한다. [입력: 현재 상태 s_t, 병렬 액션 집합 {a_t}, 관찰 결과 {o_t} → 연산: 상태 업데이트 함수 F → 출력: 다음 상태 s_{t+1} → 의미: 여러 경로에서 수집된 증거를 하나의 일관된 문맥으로 병합하여 다음 의사결정의 근거로 활용].
데이터 구축을 위해 LightRAG 기반의 지식 그래프 네트워크를 구축하고, 제어된 무작위 보행(Random-walk) 전략으로 하위 그래프를 추출한다. 이를 통해 단순 검색(Deep Search)과 심층 연구(Deep Research) 과제를 모두 생성하며, LLM-as-a-Judge를 통한 다단계 검증으로 데이터 품질을 보장한다. 학습은 Qwen3-30B 모델을 기반으로 Supervised Fine-tuning(SFT)을 거친 후, RLOO 알고리즘을 활용한 Reinforcement Learning(RL)을 통해 최적화했다.
주요 결과
BrowseComp 벤치마크에서 SMTL-30B는 48.6%의 정확도를 기록하며 Tongyi-DeepResearch-30B(43.4%)와 MiroThinker-v1.0-30B(41.2%)를 크게 앞질렀다. 특히 MiroThinker 대비 추론 단계를 70.7% 줄이면서도 더 높은 성능을 보였다. GAIA(75.7%), Xbench(82.0%), DeepResearch Bench(45.9%) 등 다양한 벤치마크에서 SOTA 또는 그에 준하는 성능을 달성하여 일반화 능력을 입증했다.
효율성 분석 결과, SMTL은 단계당 평균 3.5회의 도구 호출을 수행하여 정보 밀도를 높였다. 최대 상호작용 단계를 50에서 300으로 늘릴 때 성능이 지속적으로 향상되는 Pareto 우위를 점하며 확장성을 증명했다. 이는 단순히 추론을 깊게 하는 것보다 병렬적으로 정보를 수집하는 것이 장기 검색 과제에서 더 효과적임을 시사한다.
기술 상세
SMTL 아키텍처는 Qwen3-30B-A3B-Instruct를 백본으로 하며, SFT와 RL을 순차적으로 적용했다. RL 단계에서는 RLOO(REINFORCE Leave-One-Out) 알고리즘을 변형하여 사용했다. 컨텍스트 관리를 위해 주기적인 계획 갱신과 오버플로우 트리거 압축 스키마를 도입했다. 128K 토큰 제한 내에서 이전 계획의 컨텍스트를 버리고 정제된 계획만 유지함으로써 장기 시퀀스 처리를 가능케 했다.
데이터 합성 시 '고다양성, 고밀도' 원칙을 고수했다. 지식 그래프에서 N-hop 이웃을 탐색하여 복잡한 의존성을 가진 질문을 생성하고, LLM-based verification을 통해 정답이 검색 없이 추론되는 정보 누출을 방지했다. RL 학습 시 Outcome-based reward를 부여했으며, 도구 호출 형식을 위반할 경우 즉시 종료하고 0점 보상을 주어 에이전트의 도구 사용 정확도를 강제했다.
한계점
실험 결과에서 검색 예산(Max Steps)이 부족할 경우 어려운 과제에서 실패할 확률이 높아진다는 점이 확인되었으며, 이는 매우 복잡한 과제에서 여전히 충분한 상호작용 단계가 필요함을 시사한다.
실무 활용
복잡한 웹 검색이나 심층 자료 조사가 필요한 업무 자동화에 즉시 적용 가능하다. 특히 추론 비용과 지연 시간이 중요한 실시간 서비스 환경에서 높은 가치를 지닌다.
- 전문적인 시장 조사 및 리포트 자동 생성
- 복잡한 다단계 팩트 체크 시스템
- 대규모 웹 데이터 기반의 기술 지원 에이전트
- 논문 및 특허 분석 보조 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.