핵심 요약
복잡한 웹 검색이나 심층 연구와 같은 장기 에이전트 작업에서 단순히 여러 결과 중 하나를 투표로 고르는 기존 방식의 한계를 극복했다. 에이전트가 생성한 여러 실행 경로를 또 다른 에이전트가 도구를 사용해 분석하고 최적의 정보를 합성함으로써, 단일 실행으로는 도달할 수 없는 정확도와 효율성을 동시에 달성했다.
왜 중요한가
복잡한 웹 검색이나 심층 연구와 같은 장기 에이전트 작업에서 단순히 여러 결과 중 하나를 투표로 고르는 기존 방식의 한계를 극복했다. 에이전트가 생성한 여러 실행 경로를 또 다른 에이전트가 도구를 사용해 분석하고 최적의 정보를 합성함으로써, 단일 실행으로는 도달할 수 없는 정확도와 효율성을 동시에 달성했다.
핵심 기여
AggAgent 프레임워크 제안
병렬로 생성된 여러 에이전트 실행 경로(trajectories)를 하나의 환경으로 간주하고, 이를 탐색 및 합성하는 전용 집계 에이전트 아키텍처를 설계했다.
경량 궤적 분석 도구 설계
get_solution, search_trajectory, get_segment와 같은 전용 도구를 통해 집계 에이전트가 수십만 토큰에 달하는 전체 실행 경로를 컨텍스트 윈도우 초과 없이 효율적으로 검사할 수 있도록 했다.
심층 연구 및 검색 성능 입증
6개의 벤치마크에서 기존 집계 방식 대비 평균 5.3%, 심층 연구 작업에서는 최대 10.3%의 성능 향상을 기록했으며, 집계 비용을 단일 에이전트 실행 수준으로 억제했다.
핵심 아이디어 이해하기
기존의 LLM 추론 확장 방식인 Chain-of-Thought(CoT)는 주로 수학이나 코딩처럼 짧은 경로에서 최종 정답을 투표(Majority Voting)로 결정하는 데 집중했다. 하지만 수백 단계의 도구 사용과 관찰이 포함된 장기 에이전트 작업에서는 정답이 여러 경로에 파편화되어 있거나, 모든 경로가 부분적으로만 정답을 포함하는 경우가 많아 단순 투표로는 정보 손실이 크다.
AggAgent는 이 문제를 해결하기 위해 '집계 자체를 에이전트 작업'으로 정의한다. Transformer의 컨텍스트 윈도우 한계로 인해 수많은 병렬 실행 경로를 한꺼번에 입력할 수 없으므로, 집계 에이전트에게 검색 및 부분 읽기 도구를 부여한다. 이는 마치 연구원이 여러 개의 초안을 책상에 펼쳐두고 필요한 부분만 발췌독하여 최종 보고서를 작성하는 것과 유사한 원리이다.
이 방식은 모든 데이터를 한 번에 처리하는 대신, 에이전트가 능동적으로 '어떤 경로의 어느 단계가 신뢰할 수 있는지'를 판단하고 필요한 정보만 선택적으로 가져오게 한다. 결과적으로 전체 맥락의 무결성을 유지하면서도 연산 효율성을 극대화하여, 개별 에이전트들이 모두 틀린 답을 내놓았을 때조차 각 경로의 단서들을 조합해 정답을 합성해내는 능력을 보여준다.
방법론
AggAgent는 병렬로 실행된 K개의 에이전트 궤적 집합 T를 환경으로 정의하고, 집계 에이전트가 도구를 통해 상호작용하는 구조를 가진다. 전체 과정은 메타데이터 조사, 해결책 검토, 세부 검증, 최종 합성의 4단계 워크플로우로 구성된다.
핵심 메커니즘은 세 가지 전용 도구이다. [궤적 ID 입력 → 마지막 단계 추출 → 최종 답변 반환] 과정을 수행하는 get_solution, [키워드와 궤적 ID 입력 → ROUGE-L 점수 기반 유사도 계산 → 상위 k개 단계 반환]을 수행하는 search_trajectory, [시작/종료 단계 지정 → 원본 사고 과정 및 도구 결과 추출 → 텍스트 반환]을 수행하는 get_segment를 사용한다. 이를 통해 집계 에이전트는 수십만 토큰의 데이터를 메모리 내 배열로 관리하며 필요할 때만 컨텍스트로 불러온다.
비용 분석 측면에서 AggAgent의 집계 비용은 단일 에이전트 실행 비용과 유사하게 유지된다. 이는 외부 API 호출 없이 메모리 내 궤적 데이터만 읽기 때문이며, 모든 궤적을 요약하여 다시 입력하는 Summary Aggregation 방식보다 훨씬 저렴하고 정보 손실이 적은 구조적 특징을 가진다.
주요 결과
GLM-4.7-Flash, Qwen3.5-122B, MiniMax-M2.5 세 가지 모델군을 대상으로 6개 벤치마크(BrowseComp, HLE, DeepSearchQA 등)에서 실험을 진행했다. AggAgent는 모든 설정에서 기존의 투표(MV), 최고점 선택(BoN), 요약 집계(SummAgg) 방식을 압도했다. 특히 K=8일 때 GLM-4.7-Flash 모델에서 평균 47.90%의 성능을 기록하여, 가장 강력한 베이스라인인 SolAgg(42.58%)보다 5.3% 높은 수치를 보였다.
심층 연구 작업인 Healthbench-Hard와 ResearchRubrics에서는 성능 향상이 더욱 두드러졌다. Healthbench-Hard에서 AggAgent는 27.99%를 기록하여 단일 실행(Pass@1)인 8.67% 대비 3배 이상의 성능 향상을 보였다. 또한, 집계 에이전트로 더 강력한 모델(MiniMax-M2.5)을 사용하고 실행 에이전트로 가벼운 모델(GLM-4.7-Flash)을 사용하는 '비대칭 할당' 전략이 비용 대비 효율성에서 가장 우수한 Pareto-optimal 결과를 나타냈다.
기술 상세
AggAgent는 병렬 테스트 시간 확장(Parallel Test-time Scaling)의 새로운 패러다임을 제시한다. 기존 방식들이 최종 출력값의 확률이나 빈도에 의존하는 '얕은 신호(shallow signals)'를 사용한 반면, AggAgent는 에이전트의 사고 과정(Thinking blocks)과 도구 관찰 결과(Observations)를 직접 검증하는 '심층 신호'를 활용한다.
아키텍처적으로는 집계 에이전트가 궤적 데이터를 외부 환경으로 취급하는 Agent-as-Aggregator 구조를 취한다. 이는 컨텍스트 윈도우의 물리적 한계를 도구 사용(Tool-use)이라는 추상화 계층으로 해결한 것이다. 특히 'Minority Answer Identification' 능력이 주목할 만한데, 8개의 경로 중 단 하나만 정답을 맞힌 경우에도 집계 에이전트가 도구 검증을 통해 해당 경로의 논리적 타당성을 확인하고 이를 최종 답안으로 채택하는 능력을 보여준다.
구현 측면에서는 vLLM 서빙 엔진을 사용하며, 128K 컨텍스트 윈도우 내에서 최대 100회의 도구 호출을 허용하는 설정을 사용했다. 실험 결과, 집계 에이전트의 성능이 높을수록 더 적은 도구 호출로도 정확한 결론에 도달하는 경향이 확인되었다.
한계점
논문은 집계 에이전트 자체를 미세 조정(Fine-tuning)하지 않고 기성(Off-the-shelf) LLM을 그대로 사용했다는 점을 언급하며, 향후 집계 작업에 특화된 모델 학습이 성능을 더 높일 수 있을 것으로 전망했다. 또한 현재는 병렬 실행이 완료된 후 집계하는 방식이나, 실행과 집계가 상호작용하며 진행되는 실시간 방식에 대한 탐구는 포함되지 않았다.
실무 활용
심층 웹 검색, 의료 상담, 기술 보고서 작성 등 긴 호흡의 추론이 필요한 AI 에이전트 시스템에 즉시 적용 가능하다. 특히 대규모 병렬 추론을 통해 성능을 높이려는 엔터프라이즈 급 에이전트 서비스에서 비용 효율적인 집계 솔루션으로 활용될 수 있다.
- 심층 시장 조사 에이전트: 여러 검색 경로를 병렬로 실행한 후 상충하는 정보를 검증하여 종합 보고서 작성
- 의료/법률 전문 상담: 다양한 판례나 논문을 검토한 에이전트들의 결과를 취합하여 최종 권고안 도출
- 복잡한 코딩 에이전트: 여러 구현 시도 중 성공적인 로직 조각들을 모아 하나의 완성된 시스템 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.