핵심 요약
자율형 AI 에이전트가 복잡한 웹 검색을 수행할 때 제한된 컨텍스트 용량으로 인해 중요한 정보를 놓치는 문제를 해결합니다. 고정된 전략 대신 상황에 맞는 최적의 컨텍스트 관리 방식을 동적으로 선택하여 에이전트의 성공률과 효율성을 동시에 높였습니다.
왜 중요한가
자율형 AI 에이전트가 복잡한 웹 검색을 수행할 때 제한된 컨텍스트 용량으로 인해 중요한 정보를 놓치는 문제를 해결합니다. 고정된 전략 대신 상황에 맞는 최적의 컨텍스트 관리 방식을 동적으로 선택하여 에이전트의 성공률과 효율성을 동시에 높였습니다.
핵심 기여
확률론적 컨텍스트 관리 프레임워크 제안
긴 호흡의 정보 탐색 성공을 Search Efficiency(탐색 효율성)와 Terminal Precision(최종 정밀도)이라는 두 가지 상호 보완적인 차원으로 정의하고 분석하는 최초의 확률론적 관점을 도입했다.
상태 인식형 적응형 라우팅 프레임워크 AgentSwing 개발
고정된 단일 전략 대신 Parallel Context Management와 Lookahead Routing을 결합하여 현재 궤적 상태에 가장 적합한 컨텍스트 관리 전략을 동적으로 선택하는 시스템을 구축했다.
다양한 벤치마크에서의 성능 및 효율성 입증
BrowseComp, HLE 등 주요 벤치마크에서 기존 정적 방식 대비 최대 3배 적은 상호작용 횟수로 동등하거나 우수한 성능을 달성했으며, DeepSeek-v3.2 등 오픈소스 모델의 성능 한계를 경신했다.
핵심 아이디어 이해하기
Transformer 아키텍처 기반의 LLM은 입력 가능한 토큰 수인 Context Window가 제한되어 있다. 긴 시간 동안 웹을 탐색하는 에이전트는 수많은 페이지를 방문하며 데이터를 쌓는데, 이 과정에서 컨텍스트가 가득 차면 과거의 중요한 단서를 삭제하거나 전체를 요약해야 하는 선택의 기로에 서게 된다. 기존 방식은 '무조건 마지막 N개만 남기기'나 '전체 요약하기' 같은 고정된 규칙을 사용했지만, 이는 탐색 단계에 따라 유효한 정보의 위치가 달라지는 특성을 반영하지 못한다.
AgentSwing은 이를 해결하기 위해 '병렬 시뮬레이션' 개념을 도입한다. 컨텍스트가 임계치에 도달하면 Keep-Last-N, Summary, Discard-All 등 여러 관리 전략을 동시에 실행하여 각각의 결과물을 만든다. 그 후 각 결과물에서 짧은 단계의 미래 탐색(Lookahead)을 수행하여 어떤 전략이 가장 유망한 단서를 찾아내는지 확인한다.
이 과정은 마치 체스 엔진이 여러 수 앞을 내다보고 현재의 최적수를 찾는 것과 유사하다. 에이전트는 단순히 과거 데이터를 지우는 것이 아니라, 미래의 정답 도출 가능성이 가장 높은 컨텍스트 상태를 선택함으로써 탐색 효율성과 최종 답변의 정확도 사이의 최적 균형점을 찾아낸다.
관련 Figure

컨텍스트 크기가 커질수록 최종 답변의 정밀도(Aligned Terminal Precision)가 지속적으로 감소하는 현상을 수치화했다. 이는 왜 공격적인 컨텍스트 관리가 필요한지에 대한 기술적 근거를 제시한다.
컨텍스트 예산 증가에 따른 정밀도 하락(Context Rot) 현상 그래프
방법론
AgentSwing은 크게 두 단계의 메커니즘으로 작동한다. 첫째, Parallel Context Management 단계에서는 현재 컨텍스트 길이가 모델 최대 용량의 특정 비율 r(예: 0.2 또는 0.4)에 도달하면 트리거된다. 이때 Keep-Last-N(최근 N개 유지), Summary(전체 요약), Discard-All(초기 프롬프트 제외 전면 삭제) 세 가지 전략을 병렬로 적용하여 서로 다른 상태의 컨텍스트 후보군을 생성한다.
둘째, Lookahead Routing Mechanism 단계가 이어진다. 각 후보 컨텍스트에서 K번(실험 결과 K=3이 최적)의 추가 상호작용을 독립적으로 수행한다. 이후 에이전트 모델은 원본 컨텍스트와 각 후보군이 Lookahead를 통해 얻은 결과를 종합적으로 평가하여 가장 논리적이고 유망한 경로를 선택한다. 선택된 경로를 제외한 나머지 브랜치는 폐기되며, 선택된 상태가 새로운 메인 궤적이 된다.
이 과정에서 Search Efficiency η는 [성공적으로 종료된 작업 수 / 전체 작업 수 M]으로 계산되어 자원 소모 전 종료 가능성을 의미하며, Terminal Precision ρ는 [정답 수 / 종료된 작업 수]로 계산되어 도달한 결론의 신뢰도를 나타낸다. AgentSwing은 이 두 지표의 곱인 Pass@1을 극대화하도록 설계되었다.
관련 Figure

잘못된 가설에 빠진 Summary 전략과 달리, Keep-Last-N 전략이 Lookahead를 통해 새로운 단서를 발견하고 라우터에 의해 최종 선택되는 과정을 상세히 보여준다.
DeepSeek-v3.2 모델을 이용한 실제 사례 연구 다이어그램
주요 결과
BrowseComp 벤치마크에서 GPT-OSS-120B 모델에 적용 시 Pass@1 60.0%를 기록하며 기본 모델(39.5%) 및 Discard-All(50.5%) 대비 큰 폭의 성능 향상을 보였다. 특히 DeepSeek-v3.2 모델에서는 BrowseComp-ZH에서 71.3, HLE에서 44.4를 기록하며 상용 모델인 Claude-4.5-Opus나 Gemini-3.0-Pro를 능가하는 성과를 거두었다.
효율성 측면에서는 정적 컨텍스트 관리 방식이 동일한 성능에 도달하기 위해 필요한 상호작용 횟수 대비 최대 3배 적은 턴 수만으로도 목표 성능을 달성했다. Lookahead로 인한 추가 토큰 사용량은 존재하지만, 불필요한 탐색 궤적을 조기에 차단하고 효율적인 경로를 선택함으로써 전체적인 토큰 효율성은 오히려 개선되는 경향을 보였다.
관련 Figure

AgentSwing이 정적 방식인 Discard-All 대비 훨씬 적은 턴 수(최대 3배 절감)로 더 높은 성능 상한선에 도달함을 보여준다. 이는 적응형 라우팅이 탐색 효율성을 극대화함을 입증한다.
상호작용 예산에 따른 BrowseComp 벤치마크 성능 비교 그래프

단일 전략보다 여러 전략을 조합했을 때(예: DA-KLN-SUM) 성능이 점진적으로 향상됨을 보여주며, AgentSwing의 다중 전략 라우팅 방식의 타당성을 뒷받침한다.
다양한 컨텍스트 관리 전략 조합에 따른 성능 절제 실험 결과
기술 상세
본 연구는 긴 호흡의 에이전트 성능을 η(효율성)와 ρ(정밀도)의 분해로 설명하는 확률론적 프레임워크를 기반으로 한다. 실험 결과, 컨텍스트가 길어질수록 'Context Rot' 현상으로 인해 ρ가 급격히 감소함을 확인했다. AgentSwing은 상태 의존적(State-aware) 라우팅을 통해 이 트레이드오프 관계를 극복한다.
아키텍처적으로는 별도의 학습 없이 기존 LLM의 추론 능력을 활용하는 외적 제어 메커니즘으로 구현되었다. 라우터 역할을 하는 모델은 각 브랜치의 Lookahead 결과를 보고 '어떤 브랜치가 질문 해결을 위한 결정적 돌파구(Critical Breakthrough)를 마련했는가'를 판단한다. 이는 컨텍스트 관리를 단순한 데이터 압축 문제가 아닌, 미래 상태에 대한 의사결정 문제로 재정의한 것이다.
한계점
현재 라우팅 결정이 에이전트 모델 자체에 의해 수행되므로 모델의 판단 능력이 성능의 상한선이 된다. 또한 병렬 브랜치 실행과 Lookahead 과정에서 발생하는 초기 연산 비용과 지연 시간(Latency)이 실시간 응답이 중요한 서비스에서는 제약이 될 수 있다.
실무 활용
복잡한 다단계 추론과 대규모 웹 검색이 필요한 AI 에이전트 시스템의 성능을 즉각적으로 개선할 수 있는 테스트 타임 스케일링 기법이다.
- 수백 개의 웹페이지를 대조해야 하는 심층 시장 조사 에이전트
- 복잡한 API 문서를 탐색하며 코드를 작성하는 자율 코딩 에이전트
- 방대한 논문 데이터베이스에서 특정 증거를 찾는 연구 보조 AI
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.