멀티 에이전트 세션의 토큰 비대화 문제와 해결 방안

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

멀티 에이전트 세션에서 발생하는 토큰 비대화 문제를 해결하기 위해 외부 문서 관리와 동적 도구 탐색 기법을 적용하여 비용과 토큰 사용량을 획기적으로 줄이는 방법.

배경

멀티 에이전트 세션에서 발생하는 컨텍스트 오염과 토큰 비대화 문제를 지적하며, 이를 해결하기 위한 구체적인 제어 기법과 최적화 사례를 공유했다.

의미 / 영향

멀티 에이전트 시스템 설계 시 토큰 관리가 성능과 비용을 결정짓는 핵심 요소임이 확인됐다. 동적 도구 로드와 같은 최적화 기법은 프로덕션 환경에서 필수적인 설계 패턴으로 자리 잡을 것으로 보인다.

커뮤니티 반응

작성자가 제시한 최적화 기법에 대해 공감하며, 유사한 토큰 관리 경험을 공유하는 분위기이다.

주요 논점

01찬성다수

동적 도구 로드와 외부 문서 관리가 토큰 효율성에 효과적이다.

합의점 vs 논쟁점

합의점

멀티 에이전트 세션에서 토큰 비대화는 피할 수 없는 문제이다.
모든 도구 스키마를 한 번에 주입하는 것은 비효율적이다.

논쟁점

어떤 수준의 읽기 예산(read budget)이 적절한가에 대한 기준

실용적 조언

PLAN.md와 INVARIANTS.md를 대화창 밖으로 분리하여 관리할 것
도구 스키마를 동적으로 로드하여 입력 토큰을 최적화할 것
턴당 읽기 예산을 설정하여 컨텍스트 오염을 방지할 것

섹션별 상세

멀티 에이전트 세션은 반복되는 대화 이력, 도구 스키마, 서브 에이전트 핸드오프로 인해 컨텍스트가 빠르게 오염된다. Bai et al.(2026)의 SWE-bench 연구에 따르면 에이전트 코딩 작업은 일반 채팅보다 토큰을 1000배 더 소비하며, 동일 작업에서도 30배의 토큰 변동성을 보인다.

연구 합성 작업 중 컨텍스트가 45만 토큰에 도달했을 때, 에이전트가 초기 제약 조건을 무시하고 이미 기록된 소스를 다시 쿼리하는 등 성능 저하가 발생했다. 이를 해결하기 위해 PLAN.md와 INVARIANTS.md를 대화창 밖으로 분리하여 매 턴마다 새로 읽도록 변경했다.

턴당 2,000라인의 읽기 예산(read budget)을 설정하고 서브 에이전트 조정을 위한 대역 외(out-of-band) 노트를 도입하여 메인 트랜스크립트의 오염을 방지했다. 또한 필요한 도구 스키마만 동적으로 로드하는 방식을 통해 입력 토큰을 96%, 전체 비용을 90% 절감했다.

용어 해설

Token Bloat: — 에이전트 세션에서 반복되는 대화 이력, 도구 스키마, 핸드오프 정보가 컨텍스트를 과도하게 점유하여 성능을 저하시키는 현상.
Dynamic Tool Discovery: — 모든 도구 스키마를 한 번에 주입하는 대신, 에이전트가 현재 작업에 필요한 도구만 선택적으로 로드하여 입력 토큰 사용량을 최적화하는 기법.
Multi-Agent: — 여러 에이전트가 협력하여 복잡한 작업을 수행하는 아키텍처로, 에이전트 간 핸드오프 과정에서 컨텍스트 오염이 발생하기 쉽다.

언급된 도구

tree-sitter중립

코드 추출 패턴 구현