다중 턴 LLM 에이전트를 위한 Lyapunov 안정성 모니터

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다중 턴 대화에서 맥락 누적은 토큰 비용 급증의 주된 원인이다. Lyapunov 안정성에 기반한 모니터는 토큰 소비를 에너지 함수 V(k)=S(k)+λθ(k)로 모델링하고 ΔV가 W회 연속으로 양수일 때 트립해 더 이상 진행하지 않도록 차단한다. Context Spiral, Retry Storm, Policy Drift 같은 실패 패턴을 분류하고 각각에 맞춘 수정안을 산출한다. 이 방식은 LLM 호출 없이도 비용 경향과 실패 원인을 파악하는 데 초점을 둔다.

섹션별 상세

다중 턴 대화에서 맥락 누적은 토큰 비용 급증의 주된 원인이다. 토큰 소비를 S(k)와 Θ(k)의 조합으로 표현한 에너지 함수 V(k)를 도입하고, ΔV가 W회 연속으로 양수로 나타나면 시스템이 트립해 더 이상 진행되지 않도록 경고를 낸다. Context Spiral, Retry Storm, Policy Drift 같은 실패 패턴을 분류하고 각각에 맞춘 실행 가능한 수정안으로 연결한다. 이러한 방식은 LLM 호출을 추가로 하지 않고도 비용 경향과 실패 원인을 파악하는 데 초점을 둔다.

작동 원리는 GrowthRatioGuard가 토큰 흐름의 변화를 모니터링하고 RG Decimator, VSA 등을 통해 압축·정렬한다. RG Decimator는 TF-IDF 기반으로 대화 이력을 압축해 입력 길이를 줄이고, Holographic Engine의 Vector Symbolic Architecture(VSA)는 도메인 정책의 drift를 벡터로 포착해 빠르게 추적한다. Growth ratio 임계치와 윈도우 크기는 W번 연속 증가가 확인되면 trip하도록 설계됐다. 시작 단계에서 baseline을 수립하는 warmup과 예산 경계에 해당하는 budget_gate도 포함된다.

벤치마크는 SWE-bench, τ³-bench, GSM8K/MATH/HumanEval/MBPP 등 3,175회 실행으로 수행되었다. 전체 조건의 벤치에서 풀 스택 모니터링은 945노드에서 580노드로 38.6% 감소했고, 벽 시간은 80분에서 56분으로 30% 감소했다. 다양한 벤치마크에서 거짓 양성은 0%로 확인되었고, SWE-bench에서의 다중 조건에서도 재현성은 유지되었다. 로컬 모델 검증에서도 240건의 작업에서 거짓 양성은 0%였다.

이 모니터의 가치는 실패 진단과 경고를 제공하는 데 있으며, 해결율 자체를 높이지는 않는다. 현장 적용에서 작은 샘플에서 재현성은 한계로 남아 있고, 향후 연구로는 자동 임계 조정(auto-tuning), 의도적 개입 대신 경로 제시, 스트리밍 지원, 크로스 모델 확장 등을 제시한다.