핵심 요약
터미널 기반 AI 에이전트는 실행 로그와 같은 불필요한 정보를 반복적으로 처리하며 토큰 비용이 기하급수적으로 증가하는 문제를 겪는다. TACO는 상호작용 과정에서 압축 규칙을 스스로 학습하고 최적화하여 비용 효율성과 장기 추론 능력을 동시에 개선한다.
왜 중요한가
터미널 기반 AI 에이전트는 실행 로그와 같은 불필요한 정보를 반복적으로 처리하며 토큰 비용이 기하급수적으로 증가하는 문제를 겪는다. TACO는 상호작용 과정에서 압축 규칙을 스스로 학습하고 최적화하여 비용 효율성과 장기 추론 능력을 동시에 개선한다.
핵심 기여
자가 진화형 터미널 관찰 압축 프레임워크 TACO 제안
터미널 상호작용 궤적에서 압축 규칙을 자동으로 발견, 정제 및 재사용하는 플러그 앤 플레이 방식의 프레임워크이다. 별도의 추가 학습 없이도 다양한 터미널 환경에 적응하며 컨텍스트를 효율화한다.
글로벌 규칙 풀을 통한 지식 전이 및 재사용
여러 작업에서 획득한 유효한 압축 규칙을 Global Rule Pool에 저장하고 관리한다. 새로운 작업 시작 시 유사한 규칙을 검색하여 초기화함으로써 작업 간 지식 전이를 실현한다.
다양한 벤치마크에서의 성능 및 효율성 검증
TerminalBench, SWE-Bench Lite 등 6개 벤치마크에서 실험을 수행했다. MiniMax-2.5 모델 기준 토큰 오버헤드를 약 10% 줄이면서도 대부분의 지표에서 성능 향상을 기록했다.
핵심 아이디어 이해하기
터미널 에이전트는 매 단계마다 환경의 피드백을 입력으로 받는데, 이 과정에서 이전 단계의 로그가 중복되어 포함되는 Context Saturation 현상이 발생한다. Transformer 아키텍처의 Self-Attention은 입력 시퀀스 길이에 따라 연산량이 제곱으로 증가하므로, 불필요한 로그가 누적될수록 추론 비용이 급증하고 핵심 신호가 희석된다.
TACO는 이러한 문제를 해결하기 위해 에이전트가 생성한 명령과 환경의 반응을 분석하여 '압축 규칙'을 동적으로 생성한다. 예를 들어 패키지 설치 시 발생하는 수백 줄의 진행 바를 한 줄의 요약문으로 대체하는 식이다. 이는 단순한 텍스트 축약이 아니라, 에이전트의 의사결정에 필요한 핵심 정보(성공 여부, 에러 메시지 등)는 보존하면서 노이즈만 제거하는 선택적 필터링이다.
결과적으로 에이전트는 더 적은 토큰으로도 더 긴 작업 흐름을 파악할 수 있게 된다. 특히 자가 진화 메커니즘을 통해 에이전트가 압축된 정보를 보고 '정보가 부족하다'고 판단하여 다시 명령을 내리는 경우, 해당 압축 규칙을 즉시 수정하거나 폐기하여 압축의 안전성을 확보한다.
방법론
TACO 프레임워크는 크게 세 가지 단계로 작동한다. 첫째, Global Rule Pool에서 현재 작업과 관련된 상호작용 규칙을 검색하여 초기 규칙 세트(Rt)를 구성한다. 둘째, 터미널 출력이 발생할 때마다 해당 규칙을 적용하여 비정형 데이터를 필터링한다. 셋째, 작업 완료 후 규칙의 성공 횟수와 신뢰도를 계산하여 글로벌 풀을 업데이트한다.
규칙 업데이트 시에는 에이전트의 피드백을 활용한다. 에이전트가 압축된 출력을 받은 후 동일한 명령을 다시 실행하거나 전체 출력을 요구하면 이를 '과잉 압축' 신호로 간주한다. 이때 [과잉 압축된 규칙 식별 → LLM을 통한 규칙 수정 → 더 보수적인 규칙으로 교체] 과정을 거쳐 데이터 손실을 방지한다.
자가 진화의 수렴을 판단하기 위해 Retention 지표를 사용한다. 이는 연속된 실행 회차(Run) 사이에서 상위 K개의 규칙이 유지되는 비율을 계산한 값이다. [상위 K개 규칙의 교집합 크기 / K] 연산을 통해 이 수치가 90% 이상으로 안정화되면 규칙 진화가 완료된 것으로 판단한다.
관련 Figure

입력 및 규칙 초기화, 에이전트 워크플로 내의 관찰 압축, 그리고 작업 완료 후의 글로벌 규칙 풀 업데이트라는 세 가지 핵심 컴포넌트 간의 데이터 흐름을 상세히 설명한다. 특히 LLM이 규칙을 선택하고 정제하는 과정이 명시되어 있다.
TACO 프레임워크의 전체 아키텍처와 규칙 초기화, 실행, 업데이트 과정을 보여주는 다이어그램이다.
주요 결과
TerminalBench 1.0 및 2.0 실험 결과, TACO를 통합했을 때 DeepSeek-V3.2, MiniMax-2.5 등 주요 모델에서 1%~4%의 절대적인 정확도 향상이 나타났다. 특히 Qwen3-Coder-480B 모델은 TB 2.0에서 기존 대비 성능이 개선되었으며, 동일한 토큰 예산 하에서는 정확도가 2%~3% 더 높게 측정됐다.
효율성 측면에서 200B 이상의 대형 모델들은 단계당 토큰 소모량을 약 10% 절감했다. 반면 40B 미만의 소형 모델들은 단계당 토큰 절감폭은 적었으나, 컨텍스트 효율화 덕분에 조기 실패하지 않고 더 많은 단계를 수행할 수 있게 되어 전체적인 작업 성공률이 크게 상승했다.
Ablation Study를 통해 Global Rule Pool과 Intra-Task Evolution의 중요성을 확인했다. 글로벌 풀이 없을 경우 성능이 0.2% 하락했고, 작업 내 진화 기능을 제거했을 때는 성능이 1.7% 하락하여 동적인 규칙 수정이 필수적임을 입증했다.
관련 Figure

모든 모델에서 TACO(빨간색 선)가 베이스라인(파란색 선)보다 동일 토큰 비용 대비 높은 정확도를 기록함을 보여준다. 이는 압축을 통해 확보된 컨텍스트 여유분이 에이전트의 문제 해결 능력을 실질적으로 향상시켰음을 입증한다.
다양한 모델별로 토큰 비용 대비 에이전트의 정확도 변화를 나타내는 그래프이다.
기술 상세
TACO는 기호적 최적화(Symbolic Optimization) 패러다임을 터미널 관찰 압축에 적용한 사례이다. 모델의 가중치를 업데이트하는 대신, 정규표현식과 LLM 기반의 필터링 로직으로 구성된 '구조화된 규칙'을 진화시킨다. 각 규칙은 trigger_regex, keep_patterns, strip_patterns 등의 필드를 포함하는 JSON 형태로 정의된다.
구현 상에서 터미널 출력 중 구문 오류나 예외 트레이스(Exception Trace)가 포함된 경우는 'Critical'로 분류하여 압축 대상에서 제외함으로써 안정성을 높였다. 또한 규칙의 랭킹 점수 Rgs(r)는 [글로벌 신뢰도 * (성공 횟수 + 1)]로 계산하여, 검증된 규칙이 우선적으로 선택되도록 설계했다.
이 프레임워크는 Terminus-2 및 Mini-SWE-Agent와 같은 기존 에이전트 스캐폴드에 어댑터 형태로 쉽게 통합될 수 있다. 실험에서는 8B부터 1T 파라미터에 이르는 다양한 규모의 모델과 호환성을 확인했으며, 모델 규모가 클수록 압축된 컨텍스트를 활용한 추론 안정성이 더 높게 나타나는 경향을 보였다.
관련 Figure

실행이 반복될수록 상위 30개 규칙의 유지율이 90% 이상으로 수렴하며, 동시에 작업 정확도의 표준 편차가 감소하여 시스템이 안정화되는 과정을 수치적으로 증명한다.
실행 횟수에 따른 규칙 수렴도(Retention)와 성능 안정성을 보여주는 지표이다.
한계점
본 논문은 터미널 환경의 이질성으로 인해 고정된 규칙의 일반화가 어렵다는 점을 언급하며, 자가 진화 과정에서 초기 단계의 성능 변동성이 발생할 수 있음을 시사한다. 또한 규칙 수렴을 위해 반복적인 벤치마크 실행이 필요하다는 점이 제약이 될 수 있다.
실무 활용
터미널 기반의 소프트웨어 엔지니어링 에이전트를 운영하는 기업이나 개발자에게 즉각적인 비용 절감과 성능 향상을 제공한다.
- CI/CD 파이프라인 내 자동 디버깅 에이전트의 API 비용 최적화
- 대규모 레포지토리 분석 및 코드 수정 에이전트의 컨텍스트 윈도우 관리
- 반복적인 빌드 로그가 발생하는 환경에서의 장기 추론 성능 개선
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.