긴-context LLM 에이전트를 위한 방향성 지식 캐시: 컨텍스트 맵 PEEK

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

긴 컨텍스트에서 반복적으로 동일한 외부 컨텍스트를 다루는 상황에서, 에이전트는 외부 맥락의 구조와 가치 있는 엔터티를 재사용하는 지식을 필요로 한다. PEEK는 컨텍스트 맵이라는 작고 고정된 예산의 프롬프트 내 artefact를 도입해 외부 맥락에 대한 방향 지식을 지속적으로 축적·갱신하고, 반복 작업의 이해도와 추론 효율성을 높인다. 이를 통해 RAG, 컨텍스트 오프로깅, 프롬프트 학습 기반 방법의 한계를 보완한다.

왜 중요한가

핵심 기여

Context Map의 제약된 예산 및 프롬프트 내 유지

외부 맥락에 대한 재사용 가능한 방향 지식을 담은 컨텍스트 맵을 고정 예산의 프롬프트로 유지한다. Context Roadmap, Context Understanding, Domain Constants, Reusable Results, Parsing Schema의 다섯 섹션으로 구성되며, 초기에는 빈 상태에서 점진적 업데이트를 거친다.

3단계 모듈식 업데이트 파이프라인

Distiller(trajectory에서Transfer 가능한 지식 진단) → Cartographer(진단 결과를 항목으로 매핑·중복 제거) → Evictor(토큰 예산 내에서 항목을 우선순위 기반으로 제거)로 맵을 갱신한다.

고정된 토큰 예산 하의 효율적 캐시 정책

맵의 토큰Budget을 B로 고정하고, Distiller가 산출한 점수에 따라 아이템을 Evictor가 배치한다. 우선순위는 Parsing Schema > Reusable Results > Domain Constants 순으로 제거하며, Context Roadmap/Context Understanding은 보호된다.

모델 및 에이전트에 대한 일반화

GPT-5-mini에서 GPT-5.5, Qwen3-Coder-Next-FP8, OpenAI Codex 등 다양한 LM과 에이전트 구조에서 일관된 성능 향상을 보였고, 다양한 벤치마크 및 백본에 걸쳐 일반화된다.

실험적으로 입증된 성능 향상과 비용 절감

OOLONG에서 ACE 대비 +7.8–15.0%의 솔빙 개선, CL-bench에서 +6.0% 솔빙, +9.9% 루브릭 정확도 향상. 반복 횟수 93–145회 감소, 비용은 1.7–5.8× 낮음. 더 최신 프론티어 모델과의 호환성도 확인

핵심 아이디어 이해하기

단락 1: 긴-context에서의 외부 맥_CONTEXT는 자주 재사용되며, 단순 요약이나 대화 히스토리 저장만으로는 재활용이 어렵다. 컨텍스트 맵은 이 맥_CONTEXT에 대한 지속적인 이해를 저장하는 작은 캐시다. 단순히 현재 대화의 기록을 쌓는 것이 아니라, 컨텍스트의 구조와 엔터티, 규칙, 포맷 등을 축약해 다음 질의에 재활용 가능하게 한다. 단락 2: Distiller는 실행 궤적에서 전달되는 유의미한 지식을 식별하고, Cartographer는 이를 ADD/DELETE/REPLACE 형태의 구조적 편집으로 맵에 반영한다. 이때 태그와 후보 캐시 candidate가 함께 생성되어 비효율적 정보의 유입을 막고, 비맥락적 사실의 누수를 줄인다. 단락 3: Evictor는 고정된 토큰 예산을 지키면서 맵을 유지한다. 우선순위는 맵의 항목이 줄어들 때 예측에 가치가 큰 항목을 남겨두고, 덜 중요한 항목은 제거한다. 이 구조는 맵의 재사용성을 극대화하고, 매 쿼리마다 맵을 재구성하지 않아도 되도록 한다. 단락 4: 실험은 두 가지 범주(추론/정보 집계, 컨텍스트 학습)에서 진행되었고, 다양한 백본 및 모델에서 일관되게 이득이 확인되었으며, 지식의 재활용이 가능한 영역에 초점을 맞춘 캐시 구조의 가치를 보여준다.

방법론

전체 접근 방식은 시스템 프롬프트 내 고정된 맵을 공유 맥락으로 두고, n개의 쿼리에 대해 에이전트를 실행하는 알고리즘으로 구성된다. 맵 업데이트는 최초 m회 실행에서만 수행되며, 이후에는 맵이 고정 상태로 재사용된다. 알고리즘 흐름은 아래와 같다: 맵(C)과 Qi를 시스템 프롬프트에 결합한 상태로 AgentLoop를 실행하고, i ≤ m일 때 Trajectory로부터 Distiller가 diag, tags, cands를 산출한다. Cartographer가 이를 맵의 항목 ADD/DELETE/REPLACE로 변환하고, Evictor가 Budget B를 강제하여 맵의 토큰 수를 제한한다. 이 과정을 n개의 쿼리에 대해 반복한다. Distiller의 출력은 각 맵 항목의 친화도(Helpful/Harmless/Neutral/Stale)와 교체 후보인 cache candidates를 포함하며, task-specific한 규칙은 제거한다. Cartographer는 중복 제거와 최소한의 편집으로 전체 캐시 가치를 높이는 편집 집합을 산출한다. Evictor는 Distiller의 점수를 기준으로 항목의 우선순위를 정하고, B를 넘어서는 경우 점수가 낮은 항목부터 제거한다. 우선순위의 역순은 Parsing Schema > Reusable Results > Domain Constants이며 Context Roadmap/Context Understanding은 최후에 보호된다.

주요 결과

평가에서 PEEK은 모든 벤치마크에서 baselines를 능가했다. OOLONG에서 6.3–34.0% 향상, CL-bench에서 6.0–14.0%/7.8–12.1%의 개선. ACE 대비 1.7–5.8× 비용 감소. 93–145회 더 적은 반복으로 성능 향상을 달성. 다양한 백본( GPT-5-mini, GPT-5.5, Qwen3-Coder-Next-FP8, Codex)에서 일반화가 확인된다.

기술 상세

전체 시스템은 Context Roadmap, Context Understanding, Domain Constants, Reusable Results, Parsing Schema의 다섯 섹션으로 구성된 맵을 prompt 내에 상주시키고, Distiller/Cartographer/Evictor의 모듈로 업데이트한다. Distiller는 실행 궤적에서 transferable contextual knowledge를 추출하고, Cartographer는 ADD/DELETE/REPLACE의 편집으로 맵을 갱신한다. Evictor는 고정 Budget(B) 내에서 점수 기반 Eviction을 수행한다. 맵의 항목은 고정된 토큰 예산으로 관리되며, Parsing Schema 항목이 먼저 제거되는 등, 맵의 섹션별 우선순위가 명시되어 있다.

한계점

유용성은 맥_CONTEXT와 에이전트의 상호작용에 의존한다. 에이전트마다 맵에 caching해야 하는 항목이 달라질 수 있으며, KV-cache 최적화와의 조합 가능성은 제시되지만 본 연구의 비교대상은 아니었다.

실무 활용

컨텍스트 맵은 반복적으로 같은 외부 컨텍스트를 다루는 LLM 에이전트의 성능과 효율을 높이는 에이전트-레벨 캐시다. 프롬프트 크기를 늘리지 않고, 외부 맥_CONTEXT를 이해하는 구조적 지식을 유지한다.

기업 피드백 코퍼스의 반복 질의 자동화
대규모 코드 저장소에서 공통 패턴 추출과 재사용
문서 저장소의 반복적 요약 및 탐색

코드 공개 여부: 공개

코드 저장소 보기

키워드

context map(컨텍스트 맵)long-context LLMs(롱 컨텍스트 LLM)DistillerCartographerEvictorRAG(검색 증강 생성)ACE(Agentic Context Engineering)