로컬 LLM을 위한 컨텍스트 압축 프록시: 110k 토큰을 12k로 줄이면서 정확도 유지

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

로컬 LLM의 좁은 컨텍스트 창 문제를 해결하기 위해 3단계 파이프라인으로 입력을 지능적으로 압축하는 오픈소스 프록시 Ctxpact를 소개한다.

배경

에이전트 워크플로에서 발생하는 대규모 토큰 페이로드가 로컬 LLM의 제한된 컨텍스트 윈도우를 초과하여 정보가 손실되는 문제를 해결하고자 개발되었다. Mac Mini 환경에서 작동하는 경량 프록시를 통해 10만 토큰 이상의 입력을 효과적으로 압축하고 벤치마크 결과를 공유했다.

의미 / 영향

로컬 LLM 환경에서 긴 문맥 처리는 단순한 하드웨어 확장이 아닌 지능적인 입력 가공 프록시를 통해 해결 가능하다는 점이 확인됐다. 특히 모델의 문맥 충실도와 적절한 추출 전략의 조합이 상용 API 수준의 정확도를 로컬에서도 구현할 수 있음을 시사한다.

커뮤니티 반응

작성자가 직접 개발한 도구와 상세한 벤치마크 데이터에 대해 긍정적인 반응이 예상되며, 특히 로컬 LLM 사용자들의 고질적인 문제인 컨텍스트 제한을 해결했다는 점이 주목받고 있다.

주요 논점

01찬성다수

지능형 압축 프록시가 로컬 LLM의 하드웨어적 한계를 극복하는 가장 실용적인 방법이다.

합의점 vs 논쟁점

합의점

모델의 기본 성능이 압축 전략의 복잡성보다 결과에 더 큰 영향을 미친다.
단순한 임베딩 검색만으로는 문서 내의 희소한 정보를 찾아내기에 부족하다.

논쟁점

추출 전략에서 2회 이상의 LLM 호출이 오히려 정확도를 떨어뜨리는 이유에 대한 추가 분석이 필요하다.

실용적 조언

긴 문맥 처리가 필요한 경우 LFM2보다는 Qwen 3.5 모델을 사용하는 것이 압축 전략 효율이 훨씬 높다.
에이전트 워크플로에서 토큰 비용을 줄이려면 Ctxpact와 같은 프록시를 localhost:8000에 띄워 연결하면 된다.

섹션별 상세

Ctxpact는 DCP, 요약, 추출의 3단계 파이프라인을 통해 입력을 압축한다. DCP는 도구 호출 중복 제거 및 오류 스택 트레이스 삭제를 수행하며, 이후 오래된 대화를 LLM 요약으로 대체한다. 최종적으로 토큰 예산 초과 시 16가지 추출 전략 중 하나를 선택해 핵심 내용을 뽑아낸다. 이를 통해 110k 토큰의 소설 데이터를 12k 토큰으로 압축하면서도 독해 질문 8개에 모두 정답을 맞히는 성능을 보였다.

추출 단계에서 2회의 LLM 호출을 사용하는 것이 정확도와 속도 사이의 최적 지점임이 확인됐다. 0회 호출(임베딩 유사도 등)에서 1회 호출(LLM 검색어 생성)로 넘어갈 때 성능이 크게 향상되며, 2회 호출 시 정점에 도달한다. 2회를 초과하는 다회차 루프 전략은 오히려 정확도가 떨어지고 속도가 느려지는 역효과가 나타났다. 특히 'readagent' 전략은 LLM 생성 검색어를 활용해 희소 신호를 찾아내어 난이도 높은 질문을 해결했다.

벤치마크 결과 전략의 복잡성보다 모델 자체의 성능이 결과에 더 큰 영향을 미쳤다. LFM2-8B-A1B에서 Qwen 3.5-9B로 모델을 교체하는 것만으로 모든 전략의 정확도가 25-50%p 상승했다. 성능이 낮은 모델은 복잡한 10회 호출 전략을 써도 좋은 모델의 단순 임베딩 검색 성능을 넘지 못했다. 또한 특정 모델은 문맥 정보보다 사전 학습 지식을 우선시하여 오답을 내는 'In-context faithfulness' 부족 문제를 보였다.

아키텍처 설계 시 LiteLLM 플러그인 대신 독립형 프록시 방식을 선택했다. 이는 'readagent'와 같은 고성능 전략이 파이프라인 중간에 추가적인 LLM 호출을 필요로 하기 때문이다. 기존 라이브러리의 콜백 시스템으로는 이러한 복잡한 중간 처리를 구현하기 어려워 FastAPI 기반의 독립 서버로 구축했다. 현재 약 11,000줄의 Python 코드로 구성되어 있으며 OpenAI API와 호환되어 기존 에이전트 도구에 즉시 적용 가능하다.

실무 Takeaway

로컬 LLM의 16k 컨텍스트 한계를 극복하기 위해 110k 토큰을 12k로 압축하는 지능형 프록시 Ctxpact를 제안했다.
추출 전략 중 2회의 LLM 호출을 사용하는 방식이 정확도와 효율성 측면에서 가장 우수한 'Sweet Spot'임을 입증했다.
컨텍스트 엔지니어링 성능은 일반적인 MMLU 점수보다 NR-MMLU나 독해 점수와 더 높은 상관관계를 보였다.
모델이 문맥을 무시하고 사전 지식으로 답변하는 현상을 방지하기 위해서는 Qwen 3.5와 같이 문맥 충실도가 높은 모델 선택이 필수적이다.

언급된 도구

Ctxpact추천

로컬 LLM용 컨텍스트 압축 프록시

Qwen 3.5추천

추출 및 답변 생성을 위한 고성능 로컬 LLM

ChromaDB중립

임베딩 유사도 검색을 위한 벡터 데이터베이스

언급된 리소스

GitHubCtxpact GitHub Repository