Claw Compactor: LLM 토큰 압축을 위한 14단계 퓨전 파이프라인

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

대규모 언어 모델(LLM)의 컨텍스트 윈도우 제한과 비용 문제는 실무 적용의 큰 장애물이다. Claw Compactor는 14단계의 특화된 압축 스테이지를 체인으로 연결한 '퓨전 파이프라인'을 통해 이 문제를 해결한다. 이 시스템은 코드, JSON, 로그 등 데이터 유형을 자동 감지하여 최적의 압축 기법을 적용하며, 평균 54%의 압축률을 달성하면서도 'RewindStore'를 통해 원본 데이터를 가역적으로 복원할 수 있다. 별도의 ML 모델 추론 없이 순수 알고리즘 기반으로 작동하여 추가 비용이 발생하지 않는 것이 특징이다.

배경

Python 3.9 이상, LLM 토큰화 및 컨텍스트 윈도우 개념, 기본적인 API 호출 및 도구 사용(Tool Use) 이해

대상 독자

LLM 애플리케이션 개발자 및 AI 에이전트 인프라 엔지니어

의미 / 영향

이 기술은 LLM의 컨텍스트 관리 효율성을 극대화하여 대규모 데이터 처리에 따르는 비용 장벽을 낮춘다. 특히 오픈소스 기반의 제로 추론 비용 설계는 소규모 스타트업이나 개인 개발자가 고성능 AI 에이전트를 운영하는 데 큰 도움을 줄 것으로 보인다.

섹션별 상세

14단계 퓨전 파이프라인 아키텍처는 QuantumLock부터 Abbrev까지 독립적인 스테이지가 불변 데이터 흐름 방식으로 연결되어 작동한다. 각 스테이지는 이전 단계의 출력을 입력으로 받아 순차적으로 압축을 심화하며, should_apply() 메서드를 통해 데이터 유형에 맞는 스테이지 만이 실행된다. 이러한 구조는 각 압축 단계의 독립성을 보장하면서도 전체 파이프라인의 효율성을 극대화한다.

python

from scripts.lib.fusion.engine import FusionEngine
engine = FusionEngine()
result = engine.compress(
    text="def hello():
 # greeting function
 print('hello')",
    content_type="code",
    language="python",
)
print(result["compressed"])
print(result["stats"])

FusionEngine을 사용하여 텍스트를 압축하고 통계 및 마커 정보를 확인하는 기본 예시

python

from scripts.lib.fusion.base import FusionStage, FusionContext, FusionResult

class MyStage(FusionStage):
    name = "my_compressor"
    order = 22
    def should_apply(self, ctx: FusionContext) -> bool:
        return ctx.content_type == "log"
    def apply(self, ctx: FusionContext) -> FusionResult:
        compressed = my_compression_logic(ctx.content)
        return FusionResult(
            content=compressed,
            original_tokens=estimate_tokens(ctx.content),
            compressed_tokens=estimate_tokens(compressed),
        )

FusionStage를 상속받아 사용자 정의 압축 로직을 파이프라인에 추가하는 예시

Cortex 스테이지는 16개 이상의 프로그래밍 언어와 JSON, 로그, Diff 등 데이터 유형을 자동으로 감지한다. 이를 통해 하류 스테이지인 Neurosyntax(AST 기반 코드 압축)나 Ionizer(JSON 통계적 샘플링) 등이 데이터 특성에 맞춘 고효율 압축을 수행하도록 경로를 지정한다. 데이터 유형을 명시하지 않아도 시스템이 스스로 판단하여 최적의 압축 전략을 선택하는 것이 핵심이다.

가역적 압축 시스템은 압축된 데이터 섹션에 고유한 마커 ID를 부여하고 원본을 해시 기반 LRU 캐시인 RewindStore에 저장한다. LLM은 압축된 텍스트를 읽다가 상세 정보가 필요한 경우 특정 마커 ID를 사용하여 도구 호출 방식으로 원본 데이터를 즉시 복원할 수 있다. 이는 정보 손실에 민감한 작업에서도 압축 기술을 안전하게 사용할 수 있게 해준다.

python

engine = FusionEngine(enable_rewind=True)
result = engine.compress(large_json, content_type="json")
# LLM sees compressed output with markers like [rewind:abc123...]
# When the LLM needs the original, it calls the Rewind tool:
original = engine.rewind_store.retrieve("abc123def456...")

Rewind 기능을 활성화하여 압축된 데이터에서 원본 내용을 복원하는 예시

성능 벤치마크에서 Claw Compactor는 기존 정규표현식 기반 방식(9.2%)보다 약 6배 높은 평균 53.9%의 압축률을 기록했다. 특히 JSON 데이터는 최대 81.9%, 에이전트 대화 기록은 31.0%의 압축률을 보이며 LLMLingua-2 대비 높은 시맨틱 보존력을 입증했다. 실제 SWE-bench 인스턴스 테스트에서도 안정적인 성능 향상을 확인했다.

이 엔진은 별도의 LLM 추론 과정 없이 순수 Python 알고리즘으로 구현되어 추가적인 API 비용이나 지연 시간이 발생하지 않는다. tiktoken이나 tree-sitter 같은 외부 라이브러리는 선택 사항이며, 기본적으로 의존성 없는 휴리스틱 폴백 모드를 지원하여 가벼운 배포가 가능하다. 개발자는 단 몇 줄의 코드만으로 기존 워크플로우에 압축 기능을 통합할 수 있다.

실무 Takeaway

RAG 시스템이나 긴 대화 기록이 필요한 에이전트 환경에서 Claw Compactor를 도입하면 컨텍스트 비용을 50% 이상 절감하면서도 정보 손실을 최소화할 수 있다.
JSON 데이터 비중이 높은 API 응답 처리 시 Ionizer 스테이지를 활용하여 통계적 샘플링과 스키마 보존을 병행함으로써 최대 80% 이상의 토큰을 절약할 수 있다.
가역적 복원 기능(Rewind)을 통해 LLM이 압축된 요약본을 먼저 처리하고, 상세 내용이 필요한 특정 부분만 원본으로 복구하여 처리하는 고효율 워크플로우 구축이 가능하다.

언급된 리소스

GitHubClaw Compactor GitHub Repository

Claw Compactor: LLM 토큰 압축을 위한 14단계 퓨전 파이프라인

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드