Chroma Context-1: 스스로 컨텍스트를 편집하는 검색 에이전트 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Chroma는 멀티턴 에이전틱 검색의 고비용 및 지연 문제를 해결하기 위해 20B 파라미터 규모의 전용 모델인 Context-1을 개발했다. 이 모델은 검색 과정에서 컨텍스트 윈도우가 가득 차면 무관한 정보를 스스로 판단하여 삭제하는 'Self-editing context' 기능을 갖추고 있다. 8,000개 이상의 정교한 합성 데이터를 활용해 SFT와 CISPO 강화학습을 거쳤으며, 4x 병렬 실행 시 최신 대형 모델(Frontier LLMs)에 필적하는 검색 성능을 보여준다. 결과적으로 RAG 시스템에서 검색과 생성을 분리하여 추론 속도를 최대 10배 높이고 운영 비용을 획기적으로 낮췄다.

배경

RAG(Retrieval-Augmented Generation)의 기본 개념, 강화학습(RLHF, GRPO) 및 SFT에 대한 이해, 컨텍스트 윈도우 및 토큰 관리 지식

대상 독자

프로덕션 환경에서 고성능·저비용 RAG 시스템을 구축하려는 AI 엔지니어 및 연구자

의미 / 영향

이 연구는 거대 모델에 의존하던 에이전틱 검색 태스크를 소형 특화 모델로 대체할 수 있음을 증명했습니다. 특히 스스로 컨텍스트를 관리하는 기술은 향후 긴 대화나 복잡한 추론이 필요한 모든 LLM 애플리케이션의 효율성을 높이는 핵심 표준이 될 것입니다.

섹션별 상세

멀티턴 검색의 컨텍스트 팽창으로 인한 성능 저하와 비용 문제를 해결하기 위해 20B 규모의 전용 모델 Context-1을 구축했다. Context-1은 검색 서브에이전트로서 작동하며 하위 쿼리 분해, 반복 검색, 불필요한 문서 삭제(Pruning)를 수행한다. 이를 통해 하드웨어 자원을 효율적으로 사용하면서도 복잡한 멀티홉 질문에 대한 정확한 근거 문서를 찾아낸다.

python

agent.reset()
agent.observe(initial_observation)
while not agent.is_done:
    action = agent.infer()
    observation = agent.act(action)
    if observation is not None:
        agent.observe(observation)
trajectory = agent.trajectory

에이전트의 관찰-추론-행동 루프를 구현한 의사코드

모델이 스스로 컨텍스트를 관리하는 'Self-editing context' 메커니즘을 도입하여 컨텍스트 부패(Context Rot) 현상을 방지한다. 에이전트는 토큰 예산이 임계값에 도달하면 prune_chunks 도구를 사용하여 무관한 정보를 제거하고 새로운 탐색 공간을 확보한다. 실험 결과 Context-1은 0.941의 높은 삭제 정확도를 기록하며 노이즈를 효과적으로 제어함이 확인됐다.

베이스 모델과 Context-1의 컨텍스트 삭제(Prune) 정확도 비교 차트 — ChartContext-1이 0.94의 정확도를 기록하여 베이스 모델(0.82) 대비 무관한 정보를 식별하고 제거하는 능력이 유의미하게 향상되었음을 보여준다.

CISPO(Clipped Importance-Sampled Policy Optimization)라는 새로운 강화학습 알고리즘을 적용해 학습 안정성을 확보했다. 기존 GRPO 방식에서 발생하기 쉬운 엔트로피 붕괴를 막기 위해 중요도 샘플링 가중치를 클리핑하여 모든 토큰이 학습에 기여하도록 설계했다. 이 방식은 특히 삭제 결정이나 쿼리 재구성 같은 희소하지만 중요한 행동을 학습시키는 데 효과적이다.

학습 단계에 따른 총 보상(Total Reward)의 변화를 보여주는 그래프 — Chart학습이 진행됨에 따라 보상이 꾸준히 상승하며 약 230단계 부근에서 수렴하는 것을 보여준다. 난이도가 낮은 태스크에서 높은 태스크로 전환되는 시점에서도 안정적인 학습 곡선을 유지한다.

PPO와 CISPO 알고리즘 간의 정책 엔트로피 유지 성능 비교 그래프 — ChartPPO는 학습이 진행될수록 엔트로피가 급격히 감소하는 반면, CISPO는 높은 엔트로피를 유지하여 모델의 탐색 능력을 보존함을 증명한다. 이는 CISPO가 엔트로피 붕괴 방지에 더 효과적임을 나타낸다.

웹, 금융, 법률, 이메일 등 4개 도메인에 걸쳐 8,000개 이상의 고품질 합성 태스크를 생성하는 파이프라인을 구축했다. LLM Judge와 추출 기반 검증(Extraction-based verification)을 결합하여 데이터의 근거 정확도를 80% 이상으로 유지했다. 특히 훈련되지 않은 이메일 도메인에서도 성능 향상이 나타나 검색 기술의 범용적인 전이 학습 가능성을 입증했다.

벤치마크 평가 결과 Context-1은 수십 배 더 큰 최신 모델들과 대등한 검색 성능을 내면서도 추론 속도는 10배 이상 빠르다. MXFP4 양자화를 적용해 B200 GPU에서 초당 400-500 토큰의 빠른 속도로 실시간 에이전틱 검색을 지원한다. 이는 프로덕션 환경에서 고성능 RAG 시스템을 저비용으로 운영할 수 있는 실질적인 대안을 제시한다.

HLE(Humanity's Last Exam) 벤치마크에서 다양한 모델의 정확도 비교 — ChartContext-1(4x)이 0.385의 정확도를 기록하여 Sonnet 4.5나 GPT-5.2 같은 대형 모델들과 대등한 수준의 검색 지원 능력을 갖추었음을 입증한다.

실무 Takeaway

RAG 시스템 구축 시 검색 전용 소형 모델(20B)을 도입하면 대형 모델 대비 운영 비용을 최대 90% 절감하면서도 대등한 성능을 얻을 수 있다.
멀티턴 에이전트 설계 시 'Pruning' 도구를 포함시켜 모델이 스스로 컨텍스트를 편집하게 함으로써 컨텍스트 부패로 인한 성능 저하를 막아야 한다.
합성 데이터 생성 시 단순한 모델 판단 대신 원문 텍스트 추출 기반의 검증 파이프라인을 구축하면 80% 이상의 높은 데이터 신뢰도를 확보할 수 있다.

언급된 리소스

문서Chroma Context-1 Research