딥 리서치 구축기: SOTA 성능을 달성한 방법

핵심 요약

AI 리서치 에이전트는 방대한 정보를 수집하고 합성하는 지식 노동의 핵심 도구로 부상하고 있다. Tavily 팀은 복잡한 오케스트레이션 대신 모델의 자율성에 의존하고 컨텍스트를 효율적으로 관리하는 '컨텍스트 엔지니어링'에 집중하여 시스템을 재구축했다. 특히 인간의 연구 방식을 모방하여 도구 출력을 성찰(Reflection)로 요약하고 필요한 시점에만 원본 데이터를 제공하는 방식을 도입했다. 그 결과 기존 방식 대비 토큰 사용량을 66% 절감하면서도 DeepResearch Bench에서 SOTA 성능을 기록했다.

배경

LLM 에이전트 기본 개념, 컨텍스트 윈도우 및 토큰 최적화, RAG 아키텍처

대상 독자

LLM 에이전트 및 리서치 시스템을 구축하는 AI 엔지니어 및 아키텍트

의미 / 영향

에이전트 설계 시 컨텍스트 관리 방식만 바꿔도 비용을 60% 이상 절감할 수 있음을 입증했다. 이는 대규모 리서치 작업의 경제성을 확보하여 실무 도입을 가속화할 것으로 보인다.

섹션별 상세

에이전트 하네스(Harness) 설계 시 미래의 모델 성능 향상을 흡수할 수 있도록 유연하게 설계하는 것이 중요하다. 과거의 복잡하고 정교한 아키텍처는 오히려 모델 발전의 병목이 되었기에, 현재는 오케스트레이션 로직을 단순화하고 모델의 자율적 도구 호출 능력을 신뢰하는 방향으로 전환했다.

장기적인 리서치 작업에서 깨끗하고 최적화된 컨텍스트 창을 유지하는 것이 에이전트의 성공을 결정한다. Tavily의 고급 검색 기능을 활용해 원시 웹 콘텐츠 대신 관련성 높은 청크만 반환받고, 전역 상태 유지 및 소스 중복 제거를 통해 에이전트가 새로운 정보에만 노출되도록 관리한다.

인간이 연구할 때 정보를 요약하여 단기 기억에 저장하고 마지막에만 원본을 참조하는 방식에서 영감을 얻어 아키텍처를 설계했다. 도구 호출 결과를 즉시 컨텍스트에 쌓는 대신 '성찰(Reflection)'로 증류하여 전달함으로써, 토큰 소비 구조를 이차 함수에서 선형 함수로 개선하여 효율성을 극대화했다.

LLM의 비결정론적 특성을 극복하기 위해 도구 호출 재시도나 모델 캐스케이드 같은 가드레일을 도입하되, 에이전트에게 추론의 자유를 부여하는 균형이 필요하다. 또한 도구 세트를 방대하게 만들기보다 필수적인 소수 도구에 집중하는 것이 모델의 도구 선택 정확도를 높이는 데 효과적이다.

단순한 벤치마크 점수 최적화보다는 실제 유용성과 신뢰성 향상이라는 방향성 피드백에 집중한다. LLM 기반 평가는 비결정론적이고 해석이 어렵기 때문에, 수치적인 점수보다 토큰 사용량 감소, 지연 시간 단축, 에이전트 실행 추적 모니터링을 통한 직관적 개선이 프로덕션 환경에서 더 가치 있다.

실무 Takeaway

오케스트레이션 로직을 복잡하게 만들기보다 모델의 자율성을 극대화하고 컨텍스트 큐레이션에 집중하여 성능을 높인다.
도구 호출 결과를 매번 컨텍스트에 누적하지 말고 요약된 성찰(Reflection) 형태로 관리하여 토큰 비용을 선형적으로 유지한다.
에이전트에게 너무 많은 도구를 제공하기보다 작고 필수적인 도구 세트를 제공하여 도구 선택의 신뢰성을 확보한다.

언급된 리소스

DemoTavily Research Early Access

GitHubOpen Deep Research (LangChain)