의미적 유사성을 넘어서: 직접 코퍼스 상호작용을 통한 에이전트 검색의 재고

기존의 벡터 검색 방식은 정보를 압축하는 과정에서 세부적인 맥락을 손실하여 복잡한 추론이 필요한 에이전트 작업에 병목 현상을 일으킵니다. 이 논문은 에이전트가 직접 터미널 도구를 사용하여 원본 데이터를 탐색하게 함으로써 검색의 정밀도를 높이고 비용을 절감하는 새로운 패러다임을 제시합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

직접 코퍼스 상호작용(DCI) 패러다임 정립

임베딩 모델이나 벡터 인덱스 없이 grep, bash, python 스크립트 등 일반적인 터미널 도구를 사용하여 에이전트가 원본 코퍼스와 직접 상호작용하는 검색 방식을 공식화했다.

검색 인터페이스 해상도 개념 도입

에이전트가 데이터를 관찰하고 조작할 수 있는 정밀도를 '해상도'로 정의하고, 고해상도 인터페이스가 에이전트의 추론 능력과 결합될 때 발생하는 시너지 효과를 분석했다.

런타임 컨텍스트 관리 전략 제안

긴 탐색 과정에서 발생하는 컨텍스트 압박을 해결하기 위해 도구 결과 절단(Truncation), 이력 압축(Compaction), 요약(Summarization)의 세 가지 메커니즘을 체계화했다.

다양한 벤치마크에서의 성능 입증

BrowseComp-Plus, multi-hop QA, IR 랭킹 등 주요 벤치마크에서 기존의 벡터 검색 및 리랭킹 기반 에이전트를 최대 30.7%p 차이로 압도하는 성과를 보였다.

핵심 아이디어 이해하기

기존의 검색 시스템은 도서관의 '색인 카드'와 같다. 책의 내용을 몇 개의 키워드나 벡터 숫자로 압축하여 에이전트에게 전달하는데, 이 과정에서 아주 구체적인 단서나 문맥이 사라지는 '정보의 병목'이 발생한다. 에이전트가 아무리 똑똑해도 색인 카드가 부실하면 원하는 정보를 찾을 수 없다.

DCI는 에이전트에게 색인 카드 대신 '도서관 열람실에 직접 들어가서 책을 훑어볼 수 있는 권한'을 주는 것과 같다. 에이전트는 grep과 같은 도구를 사용해 특정 단어가 들어간 페이지를 정확히 찾아내고, 앞뒤 문맥을 직접 읽으며 가설을 검증한다. 이는 딥러닝의 Attention 메커니즘이 입력 시퀀스의 모든 부분을 참조하듯, 에이전트가 코퍼스 전체를 자신의 외부 메모리처럼 정밀하게 참조할 수 있게 만든다.

결과적으로 에이전트는 검색 엔진이 주는 top-k 결과에 의존하지 않고, 스스로 검색 쿼리를 수정하고 세부 정보를 파고드는 '고해상도' 탐색을 수행한다. 이는 모델의 추론 능력이 고도화될수록 고정된 검색 API보다 유연한 터미널 인터페이스가 훨씬 강력한 도구가 될 수 있음을 의미한다.

방법론

DCI는 에이전트가 표준 bash 터미널 환경에서 코퍼스 파일 시스템에 접근하는 구조를 가진다. 에이전트는 정규 표현식 매칭을 위한 grep/rg, 구조적 탐색을 위한 find/glob, 로컬 문맥 확인을 위한 head/tail/sed 등의 도구를 조합하여 파이프라인을 구성한다. [사용자 질문 입력] → [에이전트의 도구 호출 계획 수립] → [터미널 명령어 실행] → [원본 텍스트의 특정 구간 추출] 순으로 프로세스가 진행된다.

컨텍스트 관리를 위해 L0~L4 단계의 정책을 적용한다. 예를 들어 L3 단계에서는 누적된 도구 출력값이 240,000자를 초과할 때 최근 12턴을 제외한 이전 기록을 짧은 자리표시자(placeholder)로 대체하는 Compaction 연산을 수행한다. [누적 텍스트량 체크] → [임계치 초과 시 이전 턴 내용 삭제] → [구조 정보만 남긴 자리표시자 삽입] 과정을 통해 모델의 컨텍스트 윈도우 내에 핵심 증거만 남긴다.

성능 측정을 위해 Coverage(관련 문서 도달 여부)와 Localization(문서 내 정밀 위치 특정 능력) 지표를 사용한다. Localization 점수 s(d*, τ)는 [추출된 스니펫 길이 / 전체 문서 길이]의 로그 비율을 계산하여, 에이전트가 얼마나 좁고 정확한 범위의 증거를 찾아냈는지 수치화한다. 값이 클수록 문서 내에서 불필요한 노이즈를 배제하고 핵심 정보에 집중했음을 의미한다.

주요 결과

BrowseComp-Plus 벤치마크에서 Claude Sonnet 4.6을 백본으로 사용했을 때, 기존 Qwen3-Embedding-8B 검색 도구를 DCI로 교체하는 것만으로 정확도가 69.0%에서 80.0%로 11.0%p 향상되었다. 동시에 API 비용은 1,440달러에서 1,016달러로 약 29.4% 절감되는 효율성을 보였다.

Multi-hop QA 실험에서는 DCI와 Claude Code를 결합한 모델이 83.0%의 평균 정확도를 기록하여, 기존의 가장 강력한 검색 에이전트 베이스라인(52.3%)을 30.7%p 차이로 크게 앞질렀다. 특히 HotpotQA(+30점), 2Wiki(+26점), MuSiQue(+50점) 등 복잡한 추론이 필요한 데이터셋에서 압도적인 성능 차이를 보였다.

IR 랭킹 작업에서도 DCI-Agent-CC는 68.5 NDCG@10을 달성하여 기존 SOTA 리랭커인 ReasonRank-32B(47.0)보다 21.5점 높은 점수를 기록했다. 이는 DCI가 단순한 정보 추출을 넘어 문서 간의 관계를 파악하고 순위를 매기는 작업에서도 매우 효과적임을 입증한다.

기술 상세

DCI 아키텍처는 에이전트가 코퍼스를 '정적 인덱스'가 아닌 '상호작용 가능한 환경'으로 취급하게 한다. 이는 기존 RAG가 가진 '검색 후 추론(Retrieve-then-Reason)'의 선형적 구조를 '탐색과 추론의 루프(Iterative Exploration-Reasoning Loop)'로 전환한다. 기술적으로는 임베딩의 차원 압축으로 인한 정보 손실(Information Bottleneck)을 완전히 제거하고, 시맨틱 해석의 책임을 검색 엔진이 아닌 LLM 자체의 추론 능력으로 전이시킨 것이 핵심이다.

구현 측면에서 DCI-Agent-Lite는 Pi 기반의 경량 하네스를 사용하여 bash와 read 명령어만으로 동작하며, GPT-5.4 nano와 같은 소형 모델에서도 기존 대형 모델 기반의 벡터 검색 시스템보다 우수한 성능을 낼 수 있음을 보여주었다. 이는 검색 성능이 모델의 크기뿐만 아니라 인터페이스의 해상도에 크게 의존함을 시사한다.

수학적 분석을 위해 도입된 'Retrieval Interface Resolution'은 에이전트가 조작하는 데이터 단위의 최소 크기를 정의한다. 벡터 검색이 '문서/단락' 단위의 저해상도 접근이라면, DCI는 '행/문자열' 단위의 고해상도 접근을 제공한다. 실험 결과, 에이전트는 더 많은 문서를 찾는 것보다 이미 찾은 문서 내에서 정밀한 로컬 검색(Local Search)과 검증(Verification)을 수행할 때 더 큰 성능 향상을 얻는 것으로 나타났다.

한계점

DCI는 검색 깊이(Depth)에는 강점이 있으나 검색 너비(Breadth)가 넓어질수록 비용과 시간이 급격히 증가하는 한계가 있다. 실험 결과 코퍼스 크기가 100K에서 400K로 커질 때 도구 호출 횟수가 약 3배 증가하고 정확도가 하락하는 양상을 보였다. 따라서 매우 거대한 정적 코퍼스에서는 초기 후보군을 추리는 벡터 검색과 세부 탐색을 수행하는 DCI의 하이브리드 접근이 필요할 수 있다.

실무 활용

DCI는 별도의 인덱싱 과정이 필요 없으므로 데이터가 수시로 변하는 로컬 파일 시스템이나 코드 저장소 기반의 딥 리서치 에이전트 구축에 즉시 활용 가능하다.

실시간으로 업데이트되는 사내 문서고 기반의 지능형 Q&A 시스템
대규모 코드 베이스에서 복잡한 버그의 원인을 추적하는 자율 코딩 에이전트
수만 개의 논문이나 보고서 원본을 직접 탐색하여 보고서를 작성하는 연구 보조 AI

코드 공개 여부: 공개

코드 저장소 보기

키워드

DCI(직접 코퍼스 상호작용)Agentic Search(에이전트 기반 검색)RAG(검색 증강 생성)CLI(명령줄 인터페이스)Information Retrieval(정보 검색)

코드 예제

bash

grep -m 3 "Rocinante" wiki_corpus/wiki_dump.jsonl | head -c 1500

grep과 head 명령어를 조합하여 특정 키워드가 포함된 문맥을 정밀하게 추출하는 예시

bash

rg -n "scoreboard" bc_plus_docs --type-add 'txt:*.txt' --glob='*.txt' | head -n 50

ripgrep(rg)을 사용하여 특정 파일 형식 내에서 키워드 위치를 행 번호와 함께 찾는 예시

의미적 유사성을 넘어서: 직접 코퍼스 상호작용을 통한 에이전트 검색의 재고

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

직접 코퍼스 상호작용(DCI) 패러다임 정립

검색 인터페이스 해상도 개념 도입

런타임 컨텍스트 관리 전략 제안

다양한 벤치마크에서의 성능 입증

BrowseComp-Plus, multi-hop QA, IR 랭킹 등 주요 벤치마크에서 기존의 벡터 검색 및 리랭킹 기반 에이전트를 최대 30.7%p 차이로 압도하는 성과를 보였다.

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

실시간으로 업데이트되는 사내 문서고 기반의 지능형 Q&A 시스템
대규모 코드 베이스에서 복잡한 버그의 원인을 추적하는 자율 코딩 에이전트
수만 개의 논문이나 보고서 원본을 직접 탐색하여 보고서를 작성하는 연구 보조 AI

코드 공개 여부: 공개

코드 저장소 보기

키워드

DCI(직접 코퍼스 상호작용)Agentic Search(에이전트 기반 검색)RAG(검색 증강 생성)CLI(명령줄 인터페이스)Information Retrieval(정보 검색)

코드 예제

bash

grep -m 3 "Rocinante" wiki_corpus/wiki_dump.jsonl | head -c 1500

grep과 head 명령어를 조합하여 특정 키워드가 포함된 문맥을 정밀하게 추출하는 예시

bash

rg -n "scoreboard" bc_plus_docs --type-add 'txt:*.txt' --glob='*.txt' | head -n 50

ripgrep(rg)을 사용하여 특정 파일 형식 내에서 키워드 위치를 행 번호와 함께 찾는 예시

의미적 유사성을 넘어서: 직접 코퍼스 상호작용을 통한 에이전트 검색의 재고

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

의미적 유사성을 넘어서: 직접 코퍼스 상호작용을 통한 에이전트 검색의 재고

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드