추론 집약적 검색의 재고: 에이전트 검색 시스템에서의 리트리버 평가 및 고도화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

기존 검색 시스템은 단순히 유사한 문서를 찾는 데 집중했으나, 복잡한 추론이 필요한 에이전트 환경에서는 여러 관점의 증거를 조합하는 능력이 필수적이다. 이 논문은 에이전트의 사고 과정을 지원하는 다각도 검색 평가 체계와 이를 학습하기 위한 합성 데이터 생성 기법을 제시하여 에이전트 검색의 새로운 기준을 마련했다.

왜 중요한가

핵심 기여

BRIGHT-PRO 벤치마크 구축

기존 BRIGHT 데이터셋을 확장하여 전문가가 주석을 단 다중 관점(Multi-aspect) 증거 세트를 포함한다. 정적 검색뿐만 아니라 LLM 에이전트 루프 내에서의 성능을 측정하는 에이전트 검색 프로토콜을 도입했다.

RTriever-Synth 합성 데이터 생성 파이프라인

참조 답변을 비중복적인 추론 관점으로 분해하고, 각 관점에 부합하는 상호 보완적 양성 샘플과 해당 관점만 교묘하게 누락된 하드 음성 샘플을 생성하는 기법을 제안했다.

RTriever-4B 모델 개발

Qwen3-Embedding-4B를 기반으로 RTriever-Synth 데이터를 사용하여 LoRA 파인튜닝을 수행했다. 4B라는 비교적 작은 크기에도 불구하고 추론 집약적 검색 작업에서 대형 모델들에 필적하는 성능을 기록했다.

핵심 아이디어 이해하기

기존의 Embedding 모델은 쿼리와 문서 사이의 단순한 코사인 유사도를 극대화하도록 학습된다. 하지만 '내 고양이가 왜 벽을 쳐다볼까?'와 같은 복잡한 질문은 건강 문제, 행동 원인, 외부 자극 등 여러 측면의 정보를 동시에 필요로 한다. 기존 방식은 가장 점수가 높은 문서 하나를 찾는 데만 집중하므로, 에이전트가 추론을 완결하는 데 필요한 다양한 증거들을 골고루 가져오지 못하는 한계가 있다.

이 논문은 검색을 '단일 문서 매칭'이 아닌 '증거 포트폴리오 구성'의 관점으로 접근한다. 핵심 원리는 질문을 여러 개의 독립적인 '추론 관점(Reasoning Aspects)'으로 분해하고, 리트리버가 이 모든 관점을 포괄하는 문서 집합을 구성하도록 유도하는 것이다. 이를 위해 학습 과정에서 특정 관점의 정보가 포함된 문서와, 주제는 비슷하지만 결정적인 정보가 빠진 문서를 대조 학습시켜 모델이 세밀한 정보의 차이를 식별하게 한다.

결과적으로 리트리버는 에이전트가 다음 단계의 사고를 이어갈 수 있도록 상호 보완적인 정보들을 우선적으로 제시하게 된다. 이는 에이전트의 검색 반복 횟수를 줄이고 최종 답변의 완성도를 높이는 효과로 이어진다.

방법론

BRIGHT-PRO 벤치마크는 StackExchange 등 전문가 도메인 데이터를 기반으로 구축됐다. 전문가가 각 쿼리를 2~3개의 비중복적 추론 관점으로 나누고 중요도에 따라 가중치를 부여했다. 평가 지표로는 중복된 정보를 패널티로 주는 alpha-nDCG와 가중치가 반영된 Weighted Aspect Recall을 사용하여 리트리버가 얼마나 다양한 증거를 수집하는지 측정한다.

RTriever-Synth 파이프라인은 MS MARCO 쿼리를 DeepResearch 스타일의 긴 질문으로 재작성하는 것으로 시작한다. LLM이 생성한 참조 답변을 관점별로 분해한 뒤, 각 관점을 설명하는 'Passage Blueprint'를 생성한다. [관점 정의 및 답변 내용 입력 → LLM 생성 연산 → 구체적인 문서 초안 출력] 과정을 거쳐 실제와 유사한 양성 문서를 합성한다.

하드 음성 샘플 생성 시에는 'Positive-Conditioned' 전략을 사용한다. [양성 문서의 제목과 요약 입력 → 핵심 관점 제외 제약 조건 연산 → 주제는 같으나 증거가 부족한 문서 출력] 순으로 진행된다. 이렇게 생성된 데이터로 Qwen3-Embedding-4B 모델의 모든 선형 투영 레이어에 LoRA 어댑터를 부착하여 학습시킨다. 손실 함수로는 InfoNCE를 사용하며, 쿼리와 문서 쌍 사이의 대조적 특징을 학습한다.

주요 결과

정적 검색 실험에서 BGE-Reasoner-8B가 가장 우수한 성능을 보였으며, RTriever-4B는 4B 파라미터임에도 불구하고 8B급 일반 모델인 Qwen3-8B나 OpenAI text-embedding-3-Large를 상회하는 결과를 기록했다. 특히 추론 집약적 모델들이 일반 임베딩 모델보다 4~14점 높은 alpha-nDCG 점수를 보이며 명확한 우위를 점했다.

에이전트 검색 프로토콜(Fixed-Round)에서는 정적 순위와 실제 에이전트 루프 내 성능이 일치하지 않는 현상이 발견됐다. 예를 들어 BM25는 정적 검색에서는 최하위권이었으나, 에이전트가 구체적인 키워드로 후속 쿼리를 던지는 환경에서는 어휘 불일치 문제가 해결되어 중위권까지 성능이 상승했다.

적응형 라운드(Adaptive-Round) 실험 결과, BGE-Reasoner-8B와 RTriever-4B는 가장 적은 검색 횟수(평균 4~5회)로도 높은 답변 품질을 유지하여 효율성 지표인 AER에서 상위권을 차지했다. 반면 일반 모델들은 필요한 증거를 찾지 못해 불필요하게 많은 검색 라운드를 소모하거나 추측성 답변을 내놓는 경향이 확인됐다.

기술 상세

RTriever-4B는 Qwen3-Embedding-4B를 백본으로 하며, rank=16, alpha=32 설정의 LoRA를 적용했다. 학습 시 140K개의 쿼리-양성-음성 트리플렛을 사용했으며, 2,048 토큰 길이로 절단하여 학습 효율을 높였다. 하드 네거티브 생성 시 'Missing Aspect'를 회피 제약 조건으로 명시하여 모델이 미세한 정보 유무를 구분하도록 설계한 것이 특징이다.

에이전트 평가 환경에서는 GPT-5-mini와 Qwen3.5-122B를 에이전트 백본으로 사용했다. 에이전트는 검색 도구를 통해 라운드당 상위 5개의 문서를 읽으며, 최대 10회의 반복 제한을 두었다. LLM-as-Judge 평가 시에는 전문가가 작성한 참조 답변과 비교하여 각 추론 관점의 충족 여부를 3단계(0, 0.5, 1.0)로 채점하고 이를 가중 평균하여 최종 점수를 산출한다.

한계점

BRIGHT-PRO는 현재 StackExchange의 7개 전문 도메인에 국한되어 있어 실제 세계의 모든 복잡한 검색 시나리오를 대변하기에는 범위가 좁을 수 있다. 또한 전문가 주석 비용이 높아 데이터셋의 규모가 수백 개 수준으로 제한적이며, RTriever-4B 학습 시 단순한 1:1 대조 학습 구조를 사용했다는 점이 한계로 지적된다.

키워드

Information Retrieval(정보 검색)LLM Agent(LLM 에이전트)Reasoning(추론)Embedding Model(임베딩 모델)Benchmark(벤치마크)