에이전트 궤적을 통한 검색 모델 학습: 인간 중심 데이터의 한계 극복

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 검색 모델은 인간의 클릭 로그에 의존해 학습되었으나, AI 에이전트는 인간과 다른 방식으로 정보를 소비하여 성능 병목이 발생한다. 이 논문은 에이전트가 스스로 생성한 실행 궤적을 학습 데이터로 활용해 에이전트 환경에 최적화된 검색 모델을 만드는 새로운 패러다임을 제시한다.

왜 중요한가

핵심 기여

LRAT(Learning to Retrieve from Agent Trajectories) 프레임워크

에이전트의 멀티스텝 상호작용 궤적에서 고품질 검색 감독 신호를 추출하고, 이를 통해 에이전트 전용 검색 모델을 학습시키는 프레임워크를 제안한다.

에이전트 행동 기반의 새로운 감독 신호 식별

에이전트의 브라우징(Browsing) 행동을 긍정 신호로, 선택되지 않은 문서를 신뢰할 수 있는 부정 신호로 정의하며, 사후 추론(Post-browse reasoning) 길이를 통해 관련성 강도를 측정한다.

데이터 플라이휠(Data Flywheel) 가능성 입증

에이전트가 생성한 궤적을 반복적으로 학습에 투입함으로써 추가적인 인간의 개입 없이도 검색 모델과 에이전트 성능이 지속적으로 향상됨을 증명한다.

핵심 아이디어 이해하기

기존 검색 모델은 인간이 검색 결과 상단을 주로 클릭한다는 '위치 편향(Position Bias)'을 전제로 학습된다. 하지만 AI 에이전트는 특정 정보를 찾기 위해 검색 결과 전체를 훑어보며 필요한 문서를 선택하므로 인간과는 다른 데이터 소비 패턴을 보인다. 이 논문은 에이전트가 문서를 실제로 열어보는 '브라우징' 행위 자체가 해당 문서의 유용성을 입증하는 강력한 신호라는 점에 주목한다.

특히 에이전트가 문서를 읽은 후 작성하는 '추론 로그'의 길이를 중요 지표로 삼는다. 에이전트가 유용한 정보를 발견하면 이를 바탕으로 더 길고 복잡한 사고 과정을 거치게 되는데, 이는 딥러닝의 손실 함수 계산 시 해당 문서에 더 높은 가중치를 부여하는 근거가 된다. 결과적으로 에이전트의 사고 과정이 깊어질수록 검색 모델은 해당 문서를 더 중요한 정답으로 인식하게 된다.

이러한 방식은 에이전트가 작업을 수행할수록 더 많은 학습 데이터가 쌓이고, 이 데이터로 검색 모델을 개선하면 다시 에이전트의 작업 성공률이 올라가는 선순환 구조를 만든다. 이는 인간의 피드백 없이도 시스템이 스스로 진화할 수 있는 자가 개선형 검색 생태계를 가능하게 한다.

방법론

LRAT는 에이전트의 실행 궤적 T = {(rt, at, ot)}에서 검색-브라우징 전환(Search-to-Browse transitions)을 추출한다. 에이전트가 검색 결과 중 특정 문서 dt+1을 선택해 브라우징하면 이를 긍정 샘플로, 선택되지 않은 나머지 후보군 Nt를 부정 샘플로 분류한다.

추출된 긍정 샘플의 품질을 높이기 위해 LLM-as-judge를 활용한 필터링을 수행한다. 에이전트의 사후 추론 로그 rt+2가 실제로 브라우징한 문서의 내용을 반영하여 작업 진전에 기여했는지 판단하며, Qwen3-30B-A3B-Thinking 모델이 이 검증을 담당한다.

관련성 강도(Relevance Intensity)를 추정하기 위해 추론 로그의 토큰 길이 l을 지수 포화 함수(Exponential Saturation Function)에 입력한다. u(l) = (β/ln2) * (1 - exp(-ln2 * l / β))를 계산하여, 로그가 길어질수록 점수가 높아지되 일정 수준 이상에서는 수렴하도록 설계한다. 여기서 β는 전체 궤적의 추론 길이 중앙값으로 설정된다.

최종 학습은 가중치 적용 InfoNCE 손실 함수를 사용한다. 각 쿼리-문서 쌍에 대해 계산된 강도 가중치 wi를 손실값에 곱하여, 에이전트에게 더 큰 영감을 준 문서가 그래디언트 업데이트에 더 큰 영향을 미치도록 최적화한다.

주요 결과

InfoSeek-Eval 벤치마크에서 LRAT로 학습된 검색기를 사용했을 때, 에이전트의 작업 성공률(Success Rate)이 기본 모델 대비 평균 28.6% 향상되었다. 특히 4B 규모의 소형 에이전트에서도 성능 개선이 뚜렷하게 나타나 모델 크기에 상관없는 범용성을 입증했다.

BrowseComp-Plus 데이터셋을 통한 외삽 성능 평가에서 증거 재현율(Evidence Recall)이 최대 37.9% 증가했다. 이는 학습 시 보지 못한 새로운 도메인의 복잡한 질문에 대해서도 에이전트가 필요한 정보를 더 정확하게 찾아낼 수 있음을 의미한다.

실행 효율성 측면에서 에이전트의 평균 상호작용 단계(Average Step Count)가 최대 30% 감소했다. 검색 모델이 더 정확한 정보를 상단에 배치함에 따라 에이전트가 불필요한 탐색을 줄이고 더 빠르게 정답에 도달할 수 있게 되었다.

Ablation Study 결과, 단순 브라우징 신호만 사용했을 때보다 LLM 필터링과 강도 가중치(Reweight)를 모두 적용했을 때 성능이 가장 높았다. 또한 실패한 궤적(Incorrect Trajectories)에서도 유의미한 학습 신호를 추출할 수 있음을 확인했다.

기술 상세

LRAT는 Bi-encoder 구조의 밀집 검색기(Dense Retriever)를 기반으로 하며, Qwen3-Embedding-0.6B와 Multilingual-E5-Large-Instruct를 백본으로 사용한다. 학습 데이터는 Tongyi-DeepResearch-30B 모델이 생성한 26,482개의 궤적에서 추출된 91,713개의 쿼리-문서 쌍으로 구성된다.

부정 샘플링 전략으로 동일 검색 결과 내 미선택 문서와 배치 내 부정 샘플(In-batch negatives)을 혼합하여 사용함으로써 변별력을 높였다. 이는 에이전트가 명시적으로 거부한 문서와 무관한 문서를 모두 효과적으로 구분하게 한다.

수학적으로는 시간 인지 클릭 모델(Time-aware click model)의 개념을 에이전트의 추론 길이에 대입하여, 인간의 체류 시간(Dwell time)이 갖는 의미를 에이전트 환경에서 재해석했다. 이를 통해 이진 분류(Binary)를 넘어선 연속적인 관련성 점수 학습이 가능해졌다.

한계점

에이전트가 생성한 추론 로그의 품질에 의존하므로, 에이전트 자체가 매우 낮은 지능을 가질 경우 노이즈가 섞인 감독 신호가 생성될 위험이 있다. 또한 텍스트 기반의 궤적에 집중하고 있어 멀티모달 환경에서의 적용 가능성은 추가 연구가 필요하다.

실무 활용

자체적인 검색 에이전트를 운영하는 기업이나 연구소에서 별도의 수동 라벨링 없이 기존 로그만으로 검색 엔진을 고도화하는 데 즉시 적용 가능하다.

기업 내 지식 베이스(RAG) 시스템에서 에이전트의 사용 기록을 바탕으로 검색 정확도 자동 개선
자율형 웹 서핑 에이전트의 정보 수집 효율성 및 정답률 향상
특수 도메인(의료, 법률 등)에서 에이전트의 전문 지식 탐색 성능 최적화

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Agent(에이전트)Information-Retrieval(정보 검색)Trajectory-Learning(궤적 학습)RAG(검색 증강 생성)