핵심 요약
기존의 강화학습 기반 검색 에이전트는 무작위적인 탐색에 의존하여 비효율적인 경로를 생성하고 학습이 불안정한 문제가 있었다. 이 논문은 성공과 실패 사례를 계층적으로 구조화하여 에이전트에게 전략적인 지침을 제공함으로써 검색 효율성과 학습 안정성을 동시에 해결했다.
왜 중요한가
기존의 강화학습 기반 검색 에이전트는 무작위적인 탐색에 의존하여 비효율적인 경로를 생성하고 학습이 불안정한 문제가 있었다. 이 논문은 성공과 실패 사례를 계층적으로 구조화하여 에이전트에게 전략적인 지침을 제공함으로써 검색 효율성과 학습 안정성을 동시에 해결했다.
핵심 기여
HiExp(Hierarchical Experience) 프레임워크 제안
무작위 탐색을 전략적이고 경험 중심적인 검색 프로세스로 전환하기 위해 계층적 경험 지식을 구축하고 이를 학습에 정렬하는 새로운 프레임워크를 도입했다.
대조 분석 및 다단계 클러스터링 기반 지식 추출
성공과 실패 궤적을 대조 분석하여 핵심 결정 지점을 식별하고, 이를 인스턴스, 패턴, 전략의 3단계 계층 구조로 추상화하는 메커니즘을 개발했다.
경험 정렬 학습(Experience-Aligned Training) 도입
학습 과정에서 추출된 계층적 경험을 동적으로 주입하여 확률적 탐색을 규제하고, 보상 신호를 안정화하여 정책 최적화의 효율성을 높였다.
다양한 벤치마크에서의 성능 및 일반화 능력 입증
HotpotQA, Musique 등 복잡한 멀티홉 검색 및 수학적 추론 벤치마크에서 기존 RL 기반 에이전트 대비 최대 9.7%의 성능 향상을 기록했으며 타 알고리즘과의 호환성도 증명했다.
핵심 아이디어 이해하기
기존의 강화학습(RL)은 에이전트가 환경과 상호작용하며 얻은 결과 보상(Outcome Reward)을 기반으로 가중치를 갱신한다. 하지만 검색 에이전트의 경우, 수많은 검색 단계 중 어떤 단계가 정답에 결정적이었는지 파악하기 어렵고, 이로 인해 무작위적인 탐색(Stochastic Exploration)이 반복되어 학습이 매우 불안정해지는 한계가 있다.
이 논문은 에이전트가 과거에 수행했던 수많은 시도 중 성공한 경로와 실패한 경로를 대조하는 방식에서 해결책을 찾는다. 이는 딥러닝의 Contrastive Learning 개념과 유사하게, 성공 사례에서는 따라야 할 '핵심 결정'을 추출하고 실패 사례에서는 피해야 할 '함정'을 학습하여 이를 고차원적인 전략으로 추상화한다.
추출된 지식은 단순한 데이터 나열이 아니라 인스턴스(구체적 사례), 패턴(유사 사례 공통점), 전략(일반적 원칙)의 계층 구조로 정리된다. 이를 통해 모델은 새로운 문제를 만났을 때 무작위로 검색어를 던지는 대신, 유사한 과거 경험에서 도출된 전략적 지침을 바탕으로 효율적인 검색 경로를 설계하게 된다.
방법론
HiExp 프레임워크는 크게 계층적 경험 구축(Hierarchical Experience Construction)과 경험 정렬 학습(Experience-Aligned Training)의 두 단계로 구성된다. 먼저 대조 증류(Contrastive Distillation) 과정을 통해 동일 질문에 대한 성공 궤적과 실패 궤적을 비교하여 핵심 결정 포인트와 오류 원인을 추출한다.
추출된 개별 경험들은 다단계 클러스터링을 거친다. 사전 학습된 Semantic Encoder를 통해 경험 설명 d_i를 고차원 임베딩 벡터 v_i로 변환하고, 응집형 클러스터링(Agglomerative Clustering)을 수행하여 유사한 경험들을 묶는다. [경험 텍스트 입력 → Encoder 연산 → 임베딩 벡터 출력 → 유사도 기반 그룹화 의미] 이 과정을 반복하여 구체적 사례(E1)에서 일반적 전략(E3)까지의 계층을 형성한다.
학습 단계에서는 GRPO(Group Relative Policy Optimization) 알고리즘을 확장하여 경험 지식을 동적으로 주입한다. 검색 에이전트가 쿼리 q_t를 생성할 때마다 현재 상태와 가장 유사한 경험 e를 계층적 지식 베이스(HEK)에서 검색하여 프롬프트에 포함시킨다. [현재 쿼리 q_t 입력 → 코사인 유사도 연산 → 최적 경험 e 출력 → 모델의 다음 행동 가이드 의미] 이를 통해 모델은 보상 신호가 부족한 중간 단계에서도 올바른 방향으로 탐색을 수행할 수 있다.
관련 Figure

상단은 실패/성공 궤적을 자기 성찰을 통해 인스턴스, 패턴, 전략의 3단계 계층적 경험으로 변환하는 과정을 설명한다. 하단은 학습 시 질문과 전략적 경험이 결합되어 검색 에이전트의 멀티스텝 행동을 가이드하고 정책을 업데이트하는 순환 구조를 나타낸다.
HiExp 프레임워크의 오프라인 계층적 경험 구축 과정과 온라인 경험 가이드 정책 최적화 구조를 보여주는 다이어그램이다.
주요 결과
Qwen2.5-7B 모델을 기반으로 한 실험에서 HiExp-Searcher는 HotpotQA, 2Wiki, Musique, Bamboogle 등 4개 멀티홉 벤치마크 평균에서 기존 RL 기반 모델 대비 9.7% 높은 성능을 기록했다. 특히 학습되지 않은 외부 도메인 데이터셋에서도 높은 성능을 유지하며 강력한 일반화 능력을 보였다.
수학적 추론 벤치마크인 MATH-500과 AIME 등에서도 기본 GRPO 대비 평균 17.4%의 성능 향상을 달성했다. 이는 제안된 계층적 경험이 단순한 검색 보조를 넘어 모델의 근본적인 논리적 추론 능력을 강화하는 데 기여했음을 시사한다.
학습 안정성 분석 결과, HiExp를 적용했을 때 보상 신호의 분산이 크게 감소하고 유효 보상이 더 빠르게 상승하는 것이 확인되었다. 이는 계층적 지침이 무작위 탐색에서 발생하는 노이즈를 억제하고 모델이 고가치 추론 경로를 안정적으로 학습하도록 돕는다는 것을 입증한다.
기술 상세
HiExp는 오프라인에서 경험을 구축하고 온라인에서 정책을 최적화하는 반결합(Semi-decoupled) 구조를 채택한다. 경험 구축 시 LLM의 자기 성찰(Self-reflection) 능력을 활용하여 궤적 내의 'Key Decision Points'와 'Reasoning Traps'를 명시적으로 기술하도록 유도한다.
수학적으로는 GRPO의 목적 함수에 계층적 경험 지식 베이스(HEK)를 조건부 인자로 추가하여 J(θ)를 정의한다. Advantage Function 계산 시 계층적 경험에 의해 가이드된 궤적들이 사용되므로, 기존의 Prior-free 탐색보다 훨씬 높은 품질의 그래디언트 업데이트가 가능해진다.
구현 측면에서는 대조 증류 단계에서 Qwen-7B/72B/Max 등 다양한 크기의 모델을 교사 모델로 활용할 수 있으며, 실험 결과 자기 증류(Self-distillation)가 타 모델로부터의 증류보다 모델의 능력 경계와 더 잘 정렬되어 약 1.2% 더 높은 성능을 보였다.
한계점
현재 프레임워크는 경험 구축과 정책 최적화가 분리된 정적(Static) 방식이다. 이로 인해 학습이 진행됨에 따라 모델의 능력이 진화하더라도 초기 모델에서 추출된 지침이 고정되어 있어, 모델의 발전된 능력과 지침 사이의 동기화가 어긋날 수 있는 한계가 있다.
실무 활용
복잡한 정보 검색이 필요한 AI 에이전트 시스템의 성능과 학습 효율을 획기적으로 개선할 수 있는 기술이다. 특히 소규모 언어 모델(SLM)도 대형 모델에 필적하는 검색 전략을 갖추도록 학습시킬 수 있다.
- 멀티홉 질문 답변이 필요한 전문 지식 검색 서비스
- 복잡한 단계의 웹 브라우징 및 정보 수집 에이전트
- 수학적 추론 및 논리적 단계가 중요한 문제 해결 도구
- 제한된 컴퓨팅 자원에서 고성능 검색 에이전트를 학습시켜야 하는 MLOps 환경
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.