핵심 요약
검색의 마지막 결과만 채점하지 않고 매 검색 단계마다 정보 이득과 중복도를 평가해 보상을 주면, LLM은 훨씬 더 적은 단계로도 정확한 정보를 찾아내는 영리한 검색 전략을 스스로 학습합니다.
배경
기존 Agentic RAG 학습 방식은 최종 답변의 정답 여부(Global Signal)로만 보상을 주었기 때문에, 중간 검색 과정에서 어떤 쿼리가 효율적이었는지 모델이 학습하기 어려운 한계가 있었습니다.
대상 독자
LLM 에이전트 설계자, RAG 성능 최적화 연구자, 강화학습 적용 개발자
의미 / 영향
이 연구는 RAG 에이전트가 단순히 정보를 나열하는 수준을 넘어, 스스로 검색의 가치를 판단하고 최적의 경로를 설계할 수 있는 구체적인 강화학습 프레임워크를 제시합니다. 실무적으로는 검색 API 호출 비용을 최적화하면서도 복잡한 질의에 대한 답변 정확도를 높여야 하는 기업용 AI 에이전트 개발에 즉시 적용 가능한 설계 패턴을 제공합니다.
챕터별 상세
Agentic RAG의 한계와 StepSearch의 등장 배경
강화학습과 RAG의 결합: 배경지식
기존 학습 방법론의 문제점: SFT와 일반 RL
StePPO의 핵심: 단계별 보상 설계
학습 데이터 구축 및 필터링 파이프라인
StePPO 학습 알고리즘 및 목적 함수
실험 결과 및 성능 분석
J_StePPO(theta) = E[sum_{t=1 to T} (I(o_t) / sum I(o_t)) * min(r_t(theta) * A_t, clip(r_t(theta), 1-epsilon, 1+epsilon) * A_t)]LLM이 직접 생성한 토큰에 대해서만 가중치를 두어 학습하는 StePPO의 목적 함수 수식
강화학습 알고리즘 비교 및 안정성 검증
r_step^t = G^t - P^t
G^t = sum_{i=1 to n} [max(c_i^t - m_i^t, 0)]
P^t = (1/k) * sum_{j=1 to k} I(d_j^t in H_{t-1})정보 획득량(G)에서 중복 페널티(P)를 차감하여 계산하는 단계별 보상(r_step) 로직
실무 Takeaway
- Agentic RAG 시스템에서 최종 정답뿐만 아니라 중간 검색 단계의 정보 획득량(Information Gain)을 보상으로 주어야 모델이 효율적인 검색 전략을 학습한다.
- 중복 검색에 대한 페널티(Redundancy Penalty)를 부여함으로써 검색 비용을 절감하고 불필요한 정보로 인한 할루시네이션 발생 가능성을 낮출 수 있다.
- 외부 검색 결과 토큰을 학습 그라디언트에서 제외(Masking)하는 기법은 모델이 자신의 행동과 외부 정보를 명확히 구분하게 하여 학습의 정확도를 높인다.
- 단계별 감독(Step-wise supervision)은 특히 3B, 7B 규모의 소형 모델에서 검색 및 추론 능력을 비약적으로 향상시키는 데 효과적이다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.