StepSearch: 단계별 근사 정책 최적화(StePPO)를 통한 LLM 검색 능력 강화 | AI Trends

서울대학교 DSBA 연구실Research

StepSearch: 단계별 근사 정책 최적화(StePPO)를 통한 LLM 검색 능력 강화

Agentic RAG 환경에서 LLM이 효율적인 검색 전략을 학습할 수 있도록 각 단계별 정보 획득량과 중복성을 평가하여 보상을 주는 StePPO 방법론을 제안합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

검색의 마지막 결과만 채점하지 않고 매 검색 단계마다 정보 이득과 중복도를 평가해 보상을 주면, LLM은 훨씬 더 적은 단계로도 정확한 정보를 찾아내는 영리한 검색 전략을 스스로 학습합니다.

배경

기존 Agentic RAG 학습 방식은 최종 답변의 정답 여부(Global Signal)로만 보상을 주었기 때문에, 중간 검색 과정에서 어떤 쿼리가 효율적이었는지 모델이 학습하기 어려운 한계가 있었습니다.

대상 독자

LLM 에이전트 설계자, RAG 성능 최적화 연구자, 강화학습 적용 개발자

의미 / 영향

이 연구는 RAG 에이전트가 단순히 정보를 나열하는 수준을 넘어, 스스로 검색의 가치를 판단하고 최적의 경로를 설계할 수 있는 구체적인 강화학습 프레임워크를 제시합니다. 실무적으로는 검색 API 호출 비용을 최적화하면서도 복잡한 질의에 대한 답변 정확도를 높여야 하는 기업용 AI 에이전트 개발에 즉시 적용 가능한 설계 패턴을 제공합니다.

챕터별 상세

00:00

Agentic RAG의 한계와 StepSearch의 등장 배경

기존 Agentic RAG는 최종 답변이 맞았을 때만 보상을 주는 Global Signal 방식에 의존했다. 이 방식은 복잡한 다단계 검색(Multi-hop) 상황에서 중간의 잘못된 검색 과정을 식별하지 못해 성능 저하를 야기한다. StepSearch는 이를 해결하기 위해 각 검색 단계마다 보상을 부여하는 Step-wise PPO(StePPO)를 도입했다. 결과적으로 모델은 끝에서만 채점받는 것이 아니라 매 검색마다 제대로 가르침을 받게 된다.

01:24

강화학습과 RAG의 결합: 배경지식

LLM은 언어 생성 능력이 뛰어나지만 내부 파라미터에 없는 지식은 알 수 없는 한계가 있다. 이를 보완하기 위해 외부 문서를 검색하여 통합하는 RAG가 도입되었고, 최근에는 모델이 스스로 검색 도구를 호출하는 Agentic RAG로 발전했다. 여기에 PPO나 GRPO 같은 강화학습 알고리즘을 결합하여 모델의 추론 및 검색 능력을 강화하려는 시도가 활발하다. 특히 DeepSeek-R1이나 o3 같은 모델들이 이러한 강화학습을 통해 성능을 끌어올린 사례가 있다.

02:58

기존 학습 방법론의 문제점: SFT와 일반 RL

기존의 지도 학습(SFT) 방식은 전문가가 만든 고품질의 검색 경로 데이터가 필요하며 구축 비용이 매우 높다. 또한 고정된 패턴에 과적합되어 새로운 유형의 질문(OOD)에 취약한 문제가 발생한다. 반면 일반적인 강화학습(RL)은 모델이 자율적으로 탐색하게 하지만, 최종 답변의 정확도만 보상으로 주어 중간 단계에 대한 명시적인 가이드가 부족하다. 이로 인해 모델은 우연히 답을 맞힌 비효율적인 검색 경로를 학습할 위험이 있다.

06:25

StePPO의 핵심: 단계별 보상 설계

StePPO는 각 검색 단계마다 두 가지 핵심 지표로 보상을 계산한다. 첫째는 정보 획득량(Information Gain)으로, 현재 검색된 문서가 정답 문서와 얼마나 유사하며 이전 단계보다 얼마나 새로운 정보를 가져왔는지를 측정한다. 둘째는 중복 페널티(Redundancy Penalty)로, 이미 검색했던 정보를 반복해서 가져올 경우 음의 보상을 주어 검색 비용 낭비를 방지한다. 이 두 요소의 조합을 통해 모델은 최소한의 검색으로 정답에 도달하는 최적의 경로를 학습한다.

07:18

학습 데이터 구축 및 필터링 파이프라인

MuSiQue 데이터셋을 기반으로 복잡한 질문을 하위 질문(Sub-question) 단위로 분해하여 학습 데이터를 구성했다. GPT-4o를 활용하여 하나의 질문에 대해 다양한 검색 쿼리와 경로(Trajectory)를 생성함으로써 데이터의 다양성을 확보했다. 생성된 쿼리들은 구글, 빙, 위키피디아 검색 엔진을 통해 실제로 실행되었으며, 검색 결과 중 절반 이상이 유효한 경우만 최종 학습 데이터로 채택했다. 이를 통해 단순히 텍스트만 있는 데이터가 아니라 실제 검색 엔진에서 검증된 고품질 경로 데이터를 확보했다.

08:24

StePPO 학습 알고리즘 및 목적 함수

학습 시 가장 중요한 기법은 외부 검색 결과인 'Information' 토큰에 대해 그라디언트를 계산하지 않고 마스킹(Mask out)하는 것이다. 이는 모델이 스스로 생성하지 않은 외부 텍스트까지 학습하여 혼란을 겪는 것을 방지하기 위함이다. 목적 함수는 기존 PPO를 확장하여 모델이 직접 생성한 토큰(Think, Search, Answer)에 대해서만 가중치를 두어 업데이트한다. Advantage 계산 시에도 단계별 보상을 반영하여 각 검색 행동이 최종 성공에 기여한 정도를 정밀하게 평가한다.

16:30

실험 결과 및 성능 분석

HotpotQA, MuSiQue 등 주요 벤치마크에서 StepSearch는 기존의 Search-RL 기반 방법론들을 압도하는 성능을 보였다. 특히 학습에 사용되지 않은 데이터셋(OOD)에서도 일관되게 높은 정확도를 유지하며 강력한 로버스트성을 입증했다. 모델 크기별 분석에서는 3B, 7B와 같은 소형 모델에서 성능 향상 폭이 특히 컸는데, 이는 단계별 감독이 모델의 기초적인 검색 전략 형성에 큰 도움을 주기 때문이다. 또한 적은 양의 데이터로도 높은 성능에 도달하여 데이터 효율성 측면에서도 강점을 보였다.

text

J_StePPO(theta) = E[sum_{t=1 to T} (I(o_t) / sum I(o_t)) * min(r_t(theta) * A_t, clip(r_t(theta), 1-epsilon, 1+epsilon) * A_t)]

LLM이 직접 생성한 토큰에 대해서만 가중치를 두어 학습하는 StePPO의 목적 함수 수식

17:14

강화학습 알고리즘 비교 및 안정성 검증

StePPO를 일반 PPO 및 GRPO와 비교했을 때, 학습 과정의 안정성과 결과물의 품질 모두에서 우위를 점했다. GRPO는 학습 중 보상이 급격히 하락하는 Reward Collapse 현상이 발생했으나, StePPO는 단계별 감독 덕분에 안정적으로 성능이 우상향했다. 또한 StePPO로 학습된 모델은 응답 길이가 과도하게 길어지지 않으면서도 정확도는 높았다. 이는 모델이 단순히 토큰을 많이 생성해서 답을 맞히는 것이 아니라, 핵심적인 검색과 추론에 집중하고 있음을 의미한다.

text

r_step^t = G^t - P^t
G^t = sum_{i=1 to n} [max(c_i^t - m_i^t, 0)]
P^t = (1/k) * sum_{j=1 to k} I(d_j^t in H_{t-1})

정보 획득량(G)에서 중복 페널티(P)를 차감하여 계산하는 단계별 보상(r_step) 로직

실무 Takeaway

Agentic RAG 시스템에서 최종 정답뿐만 아니라 중간 검색 단계의 정보 획득량(Information Gain)을 보상으로 주어야 모델이 효율적인 검색 전략을 학습한다.
중복 검색에 대한 페널티(Redundancy Penalty)를 부여함으로써 검색 비용을 절감하고 불필요한 정보로 인한 할루시네이션 발생 가능성을 낮출 수 있다.
외부 검색 결과 토큰을 학습 그라디언트에서 제외(Masking)하는 기법은 모델이 자신의 행동과 외부 정보를 명확히 구분하게 하여 학습의 정확도를 높인다.
단계별 감독(Step-wise supervision)은 특히 3B, 7B 규모의 소형 모델에서 검색 및 추론 능력을 비약적으로 향상시키는 데 효과적이다.

언급된 리소스

논문StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization

문서MuSiQue Dataset

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 03. 31.수집 2026. 04. 01.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.