왜 중요한가
LLM이 수십 번의 도구 호출을 거쳐 복잡한 계획을 세우는 능력은 단순 추론보다 훨씬 어렵다. 이 논문은 보상 설계와 데이터 구성의 최적 조합을 찾아내어, 작은 모델로도 최상위 상용 AI를 능가하는 에이전트를 만드는 구체적인 가이드를 제공한다.
핵심 기여
STAR 파이프라인 구축
데이터 합성, 지도 미세 조정(SFT), 강화학습(RL)을 통합하여 장기 계획 능력을 체계적으로 주입하는 통합 포스트 트레이닝 워크플로우를 구축했다.
RL 설계 공간의 5대 핵심 축 분석
보상 설계, 모델 스케일링, 데이터 구성, 알고리즘 선택, 환경 안정성이라는 5가지 요소를 독립적으로 실험하여 최적의 학습 전략을 도출했다.
모델 규모별 차별화된 전략 제시
작은 모델은 단계별 커리큘럼 보상이 필수적인 반면, 큰 모델은 단순한 밀집 보상과 표준 GRPO만으로도 효율적으로 수렴함을 입증했다.
데이터 효율성 임계점 발견
약 1,000개의 균형 잡힌 난이도 샘플이 도메인 내 성능과 외부 일반화 성능 사이의 최적의 균형점임을 확인했다.
핵심 아이디어 이해하기
기존 LLM 에이전트는 단일 단계 추론에는 강하지만, 수십 번의 도구 호출이 필요한 장기 계획(Long-horizon planning)에서는 길을 잃기 쉽다. 이는 보상이 마지막에만 주어지는 희소성 문제와, 복잡한 제약 조건을 동시에 만족시켜야 하는 탐색 공간의 방대함 때문이다.
본 논문은 STAR 파이프라인을 통해 이 문제를 해결한다. 먼저 교사 모델로부터 고품질 경로를 추출해 기초 지식을 쌓고(SFT), 이후 환경 피드백을 통해 스스로 탐색하며 정책을 최적화한다(RL). 특히 보상 함수를 '전체 성공'뿐만 아니라 '부분 제약 만족' 점수를 합산한 밀집 보상(Dense Reward) 형태로 설계하여 에이전트가 올바른 방향으로 학습하도록 유도한다.
결과적으로 1.5B~7B 규모의 상대적으로 작은 모델들이 TravelPlanner 벤치마크에서 GPT-4o나 Gemini 등 거대 상용 모델을 압도하는 성능을 보여주었다. 이는 모델 크기보다 도메인 특화된 RL 학습 레시피가 에이전트의 실행력 향상에 더 결정적일 수 있음을 시사한다.
방법론
STAR(Synthesis, Training, And Reinforcement) 파이프라인은 세 단계로 구성된다. 첫째, 원자적 요소를 조합해 난이도가 조절된 10K개 이상의 쿼리를 합성한다. 둘째, 강력한 교사 모델(DeepSeek-V3.2-Exp)을 이용해 성공적인 경로만 필터링하여 SFT를 수행한다. 셋째, GRPO 알고리즘을 기반으로 환경 피드백을 받아 정책을 고도화한다.
보상 설계는 SUM(모든 지표 합산), MACRO(거시적 제약 만족), SUCCESS(최종 성공 여부), CURRICULUM(SUM에서 SUCCESS로 전환)의 네 가지 방식을 비교했다. SUM 보상은 각 하위 지표 점수를 입력으로 [단순 합산 연산을 수행해] -> [하나의 스칼라 보상 값을 얻고] -> [이 값이 높을수록 에이전트가 더 많은 제약 조건을 만족했음을 의미한다].
최적화 알고리즘으로는 GRPO(Group Relative Policy Optimization)를 사용한다. 동일 쿼리에 대해 G개의 경로를 샘플링하고 [각 경로의 보상 값을 입력으로] -> [그룹 내 평균과의 차이를 계산해 어드밴티지를 구하고] -> [이 어드밴티지를 최대화하는 방향으로 가중치를 갱신한다]. 이는 별도의 가치 함수 네트워크 없이도 안정적인 강화학습을 가능하게 한다.
주요 결과
TravelPlanner 테스트 세트에서 STAR로 학습된 7B 모델은 62.8%의 성공률을 기록하여, SFT 버전(19.7%) 대비 비약적인 향상을 보였다. 이는 GPT-4o(21.2%)나 Kimi-K2.5(12.9%) 등 최신 상용 모델의 성능을 크게 상회하는 수치다.
모델 크기에 따른 분석 결과, 1.5B와 3B 모델은 단계별로 보상 난이도를 높이는 CURRICULUM 방식에서 가장 높은 성능을 냈으나, 7B 모델은 단순한 밀집 보상(SUM)만으로도 충분히 학습이 가능했다. 이는 모델의 기초 체력이 좋을수록 복잡한 학습 전략의 필요성이 줄어듦을 보여준다.
데이터 구성 실험에서는 1,000개의 학습 샘플을 넘어서면 도메인 내 성능 향상은 미미해지는 반면, 외부 지식 QA 벤치마크에서의 일반화 성능(OOD)은 오히려 하락하는 '정렬 세금(Alignment Tax)' 현상이 관찰되었다. 또한, 쉬운 문제와 어려운 문제를 4:3:3 비율로 섞었을 때 가장 안정적인 학습이 이루어졌다.
실무 활용
복잡한 API 호출이나 도구 사용이 필요한 기업용 AI 에이전트 구축 시, 거대 모델을 사용하는 대신 작은 오픈소스 모델을 RL로 최적화하여 비용 효율적인 고성능 시스템을 만들 수 있다.
- 여행 및 일정 예약 자동화 시스템
- 다단계 데이터 분석 및 보고서 작성 에이전트
- 복잡한 제약 조건을 가진 물류 및 자원 배분 최적화 도구
- 소프트웨어 엔지니어링 자동화 에이전트
기술 상세
STAR 프레임워크는 ReAct 패러다임을 기반으로 사고(Think), 행동(Act), 관찰(Observe)의 루프를 반복한다. 최종 결과물인 비정형 텍스트 일정을 구조화된 JSON으로 변환하기 위해 별도의 포맷팅 모델을 사용하여 평가의 객관성을 확보했다.
RL 단계에서 사용된 GRPO는 KL-Penalty를 제거하고 Clipping 범위를 조절한 변형 버전을 채택했다. 특히 텍스트 길이가 너무 길어지는 현상을 방지하기 위해 최대 토큰 제한을 넘는 경로는 손실 계산에서 제외하되 어드밴티지 정규화에는 포함시켜 통계적 안정성을 유지했다.
환경 안정성 실험을 통해 도구 실행 시 무작위 오류를 주입했을 때의 영향을 분석했다. 5% 이내의 오류율에서는 에이전트가 복구 능력을 학습하며 견고해졌으나, 10% 이상의 높은 불안정성 환경에서는 정책이 급격히 퇴화하는 현상이 발견되었다.
알고리즘 비교 연구에서는 ARPO(Adaptive Rollout)와 DAPO(Reward-guided filtering)가 작은 모델(1.5B)에서 GRPO보다 우수한 탐색 효율을 보였으나, 7B 모델에서는 표준 GRPO가 연산 효율과 성능 면에서 모두 우수했다. 이는 모델 자체의 탐색 능력이 알고리즘의 복잡성을 대체할 수 있음을 시사한다.
한계점
TravelPlanner라는 시뮬레이션 환경에 국한되어 실제 세계의 예측 불가능한 역동성을 완전히 반영하지 못할 수 있다. 또한 OOD 평가는 지식 집약적 QA에 집중되어 있어 다른 도메인으로의 교차 도메인 견고성은 추가 검증이 필요하다. 7B 이상의 거대 모델에 대한 스케일링 법칙은 계산 자원 한계로 실험되지 않았다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.