핵심 요약
기존의 게임 기반 셀프 플레이 학습은 특정 게임 규칙에만 종속된 편법을 배우는 한계가 있었다. STRATAGEM은 추론의 추상성과 진화 과정을 측정하여 게임을 넘어 수학이나 코딩 같은 일반적인 문제 해결 능력으로 전이될 수 있는 핵심 논리 구조를 강화한다.
왜 중요한가
기존의 게임 기반 셀프 플레이 학습은 특정 게임 규칙에만 종속된 편법을 배우는 한계가 있었다. STRATAGEM은 추론의 추상성과 진화 과정을 측정하여 게임을 넘어 수학이나 코딩 같은 일반적인 문제 해결 능력으로 전이될 수 있는 핵심 논리 구조를 강화한다.
핵심 기여
추론 전이 가능성 계수(RTC) 도입
추론 패턴의 추상화 수준을 측정하여 게임 전용 휴리스틱과 도메인 불가지론적 추론을 구분하고, 범용적인 논리 구조를 가진 궤적을 선택적으로 강화한다.
추론 진화 보상(RER) 설계
정적인 게임 환경에서도 추론이 단계적으로 심화되고 적응하는지 평가하여, 복잡한 다단계 문제를 해결하는 데 필요한 점진적 사고 능력을 배양한다.
수학 및 코딩 벤치마크 성능 대폭 향상
Qwen3-4B 모델 기준, AIME24 벤치마크에서 성능을 10%에서 20%로 두 배 향상시켰으며, HumanEval 코딩 테스트에서도 기존 대비 10%p 이상의 개선을 달성했다.
핵심 아이디어 이해하기
기존의 셀프 플레이 방식은 최종 승패(Terminal Reward)에만 의존하여 학습한다. 이는 모델이 '체스에서 퀸이 킹보다 강하다'와 같은 특정 게임 내 규칙은 잘 배우게 하지만, '경우의 수를 나누어 기댓값을 계산한다'와 같은 범용적인 논리적 사고를 익히게 하지는 못한다. 결과적으로 게임에서 얻은 지식이 수학이나 코딩 문제 해결로 이어지지 않는 도메인 특수성 문제가 발생한다.
STRATAGEM은 이를 해결하기 위해 궤적 변조(Trajectory Modulation) 개념을 도입한다. 모델이 생성한 사고 과정(Reasoning Trace)이 얼마나 추상적인지, 그리고 턴이 지날수록 사고가 깊어지는지를 수치화한다. 예를 들어, 단순 반복적인 관찰보다 이전 단계의 결론을 바탕으로 새로운 가설을 세우는 과정을 더 높게 평가하여 가중치를 부여한다.
이러한 방식은 모델이 게임이라는 샌드박스 안에서 승리 전략을 짜는 동시에, 그 전략을 구성하는 '논리적 뼈대'를 학습하게 만든다. 이를 통해 게임 환경에서 훈련받은 모델이 한 번도 본 적 없는 고난도 수학 경시 대회 문제에서도 체계적인 단계별 추론을 수행할 수 있게 된다.
방법론
STRATAGEM은 기존 SPIRAL 프레임워크를 확장하여 궤적의 이득(Advantage)을 변조하는 공식을 사용한다. 수정된 이득 함수 A_mod(τ) = A_game(τ) · φ(τ) + β · ψ(τ)로 정의된다. 여기서 A_game은 게임 결과에 따른 기본 이득이며, φ(τ)는 추론 전이 가능성 계수(RTC), ψ(τ)는 추론 진화 보상(RER)이다.
RTC(φ)는 추론의 추상화 수준(α), 구조적 명확성(σ), 원리 지향성(ρ)의 가중합으로 계산된다. [0, 0.5, 1]의 이산적 점수를 입력으로 하여 0.35α + 0.35σ + 0.30ρ 연산을 수행해 0에서 1 사이의 값을 얻고, 이 값이 높을수록 범용적 추론으로 판단하여 게임 보상을 온전히 보존하거나 증폭시킨다.
RER(ψ)는 사고의 심화(d), 전략적 적응(a), 논리적 일관성(c)을 평가한다. [-1, 0, 1]의 점수를 입력으로 0.35d + 0.25a + 0.40c 연산을 수행해 -1에서 1 사이의 값을 얻는다. 이 값이 양수이면 사고가 진보했음을 의미하여 추가 보상을 주고, 음수이면 사고가 퇴보하거나 정체되었음을 의미하여 벌점을 부여한다.
학습 과정에서는 Qwen3-4B-Base 모델을 정책 네트워크로 사용하고, GPT-4를 평가자로 활용하여 각 궤적의 φ와 ψ를 측정한다. 계산 효율성을 위해 전체 궤적 중 일부만 샘플링하여 상세 평가를 진행하고 나머지는 배치 평균값을 할당하는 방식을 취한다.
주요 결과
수학적 추론 벤치마크에서 압도적인 성능 향상을 보였다. MATH500에서 76%를 기록하며 SPIRAL 대비 5%p 상승했으며, 특히 고난도 수학 문제인 AIME24에서는 10%에서 20%로, AIME25에서는 3.3%에서 13.3%로 성능이 급증했다. AMC-23 벤치마크에서도 60%의 정확도를 달성하여 베이스라인(50%)을 크게 상회했다.
일반 추론 및 코딩 영역에서도 효과가 입증되었다. GPQA에서 38.23%, MMLU-Pro에서 57.83%를 기록했으며, HumanEval 코딩 벤치마크에서는 77.93%를 달성해 베이스라인 대비 10%p의 개선을 보였다. 이는 게임을 통한 학습이 논리적 구조가 유사한 프로그래밍 작업으로 성공적으로 전이되었음을 시사한다.
Ablation Study 결과, 추론 진화 보상(ψ)을 제거했을 때 AIME24 성능이 6.7%p 하락하는 등 다단계 추론이 필요한 과제에서 ψ의 역할이 결정적임이 확인되었다. 또한 훈련되지 않은 새로운 게임(Snake, Pig Dice 등)에 대한 제로샷 승률도 SPIRAL 대비 약 20%p 높게 나타나 범용적 전략 학습 효과를 증명했다.
관련 Figure

STRATAGEM이 베이스라인 및 SPIRAL 모델보다 추론 추상화(Abstraction)와 진행(Progression) 점수 모두에서 유의미하게 높은 점수를 받았음을 보여준다. 특히 ψ 보상을 제거했을 때 진행 점수가 크게 하락하는 것을 통해 각 구성 요소의 기여도를 확인할 수 있다.
모델의 추론 추상화와 진행 과정에 대한 인간 평가 결과 그래프
기술 상세
STRATAGEM은 턴 단위 마르코프 결정 과정(Turn-Level MDP)을 기반으로 설계되었다. 토큰 단위 최적화의 한계인 신용 할당(Credit Assignment) 문제를 해결하기 위해 모델의 전체 응답을 하나의 액션으로 간주한다. 정책 π_θ는 상태 s_t에서 추론 ct와 실행 가능한 액션 at를 포함하는 응답 yt를 생성한다.
핵심 차별점은 보상 신호의 다각화이다. 기존 SPIRAL이 결과 중심의 Sparse Reward에 의존했다면, STRATAGEM은 RTC와 RER을 통해 궤적 내부의 질적 특성을 반영하는 Dense Reward 효과를 준다. 특히 RTC는 게임 고유의 용어(예: 'King', 'Queen') 대신 추상적 개념(예: 'Expected Value', 'Probability')을 사용하는지 감시하여 도메인 고착화를 방지한다.
학습 안정성을 위해 RER(ψ)은 0을 중심으로 정규화되어 설계되었다. 이는 정책 경사(Policy Gradient) 추정치의 분산을 줄이는 동시에, 추론 품질이 저하되는 궤적에 대해 명확한 음의 피드백을 제공하는 역할을 한다. 실험 결과 β=0.20 설정에서 가장 안정적인 성능 향상을 보였으며, 이는 게임 보상과 추론 진화 보상 사이의 최적의 균형점임을 시사한다.
관련 Figure

학습이 진행됨에 따라 φ와 ψ 값이 모두 꾸준히 상승하는 것을 보여준다. 이는 모델이 초기에는 게임 전용 패턴에 의존하다가 점차 추상적이고 단계적인 추론 체계를 스스로 구축해 나감을 증명한다.
학습 단계에 따른 전이 가능성 계수(φ)와 진화 보상(ψ)의 변화 추이
한계점
현재 RTC와 RER 계산을 위해 외부 API인 GPT-4에 의존하고 있어 학습 비용과 외부 종속성 문제가 존재한다. 또한 텍스트 기반의 비교적 단순한 제로섬 게임 3종에 대해서만 실험이 진행되었으므로, 더 복잡한 멀티 에이전트 시나리오나 방대한 상태 공간을 가진 게임으로의 확장성이 추가로 검증되어야 한다.
실무 활용
데이터셋 구축 비용 없이 게임 환경만으로 LLM의 논리적 추론 능력을 강화할 수 있는 실용적인 프레임워크이다.
- 합성 데이터 생성 시 논리적 일관성이 높은 추론 경로 선별 및 강화
- 수학, 코딩 등 단계별 사고가 필요한 도메인의 모델 파인튜닝
- 복잡한 다중 에이전트 협상 및 전략 수립 시스템 개발
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.