ARISE: 계층적 강화 학습에서의 내재적 기술 진화를 통한 에이전트 추론

기존의 수학 추론 강화 학습은 각 문제를 개별적으로 처리하여 성공적인 해결 전략을 재사용하지 못하는 한계가 있었다. ARISE는 에이전트가 학습 과정에서 유용한 기술을 스스로 요약하고 저장소에 축적하며, 이를 다시 문제 해결에 활용하는 선순환 구조를 구축했다. 이를 통해 특히 학습 데이터에 없는 새로운 유형의 수학 문제(OOD)에서 탁월한 일반화 성능을 보여주었다.

핵심 요약

왜 중요한가

핵심 기여

Evolving-Skill MDP (ES-MDP) 프레임워크 제안

기술 라이브러리를 에이전트 상태의 내생적 구성 요소로 모델링하여, 정책 최적화와 라이브러리 관리를 단일 강화 학습 목적 함수 하에서 동시에 최적화하는 이론적 틀을 마련했다.

정책 주도형 기술 선택 메커니즘 도입

외부 검색기(Retriever)에 의존하는 대신, 공유 정책의 조건부 로그 확률(Log-probability)을 사용하여 기술을 선택함으로써 정책 경사가 기술 선택 선호도에 직접 영향을 미치도록 설계했다.

계층적 보상 설계 및 2단계 학습 전략

기술 활용 여부와 정답 여부를 조합한 계층적 보상($r_0, r_1, r_2$)을 설계하고, 초기 정책 구축 후 기술 증강 학습으로 전환하는 2단계 프로세스를 통해 기술 진화와 추론 능력의 동시 향상을 유도했다.

핵심 아이디어 이해하기

GRPO와 같은 기존 강화 학습은 정답을 맞힌 경로를 강화하지만, 그 과정에서 발견된 유용한 전략을 명시적으로 저장하지 않는다. 이는 Attention 메커니즘이 매번 입력 쿼리에만 집중하고 과거의 성공적인 추론 패턴을 Embedding 공간에만 내재화하려 하기 때문에, 복잡한 문제에서 재사용 가능한 '기술'을 명확히 정의하고 활용하는 데 한계가 있다. ARISE는 이를 해결하기 위해 에이전트 내부에 '기술 라이브러리'를 구축하고, 단일 정책이 관리자와 작업자 역할을 동시에 수행하게 한다. 관리자는 Softmax 연산을 통해 현재 문제와 가장 연관성이 높은 기술을 선택하고, 작업자는 이 기술을 프롬프트에 주입받아 정답을 생성한다. 이 과정에서 기술 선택과 정답 생성이 동일한 파라미터를 공유하므로, 최종 보상이 역전파될 때 기술 선택의 적절성까지 함께 최적화되는 구조를 가진다. 또한, 성공적인 풀이들을 요약하여 새로운 기술로 등록하는 과정을 통해 라이브러리가 스스로 진화한다. 이는 모델이 학습 데이터에 없는 생소한 문제를 만났을 때도 라이브러리에 축적된 고차원적인 수학적 전략을 인출하여 적용할 수 있게 함으로써, 단순한 패턴 매칭을 넘어선 진정한 추론 능력을 배양한다.

방법론

ARISE는 Manager-Worker 계층 구조를 단일 정책 $\pi_\theta$ 로 구현한다. 관리자는 기술 선택( $\pi_\theta^{mgr}$ )과 기술 생성( $\pi_\theta^{lib}$ )을, 작업자는 솔루션 생성( $\pi_\theta^{wkr}$ )을 담당한다. 전체 시스템은 기술을 불러오는 Download 채널과 새로운 기술을 등록하는 Upload 채널을 통해 라이브러리와 상호작용한다. 기술 선택 시, 정책은 각 후보 기술 $m_k$ 에 대해 쿼리 $q_t$ 와의 연관성 점수 $s_k = \sum \log \pi_\theta(m_k^{(l)} | q_t, m_k^{(<l)})$ 를 계산한다. [쿼리와 기술 텍스트를 입력으로] → [조건부 로그 확률의 합을 연산하여] → [연관성 점수 $s_k$ 를 얻고] → [이 값이 높을수록 해당 기술이 현재 문제 해결에 문맥적으로 적합함을 의미한다]. 이후 $\epsilon$ -greedy 전략을 통해 최종 기술을 선택하거나 기술 없이 풀이할지를 결정한다. 보상 시스템은 $R \in \{0, 1, 2\}$ 의 계층적 구조를 가진다. 오답은 0, 기술 없이 정답은 1, 기술을 활용해 정답을 맞히면 2의 보상을 부여한다. [정답 여부와 기술 사용 여부를 입력으로] → [조건부 가산 연산을 수행해] → [최종 보상 $R$ 을 산출하며] → [이 차등 보상은 GRPO의 이득 계산 시 기술을 활용한 성공 사례에 더 높은 가중치를 부여하여 기술 활용을 장려한다]. 기술 라이브러리는 Cache와 Reservoir의 2단계 구조로 운영된다. 매 단계마다 선택된 기술의 유용성을 $u_{z_t} \leftarrow \beta u_{z_t} + (1-\beta) R_t$ 식을 통해 업데이트한다. [이전 유용성과 현재 보상을 입력으로] → [가중치 $\beta$ 를 이용한 선형 결합을 수행해] → [새로운 유용성 점수를 얻고] → [이 점수를 기준으로 기술의 유지, 퇴출, 승격을 결정하여 라이브러리의 품질을 유지한다].

주요 결과

Qwen3-4B 모델 기반 실험에서 ARISE는 Omni-MATH 벤치마크 평균 정확도를 GRPO 대비 2.9%p 향상시킨 26.8%를 기록했다. 특히 Algebra(37.0%)와 Number Theory(27.2%) 도메인에서 큰 폭의 개선이 확인되었으며, 이는 진화하는 기술 라이브러리가 도메인 특화 추론 패턴을 효과적으로 축적했음을 보여준다. AIME 24와 AIME 25 벤치마크에서도 각각 56.4%와 48.3%의 Pass@1 정확도를 달성하여, 기존 GRPO(54.1%, 46.5%) 및 메모리 증강 기법인 EvolveR(54.8%, 46.3%)을 모두 능가했다. Phi-4-mini 모델에서도 동일하게 모든 벤치마크에서 최고 성능을 기록하며 프레임워크의 범용성을 입증했다. Ablation Study를 통해 계층적 보상의 중요성이 확인됐다. 이진 보상(Binary reward)으로 변경 시 AIME 24 정확도가 56.4%에서 54.7%로 하락했으며, 기술 활용률도 73%에서 31%로 급감했다. 이는 차등 보상이 기술 채택의 핵심 동인임을 시사한다. 토큰 효율성 분석 결과, ARISE는 기술 주입으로 인해 평균 66개의 프롬프트 토큰 오버헤드(약 3.0%)만을 발생시켰다. 이는 7.9%의 오버헤드를 기록하면서도 성능 향상 폭은 적었던 EvolveR 대비 월등히 높은 효율성을 보여주며, 정확도와 비용 간의 최적의 트레이드오프를 달성했다.

실무 활용

수학적 추론이나 복잡한 논리적 단계가 필요한 도메인에서 LLM의 성능을 지속적으로 개선하는 데 활용될 수 있다. 특히 외부 지식 베이스에 의존하지 않고 모델이 스스로 학습 과정에서 최적의 전략을 추출하고 관리한다는 점에서 자율적인 에이전트 시스템 구축에 적합하다.

전문 수학/과학 문제 풀이 서비스의 추론 정확도 향상
복잡한 코딩 작업에서 반복되는 설계 패턴이나 알고리즘 기술 축적 및 재사용
특정 도메인(법률, 의료 등)의 논리 구조를 스스로 학습하는 전문 에이전트 훈련
데이터가 부족한 새로운 도메인으로의 지식 전이(Transfer Learning) 강화

기술 상세

ARISE의 핵심은 Evolving-Skill MDP(ES-MDP)로, 기술 라이브러리를 에이전트 상태의 내생적(Endogenous) 요소로 정의한다. 상태 $s_t = (q_t, M_t)$ 에서 $M_t$ 는 에이전트의 이전 행동에 의해 형성된 라이브러리 상태이며, 이를 통해 정책 최적화와 라이브러리 전이를 단일 RL 목적 함수 내에서 결합한다. 계층적 정책 $\pi_\theta$ 는 세 가지 요소로 분해된다. 관리자의 기술 선택 $\pi_\theta^{mgr}$ , 작업자의 솔루션 생성 $\pi_\theta^{wkr}$ , 그리고 관리자의 기술 생성 $\pi_\theta^{lib}$ 이다. 이들은 파라미터 $\theta$ 를 공유하지만 서로 다른 컨텍스트 조건 하에서 작동하며, 기술 선택 시에는 Confidence Gate( $\delta=0.35$ )를 두어 부적절한 기술 주입을 방지한다. 기술 생성 프로세스( $O_{G+1}$ )는 성공적인 풀이 경로 $\tau^+$ 를 입력받아 구조화된 요약을 수행한다. 생성된 기술은 JSON 파싱, 필드 제약 조건 검사, 최대 220자의 길이 제한 등 4단계 검증 파이프라인을 거쳐 라이브러리에 등록된다. 요약 성공률은 웜업 단계 이후 85% 이상으로 유지된다. 라이브러리 관리 메커니즘은 UPDATE, ADD, EVICT, LOAD, DELETE의 5가지 연산으로 구성된다. Cache( $C_c=10$ )는 활성 선택 풀 역할을 하며, Reservoir( $C_r=100$ )는 잠재적 유용성이 있는 기술을 보관한다. 유용성 점수가 하위 10%이면서 사용량이 없는 기술은 영구 삭제되어 라이브러리의 비대화를 막고 품질을 최적화한다.

한계점

현재 프레임워크는 수학적 추론에 국한되어 평가되었다. 실행 가능한 절차나 도구 사용이 필요한 멀티툴 에이전트 작업이나 코드 생성 분야로의 확장은 향후 과제로 남아 있다.

키워드

Reinforcement Learning(강화 학습)Hierarchical RL(계층적 강화 학습)Mathematical Reasoning(수학적 추론)Skill Library(기술 라이브러리)GRPO(그룹 상대 정책 최적화)LLM Agent(대형 언어 모델 에이전트)

코드 예제

json

{
  "skill_name": "exponential_base_matching",
  "problem_type": "algebra",
  "key_insight": "When both sides of an equation can be expressed as powers of the same base, set exponents equal",
  "method": [
    "Rewrite each side with a common base",
    "Set the exponents equal and solve",
    "Verify the solution satisfies the original"
  ],
  "check": "Substitute back into the original equation"
}

ARISE에서 생성되는 구조화된 기술 문서(Skill Document)의 JSON 스키마 예시

ARISE: 계층적 강화 학습에서의 내재적 기술 진화를 통한 에이전트 추론

{ "skill_name": "exponential_base_matching", "problem_type": "algebra", "key_insight": "When both sides of an equation can be expressed as powers of the same base, set exponents equal", "method": [ "Rewrite each side with a common base", "Set the exponents equal and solve", "Verify the solution satisfies the original" ], "check": "Substitute back into the original equation" }

ARISE: 계층적 강화 학습에서의 내재적 기술 진화를 통한 에이전트 추론

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

코드 예제

ARISE: 계층적 강화 학습에서의 내재적 기술 진화를 통한 에이전트 추론

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

코드 예제

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글