이종 에이전트 협업 강화 학습

왜 중요한가

기존 강화 학습은 모델이 직접 생성한 데이터로만 학습하여 비용이 많이 들고 효율이 낮았다. 이 논문은 서로 다른 크기와 구조를 가진 AI 모델들이 학습 과정에서 데이터를 공유하며 함께 성장하는 새로운 패러다임을 제시하여 학습 비용을 50% 줄이면서도 추론 성능을 유의미하게 높였다.

핵심 기여

HACRL 패러다임 정립

추론 시에는 독립적으로 작동하지만 학습 시에는 이종 에이전트 간 데이터를 공유하여 상호 보완하는 새로운 학습 구조를 정의했다.

HACPO 알고리즘 개발

에이전트 간의 능력 차이와 정책 분포 불일치를 해결하기 위한 네 가지 핵심 메커니즘을 포함한 협업 정책 최적화 알고리즘을 구축했다.

능력 기반 어드밴티지 추정 기법

에이전트의 상대적 성능을 고려하여 보상을 재가중함으로써 이종 모델 간의 데이터 공유 시 발생하는 통계적 편향을 제거했다.

지수적 중요도 샘플링 및 단계적 클리핑

모델 간 분포 차이로 인한 학습 불안정성을 억제하기 위해 샘플링 비율을 지수적으로 조정하고 업데이트 단계별로 클리핑 범위를 강화하는 기법을 도입했다.

핵심 아이디어 이해하기

강화 학습에서 에이전트는 환경과 상호작용하며 얻은 데이터(Rollout)를 통해 정책을 업데이트한다. 특히 정답 확인이 가능한 RLVR 환경에서는 고품질 데이터를 얻기 위해 많은 샘플링이 필요한데, 기존 방식은 각 모델이 스스로 만든 데이터만 사용하므로 자원 낭비가 심했다. HACRL은 '서로 다른 모델이 만든 데이터도 학습에 쓸 수 없을까?'라는 질문에서 시작한다.

하지만 모델마다 성능(Capability)이 다르고 토큰을 생성하는 확률 분포(Policy Distribution)가 다르기 때문에, 단순히 남의 데이터를 가져다 쓰면 학습이 불안정해지거나 성능이 오히려 떨어지는 문제가 발생한다. HACPO는 이를 해결하기 위해 모델 간의 '능력 차이'를 수치화하여 보상 계산에 반영하고, '분포 차이'를 중요도 샘플링(Importance Sampling)으로 보정한다.

결과적으로 작은 모델은 큰 모델의 정답 경로를 배우고, 큰 모델은 작은 모델이 탐색한 다양한 오류 사례를 통해 더 견고해지는 상호 학습(Mutual Learning)이 가능해진다. 이는 마치 서로 다른 수준의 학생들이 오답 노트를 공유하며 함께 공부하는 것과 같은 원리로, 전체 시스템의 학습 효율을 비약적으로 높인다.

방법론

HACPO는 에이전트의 상대적 능력을 평가하는 능력 비율(Capability Ratio) $\omega$ 를 정의한다. [에이전트 $k$ 의 최근 평균 보상 $\div$ 에이전트 $j$ 의 최근 평균 보상] 연산을 통해 상대적 우위를 수치화하며, 이 값은 타 에이전트의 데이터를 자신의 기준에 맞춰 보정하는 가중치로 사용된다. 이를 통해 어드밴티지 추정의 편향을 제거한다.

분포 불일치를 해결하기 위해 지수적 중요도 샘플링(Exponential Importance Sampling)을 적용한다. [타겟 모델의 생성 확률 $\div$ 샘플링 모델의 생성 확률]의 기하평균을 구한 뒤, 여기에 지수 $\alpha$ 를 적용하여 급격한 가중치 변화를 억제한다. 이는 모델 간의 큰 정책 차이가 학습 신호를 압도하지 않도록 만드는 필터 역할을 수행한다.

학습 안정성을 위해 비대칭 클리핑(Asymmetric Clipping)과 단계적 클리핑(Stepwise Clipping)을 도입한다. 중요도 샘플링 비율이 1.0을 넘지 않도록 상한을 제한하여 타사 샘플이 온폴리시 업데이트를 주도하는 것을 방지하고, 미니배치 업데이트가 반복될수록 클리핑 범위를 좁혀 정책 드리프트(Policy Drift)를 제어한다.

주요 결과

Qwen3-1.7B, 4B, 8B 및 Llama3.2-3B 등 다양한 이종 모델 조합으로 MATH, GSM8K 등 7개 추론 벤치마크에서 실험을 진행했다. HACPO는 단일 모델 기반의 GSPO 대비 평균 3.3%의 성능 향상을 기록했으며, 특히 Qwen3-4B와 4B-Instruct 조합에서는 7.1% 이상의 큰 폭의 개선을 보였다.

효율성 측면에서 HACPO는 기존 방식 대비 절반의 데이터 생성 비용(Rollout Cost)만으로도 더 높은 성능에 도달했다. 이는 하나의 데이터 샘플을 여러 모델이 공유하여 학습에 재사용함으로써 샘플 효율성(Sample Efficiency)을 극대화했기 때문이다.

Ablation Study를 통해 네 가지 핵심 메커니즘의 유효성을 검증했다. 능력 기반 어드밴티지 추정을 제거할 경우 성능이 급격히 하락했으며, 단계적 클리핑이 없을 경우 학습 후반부에 불안정성이 크게 증가하는 것이 확인됐다.

실무 활용

여러 크기의 모델을 동시에 운영하는 환경에서 학습 효율을 극대화할 수 있는 실무적인 프레임워크다. 특히 수학, 코딩 등 정답 검증이 명확한 도메인에서 저비용으로 고성능 모델을 학습시키는 데 유용하다.

다양한 크기의 LLM을 보유한 기업의 효율적 공동 파인튜닝
작은 모델이 큰 모델의 데이터를 활용해 성능을 높이는 지식 증류의 확장판
추론 비용 절감을 위해 작은 모델의 성능을 극대화해야 하는 온디바이스 AI 학습

기술 상세

HACRL은 MARL과 달리 추론 시 에이전트 간 통신이나 협업이 필요 없는 '독립적 실행'을 전제로 한다. 학습 시에만 공유 보상 함수 $R(\cdot)$ 를 기반으로 데이터를 교환하며, 각 에이전트 $k$ 는 자신의 데이터로 계산된 $J_{homo}$ 와 타 에이전트의 데이터로 계산된 $J_{hete}$ 의 합을 최적화한다.

이론적으로 제안된 어드밴티지 추정치가 편향되지 않음(Unbiasedness)을 증명했다. 혼합된 샘플을 사용하더라도 능력 비율 $\omega$ 를 통해 보상을 보정하면, 기대값이 온폴리시 기대 보상과 일치하게 되어 표준 강화 학습의 최적화 방향을 유지한다.

그래디언트 정렬(Gradient Alignment) 분석을 통해 이종 모델의 데이터를 통한 업데이트 방향이 온폴리시 업데이트 방향과 양의 상관관계(Positive Angle)를 가짐을 수학적으로 입증했다. 이는 협업 학습이 모델의 원래 학습 목표를 해치지 않으면서 추가적인 정보를 제공함을 의미한다.

구현 시 시퀀스 수준의 정규화를 위해 기하평균 기반의 중요도 샘플링을 사용하며, 서로 다른 토크나이저를 사용하는 모델 간에는 역토큰화 후 재토큰화(Detokenize & Retokenize) 과정을 거쳐 데이터 호환성을 확보한다.

키워드

RLVR(검증 가능한 보상을 통한 강화 학습)HACPO(이종 에이전트 협업 정책 최적화)MARL(다중 에이전트 강화 학습)Sample Efficiency(샘플 효율성)Knowledge Transfer(지식 전이)