Co-Evolving Policy Distillation: 전문가 모델의 동시 진화를 통한 정책 증류

기존의 전문가 모델 통합 방식은 각 분야의 전문가를 따로 학습시킨 뒤 합치는 과정에서 성능 저하가 발생했습니다. 이 논문은 여러 분야의 전문가가 서로를 가르치며 동시에 학습하는 CoPD 기법을 통해, 단일 모델이 텍스트와 멀티모달 추론 모두에서 개별 전문가를 뛰어넘는 성능을 내게 합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

능력 발산 및 흡수 저하 문제 규명

혼합 데이터 학습 시 발생하는 능력 간 최적화 방향 충돌(Capability Divergence)과 학습 완료된 전문가 간의 행동 패턴 격차로 인한 지식 흡수 효율 저하 문제를 수치적으로 증명했다.

Co-Evolving Policy Distillation(CoPD) 프레임워크 제안

전문가들이 각자의 영역을 탐구하는 RLVR 단계와 서로의 지식을 교환하는 Mutual OPD 단계를 교차 수행하여 행동 패턴의 유사성을 유지하면서 지식을 통합하는 구조를 설계했다.

상호 온폴리시 증류(Mutual OPD) 메커니즘

고정된 스승 모델 대신 학습 중인 모델들이 서로의 데이터를 바탕으로 토큰 수준의 피드백을 주고받는 양방향 증류 방식을 도입하여 지식 전달 효율을 극대화했다.

멀티모달 통합 추론 성능 입증

텍스트, 이미지, 비디오 추론 벤치마크에서 기존의 MOPD나 혼합 RLVR 방식보다 우수한 성적을 거두었으며, 특정 도메인 전용 전문가 모델의 성능까지 추월했다.

핵심 아이디어 이해하기

기존의 강화학습(RLVR)은 여러 데이터를 섞어 학습하면 각 데이터가 요구하는 최적화 방향이 달라 서로 방해하는 '능력 발산' 문제가 발생한다. 이를 피하기 위해 각 분야의 전문가를 따로 만든 뒤 지식을 전수(Distillation)하는 방식을 쓰지만, 이미 학습이 끝난 전문가는 학생 모델과 사고방식(Behavioral Pattern)이 너무 달라져 지식이 제대로 전달되지 않는 한계가 있다.

CoPD는 이 문제를 해결하기 위해 전문가들을 '동시에' 학습시키며 서로를 가르치게 한다. 먼저 각 모델이 자신의 전문 분야 데이터를 학습하며 실력을 키우고(RLVR), 곧이어 서로의 데이터를 풀어보며 상대방의 답변 방식을 배우는 과정(Mutual OPD)을 반복한다. 이는 마치 두 학생이 각자 공부하다가 주기적으로 서로의 풀이법을 공유하며 함께 성장하는 것과 같다.

이 과정에서 핵심은 모델 간의 '행동 유사성'을 유지하는 것이다. 너무 멀어지기 전에 지식을 교환함으로써 학생 모델이 스승의 논리를 쉽게 흡수할 수 있는 상태를 유지한다. 결과적으로 모델들은 서로의 장점을 흡수하면서도 자신의 전문성을 잃지 않게 되어, 최종적으로 하나로 합쳤을 때 모든 분야에서 뛰어난 성능을 보이게 된다.

방법론

CoPD는 N개의 교차 사이클로 구성되며, 각 사이클은 두 가지 주요 단계로 나뉜다. 첫 번째는 Branch-Specific RLVR 단계로, 각 분기(Branch)는 자신의 도메인 데이터셋 Dk에 대해 GRPO 알고리즘을 사용하여 독립적으로 학습한다. 이 과정은 각 분기가 해당 도메인의 전문성을 깊게 파고들게 하여 모델 간의 지식 격차를 의도적으로 발생시킨다.

두 번째는 Mutual OPD 단계로, 각 분기가 다른 분기의 데이터셋 Dj에 대해 답변을 생성(Rollout)하고 상대방으로부터 토큰 수준의 감독 신호를 받는다. 이때 교차 분기 업데이트를 위한 이득(Advantage)은 상대방 모델과 자신의 로그 확률 차이인 δ = log π_teacher - log π_student로 계산된다. [상대방의 확률값과 나의 확률값 차이를 입력으로] → [로그 차 연산을 수행해] → [토큰별 점수 δ를 얻고] → [이 값이 클수록 상대방은 높게 평가하지만 나는 낮게 평가한 토큰임을 의미하므로 이를 학습에 반영한다].

최종적으로 학습된 분기들은 단순 파라미터 평균(Parameter Merging)을 통해 하나의 통합 모델로 합쳐진다. 모델들이 학습 내내 상호 증류를 통해 행동 패턴을 동기화했기 때문에, 복잡한 병합 기술 없이도 성능 손실 없이 통합이 가능하다.

주요 결과

이미지 추론 벤치마크(MMMU, MathVista 등)에서 CoPD는 평균 56.97%를 기록하여, 단일 도메인 전문가(55.76%)와 기존 정적 증류 방식(56.44%)을 모두 앞질렀다. 특히 텍스트 추론(AIME, MATH-500 등)에서는 58.76%의 정확도를 보여 혼합 RLVR(55.48%) 대비 큰 폭의 성능 향상을 증명했다.

비디오 추론을 포함한 3개 분기 실험에서도 CoPD는 Overall Avg 58.12%를 달성하며 MOPD(56.99%)를 능가했다. Ablation study 결과, 양방향 증류를 제거하거나 정적 증류 방식을 사용할 경우 성능이 유의미하게 하락함을 확인하여 동시 진화(Co-evolution)의 필요성을 입증했다.

학습 과정 분석 결과, CoPD는 학습 내내 모델 간의 Top-k 토큰 겹침(Overlap)을 0.90 이상으로 유지했다. 반면 기존 방식은 학습이 진행될수록 이 수치가 급격히 떨어져 지식 흡수 효율이 낮아지는 현상이 관찰되었다.

기술 상세

CoPD는 RLVR의 탐색 능력과 OPD의 지식 전송 능력을 결합한 아키텍처이다. 각 분기는 공유된 베이스 모델에서 시작하며, 학습 과정에서 발생하는 '능력 발산 비용(Capability Divergence Cost, Φ)'을 RLVR 단계에서 수용하고, 이를 Mutual OPD 단계에서 '흡수 효율(Absorption Efficiency, η)'을 극대화하여 상쇄한다.

수학적으로 CoPD의 유용성(Utility)은 U ≈ η(O_mod) · X로 표현되며, 여기서 O_mod는 상호 증류를 통해 유지되는 적절한 행동 중첩도를 의미한다. 이는 전문가가 완전히 수렴한 후 증류를 시도하는 기존 방식(U ≈ η(O_low) · X)보다 훨씬 높은 효율을 보장한다.

구현 측면에서는 EasyVideoR1 프레임워크를 기반으로 하며, GRPO 알고리즘을 사용하여 가치 네트워크(Value Network) 없이도 효율적인 강화학습을 수행한다. 3개 이상의 분기를 확장할 때는 모든 분기 쌍을 증류하는 대신, 텍스트 분기를 허브(Hub)로 삼고 나머지 분기들이 허브와 지식을 교환하는 Hub-and-Spoke 토폴로지를 채택하여 연산 효율을 높였다.

한계점

본 논문은 텍스트, 이미지, 비디오 도메인에 한정하여 실험을 진행했으며, 더 많은 수의 분기(K > 3)로 확장했을 때의 복잡도 증가나 성능 변화에 대해서는 추가 검증이 필요하다.

실무 활용

다양한 전문 능력을 가진 여러 LLM 전문가를 하나의 범용 모델로 통합해야 하는 기업 및 연구소에서 즉시 활용 가능한 학습 프레임워크이다.

텍스트 추론 모델과 시각 이해 모델을 성능 저하 없이 하나의 멀티모달 모델로 통합
코딩 전문가와 수학 전문가 모델을 병렬 학습시켜 종합적인 이공계 추론 에이전트 개발
제한된 컴퓨팅 자원에서 여러 특화 모델을 순차적으로 학습시키는 대신 병렬로 동시 학습하여 개발 기간 단축

코드 공개 여부: 공개

코드 저장소 보기

키워드

RLVR(검증 가능한 보상을 통한 강화학습)OPD(온폴리시 정책 증류)Co-evolution(동시 진화)Multimodal Reasoning(멀티모달 추론)Policy Distillation(정책 증류)

Co-Evolving Policy Distillation: 전문가 모델의 동시 진화를 통한 정책 증류

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

능력 발산 및 흡수 저하 문제 규명

Co-Evolving Policy Distillation(CoPD) 프레임워크 제안

상호 온폴리시 증류(Mutual OPD) 메커니즘

멀티모달 통합 추론 성능 입증

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

다양한 전문 능력을 가진 여러 LLM 전문가를 하나의 범용 모델로 통합해야 하는 기업 및 연구소에서 즉시 활용 가능한 학습 프레임워크이다.

텍스트 추론 모델과 시각 이해 모델을 성능 저하 없이 하나의 멀티모달 모델로 통합
코딩 전문가와 수학 전문가 모델을 병렬 학습시켜 종합적인 이공계 추론 에이전트 개발
제한된 컴퓨팅 자원에서 여러 특화 모델을 순차적으로 학습시키는 대신 병렬로 동시 학습하여 개발 기간 단축

코드 공개 여부: 공개

코드 저장소 보기

키워드

RLVR(검증 가능한 보상을 통한 강화학습)OPD(온폴리시 정책 증류)Co-evolution(동시 진화)Multimodal Reasoning(멀티모달 추론)Policy Distillation(정책 증류)

Co-Evolving Policy Distillation: 전문가 모델의 동시 진화를 통한 정책 증류

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Co-Evolving Policy Distillation: 전문가 모델의 동시 진화를 통한 정책 증류

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드