SFT-to-RL을 넘어서: 멀티모달 강화학습을 위한 블랙박스 온폴리시 증류 기반 사전 정렬

표준적인 멀티모달 모델 학습 과정에서 지도 학습(SFT)이 오히려 모델의 원래 능력을 해치거나 분포 불일치를 일으키는 문제를 해결한다. SFT와 강화학습 사이에 '사전 정렬' 단계를 추가하여 시각적 이해와 논리적 추론 능력을 동시에 개선함으로써 최종 성능을 극대화한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

PRISM 3단계 포스트 트레이닝 파이프라인

기존 SFT→RLVR 구조 사이에 온폴리시 증류(OPD)를 활용한 사전 정렬 단계를 삽입하여 SFT로 인한 분포 편차를 수정하고 강화학습을 위한 최적의 초기 상태를 제공한다.

MoE 판별기를 활용한 블랙박스 온폴리시 증류

시각적 접지(Perception)와 논리적 추론(Reasoning) 전문가로 구성된 Mixture-of-Experts 판별기를 도입하여 모델의 응답에 대해 분리된 교정 신호를 제공하는 적대적 게임 프레임워크를 구축했다.

고품질 멀티모달 추론 데이터셋 구축

Gemini 3 Flash를 통해 추출한 113K개의 정밀한 시각적 설명 및 단계별 추론 과정을 포함하는 데이터셋을 구축하여 학습 및 정렬의 기반으로 활용했다.

핵심 아이디어 이해하기

대형 멀티모달 모델은 보통 정답 데이터를 모방하는 SFT 과정을 거치지만, 이 과정에서 모델이 정답의 겉모습만 흉내 내거나 원래 가졌던 유연한 분포를 잃어버리는 '분포 편차(Distributional Drift)'가 발생한다. 특히 멀티모달 환경에서는 시각 정보를 잘못 해석하는 오류와 논리 전개가 틀리는 오류가 복합적으로 작용하여 이후 강화학습(RL) 단계에서 성능 개선을 방해한다.

PRISM은 모델이 스스로 생성한 결과물(On-policy)을 바탕으로 정답 데이터의 분포와 얼마나 유사한지 판별하는 적대적 학습 방식을 도입한다. 이는 모델이 단순히 정답 토큰을 예측하는 법을 배우는 것이 아니라, 정답 데이터가 가진 '시각적 근거 제시'와 '논리적 일관성'이라는 특성 자체를 닮아가도록 유도한다.

결과적으로 모델은 강화학습에 진입하기 전, 시각 정보와 텍스트 추론이 잘 정렬된 상태가 된다. 이는 강화학습의 탐색 효율을 높여 Qwen3-VL 모델 기준 평균 4.4~6.0점의 성능 향상을 이끌어내며, 더 적은 토큰으로도 정확한 답변을 내놓는 효율적인 모델을 만든다.

방법론

PRISM은 SFT, 사전 정렬(Alignment), RLVR의 세 단계로 구성된다. 첫 단계에서는 1.37M개의 데이터를 활용해 Cold-start SFT를 수행하여 기초 추론 능력을 확보한다.

두 번째 단계인 사전 정렬에서는 MoE 판별기를 활용한 적대적 온폴리시 증류를 수행한다. 판별기 D는 시각 전문가 Dv와 추론 전문가 Dr로 나뉘며, 모델의 응답 y에서 시각 묘사 c와 추론 과정 t를 분리하여 평가한다. r(x, y) = α · Dv(x, c) + (1 − α) · Dr(x, t) 수식을 통해 두 점수를 가중합하여 최종 보상을 계산한다. 여기서 α는 시각과 추론 피드백 사이의 균형을 조절하는 하이퍼파라미터이다.

정책 모델 G는 GRPO 알고리즘을 사용하여 판별기가 주는 보상을 극대화하도록 업데이트된다. 이때 KL 발산 규제 항을 제거하여 SFT로 왜곡된 분포에서 자유롭게 벗어나 정답 분포로 이동할 수 있게 한다. 마지막 단계에서는 정렬된 모델을 초기값으로 하여 검증 가능한 보상(Verifiable Rewards) 기반의 RLVR을 수행하여 최종 성능을 확정한다.

관련 Figure

#1Diagram
SFT가 일으키는 분포 편차를 MoE 판별기를 통한 정렬 단계가 어떻게 수정하는지 시각적으로 보여준다. 정렬된 정책이 RLVR 단계에서 더 강력한 초기화 지점이 됨을 강조한다.
PRISM 파이프라인의 전체 개요도

주요 결과

Qwen3-VL 4B 및 8B 모델을 대상으로 실험한 결과, PRISM은 기존 SFT→RLVR 방식 대비 평균 정확도를 각각 4.4점, 6.0점 향상시켰다. 특히 MathVision 및 WeMath와 같은 고난도 수학적 추론 벤치마크에서 큰 폭의 개선이 확인됐다.

Ablation Study를 통해 MoE 판별기의 중요성이 입증됐다. 단일 판별기를 사용할 경우 시각과 추론 오류가 혼재되어 교정 신호가 오염되지만, MoE 구조는 각각의 오류를 독립적으로 수정하여 평균 3.4점의 추가 이득을 얻었다. 또한, 사전 정렬 단계가 즉각적인 정확도 향상보다는 RLVR을 위한 '더 나은 분포 형태'를 형성하는 데 기여함을 구조적 지표 분석을 통해 확인했다.

관련 Figure

#4Chart
SFT 이후 과도하게 늘어났던 묘사 항목 수가 정렬 단계를 거치며 정답 데이터 분포와 유사하게 교정되는 과정을 보여준다. 이러한 구조적 정렬이 RL 이후에도 유지됨을 증명한다.
학습 단계별 추론 단계 수 및 묘사 항목 수 분포 변화

기술 상세

PRISM의 핵심은 SFT 이후 발생하는 분포 편차를 '분포 수준의 정렬'로 해결하는 것이다. MoE 판별기는 Qwen3-VL-2B 모델 4개를 앙상블하여 구축되었으며, Top-2 라우팅을 통해 시각 및 추론 전문가를 활성화한다. 판별기 학습에는 Bradley-Terry Loss를 사용하여 정답 데이터와 모델 생성물 간의 선호도를 학습시킨다.

정책 업데이트 시 GRPO(Group Relative Policy Optimization)를 채택하여 별도의 Critic 모델 없이도 효율적인 강화학습이 가능하도록 설계했다. 또한, SFT 데이터의 규모가 사전 정렬의 효과와 상호 보완적임을 밝혀내어, 대규모 공개 데이터와 고품질 합성 데이터를 결합하는 전략의 유효성을 입증했다. 구현 시 vLLM과 veRL 프레임워크를 활용하여 분산 학습 효율을 높였다.

관련 Figure

#2Diagram
멀티모달 프롬프트에 대해 시각 전문가와 추론 전문가가 각각 보상을 계산하고 이를 합산하여 정책 모델에 피드백을 주는 과정을 상세히 나타낸다.
사전 정렬 단계의 MoE 판별기 아키텍처

한계점

사전 정렬 단계와 MoE 판별기 유지로 인해 표준 파이프라인 대비 추가적인 연산 비용과 메모리 오버헤드가 발생한다. 또한 현재 설계는 시각 묘사와 추론 과정이 명확히 분리된 구조적 응답 형식에 의존하므로, 이러한 형식을 따르지 않는 일반적인 대화형 작업에는 적용이 제한될 수 있다.

실무 활용

멀티모달 모델의 추론 능력을 강화하려는 엔지니어에게 SFT 이후의 필수적인 최적화 파이프라인을 제시한다. 특히 시각적 근거가 중요한 복잡한 추론 작업에서 모델의 신뢰성을 높이는 데 유용하다.

복잡한 기하학 문제나 도표 분석이 필요한 교육용 AI 모델 학습
시각적 증거와 논리적 단계가 모두 중요한 법률/의료 문서 분석 에이전트
강화학습 초기화 단계에서 발생하는 성능 저하 및 학습 불안정성 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

SFT(지도 미세 조정)RLVR(검증 가능 보상 기반 강화학습)OPD(온폴리시 증류)MoE(전문가 혼합)Multimodal Reasoning(멀티모달 추론)

SFT-to-RL을 넘어서: 멀티모달 강화학습을 위한 블랙박스 온폴리시 증류 기반 사전 정렬

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

PRISM 3단계 포스트 트레이닝 파이프라인

MoE 판별기를 활용한 블랙박스 온폴리시 증류

고품질 멀티모달 추론 데이터셋 구축

Gemini 3 Flash를 통해 추출한 113K개의 정밀한 시각적 설명 및 단계별 추론 과정을 포함하는 데이터셋을 구축하여 학습 및 정렬의 기반으로 활용했다.

핵심 아이디어 이해하기

방법론

PRISM은 SFT, 사전 정렬(Alignment), RLVR의 세 단계로 구성된다. 첫 단계에서는 1.37M개의 데이터를 활용해 Cold-start SFT를 수행하여 기초 추론 능력을 확보한다.

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

복잡한 기하학 문제나 도표 분석이 필요한 교육용 AI 모델 학습
시각적 증거와 논리적 단계가 모두 중요한 법률/의료 문서 분석 에이전트
강화학습 초기화 단계에서 발생하는 성능 저하 및 학습 불안정성 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

SFT(지도 미세 조정)RLVR(검증 가능 보상 기반 강화학습)OPD(온폴리시 증류)MoE(전문가 혼합)Multimodal Reasoning(멀티모달 추론)

SFT-to-RL을 넘어서: 멀티모달 강화학습을 위한 블랙박스 온폴리시 증류 기반 사전 정렬

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

SFT-to-RL을 넘어서: 멀티모달 강화학습을 위한 블랙박스 온폴리시 증류 기반 사전 정렬

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드