희소에서 밀집으로: 증강된 조건 공간을 통한 플로우 모델용 멀티뷰 GRPO

왜 중요한가

기존의 이미지 생성 모델 학습 방식은 하나의 프롬프트에 대해서만 평가를 수행하여 비효율적이었다. 이 논문은 이미 생성된 이미지를 다양한 유사 프롬프트로 재평가하는 '멀티뷰' 방식을 도입해, 추가적인 이미지 생성 비용 없이도 모델의 이해도와 생성 품질을 획기적으로 높였다.

핵심 기여

멀티뷰 보상 매핑(Multi-View Reward Mapping) 도입

단일 조건에 의존하던 기존 GRPO의 희소한 보상 신호를 극복하기 위해, 하나의 샘플 그룹을 여러 증강된 조건으로 평가하는 밀집된 보상 구조를 설계함.

조건 증강기(Condition Enhancer) 설계

VLM(시각 언어 모델) 또는 LLM을 활용하여 원본 프롬프트와 의미적으로 인접하면서도 다양한 세부 속성(조명, 구도 등)을 포함하는 캡션을 생성함.

효율적인 멀티뷰 이득 재추정(Advantage Re-estimation)

SDE(확률 미분 방정식) 궤적의 확률 밀도를 활용하여, 이미 생성된 샘플을 새로운 조건에서 재평가할 때 발생하는 확률 편차(Drift)가 최소임을 이론적으로 증명하고 효율적으로 최적화함.

핵심 아이디어 이해하기

GRPO는 가치 네트워크 없이 그룹 내 상대적 비교로 정책을 업데이트하는 효율적인 RL 기법이다. 하지만 T2I 모델에서는 하나의 프롬프트(Anchor)로 생성된 이미지들을 오직 그 프롬프트로만 평가한다. 이는 이미지의 다양한 시각적 속성 중 프롬프트에 명시되지 않은 부분에 대한 학습 신호를 놓치게 만든다. MV-GRPO는 이 문제를 '조건 공간의 증강'으로 해결한다. 이미 생성된 이미지를 '조명이 밝은 버전', '구도가 다른 버전' 등 의미적으로 유사한 여러 프롬프트로 다시 바라본다. 이는 마치 하나의 물체를 여러 각도에서 관찰하여 입체감을 파악하는 것과 같다. 핵심은 이미지를 새로 만들지 않는다는 점이다. SDE 기반의 샘플링 과정에서 특정 조건 하에 생성된 이미지의 확률 분포가 유사한 조건에서도 유효함을 활용한다. 결과적으로 계산 비용은 거의 늘리지 않으면서도 모델이 프롬프트의 미세한 변화에 더 민감하게 반응하도록 유도한다.

방법론

전체 아키텍처는 GRPO 프레임워크를 기반으로 하며, 여기에 Condition Enhancer 모듈이 추가된 구조이다. SDE(Stochastic Differential Equation)를 사용하여 샘플링 과정에 무작위성을 부여하고, 이를 통해 정책 최적화에 필요한 탐색(Exploration)을 수행한다. Condition Enhancer는 두 가지 방식으로 구현된다. Online VLM Enhancer는 생성된 이미지를 VLM(Qwen3-VL-8B)에 입력하여 구체적인 캡션을 얻고, Offline LLM Enhancer는 원본 텍스트를 LLM(Qwen3-8B)으로 변형하여 다양한 프롬프트를 생성한다. 멀티뷰 목적 함수는 원본 조건에 대한 손실과 K개의 증강된 조건에 대한 손실의 합으로 구성된다. 각 조건 하에서 중요도 샘플링 비율 r_t^i(theta)를 계산하는데, 이는 [현재 정책의 전이 확률과 이전 정책의 전이 확률을 입력으로] -> [두 값의 비율을 계산하여] -> [중요도 샘플링 비중을 얻고] -> [이 값이 1보다 크면 현재 정책이 해당 샘플을 생성할 확률이 이전보다 높아졌음을 의미함].

주요 결과

Flux.1-dev 모델을 백본으로 실험한 결과, MV-GRPO는 HPS-v3, UnifiedReward-v2 등 주요 벤치마크에서 기존 SOTA 모델(Flow-GRPO, DanceGRPO 등)을 일관되게 능가했다. 특히 VLM 기반 증강을 사용했을 때 가장 높은 성능을 보였다. 정성적 평가에서 MV-GRPO는 실내 인테리어의 세부 묘사, 인물의 표정, 의복의 주름 등 미세한 디테일에서 훨씬 뛰어난 사실성을 보여주었다. 또한 프롬프트에 대한 정렬(Alignment) 능력이 크게 향상되었다. 지연 시간(Latency) 분석 결과, 데이터 증강을 직접 수행하는 방식보다 약 10배 빠른 속도를 기록했다. 이는 이미지 재생성 과정(NFE) 없이 조건 공간만 확장했기 때문에 가능한 결과이다.

실무 활용

T2I 모델의 미세 조정(Fine-tuning) 시 추가적인 GPU 자원 소모를 최소화하면서도 고품질의 결과물을 얻고자 할 때 매우 유용하다.

특정 화풍이나 스타일로 T2I 모델을 정렬하려는 상용 서비스 개발
프롬프트 충실도가 중요한 광고 및 디자인 에셋 생성 도구 최적화
제한된 컴퓨팅 자원 환경에서의 효율적인 RLHF 학습

기술 상세

MV-GRPO는 Flow Matching 모델을 다단계 마르코프 결정 과정(MDP)으로 정식화한다. 결정론적인 ODE 대신 SDE를 도입하여 dx_t = (v_theta + sigma_t^2/2t(x_t + (1-t)v_theta))dt + sigma_t dw_t 형태의 확률적 궤적을 생성함으로써 정책 최적화를 가능하게 한다. 핵심 이론적 근거는 '확률 편차(Probability Drift)'의 최소화이다. 원본 조건 c에서 생성된 샘플 x_{t-1}이 증강된 조건 c_k에서도 유효한 확률 밀도를 가짐을 delta(c, c_k) 수식을 통해 분석하고, 실험적으로 이 편차가 매우 작음을 입증했다. 학습 목적 함수는 원본 조건과 증강 조건의 클리핑된 대리 손실(Clipped Surrogate Loss)을 결합한다. 이때 KL 발산 제약 조건을 추가하여 정책이 참조 모델(Reference Model)에서 너무 멀어지지 않도록 규제한다. 구현 측면에서 16개의 NVIDIA H200 GPU를 사용했으며, bfloat16 혼합 정밀도 학습과 AdamW 옵티마이저를 적용했다. 샘플링 단계(T)는 16단계로 설정하여 효율성을 극대화했다.

한계점

클래스 조건부 생성과 같이 조건 신호가 고정되거나 엄격한 작업에서는 조건 증강의 효과가 제한적일 수 있다. 또한 증강된 조건의 품질이 사용된 VLM이나 LLM의 시각적 이해 및 추론 능력에 의존한다는 한계가 있다.

키워드

GRPO(그룹 상대 정책 최적화)Flow Model(플로우 모델)Preference Alignment(선호도 정렬)Condition Augmentation(조건 증강)SDE(확률 미분 방정식)