핵심 요약
이산 확산 모델(UDM)에 강화학습을 직접 적용할 때 발생하는 학습 불안정성과 성능 저하 문제를 해결한 최초의 프레임워크입니다. 정확한 액션 정의와 궤적 재구성을 통해 텍스트-이미지 생성 및 OCR 성능을 획기적으로 개선하여 이산 도메인 생성 모델의 새로운 학습 표준을 제시합니다.
왜 중요한가
이산 확산 모델(UDM)에 강화학습을 직접 적용할 때 발생하는 학습 불안정성과 성능 저하 문제를 해결한 최초의 프레임워크입니다. 정확한 액션 정의와 궤적 재구성을 통해 텍스트-이미지 생성 및 OCR 성능을 획기적으로 개선하여 이산 도메인 생성 모델의 새로운 학습 표준을 제시합니다.
관련 Figure

기본 방식(Red)은 500단계 이후 보상이 급락하고 KL 발산이 폭주하는 '학습 붕괴' 현상을 보이지만, UDM-GRPO(Blue)는 안정적으로 보상이 상승하며 수렴함을 보여줍니다.
기본 GRPO 적용 방식과 UDM-GRPO의 보상 및 KL 발산 추이 비교 그래프
핵심 기여
UDM-GRPO 프레임워크 제안
Uniform Discrete Diffusion Model(UDM)과 Group Relative Policy Optimization(GRPO)을 통합한 최초의 프레임워크로, 이산적 샘플링 과정의 비미분성 문제를 해결하고 안정적인 정책 최적화를 가능하게 함.
정확한 액션 전략(Accurate Action Strategy)
모든 타임스텝에서 중간 예측값이 아닌 최종 클린 샘플(x1)을 액션으로 정의하여 모델이 보상과 일치하는 명확한 최적화 신호를 학습하도록 유도함.
순방향 궤적 재구성(Forward Trajectory Reconstruction)
모델 자체의 역방향 궤적 대신 사전 학습 분포와 일치하는 순방향 확산 프로세스를 통해 궤적을 재구성하여 분포 편향(Distribution Shift) 문제를 해결함.
효율성 향상 전략 도입
고노이즈 구간에 최적화를 집중하는 Reduced-Step 방식과 학습 시 CFG를 제거하는 CFG-Free 전략을 통해 학습 속도를 가속화하고 연산 오버헤드를 절감함.
핵심 아이디어 이해하기
기존의 확산 모델은 노이즈가 섞인 상태에서 점진적으로 노이즈를 제거하며 이미지를 생성한다. 하지만 이 과정에 강화학습을 적용하면, 초기 단계의 부정확한 예측값(Action)을 정답처럼 흉내 내야 하는 모순이 발생한다. 특히 이산 확산 모델(UDM)에서는 토큰 단위의 변화가 급격하여 학습이 쉽게 붕괴(Collapse)되는 한계가 있었다.
UDM-GRPO는 이 문제를 해결하기 위해 '결과 중심의 학습' 방식을 채택한다. 모델이 매 순간 내놓는 중간 결과물이 아니라, 그 결과물로부터 예측한 '최종 완성본'을 액션으로 간주한다. 이를 통해 모델은 항상 보상이 높은 최종 목표를 향해 가중치를 업데이트하게 된다.
또한, 학습 시 모델이 직접 생성한 불안정한 경로 대신, 원본 이미지에 노이즈를 섞어 만든 안정적인 경로(Forward Process)를 따라가도록 설계했다. 이는 모델이 사전 학습 때 익혔던 데이터 분포를 벗어나지 않게 잡아주는 가이드라인 역할을 수행하며, 결과적으로 훨씬 빠르고 안정적인 수렴을 가능하게 한다.
방법론
UDM-GRPO는 T-step MDP를 재구성하여 정책 최적화를 수행한다. 핵심은 액션 a_t를 최종 클린 샘플 x_1의 예측값으로 정의하고, 정책 π_θ(a_t | s_t)를 현재 상태 x_t에서 x_1이 나올 확률 p_θ(x_1 | x_t)로 설정한 것이다.
[현재 노이즈 상태 x_t 입력] → [모델이 최종 이미지 x_1의 각 토큰별 확률(Logits) 출력] → [Softmax 연산 수행] → [해당 타임스텝의 정책 확률 π_θ 결정]. 이 방식은 Euler solver의 효율성을 유지하면서도 미분 가능성을 확보하여 그라디언트 전파를 원활하게 한다.
학습 궤적은 X_forward 방식을 사용한다. [최종 샘플 x_1에 노이즈를 추가] → [중간 상태 x_t 생성] → [이 경로를 학습 데이터로 사용] → [사전 학습 분포와의 FID 거리 최소화]. 이는 모델이 생성한 궤적(X_backward)이 훈련 데이터 분포에서 벗어나는 OOD(Out-of-Distribution) 문제를 방지한다.
관련 Figure

최종 클린 샘플을 액션으로 취하고 순방향 프로세스로 궤적을 재구성하는 핵심 메커니즘과 Reduced-Step, CFG-Free 전략의 위치를 시각화합니다.
UDM-GRPO의 전체 학습 파이프라인 및 전략 요약 다이어그램
주요 결과
URSA 모델에 적용한 결과, GenEval 벤치마크에서 종합 점수가 0.69에서 0.96으로 크게 상승하며 SOTA를 달성했다. 특히 객체 수 세기(Counting) 성능은 0.60에서 0.95로, 속성 결합(Attr. Binding)은 0.49에서 0.85로 비약적인 향상을 보였다.
OCR 성능 지표에서도 기존 8% 수준의 정확도를 57%까지 끌어올려 텍스트 렌더링 능력을 입증했다. 인간 선호도 지표인 PickScore 역시 20.46에서 23.81로 증가했다. Ablation study를 통해 Accurate Action과 Forward Trajectory 전략이 없을 경우 학습 500단계 이후 KL 발산이 폭발하며 성능이 붕괴됨을 확인했다.
관련 Figure

복잡한 위치 관계(오른쪽), 특정 색상(빨간색 얼룩말), 객체 수(4개) 등 까다로운 조건에서 UDM-GRPO가 타 모델보다 프롬프트를 훨씬 정확하게 반영함을 입증합니다.
SD3.5-L, FLUX.1 Dev, URSA 등 주요 모델과의 생성 결과물 비교
기술 상세
UDM-GRPO는 GRPO의 그룹 상대 이득(Group Relative Advantage) 개념을 UDM에 이식했다. 한 프롬프트당 G개의 궤적을 생성하고 보상의 평균과 표준편차를 이용해 어드밴티지를 계산함으로써 별도의 가치 모델(Value Model) 없이도 효율적인 학습이 가능하다.
수학적으로는 정책 비율 r_t(θ)를 p_θ(x_1 | x_t) / p_old(x_1 | x_t)로 정의하여 최적화한다. Reduced-Step 전략은 전체 타임스텝 중 노이즈가 많은 전반부에서 연속된 3개의 스텝을 무작위로 선택해 학습함으로써 그라디언트 분산을 줄이고 수렴 속도를 높인다. 또한 CFG-Free 학습을 통해 조건부/비조건부 모델을 동시에 최적화해야 하는 복잡도를 제거하면서도 최종 성능에서 CFG 기반 방식보다 우수한 결과를 얻었다.
한계점
본 논문은 주로 텍스트-이미지 생성 및 OCR 작업에 집중하고 있으며, 비디오 생성이나 더 복잡한 멀티 리워드 최적화 작업에 대한 확장은 향후 과제로 남겨두고 있습니다.
실무 활용
이산 확산 모델 기반의 텍스트-이미지 생성 서비스에서 고비용의 파인튜닝 없이도 복잡한 프롬프트 준수 능력을 획기적으로 개선할 수 있습니다.
- 정확한 텍스트 포함이 필요한 로고 및 포스터 생성 AI 서비스
- 여러 객체의 수와 위치 관계를 엄격히 지켜야 하는 디자인 자동화 도구
- 사용자 피드백(Reward)을 기반으로 실시간 최적화되는 이미지 생성 에이전트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.