핵심 요약
기존의 시각적 선호도 데이터셋은 품질이 낮고 상충되는 신호가 많아 모델 학습을 방해하는 한계가 있었다. 이 논문은 데이터의 노이즈에 따라 학습 강도를 조절하는 Poly-DPO 알고리즘과 대규모 고품질 데이터셋인 ViPO를 통해 시각 생성 모델의 정렬 성능을 획기적으로 높였다.
왜 중요한가
기존의 시각적 선호도 데이터셋은 품질이 낮고 상충되는 신호가 많아 모델 학습을 방해하는 한계가 있었다. 이 논문은 데이터의 노이즈에 따라 학습 강도를 조절하는 Poly-DPO 알고리즘과 대규모 고품질 데이터셋인 ViPO를 통해 시각 생성 모델의 정렬 성능을 획기적으로 높였다.
핵심 기여
Poly-DPO 알고리즘 제안
데이터셋의 특성에 따라 모델의 확신도를 동적으로 조절하는 다항식 항을 DPO 목적 함수에 추가했다. 노이즈가 많은 데이터에서는 모호한 샘플에 집중하고, 너무 단순한 데이터에서는 과적합을 방지하는 적응형 학습이 가능하다.
대규모 고품질 ViPO 데이터셋 구축
100만 개의 이미지 쌍(1024px)과 300K개의 비디오 쌍(720p+)으로 구성된 대규모 선호도 데이터셋을 구축했다. 최신 생성 모델(FLUX, WanVideo 등)을 활용하고 5가지 핵심 차원(미학, 정렬, 텍스트 렌더링 등)으로 체계화하여 데이터 품질 병목 현상을 해결했다.
알고리즘과 데이터의 상호 보완성 입증
데이터 품질이 충분히 높을 경우 Poly-DPO가 표준 DPO로 수렴함을 실험적으로 증명했다. 이는 정교한 알고리즘이 불완전한 데이터셋에서는 필수적이지만, 고품질 데이터셋 확보가 근본적인 성능 향상의 핵심임을 시사한다.
핵심 아이디어 이해하기
기존의 Diffusion-DPO는 이진 분류 문제로 해석될 수 있으며, 이는 수학적으로 Cross-Entropy Loss와 유사한 형태를 띤다. 하지만 실제 데이터셋에는 미학적 점수는 높지만 텍스트 일치도는 낮은 이미지처럼 서로 상충되는 선호 신호가 섞여 있어, 모델이 일관된 패턴을 학습하기 어렵게 만든다.
이 논문은 Cross-Entropy Loss를 Taylor Expansion으로 분해했을 때 나타나는 첫 번째 다항식 항에 주목했다. 여기에 알파(alpha)라는 하이퍼파라미터를 도입하여, 모델이 예측에 확신이 없는 샘플(확률 0.5 근처)의 그래디언트를 증폭시키거나 확신이 너무 강한 샘플의 영향력을 줄이도록 설계했다.
결과적으로 Poly-DPO는 데이터가 지저분할 때는 학습이 가능한 경계선상의 샘플에 집중하게 만들고, 데이터가 너무 쉬울 때는 뻔한 차이만 학습하고 멈추지 않도록 유도한다. 이는 마치 학생의 수준과 문제의 난이도에 따라 학습 전략을 유동적으로 바꾸는 맞춤형 교육과 같은 원리이다.
방법론
Poly-DPO는 표준 DPO 손실 함수에 다항식 확장 항을 추가한 형태이다. [모델의 예측 확률 p와 하이퍼파라미터 알파를 입력으로] → [알파 * (1 - p) 연산을 수행하여 기존 손실에 더하고] → [최종 Poly-DPO Loss를 산출하며] → [이 값은 예측 확신도에 따라 그래디언트 크기를 조절하는 역할을 수행한다]. 구체적으로 알파가 0보다 크면 확신이 낮은 샘플의 가중치를 높여 노이즈가 섞인 데이터에서도 유의미한 신호를 추출하게 돕는다.
ViPO 데이터셋 구축은 최신 생성 모델을 활용한 파이프라인을 따른다. [다양한 프롬프트를 입력으로] → [FLUX.1-dev, WanVideo 등 여러 모델로 이미지/비디오 쌍을 생성하고] → [Qwen2.5-VL 등 고성능 VLM을 통한 다수결 투표로 선호도 라벨을 할당하여] → [고해상도의 정제된 선호도 데이터를 확보한다]. 이미지 데이터는 Aesthetics, Text-Image Alignment, Text Rendering, Portrait Quality, Composition의 5개 카테고리로 분류되어 균형 잡힌 학습을 지원한다.
주요 결과
Pick-a-Pic V2와 같은 노이즈가 많은 데이터셋에서 Poly-DPO는 Diffusion-DPO 대비 GenEval 벤치마크에서 SD1.5 기준 6.87점, SDXL 기준 2.32점의 성능 향상을 기록했다. 특히 PickScore와 HPSv2.1 지표에서 각각 4.4%, 13.1%의 개선을 보이며 기존 방법론을 압도했다.
ViPO 데이터셋으로 학습한 경우 성능 향상은 더욱 두드러졌다. SD1.5 모델은 기존 오픈소스 데이터셋 학습 결과보다 훨씬 높은 성능을 달성했으며, SD3.5-Medium 모델 역시 ViPO 학습 후 GenEval 점수가 0.69에서 0.83으로 크게 상승했다. 비디오 모델인 Wan2.1 역시 VBench 벤치마크의 거의 모든 지표에서 일관된 성능 향상을 보였다.
기술 상세
Poly-DPO의 핵심은 Poly Loss 설계를 DPO 프레임워크에 이식한 것이다. 수학적으로 L_Poly-DPO = -log(p) + alpha(1 - p)로 정의되며, 여기서 p는 모델이 정답(선호되는 샘플)을 맞출 확률이다. 이 식의 그래디언트를 분석하면 -(1 - p)(1 + alpha*p)가 되어, alpha 값에 따라 확률 p에 따른 그래디언트의 감쇄 속도가 결정된다. alpha > 0일 때는 p가 0.5 근처인 샘플의 그래디언트가 표준 DPO보다 2~3배 커지며, 이는 모델이 모호한 샘플에서 더 강하게 학습하도록 강제한다.
데이터셋 구축 시 VLM(Vision-Language Model)을 활용한 자동 라벨링의 신뢰성을 검증하기 위해 인간 평가자와의 일치도를 분석했다. VLM은 이미지 작업에서 84.0%, 비디오 작업에서 71.7%의 정확도를 보였으며, 특히 미학(Aesthetic) 평가에서는 95.0%의 높은 일치도를 기록했다. 이는 대규모 데이터셋 구축 시 고비용의 인간 라벨링을 VLM 기반의 다수결 투표 시스템으로 효과적으로 대체할 수 있음을 시사한다.
한계점
선호도 라벨이 전적으로 AI 모델(VLM)에 의해 생성되었기 때문에, VLM 자체의 편향이 데이터셋에 투영되었을 가능성이 있다. 또한 Poly-DPO의 최적 하이퍼파라미터 알파를 찾기 위해 그리드 서치가 필요하며, 이는 데이터셋의 노이즈 수준에 따라 달라질 수 있다는 점이 한계로 지목된다.
실무 활용
Poly-DPO는 기존의 Diffusion-DPO 코드에 단 두 줄의 추가만으로 구현이 가능하여 실무 적용성이 매우 높다. 또한 공개된 ViPO 데이터셋은 고해상도 이미지 및 비디오 생성 모델의 미세 조정에 즉시 활용될 수 있다.
- 노이즈가 섞인 사용자 피드백 데이터를 활용한 이미지 생성 모델의 선호도 정렬
- 고해상도(1024px) 이미지 생성 모델의 텍스트 렌더링 및 구도 개선 학습
- 비디오 생성 모델의 움직임 품질 및 시간적 일관성 향상을 위한 미세 조정
코드 공개 여부: 공개
코드 저장소 보기키워드
코드 예제
dpo_loss = -1 * logsigmoid(logits)
poly_loss = 1 - sigmoid(logits)
loss = dpo_loss + alpha * poly_lossPoly-DPO를 구현하는 핵심 코드 스니펫으로, 기존 DPO 손실에 다항식 항을 추가하는 방식이다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.