핵심 요약
인간의 시각적 선호도는 미학, 세부 묘사, 의미 일치 등 다차원적이지만 기존 데이터셋은 이를 단일 이진 라벨로 압축하여 모델 학습에 혼란을 주는 노이즈를 발생시킨다. 이 논문은 추가적인 인간 주석 없이도 모델 스스로 모순된 데이터를 정제하고 학습하는 Semi-DPO 프레임워크를 통해 텍스트-이미지 생성 모델의 정렬 성능을 획기적으로 개선했다.
왜 중요한가
인간의 시각적 선호도는 미학, 세부 묘사, 의미 일치 등 다차원적이지만 기존 데이터셋은 이를 단일 이진 라벨로 압축하여 모델 학습에 혼란을 주는 노이즈를 발생시킨다. 이 논문은 추가적인 인간 주석 없이도 모델 스스로 모순된 데이터를 정제하고 학습하는 Semi-DPO 프레임워크를 통해 텍스트-이미지 생성 모델의 정렬 성능을 획기적으로 개선했다.
핵심 기여
다차원적 선호도 충돌에 대한 이론적 분석
인간의 다차원적 선호도가 단일 이진 라벨로 압축될 때 발생하는 그래디언트 신호의 충돌 현상을 수학적으로 증명하고, 이것이 Diffusion-DPO의 수렴을 방해하는 핵심 원인임을 밝혔다.
Semi-DPO 프레임워크 제안
선호도 정렬 문제를 노이즈 라벨 학습(LNL) 관점에서 재정의하고, 일관된 데이터는 지도 학습으로, 충돌하는 데이터는 준지도 학습(SSL) 방식으로 처리하는 2단계 프레임워크를 구축했다.
타임스텝별 조건부 의사 라벨링 기법
디퓨전 모델 자체가 내재적인 보상 모델 역할을 할 수 있음을 활용하여, 각 타임스텝별로 신뢰도가 높은 의사 라벨(Pseudo-label)을 생성하고 이를 학습에 활용해 노이즈를 스스로 교정하게 했다.
핵심 아이디어 이해하기
디퓨전 모델의 학습에서 Direct Preference Optimization(DPO)은 두 이미지 중 사람이 선호하는 쪽의 확률을 높이는 방식으로 작동한다. 하지만 실제 사람은 '구도는 A가 좋지만 질감은 B가 좋다'고 느낄 때 강제로 하나를 선택하게 되며, 이 과정에서 모델은 승리한 이미지의 단점까지 학습하거나 패배한 이미지의 장점을 배제하라는 모순된 그래디언트 신호를 받게 된다.
이 논문은 디퓨전 과정의 계층적 특성, 즉 초기 단계에서는 전체적인 구도를 잡고 나중 단계에서는 세부 질감을 완성한다는 점에 주목했다. 하나의 이진 라벨은 전체 타임라인에서 모순을 일으키지만, 특정 타임스텝별로 나누어 보면 모델이 스스로 어떤 이미지가 해당 단계의 목적(구도 또는 질감)에 더 적합한지 판단할 수 있는 능력이 있음을 발견했다.
결과적으로 Semi-DPO는 모델이 이미 알고 있는 지식을 바탕으로 모순된 라벨을 타임스텝별로 재해석한다. 이를 통해 기존의 획일적인 이진 신호를 정교한 타임스텝별 선호 신호로 분리해냄으로써, 모델이 인간의 복잡한 선호도에 더 정확하게 정렬되도록 유도한다.
관련 Figure

노이즈 데이터셋에서는 'Loser'로 표시된 이미지가 특정 부분(텍스트 묘사 등)에서 'Winner'보다 우수할 수 있음을 보여준다. 이러한 데이터가 모델에 혼란을 주는 '노이즈'임을 시각적으로 설명한다.
깨끗한 데이터셋(Winner/Loser 명확)과 노이즈가 섞인 데이터셋의 시각적 비교 예시이다.
방법론
Semi-DPO는 크게 두 단계로 구성된다. 첫 번째 단계인 Multi-Reward Consensus에서는 CLIP Score, Aesthetic Score 등 5개의 사전 학습된 보상 모델을 사용하여 모든 모델이 동의하는 '깨끗한(Clean)' 데이터셋을 추출한다. 전체 데이터의 약 21%만이 이 과정을 통과하며, 나머지는 노이즈가 포함된 미라벨링 데이터로 간주된다.
두 번째 단계인 Iterative Self-Training에서는 먼저 깨끗한 데이터로 초기 모델을 학습시킨다. 이후 이 모델을 암시적 분류기(Implicit Classifier)로 사용하여 노이즈 데이터에 대해 타임스텝별 의사 라벨을 생성한다. 이때 logit의 크기인 |z_theta|를 계산하여 동적 임계값 tau보다 큰 경우에만 해당 라벨을 신뢰하고 학습에 반영한다.
최종 손실 함수는 깨끗한 데이터에 대한 Anchor Loss와 신뢰도 높은 의사 라벨 데이터에 대한 Pseudo-Label Loss의 합으로 정의된다. [입력된 이미지 쌍과 타임스텝 t에 대해] -> [모델의 암시적 보상 값의 차이인 logit을 계산하고] -> [이 값이 임계값을 넘으면 의사 라벨로 확정하여] -> [기존 DPO 손실 함수와 결합해 가중치를 갱신한다]. 이 과정을 반복하며 모델은 스스로 노이즈를 교정한다.
관련 Figure

기존 보상 모델들이 특정 차원(의미 일치 등)에는 강하지만 전체적인 선호도와는 낮은 상관관계를 보임을 증명한다. 반면 본 논문에서 활용한 MPS는 모든 차원에서 높은 상관관계를 보여 다차원적 평가의 중요성을 뒷받침한다.
다양한 보상 모델(CLIP, PickScore, MPS)과 실제 사용자 선호도 간의 상관관계를 보여주는 산점도이다.
주요 결과
SD1.5와 SDXL 모델 모두에서 Semi-DPO는 기존의 Diffusion-DPO, Diffusion-KTO 등 최신 기법들을 모든 지표에서 압도했다. 특히 인간의 다차원적 선호도를 측정하는 MPS(Multi-dimensional Preference Score) 지표에서 SD1.5 기준 기존 대비 10.7% 이상의 성능 향상을 기록했다.
질적 평가에서도 Semi-DPO는 복잡한 프롬프트에 대한 의미적 일치도와 시각적 미학을 동시에 개선했다. 예를 들어 '요리하는 피카츄'와 같은 프롬프트에서 다른 모델들이 피카츄의 형태나 요리 도구 묘사에 실패할 때, Semi-DPO는 두 요소를 모두 정확하게 표현해냈다.
Ablation Study 결과, 반복적인 자기 학습(Iterative Self-Training)이 진행될수록 성능이 계단식으로 상승함을 확인했다. 또한 5개의 보상 모델을 결합했을 때 초기 데이터의 품질이 가장 높았으며, 이는 최종 모델의 성능과 직결되는 것으로 나타났다.
관련 Figure

Semi-DPO가 다른 모델들에 비해 프롬프트의 세부 사항(사이버펑크 수트, 폭풍우 치는 밤 등)을 훨씬 더 정교하고 미학적으로 훌륭하게 구현함을 보여준다.
SD1.5, Diffusion DPO, Diffusion KTO와 Semi-DPO가 생성한 이미지의 질적 비교 결과이다.
기술 상세
Semi-DPO는 Diffusion-DPO의 손실 함수가 수학적으로 이진 교차 엔트로피(Binary Cross-Entropy)와 동일하다는 점을 이용하여 모델을 암시적 보상 모델로 활용한다. 이론적으로 다차원 선호도 충돌이 그래디언트 분산을 팽창시킴을 증명했으며, 이를 해결하기 위해 준지도 학습의 핵심 기법인 의사 라벨링과 확정적 필터링을 도입했다. 특히 타임스텝별로 모델의 예측 정확도가 다르다는 점을 반영하여 Dynamic Timestep-Conditional Thresholding을 적용한 것이 기술적 차별점이다. 구현 측면에서는 32개의 NVIDIA A100 GPU를 사용하여 분산 학습을 수행했으며, 기존 단일 단계 학습보다 적은 GPU 시간(132 vs 192 hours)으로 더 높은 성능을 달성해 효율성을 입증했다.
한계점
Semi-DPO는 여러 번의 의사 라벨링 및 재학습 사이클을 필요로 하므로, 단일 단계 학습 방식에 비해 파이프라인 관리의 복잡성이 증가하는 운영상의 오버헤드가 존재한다.
실무 활용
추가적인 인간의 라벨링 비용 없이 기존의 노이즈 섞인 데이터셋만으로도 고성능 이미지 생성 모델을 학습시킬 수 있는 실용적인 프레임워크이다.
- 웹 크롤링 등으로 수집된 저품질/노이즈 선호도 데이터를 활용한 모델 미세 조정
- 특정 화풍이나 미적 기준에 맞춘 개인화된 이미지 생성 서비스 구축
- 복잡한 문장 구조를 가진 프롬프트에 대한 모델의 이해도 및 정렬 성능 개선
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.