핵심 요약
기존 픽셀 공간 디퓨전 모델은 잠재 공간 모델에 비해 고수준의 시각적 구조를 파악하는 능력이 부족했다. V-Co는 사전 학습된 시각 모델의 지식을 생성 과정에 직접 통합하는 '공동 노이즈 제거'의 최적 레시피를 정립하여, 더 적은 학습량으로도 거대 모델들을 압도하는 화질과 효율성을 구현했다.
왜 중요한가
기존 픽셀 공간 디퓨전 모델은 잠재 공간 모델에 비해 고수준의 시각적 구조를 파악하는 능력이 부족했다. V-Co는 사전 학습된 시각 모델의 지식을 생성 과정에 직접 통합하는 '공동 노이즈 제거'의 최적 레시피를 정립하여, 더 적은 학습량으로도 거대 모델들을 압도하는 화질과 효율성을 구현했다.
핵심 기여
완전 이중 스트림(Dual-stream) 아키텍처 도입
픽셀 정보와 시맨틱 정보를 독립적인 경로로 처리하는 구조를 설계하여 각 도메인의 고유한 특성을 보존하면서도 유연한 상호작용을 가능하게 했다.
구조적 마스킹 기반 Classifier-Free Guidance
무조건부 예측 시 시맨틱-to-픽셀 경로를 구조적으로 차단하는 마스킹 기법을 도입하여 기존 입력 드롭아웃 방식보다 더 강력하고 명확한 가이던스 신호를 생성했다.
지각-드리프팅 하이브리드 손실 함수 제안
인스턴스 수준의 정밀한 정렬과 데이터 분포 수준의 정규화를 결합하여 시각적 의미 감독의 효율성을 극대화하고 모드 붕괴를 방지했다.
RMS 기반 특징 리스케일링을 통한 캘리브레이션
서로 다른 표현 공간에 있는 픽셀과 시맨틱 특징의 신호 강도를 일치시켜 노이즈 제거 난이도의 균형을 잡고 학습 안정성을 획기적으로 높였다.
핵심 아이디어 이해하기
디퓨전 모델은 노이즈 섞인 데이터에서 원래 정보를 복원하며 학습하지만, 픽셀 단위의 복원만으로는 이미지의 전체적인 맥락이나 의미 구조를 파악하기 어렵다. 이를 해결하기 위해 DINOv2 같은 강력한 시각 모델의 특징을 가이드로 활용하려 하지만, 단순히 특징을 입력으로 넣어주는 방식은 두 정보가 겉도는 한계가 있었다. V-Co는 픽셀과 시맨틱 특징 모두에 노이즈를 섞고 동시에 복원하는 '공동 노이즈 제거' 방식을 택했다. 이때 두 정보가 섞이는 통로를 이중 스트림으로 설계하여 픽셀은 세밀한 묘사를, 시맨틱은 전체적인 구조를 담당하도록 역할을 분담했다. 특히 두 정보의 세기(RMS)를 맞춰 노이즈 제거 난이도의 균형을 잡음으로써 모델이 시각적 의미를 더 효과적으로 학습하게 했다. 결과적으로 모델은 밑그림의 의도를 정확히 파악하면서 정교한 채색을 수행하는 능력을 갖추게 되어, 기존 방식보다 훨씬 적은 데이터와 시간으로도 고품질 이미지를 생성한다.
방법론
V-Co는 이미지 와 DINOv2 특징 를 결합한 공동 노이즈 제거 공식을 기반으로 한다. [이미지와 특징 벡터를 입력으로] -> [각각 독립적인 가우시안 노이즈를 추가하는 연산을 수행해] -> [노이즈가 섞인 를 얻고] -> [이를 모델이 동시에 복원하도록 학습함]. 아키텍처는 픽셀과 시맨틱 스트림이 독립적인 정규화와 MLP 층을 갖는 완전 이중 스트림 구조를 채택했다. [두 스트림의 토큰들을 입력으로] -> [Joint Self-Attention 연산을 수행해] -> [필요한 정보만 선택적으로 교환하도록 유도하고] -> [각 도메인의 고유한 표현력을 유지함]. 무조건부 예측을 위한 CFG 설계에는 구조적 마스킹을 도입했다. [픽셀과 시맨틱 토큰 간의 어텐션 맵을 입력으로] -> [시맨틱에서 픽셀로의 경로를 차단하는 마스킹 연산을 수행해] -> [가이드가 없는 상태의 예측값을 얻고] -> [입력 드롭아웃보다 더 명확한 가이던스 방향을 설정함]. 학습 안정성을 위해 RMS 기반 특징 리스케일링을 적용했다. [픽셀과 시맨틱 특징의 분산을 입력으로] -> [두 값의 제곱 평균 제곱근 비율인 를 계산해 시맨틱 특징에 곱하는 연산을 수행해] -> [신호 대 잡음비(SNR)를 일치시키고] -> [서로 다른 표현 공간 간의 노이즈 제거 난이도 균형을 맞춤].
주요 결과
ImageNet-256 데이터셋에서 V-Co-B/16 모델은 260M 파라미터만으로 FID 2.33을 기록했다. 이는 거의 두 배 크기인 JiT-L/16(459M)의 FID 2.36보다 우수한 결과이며, 파라미터 효율성이 매우 높음을 입증했다. 최대 크기 모델인 V-Co-H/16은 300 에포크 학습만으로 FID 1.71을 달성했다. 이는 2B 파라미터 규모의 거대 모델인 JiT-G/16(FID 1.82)을 능가하는 성능으로, 픽셀 공간 디퓨전 모델 중 최상위권의 성능을 보여주었다. Ablation Study를 통해 각 구성 요소의 기여도를 확인했다. 특히 RMS 리스케일링을 제외할 경우 FID가 2.52에서 5.28로 급격히 하락했으며, 구조적 마스킹을 적용하지 않은 입력 드롭아웃 방식(FID 6.69)보다 제안 방식(FID 3.18)이 월등히 뛰어남이 확인됐다.
실무 활용
픽셀 공간 디퓨전 모델의 성능을 적은 비용으로 극대화할 수 있는 설계 방법론을 제시했다. 고품질 이미지 생성이 필요한 실무 환경에서 모델 크기와 학습 시간을 획기적으로 줄이는 데 기여할 수 있다.
- 고해상도 이미지 생성 서비스의 추론 효율화 및 비용 절감
- 특정 도메인(의료, 제조 등) 데이터에 특화된 경량 생성 모델 구축
- 온디바이스 환경을 위한 저사양 이미지 생성 AI 최적화
기술 상세
V-Co는 JiT(Joint-in-Time) 프레임워크를 확장하여 픽셀과 시맨틱 특징을 동시에 처리하는 구조이다. 픽셀 스트림은 이미지의 세부 사항을, 시맨틱 스트림은 DINOv2에서 추출된 고수준 시각 정보를 담당하며, 두 스트림은 Transformer 블록 내에서 상호작용한다. 수학적으로 특징 리스케일링 는 시맨틱 스트림의 노이즈 스케줄을 이동시키는 것과 동일한 효과를 낸다. 이는 두 스트림이 공유하는 타임스텝 에서 동일한 SNR을 갖게 하여, 모델이 어느 한쪽 스트림에 치우치지 않고 균형 있게 학습되도록 보장한다. 손실 함수는 픽셀 복원 손실에 지각-드리프팅 하이브리드 손실을 추가한 형태이다. 하이브리드 손실은 유사도 기반 게이팅 메커니즘을 통해, 생성된 특징이 타겟과 멀 때는 인력을, 너무 뭉칠 때는 척력을 가하여 모드 붕괴를 방지하고 생성 다양성을 높인다.
한계점
본 연구는 ImageNet-256 클래스 조건부 생성이라는 통제된 환경에서 수행되었다. 따라서 텍스트-to-이미지 생성과 같은 더 넓은 범위의 멀티모달 작업이나 고해상도 이미지 생성으로의 확장 가능성에 대해서는 추가적인 검증이 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료