디퓨전 트랜스포머의 풍부한 다양성을 위한 컨텍스트 공간 내 즉시 반발 기법

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

최신 이미지 생성 AI는 품질은 높지만 비슷한 결과물만 반복해서 내놓는 전형성 편향 문제를 겪고 있다. 이 논문은 모델 내부의 텍스트-이미지 상호작용 공간에서 샘플 간 거리를 벌려, 품질 저하 없이도 훨씬 다채로운 이미지를 생성하는 효율적인 기술을 확인했다.

왜 중요한가

핵심 기여

Contextual Space(컨텍스트 공간) 식별 및 활용

DiT 아키텍처의 멀티모달 어텐션 블록 내에서 텍스트와 이미지 토큰이 상호작용하며 형성되는 '컨텍스트 공간'이 이미지의 구조적 정보와 의미적 유연성을 동시에 가짐을 확인했다.

On-the-fly Repulsion(즉시 반발) 메커니즘 도입

추론 과정에서 별도의 최적화나 역전파 없이, 배치 내 샘플들이 서로 다른 시각적 방향을 갖도록 컨텍스트 토큰에 반발력을 가하는 경량화된 기법을 도입했다.

증류된 모델 및 Turbo 모델과의 호환성 확보

기존의 궤적 기반 다양성 확보 기법들이 실패하던 Flux-dev, SD3.5-Turbo와 같은 적은 단계의 추론 모델에서도 시각적 충실도를 유지하며 높은 다양성을 확보했다.

핵심 아이디어 이해하기

기존 Diffusion 모델은 품질을 높이기 위해 확률 분포를 좁히는 방식을 사용하며, 이로 인해 비슷한 이미지만 생성되는 문제가 발생한다. 이를 해결하기 위해 초기 노이즈를 바꾸거나 생성된 픽셀을 밀어내는 방식이 시도되었으나, 연산량이 너무 많거나 이미지 구조가 깨지는 한계가 있었다. 본 논문은 Diffusion Transformer(DiT) 내부에서 텍스트 토큰이 이미지의 시각적 정보를 흡수하여 풍부해지는 'Contextual Space'에 집중했다. 이 공간은 이미지의 구체적인 위치 정보에 얽매이지 않으면서도 생성될 이미지의 전반적인 의도를 담고 있는 유연한 지점이다. 연구진은 이 공간에서 배치 내 샘플들이 서로 멀어지도록 자석의 같은 극처럼 밀어내는 '반발력'을 가했다. 결과적으로 모델은 이미지 품질을 유지하면서도 구도와 특징이 제각각인 다채로운 결과물을 생성하게 된다.

방법론

DiT의 Multimodal Attention 블록에서 텍스트 특징과 이미지 특징이 양방향으로 교환되는 과정을 활용했다. 각 블록을 통과하며 업데이트된 텍스트 토큰을 컨텍스트 공간의 핵심 요소로 정의하고, 배치 내 샘플들을 상호작용하는 입자로 간주하여 반발력을 계산했다. 구체적으로 현재 토큰 값과 다양성 손실 함수의 기울기를 입력으로 하여, 반발 계수를 반복 횟수로 나눈 가중치를 곱해 더하는 연산을 수행함으로써 수정된 토큰 위치를 얻었다. 이 값은 다음 레이어로 전달되어 샘플 간의 시각적 차이를 유도한다. 다양성 손실 함수로는 Vendi Score를 채택하여 샘플 간 유사도 행렬의 고윳값을 입력으로 각 고윳값에 로그를 취해 합산하고 부호를 바꾸는 연산을 수행했다. 이를 통해 배치 내 샘플들이 얼마나 고르게 분포하는지를 나타내는 엔트로피 값을 얻고, 이 값이 커지도록 유도하여 중복되는 의미적 특징을 억제했다.

주요 결과

Flux-dev 모델 실험 결과, 제안 기법은 다양성을 높이면서도 인간 선호도와 프롬프트 일치도 지표에서 기존 최첨단 기법인 SGI보다 우수한 파레토 최적을 달성했다. 특히 최적화 기반 기법 대비 연산 시간을 80% 이상 단축하며 효율성을 입증했다. SD3.5-Turbo와 같은 증류된 모델에서도 4단계의 짧은 추론만으로 이미지 구조 파괴 없이 고품질의 다양한 이미지를 생성하는 데 성공했다. 사용자 평가에서도 다양성(61.1%), 품질(58.0%) 등 모든 주요 지표에서 베이스라인 모델 및 경쟁 기법들보다 높은 선호도를 기록했다.

기술 상세

DiT 아키텍처의 양방향 어텐션을 활용하여 텍스트 임베딩이 이미지 구조 피드백을 받아 동적으로 변하는 지점을 인터벤션 포인트로 설정했다. 컨텍스트 공간의 토큰들은 시퀀스 인덱스에 따라 고정된 의미적 정렬을 유지하므로, 이미지 레이턴트 공간과 달리 샘플 간 직접적인 비교와 반발력 계산이 용이하여 공간적 불일치로 인한 블러링을 방지한다. 구현 측면에서는 역전파 없이 내부 활성화 값에 직접 연산하므로 메모리 추가 사용이 거의 없으며, 추론 시 20~30%의 추가 시간만 소요되는 높은 효율성을 확보했다.

한계점

컨텍스트 반발은 전반적인 다양성을 높이지만 사용자가 특정 속성이 어떻게 변할지 직접 제어할 수는 없다. 또한 생성의 초기 및 중간 단계에 집중되어 있어 후기 단계의 제어 메커니즘과의 최적의 결합 방식은 향후 과제로 남아 있다.

실무 활용

창의적인 작업에서 다양한 시안을 빠르게 확보해야 하는 디자이너나 아티스트에게 유용하며, 최신 고성능 모델의 품질을 유지하면서 중복성을 피할 수 있다.

광고 및 디자인 시안 제작 시 동일 프롬프트로 다채로운 구도 확보
게임 캐릭터 및 배경 컨셉 아트의 다양한 베리에이션 생성
합성 데이터 생성을 위한 시각적 다양성이 확보된 이미지 데이터셋 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

Diffusion Transformer(디퓨전 트랜스포머)Generative Diversity(생성 다양성)Contextual Space(컨텍스트 공간)Text-to-Image(텍스트-이미지 생성)