MegaStyle: 일관된 텍스트-이미지 스타일 매핑을 통한 다양하고 확장 가능한 스타일 데이터셋 구축

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

이미지 스타일 전이 기술은 스타일과 콘텐츠를 분리하는 데 어려움을 겪어왔으며, 고품질의 스타일 쌍 데이터를 대량으로 확보하기가 매우 힘들었다. 이 논문은 최신 생성 모델의 일관된 스타일 매핑 능력을 활용해 140만 개의 대규모 스타일 데이터셋을 구축하는 자동화 파이프라인을 제시하여 이 문제를 해결한다. 이를 통해 누구나 특정 화풍이나 질감을 정확하게 모방하고 제어할 수 있는 강력한 스타일 인코더와 생성 모델을 학습할 수 있게 된다.

왜 중요한가

이미지 스타일 전이 기술은 스타일과 콘텐츠를 분리하는 데 어려움을 겪어왔으며, 고품질의 스타일 쌍 데이터를 대량으로 확보하기가 매우 힘들었다. 이 논문은 최신 생성 모델의 일관된 스타일 매핑 능력을 활용해 140만 개의 대규모 스타일 데이터셋을 구축하는 자동화 파이프라인을 제시하여 이 문제를 해결한다. 이를 통해 누구나 특정 화풍이나 질감을 정확하게 모방하고 제어할 수 있는 강력한 스타일 인코더와 생성 모델을 학습할 수 있게 된다.

핵심 기여

MegaStyle 데이터 큐레이션 파이프라인

대형 생성 모델의 일관된 텍스트-이미지 매핑 능력을 활용하여 스타일 내 일관성(intra-style consistency)과 스타일 간 다양성(inter-style diversity)을 동시에 확보하는 자동화된 데이터 생성 체계를 구축했다.

MegaStyle-1.4M 대규모 데이터셋 구축

17만 개의 스타일 프롬프트와 40만 개의 콘텐츠 프롬프트를 조합하여 총 140만 개의 고품질 스타일 이미지 쌍을 생성했다. 이는 기존 WikiArt나 JourneyDB보다 훨씬 정교한 스타일 제어가 가능하다.

MegaStyle-Encoder 및 MegaStyle-FLUX 모델

구축된 데이터셋을 바탕으로 스타일 전용 표현을 추출하는 인코더와 FLUX 기반의 스타일 전이 모델을 학습시켜, 기존 SOTA 모델들을 상회하는 스타일 유사도와 텍스트 정렬 성능을 달성했다.

핵심 아이디어 이해하기

기존의 스타일 전이 모델은 주로 CLIP과 같은 범용 이미지 인코더를 사용해 스타일 정보를 추출했다. 하지만 CLIP은 이미지의 의미론적 내용(Content)에 편향되어 있어, 붓 터치나 질감 같은 순수 스타일 정보를 정교하게 분리해내지 못하는 한계가 있었다. 또한, 동일한 스타일을 공유하면서 내용만 다른 이미지 쌍을 대량으로 구하기 어려워 지도 학습(Supervised Learning)을 적용하기가 매우 까다로웠다.

이 논문은 Qwen-Image와 같은 최신 텍스트-이미지 생성 모델이 동일한 스타일 프롬프트에 대해 매우 일관된 화풍을 생성한다는 점에 착안했다. 예를 들어 '아이들의 그림 스타일'이라는 프롬프트를 고정하고 자동차, 로켓, 새를 생성하면, 모델은 각기 다른 사물을 그리면서도 동일한 질감과 색감을 유지한다. 이를 통해 인위적으로 완벽하게 정렬된 스타일-콘텐츠 쌍 데이터를 무한히 생성할 수 있는 기반을 마련했다.

결과적으로 이렇게 생성된 140만 개의 데이터를 통해 모델은 '무엇을 그렸는지'와 상관없이 '어떻게 그려졌는지'에 집중하는 법을 배운다. 이는 스타일 인코더가 콘텐츠의 간섭 없이 순수한 스타일 특징만을 임베딩 공간에 매핑할 수 있게 하여, 복잡한 예술적 화풍도 정확하게 측정하고 전이할 수 있게 만든다.

방법론

데이터 구축은 이미지 풀 수집, 프롬프트 큐레이션 및 균형 조정, 스타일 이미지 생성의 3단계로 구성된다. 먼저 WikiArt와 JourneyDB 등에서 200만 개의 스타일 이미지를 수집한 후, Qwen3-VL을 사용하여 색상 구성, 빛의 분포, 예술적 매체, 질감, 붓 터치 등 5가지 핵심 스타일 요소를 포함한 상세 캡션을 생성한다. 이후 Hierarchical k-means 알고리즘을 적용해 17만 개의 균형 잡힌 스타일 프롬프트를 선별한다.

MegaStyle-Encoder 학습을 위해 스타일 감독 대조 학습(Style-Supervised Contrastive Learning, SSCL)을 제안했다. 동일한 스타일 프롬프트에서 생성된 서로 다른 콘텐츠의 이미지들을 양성 샘플(Positive pair)로 설정한다. 이미지 인코더 Eθ를 통해 추출된 특징 벡터 zi와 zj에 대해 코사인 유사도를 계산하고, 이를 InfoNCE 손실 함수에 대입하여 동일 스타일 간의 거리는 좁히고 타 스타일과의 거리는 멀어지도록 가중치를 갱신한다.

MegaStyle-FLUX는 FLUX.1-dev 모델을 기반으로 설계됐다. 참조 스타일 이미지를 VAE로 인코딩한 후 패치화(Patchify)하여 시각적 토큰을 생성한다. 여기에 위치 정보 충돌을 방지하기 위한 Shifted RoPE를 적용하고, 노이즈가 섞인 타겟 이미지 토큰 및 텍스트 토큰과 결합하여 Diffusion Transformer의 입력값으로 사용한다. 학습 시에는 타겟 이미지의 콘텐츠 설명만을 텍스트 프롬프트로 사용하여 스타일 정보가 참조 이미지로부터만 유입되도록 유도한다.

주요 결과

MegaStyle-Encoder는 StyleRetrieval 벤치마크에서 ViT-L 백본 기준 mAP@1 87.26%, Recall@10 97.61%를 기록하며 기존 CSD(mAP@1 45.60%)를 압도적인 차이로 제쳤다. 이는 모델이 이미지의 내용에 현혹되지 않고 스타일의 미세한 차이를 정확히 식별함을 의미한다.

MegaStyle-FLUX를 이용한 스타일 전이 실험에서도 우수한 성과를 보였다. 사용자 평가 결과, 스타일 일관성(Human Style) 점수 31.37, 텍스트 정렬(Human Text) 점수 28.72를 기록하여 InstantStyle(18.19 / 10.98)이나 StyleShot(15.21 / 13.69) 등 기존 주요 모델들보다 두 배 가까운 선호도를 얻었다.

Ablation Study를 통해 데이터셋의 규모와 품질의 중요성을 입증했다. OmniStyle-150K 데이터셋으로 학습한 모델은 기본적인 색상만 전이하는 데 그친 반면, MegaStyle-1.4M으로 학습한 모델은 3D 렌더링, 수묵화, 픽셀 아트 등 복잡한 고차원 스타일의 질감과 구조를 완벽하게 재현했다.

기술 상세

MegaStyle-Encoder는 SigLIP-so400m-patch14-384를 베이스 모델로 사용하며, 8,192의 대규모 배치 사이즈로 학습되어 변별력 있는 스타일 표현을 학습한다. 정규화를 위해 SigLIP 이미지-텍스트 대조 손실(Litc)을 추가하여 텍스트 프롬프트와의 정렬도 유지한다. MegaStyle-FLUX는 FLUX.1-dev에 LoRA(Rank 128)를 적용하여 3만 스텝 동안 학습되었으며, FlowMatch Scheduler를 사용하여 추론 효율을 높였다. 특히 스타일 참조 이미지의 토큰에 Shifted RoPE를 적용함으로써 생성 과정에서 발생할 수 있는 위치 정보의 혼선과 콘텐츠 누출(Content Leakage) 문제를 효과적으로 해결했다.

한계점

현재 VLM의 한계로 인해 매우 드물거나 특이한 스타일을 인식하고 캡션화하는 데 어려움이 있다. 또한 Qwen-Image 모델 자체의 편향성으로 인해 '일본 화풍' 프롬프트 입력 시 에도 시대나 메이지 시대의 특정 인물상이 자주 등장하는 등 특정 스타일에 대한 연상 편향(Association Bias)이 존재한다.

실무 활용

대규모 고품질 스타일 데이터셋과 강력한 인코더를 제공하여 상업적 예술 창작 및 디자인 자동화 도구에 즉시 적용 가능하다.

사용자가 제공한 한 장의 사진 스타일을 다른 사진에 완벽하게 입히는 고성능 카메라 필터 서비스
특정 작가의 화풍이나 기업의 브랜드 가이드라인을 유지하면서 새로운 마케팅 에셋을 생성하는 디자인 에이전트
게임 및 애니메이션 제작 시 컨셉 아트의 스타일을 일관되게 유지하며 다양한 캐릭터와 배경 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

Style Transfer(스타일 전이)Contrastive Learning(대조 학습)Diffusion Transformer(확산 트랜스포머)Data Curation(데이터 큐레이션)Style Representation(스타일 표현 추출)