핵심 요약
기존 AI 스타일 변환 기술은 원본의 색감만 흉내 내는 수준에 그치는 경우가 많았다. 이 논문은 Mixture of Experts(MoE) 구조를 도입하여 이미지의 복잡한 질감, 화풍, 재질까지 정교하게 반영하는 기술적 돌파구를 마련했다. 이를 통해 사용자는 단 한 장의 참조 이미지만으로도 전문가 수준의 고품질 스타일 변환 결과물을 얻을 수 있다.
왜 중요한가
기존 AI 스타일 변환 기술은 원본의 색감만 흉내 내는 수준에 그치는 경우가 많았다. 이 논문은 Mixture of Experts(MoE) 구조를 도입하여 이미지의 복잡한 질감, 화풍, 재질까지 정교하게 반영하는 기술적 돌파구를 마련했다. 이를 통해 사용자는 단 한 장의 참조 이미지만으로도 전문가 수준의 고품질 스타일 변환 결과물을 얻을 수 있다.
핵심 기여
StyleExpert 프레임워크
MoE 구조를 활용하여 얕은 텍스처부터 깊은 시맨틱 수준까지 다양한 스타일을 처리하는 의미론적 인지 프레임워크를 제안함.
InfoNCE 기반 스타일 인코더
스타일 간의 변별력을 높이기 위해 InfoNCE 손실 함수로 사전 학습된 스타일 인코더를 도입하여 MoE 라우터의 수렴 속도와 일반화 성능을 개선함.
StyleExpert-500K 데이터셋
색상 중심과 의미 중심 스타일이 균형을 이루는 50만 개의 고품질 콘텐츠-스타일-결과물 트리플렛 데이터셋을 구축함.
핵심 아이디어 이해하기
기존의 스타일 변환은 주로 이미지의 색상 분포를 맞추는 Color Transfer에 집중했다. 하지만 예술적 스타일은 붓터치, 선의 굵기, 재질감 같은 고차원적인 의미(Semantics)를 포함한다. 기존 모델은 모든 스타일을 하나의 가중치로 처리하려다 보니, 복잡한 스타일의 세부 특징을 놓치고 단순한 색 필터처럼 작동하는 한계가 있었다. StyleExpert는 이를 해결하기 위해 Mixture of Experts(MoE) 개념을 도입했다. 이는 하나의 거대한 모델이 모든 일을 하는 대신, 특정 스타일에 특화된 여러 '전문가(Expert)' LoRA 레이어를 두고 상황에 맞게 골라 쓰는 방식이다. 여기에 SigLIP 기반의 스타일 인코더를 결합하여, 입력된 스타일 이미지가 어떤 특징을 가졌는지 정확히 파악하고 가장 적합한 전문가에게 작업을 배분(Routing)한다. 특히 스타일 인코더 학습에 InfoNCE 손실 함수를 사용하여 비슷한 스타일은 가깝게, 다른 스타일은 멀게 배치하는 Latent Space를 구축했다. 결과적으로 모델은 처음 보는 스타일이라도 기존에 배운 유사한 전문가들의 지식을 조합하여 자연스럽게 재현해낸다. 이는 단순한 색상 모방을 넘어 원본의 구도를 유지하면서도 화풍의 정수를 담아내는 진정한 의미의 스타일 변환을 가능하게 한다.
방법론
전체 아키텍처는 Flux-Kontext를 기반으로 하며, 두 단계의 학습 과정을 거친다. 첫 번째 단계에서는 SigLIP의 중간 레이어 특징들을 MLP를 통해 통합하여 스타일 표현(ei)을 추출하는 스타일 인코더를 학습시킨다. 이때 InfoNCE 손실 함수를 사용하여 동일한 스타일 레이블을 가진 이미지 쌍의 유사도를 극대화한다. 두 번째 단계에서는 학습된 스타일 인코더를 고정한 채 MoE 어댑터를 학습시킨다. DiT(Diffusion Transformer)의 Self-Attention 및 FFN 레이어에 여러 개의 LoRA 전문가를 삽입한다. 라우터 g(es)는 스타일 인코더가 생성한 잠재 벡터 es를 입력받아 각 전문가에게 부여할 가중치 wi를 계산한다. [es → g(es) → wi → Softmax(TopK) → 최종 가중치] 순으로 연산이 이루어지며, 상위 k개의 전문가만 활성화하여 효율성을 높인다. 최종 출력 h'은 원래의 변환 결과 l(h)에 공유 전문가(Shared Expert)와 선택된 전문 전문가(Specialized Experts)들의 기여도를 더해 계산된다. h' = l(h) + (α/r) * (BsAs + ΣwiBiAi) * h 식을 통해, 공통적인 스타일 특징과 개별 스타일의 고유한 특징을 동시에 캡처한다. [입력 벡터 h → LoRA 행렬 연산 → 가중치 합산 → 출력 벡터 h'] 순으로 계산되어 스타일의 깊이를 조절한다.
주요 결과
StyleExpert는 OmniStyle, CSGO, USO 등 기존 SOTA 모델들과의 비교 실험에서 우수한 성능을 보임. 특히 의미론적 스타일 반영 정도를 측정하는 Qwen Semantic Score에서 75.12점을 기록하여, 2위인 Qwen-Image-Edit(42.74점)이나 OmniStyle(40.00점)을 크게 앞질렀음. 사용자 평가(User Study) 결과에서도 74.5%의 선택률을 기록하며 다른 모든 방법론을 압도함. 이는 모델이 생성한 이미지가 시각적으로 더 매력적일 뿐만 아니라, 참조 이미지의 스타일을 가장 충실하게 재현했음을 의미함. Ablation Study를 통해 사전 학습된 스타일 인코더의 중요성을 입증함. 인코더가 없을 경우 MoE 학습이 불안정해지고 수렴 속도가 현저히 느려졌으며, CSD 및 DreamSim 지표에서 성능 저하가 관찰됨. 또한 MoE 구조가 일반 LoRA 파인튜닝보다 더 넓은 범위의 스타일을 효과적으로 수용함을 확인함.
실무 활용
단일 참조 이미지만으로 고품질 스타일 변환이 가능하므로 창작자의 작업 효율을 극대화할 수 있다. 특히 웹툰, 게임 에셋 제작 등 일관된 화풍 유지가 중요한 분야에서 실질적인 도구로 활용될 가능성이 높다.
- 사진을 특정 화가의 화풍이나 애니메이션 스타일로 정교하게 변환
- 게임 캐릭터 시트나 배경 이미지를 일관된 아트 스타일로 생성
- 브랜드 가이드라인에 맞춘 마케팅 이미지 자동 스타일링
- 개인 사진을 고품질 디지털 아트로 변환하는 서비스
기술 상세
본 연구는 DiT 아키텍처 내에서 스타일 정보를 효과적으로 통합하기 위해 MoE와 LoRA를 결합한 구조를 제안함. 각 Transformer 블록의 핵심 연산 지점에 Ne개의 LoRA 전문가를 배치하여 파라미터 효율성을 유지하면서도 모델 용량을 확장했음. 스타일 인코더는 SigLIP의 다중 레이어 특징을 연결(Concatenate)하여 풍부한 시각적 컨텍스트를 확보함. InfoNCE 손실 함수는 배치 내에서 양성 샘플(같은 스타일)과 음성 샘플(다른 스타일)을 구분하도록 유도하며, 이는 라우터가 스타일 공간을 더 세밀하게 분별할 수 있는 Prior를 제공함. 데이터셋 구축 과정에서 Qwen-VL과 CLIP을 활용한 다단계 필터링 파이프라인을 설계함. 특히 Qwen을 사용하여 프롬프트에서 스타일 관련 형용사를 제거함으로써, 스타일 LoRA가 프롬프트의 간섭 없이 순수하게 이미지 특징에만 집중하여 학습 데이터를 생성하도록 유도함.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료