핵심 요약
텍스트 프롬프트만으로는 얼굴의 미세한 구조나 배치를 정밀하게 제어하기 어렵다는 기존 생성 모델의 한계를 극복했다. 별도의 보조 모듈 없이 하나의 통합된 모델로 마스크와 스케치 등 다양한 공간 정보를 텍스트와 결합하여 실제 사진 같은 얼굴 합성을 가능하게 한다.
왜 중요한가
텍스트 프롬프트만으로는 얼굴의 미세한 구조나 배치를 정밀하게 제어하기 어렵다는 기존 생성 모델의 한계를 극복했다. 별도의 보조 모듈 없이 하나의 통합된 모델로 마스크와 스케치 등 다양한 공간 정보를 텍스트와 결합하여 실제 사진 같은 얼굴 합성을 가능하게 한다.
핵심 기여
통합 이중 스트림 아키텍처 설계
텍스트(의미)와 공간(구조) 정보를 병렬 스트림으로 처리하고 매 블록마다 깊게 융합하는 단일 트랜스포머 구조를 구축하여 모달리티 간 충돌을 방지했다.
공유 RoPE Attention 메커니즘 도입
회전 위치 임베딩을 활용한 어텐션 레이어를 통해 1차원 텍스트 토큰과 2차원 이미지 패치 간의 정밀한 정렬을 구현하고 시각적 일관성을 높였다.
동적 모달리티 임베더 개발
재학습 없이도 마스크나 스케치 등 서로 다른 공간적 제약 조건을 모델이 실시간으로 해석하고 적응할 수 있는 경량 임베딩 층을 제안했다.
VLM 기반 100만 건의 고품질 데이터셋 구축
InternVL3를 활용해 FFHQ 및 CelebA-HQ 데이터셋에 상세한 텍스트 캡션을 추가하여 텍스트-이미지 간의 대응 관계 학습 성능을 극대화했다.
핵심 아이디어 이해하기
기존의 확산 모델은 텍스트를 입력받아 이미지를 생성하지만, 눈의 위치나 얼굴형 같은 구체적인 공간적 배치를 제어하는 데는 한계가 있다. 이를 해결하기 위해 ControlNet처럼 기존 모델에 보조 장치를 붙이는 방식을 사용해왔으나, 이는 텍스트와 공간 정보가 서로 충돌하거나 조화롭게 섞이지 못하는 문제를 야기했다.
MMFace-DiT는 텍스트(의미)와 마스크/스케치(공간)를 대등한 파트너로 취급한다. 두 정보를 별도의 스트림으로 나누어 병렬로 처리하되, 트랜스포머의 핵심인 Attention 단계에서 두 정보를 하나로 섞어 계산한다. 이때 RoPE(Rotary Position Embedding) 기술을 사용하여 이미지의 2차원 위치 정보와 텍스트의 1차원 순서 정보를 하나의 수학적 공간에서 정렬한다.
결과적으로 특정 정보가 결과를 압도하지 않고, '금색 귀걸이를 한 여성'이라는 텍스트와 '특정 얼굴 윤곽'이라는 스케치가 완벽하게 일치하는 고해상도 얼굴 이미지를 생성할 수 있게 된다.
방법론
전체 구조는 DiT-XL 설계를 기반으로 하며, 13억 4,500만 개의 파라미터를 가진 28개의 트랜스포머 블록으로 구성된다. 입력 단계에서 노이즈가 섞인 이미지 잠재 변수와 공간 조건(마스크/스케치)을 채널 방향으로 결합하여 패치 토큰으로 변환하고, 텍스트는 CLIP 인코더를 통해 토큰화한다.
핵심 메커니즘인 Dual-Stream Block은 이미지 토큰과 텍스트 토큰을 병렬로 처리한다. Shared RoPE Attention 레이어에서 이미지 패치의 2D 좌표와 텍스트의 1D 순서 값을 입력으로 받아 회전 행렬을 곱하는 연산을 수행한다. 이를 통해 각 토큰의 상대적 위치 관계가 벡터의 회전 각도로 표현되고, 어텐션 메커니즘이 공간적 거리와 문맥적 거리를 동시에 이해하게 된다.
AdaLN(Adaptive Layer Normalization)은 타임스텝, 텍스트, 모달리티 정보를 합친 글로벌 벡터를 입력으로 받아 선형 레이어를 통해 스케일과 시프트 값을 계산한다. 이 값들이 각 트랜스포머 블록의 정규화 층 출력에 곱해지고 더해짐으로써, 모델 전체의 활성화 맵이 현재 입력 조건(마스크인지 스케치인지)에 최적화된 형태로 변형된다.
주요 결과
텍스트와 마스크 조건부 생성 실험에서 FID 16.63을 기록하며 기존 SOTA 모델인 ControlNet(49.39)이나 MM2Latent(49.78)를 크게 앞질렀다. 특히 구조적 일관성을 측정하는 mIoU 지표에서 50.12를 달성해 공간 제어 능력이 탁월함을 입증했다.
텍스트와 스케치 조건부 생성에서도 FID 9.14를 기록하여 2위 모델인 MM2Latent(40.91) 대비 압도적인 성능 향상을 보였다. 텍스트 정렬도를 측정하는 CLIP Score와 LLM Score에서도 가장 높은 점수를 획득했다.
Ablation Study 결과, Modality Embedder 도입 시 FID가 9.1% 개선되었으며, Dual-Stream 구조와 RoPE Attention을 추가할 때마다 텍스트-이미지 정렬 성능이 계단식으로 상승했다. VAE 백본 비교에서는 Flux VAE가 가장 우수한 시각적 품질을 제공하는 것으로 나타났다.
기술 상세
MMFace-DiT는 16채널의 Flux VAE를 사용하여 고해상도 이미지를 압축된 잠재 공간에서 처리한다. 아키텍처는 DiT-XL 설계를 따르며 1152의 Hidden Size와 16개의 Attention Head를 갖는다. 기존의 보조 네트워크 방식과 달리, 단일 모델 내에서 Modality Embedder를 통해 입력 모달리티를 식별하는 플래그를 임베딩하여 글로벌 컨텍스트에 주입한다.
학습은 DDPM(Denoising Diffusion Probabilistic Models)과 RFM(Rectified Flow Matching) 두 가지 방식을 모두 지원하며, RFM 방식이 FID 측면에서 더 우수한 결과를 보였다. 256x256 해상도에서 300 에포크 학습 후 512x512 해상도로 파인튜닝하는 2단계 점진적 학습 전략을 채택했다.
데이터 효율성을 위해 InternVL3 VLM을 사용하여 FFHQ 및 CelebA-HQ 이미지에 대해 이미지당 10개의 상세한 캡션을 생성했다. 이 100만 개의 캡션 데이터셋은 텍스트 프롬프트와 이미지 특징 간의 미세한 대응 관계를 학습하는 데 핵심적인 역할을 했다.
한계점
본 논문은 주로 성능 향상에 집중하고 있으며, 특정 VAE 백본(SD3 등) 사용 시 발생할 수 있는 색상 포화나 광택 현상 등 외부 모듈의 특성에 따른 결과 차이를 언급하고 있으나 모델 자체의 명시적 한계점은 기술하지 않았다.
실무 활용
정교한 얼굴 합성이 필요한 그래픽 디자인, 게임 캐릭터 생성, 디지털 휴먼 제작 분야에 즉시 적용 가능한 기술이다.
- 스케치를 기반으로 한 맞춤형 초상화 생성 서비스
- 세그멘테이션 마스크를 이용한 정밀한 얼굴 속성(머리색, 액세서리 등) 편집 도구
- 고품질 얼굴 데이터셋 생성을 위한 합성 데이터 파이프라인
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.