LaDe: 통합 다층 그래픽 미디어 생성 및 분해

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 AI 이미지 생성은 결과물이 하나의 평면 이미지로 나와 수정이 매우 어려웠으나, 이 연구는 배경, 텍스트, 로고 등을 독립적인 레이어로 생성하여 디자이너가 즉시 편집할 수 있는 워크플로우를 제공한다. 레이어 개수를 고정하지 않고 디자인 복잡도에 따라 유연하게 조절할 수 있어 실제 디자인 실무에 즉시 적용 가능한 기술적 토대를 마련했다.

왜 중요한가

핵심 기여

통합 다층 미디어 디자인 프레임워크 LaDe 제안

텍스트를 레이어로 변환(T2L), 텍스트를 이미지로 변환(T2I), 이미지를 레이어로 분해(I2L)하는 세 가지 작업을 단일 모델로 수행하는 통합 프레임워크를 구축했다.

4D RoPE 기반의 정교한 레이어-텍스트 정렬

높이, 너비, 레이어 인덱스, 토큰 역할을 포함하는 4차원 회전 위치 인코딩(4D RoPE)을 도입하여 각 레이어의 시각적 정보와 텍스트 설명을 정확하게 연결했다.

알파 채널을 지원하는 RGBA VAE 구현

투명도 정보를 포함하는 RGBA 공간에서 직접 작동하는 VAE를 설계하여 레이어 간의 자연스러운 블렌딩과 그림자 효과를 보존했다.

가변 레이어 및 종횡비 지원을 위한 버케팅/패킹 전략

디자인의 복잡도에 따라 레이어 수를 자유롭게 조절하고 다양한 화면 비율을 효율적으로 처리하기 위해 유사한 크기의 샘플을 그룹화하는 학습 기법을 적용했다.

핵심 아이디어 이해하기

기존 Diffusion 모델은 이미지를 하나의 캔버스(Raster)로 생성하기 때문에 특정 요소만 수정하려면 복잡한 마스킹이나 인페인팅이 필요했다. 이는 레이어 단위로 작업하는 전문 디자이너의 워크플로우와 괴리가 크며, 레이어 생성을 시도한 기존 연구들도 레이어 수를 고정하거나 공간적으로 연속된 영역만 처리할 수 있다는 한계가 있었다.

LaDe는 이를 해결하기 위해 LLM을 활용해 단순한 사용자 입력을 상세한 레이어별 설명으로 확장하고, 이를 Latent Diffusion Transformer와 연결한다. 핵심은 4D RoPE(Rotary Positional Encoding)로, 모델이 각 토큰이 어떤 레이어의 어느 위치에 속하는지, 그리고 그것이 텍스트인지 이미지인지를 명확히 인지하게 하여 복잡한 디자인 요소를 논리적인 레이어로 분리해 생성한다.

결과적으로 사용자는 '음악 페스티벌 포스터'라는 짧은 문구만으로도 배경 이미지, 타이포그래피, 장식 요소가 완벽히 분리된 편집 가능한 디자인 파일을 얻을 수 있다. 이는 AI가 단순한 이미지 생성기를 넘어 실제 디자인 도구의 핵심 엔진으로 진화했음을 의미한다.

방법론

전체 시스템은 Prompt Expander, Diffusion Model, RGBA VAE의 세 가지 핵심 컴포넌트로 구성된다. Prompt Expander는 Flan-T5 XXL 모델을 사용하여 짧은 사용자 의도를 Scene Description, Layers Caption, Type으로 구성된 구조화된 텍스트로 확장한다.

Diffusion Model은 11B 파라미터 규모의 Transformer 아키텍처를 채택했으며, 4D RoPE 메커니즘을 사용한다. [높이(H), 너비(W), 레이어 인덱스(F), 토큰 역할(R) 값을 입력으로] → [각 차원에 할당된 임베딩을 합산하여 회전 행렬 연산을 수행해] → [위치 정보가 주입된 쿼리와 키 벡터를 얻고] → [이를 통해 모델이 레이어 간의 순서와 텍스트-이미지 간의 관계를 학습한다].

RGBA VAE는 투명도(Alpha) 채널을 포함한 4채널 데이터를 처리한다. [RGBA 이미지 x를 입력으로] → [인코더가 잠재 공간으로 투영하고 디코더가 다시 복원하는 연산을 수행해] → [재구성된 RGBA 이미지를 얻으며] → [L1 손실과 LPIPS 손실을 조합하여 투명한 경계면의 시각적 품질을 극대화한다].

주요 결과

Crello 테스트 셋에서 GPT-4o mini와 Qwen3-VL을 판정단(VLM-as-a-judge)으로 활용해 성능을 평가했다. 텍스트-레이어 생성 작업에서 LaDe는 레이어 수(2~5개)에 관계없이 Qwen-Image-Layered 모델을 일관되게 압도하는 점수를 기록했다.

이미지-레이어 분해(Decomposition) 실험에서는 2개 레이어 분해 시 PSNR 32.65를 달성하여 기존 SOTA 모델인 Qwen-Image-Layered(31.59)보다 우수한 복원 성능을 보였다. 특히 텍스트 요소를 중복 생성하거나 가려진 영역을 잘못 추론하는 기존 모델의 한계를 극복하고 의미론적으로 명확한 레이어 분리를 구현했다.

기술 상세

LaDe는 Latent Diffusion Transformer 기반의 통합 아키텍처를 사용하여 생성과 분해를 동시에 학습한다. 학습 시 레이어 샘플링 조건화를 통해 텍스트-이미지(T2I), 텍스트-레이어(T2L), 이미지-레이어(I2L) 작업을 단일 가중치 세트로 처리한다.

4D RoPE는 총 128차원 임베딩을 사용하며, 공간 좌표(H, W)에 56차원, 레이어 인덱스(F)에 12차원, 토큰 역할(R)에 4차원을 할당한다. 이는 모델이 레이어의 깊이(Depth) 정보를 명시적으로 이해하게 하여 레이어 간 폐색(Occlusion) 관계를 정확히 처리하도록 돕는다.

가변 레이어 수와 종횡비를 효율적으로 처리하기 위해 Bucketing과 Packing 기법을 도입했다. 유사한 종횡비와 레이어 수를 가진 샘플들을 그룹화하고, 패딩을 최소화하기 위해 선형 텐서로 패킹하여 GPU 메모리 활용도를 최적화했다.

학습은 256개의 H100 GPU에서 멀티 해상도 전략으로 진행되었으며, 800만 개의 미디어 디자인 데이터와 8,000만 개의 자연어 이미지를 포함한 대규모 데이터셋을 활용했다.

한계점

LLM 기반의 프롬프트 확장에 의존하기 때문에 LLM의 확률적 특성에 따라 생성된 프롬프트의 품질이 변할 수 있다. 또한 많은 수의 레이어를 생성할 때 높은 VRAM 소모가 발생하여 하드웨어 자원에 따른 확장성 제한이 존재한다.

실무 활용

전문 디자이너가 즉시 편집할 수 있는 레이어 기반 디자인 초안을 생성하거나, 기존 평면 이미지를 편집 가능한 레이어로 분리하는 데 활용 가능하다.

포스터, 플라이어 등 마케팅 에셋의 레이어 단위 자동 생성
기존 로고나 배너 이미지의 레이어 분해 및 텍스트 수정
모바일 앱 화면의 UI 구성 요소별 레이어 생성
다양한 종횡비에 대응하는 반응형 디자인 에셋 제작

코드 공개 여부: 비공개

키워드

Diffusion Transformer(확산 트랜스포머)Layered Media Design(계층형 미디어 디자인)4D RoPE(4차원 회전 위치 인코딩)RGBA VAE(RGBA 변분 오토인코더)Image Decomposition(이미지 분해)