핵심 요약
기존의 3D 레이아웃 생성 방식은 텍스트를 JSON 형태의 좌표로 변환하는 데 그쳐 가구가 공중에 뜨거나 겹치는 물리적 오류가 잦았다. 이 논문은 3D 생성 모델의 공간 이해 능력을 직접 활용하여 물리적 정합성을 19% 향상시키고 연산 속도를 65% 개선했다.
왜 중요한가
기존의 3D 레이아웃 생성 방식은 텍스트를 JSON 형태의 좌표로 변환하는 데 그쳐 가구가 공중에 뜨거나 겹치는 물리적 오류가 잦았다. 이 논문은 3D 생성 모델의 공간 이해 능력을 직접 활용하여 물리적 정합성을 19% 향상시키고 연산 속도를 65% 개선했다.
핵심 기여
LaviGen 프레임워크 제안
3D 생성 모델을 자기회귀 방식으로 재구성하여 네이티브 3D 공간에서 직접 레이아웃을 합성하는 시스템을 구축했다.
적응형 3D 확산 모델 및 식별자 기반 임베딩
장면, 객체, 명령 정보를 통합하는 확산 모델 아키텍처를 설계하고, RoPE를 확장한 identity-aware embedding을 도입해 객체 간의 기하학적 관계를 명확히 구분했다.
Dual-Guidance Self-Rollout Distillation
자기회귀 생성 시 발생하는 노출 편향(exposure bias) 문제를 해결하기 위해 전체 장면의 품질을 관리하는 홀리스틱 가이던스와 개별 객체 배치를 교정하는 단계별 가이던스를 결합한 증류 기법을 제안했다.
핵심 아이디어 이해하기
기존의 레이아웃 생성은 가구의 위치와 회전값을 텍스트(JSON)로 예측하는 방식이었다. 이는 Transformer가 문장을 생성하듯 좌표 숫자를 맞추는 것에 불과하여, 가구가 벽을 뚫거나 서로 겹치는 물리적 제약 조건을 학습하기 어려웠다. 본 연구는 3D 형상을 직접 생성할 줄 아는 모델이 이미 공간에 대한 강력한 사전 지식(Prior)을 가지고 있다는 점에 주목했다.
LaviGen은 레이아웃 생성을 '다음 가구를 어디에 놓을지' 결정하는 자기회귀 과정으로 정의한다. 이때 3D 확산 모델(Diffusion Model)을 활용하여 현재 방의 상태와 새로 추가할 가구의 형상을 입력받고, 물리적으로 가장 자연스러운 위치를 확률적으로 찾아낸다. 이는 단순한 숫자 예측이 아니라 3D 복셀(Voxel) 공간에서의 밀도 분포를 이해하고 배치하는 방식이다.
결과적으로 모델은 가구 사이의 거리를 계산하거나 물리 법칙을 따로 입력받지 않고도, 3D 생성 모델이 학습한 기하학적 데이터를 바탕으로 자연스러운 배치를 수행한다. 이를 통해 기존 방식에서 빈번했던 가구 겹침 현상을 획기적으로 줄이고 실제 사람이 배치한 것과 유사한 공간 구성을 가능하게 했다.
방법론
LaviGen은 TRELLIS와 같은 최신 3D 생성 모델의 구조적 VAE와 확산 Transformer(DiT)를 기반으로 한다. 전체 프로세스는 LLM이 생성한 가구 목록을 바탕으로 하나씩 순차적으로 배치하는 자기회귀 구조를 따른다.
핵심 메커니즘인 Adapted 3D Diffusion Model은 현재 장면 S와 대상 객체 O를 입력으로 받는다. [장면과 객체의 복셀 잠재 벡터를 입력으로] → [MMDiT 아키텍처를 통해 노이즈를 제거하는 연산을 수행해] → [업데이트된 장면 상태를 얻고] → [이 차이를 통해 객체의 최종 위치, 회전, 스케일을 계산한다].
Identity-aware Positional Embedding은 RoPE(Rotary Position Embedding)를 확장하여 구현했다. [공간 좌표 (h, w, l)와 소스 식별 플래그 f를 입력으로] → [복소수 기반의 위치 주파수 Φ를 계산해] → [토큰에 더함으로써] → [모델이 현재 장면의 토큰과 새로 추가되는 객체의 토큰을 명확히 구분하면서도 동일한 3D 좌표계 내에서 관계를 파악하게 한다].
학습 단계에서는 Dual-guidance self-rollout distillation을 적용한다. 모델이 스스로 생성한 불완전한 궤적(Self-rollout)을 입력으로 사용하며, 최종 장면의 완성도를 평가하는 Holistic Teacher와 매 단계 배치의 정확도를 교정하는 Step-wise Teacher의 신호를 동시에 수신하여 노출 편향을 억제한다.
관련 Figure

기존 방식은 텍스트를 JSON 좌표로 변환한 후 반복적인 시각적 최적화를 거치지만, LaviGen은 3D 생성 모델 내에서 직접 자기회귀적으로 배치를 수행하여 효율성과 정확도를 동시에 잡았음을 보여준다.
기존 LLM/VLM 기반 방식과 LaviGen의 파이프라인 비교 다이어그램
주요 결과
LayoutVLM 벤치마크 실험 결과, LaviGen은 물리적 타당성 지표인 Collision-Free(CF)와 In-Boundary(IB)에서 각각 97.3, 98.6점을 기록하며 기존 SOTA 모델인 LayoutVLM(81.8, 94.9)을 크게 상회했다. 특히 물리적 타당성 측면에서 19% 이상의 성능 향상을 보였다.
효율성 측면에서도 압도적인 성과를 거두었다. 기존의 비전 기반 최적화 방식이 레이아웃 생성에 평균 75.5초가 소요된 반면, LaviGen은 24.3초 만에 작업을 완료하여 계산 시간을 약 65% 단축했다. 이는 반복적인 이미지 렌더링 피드백 없이 네이티브 3D 공간에서 직접 추론하기 때문이다.
Ablation Study를 통해 제안된 구성 요소의 유효성을 검증했다. Identity-aware embedding을 제거했을 때 물리적 지표가 급격히 하락했으며, Dual-guidance 증류 기법이 없을 경우 자기회귀 생성 과정에서 오류가 누적되어 가구가 겹치는 현상이 심화됨을 확인했다.
관련 Figure

LayoutGPT나 LayoutVLM이 가구 겹침이나 공중 부양 문제를 보이는 반면, LaviGen은 복잡한 지시사항에서도 물리적으로 안정적인 배치를 생성함을 입증한다.
다양한 텍스트 프롬프트에 따른 타 모델과의 레이아웃 생성 결과 비교
기술 상세
LaviGen은 3B 파라미터 규모의 DiT(Diffusion Transformer)를 사용하며, 텍스트 인코더로 Qwen2.5-VL-7B-Instruct를 채택하여 정교한 명령어 이해를 도모했다. 3D 자산은 64^3 해상도의 복셀 그리드로 표현되며, 이는 TRELLIS의 구조적 VAE를 통해 잠재 공간으로 압축된다.
자기회귀 생성 시 발생하는 누적 오차를 방지하기 위해 'Diffusion Forcing' 개념을 3D 레이아웃 도메인에 맞게 변형한 증류 전략을 사용한다. Holistic 가이던스는 양방향(Bidirectional) 모델을 교사로 삼아 전체적인 배치의 조화를 감독하고, Step-wise 가이던스는 인과적(Causal) 모델을 통해 각 단계의 즉각적인 교정 신호를 제공한다.
구현 시 ICP(Iterative Closest Point) 알고리즘을 후처리 단계에 도입했다. [생성된 복셀 밀도에서 추출한 표면 포인트와 원본 가구 메쉬를 입력으로] → [최소자승법 기반의 정합 연산을 수행해] → [최적의 변환 행렬을 얻고] → [이를 통해 가구를 고해상도로 정밀하게 배치한다].
관련 Figure

노이즈, 현재 장면 상태, 추가할 객체를 identity-aware embedding과 함께 MMDiT에 입력하여 업데이트된 상태를 생성하는 과정을 시각화했다.
LaviGen의 핵심인 적응형 3D 확산 모델 아키텍처 상세도

LaviGen의 프레임워크가 특정 아키텍처에 종속되지 않고 다양한 3D 백본 모델에서도 일관된 레이아웃 생성 성능을 유지함을 보여준다.
Qwen+Voxel DiT와 Trellis 백본 간의 일반화 성능 비교
한계점
현재 64^3 복셀 그리드 해상도를 사용하고 있어 크기가 매우 작은 객체의 경우 정밀한 좌표 계산에서 미세한 오차가 발생할 수 있다. 또한 복잡한 공간 구성에 대한 고품질 3D 레이아웃 주석 데이터의 부족으로 인해 일부 복잡한 명령에 대한 의미론적 일관성이 완벽하지 않을 수 있다.
실무 활용
LaviGen은 VR/AR 환경 구축, 게임 레벨 디자인, 실내 인테리어 자동화 도구 등 3D 공간 구성이 필요한 실무 분야에 즉시 적용 가능하다.
- 사용자의 텍스트 설명에 기반한 맞춤형 가상 가구 배치 서비스
- 기존 3D 장면에서 특정 가구를 제거하거나 위치를 변경하는 지능형 레이아웃 편집기
- 로봇 시뮬레이션을 위한 물리적으로 타당한 다양한 실내 환경 데이터셋 자동 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.