핵심 요약
사진 한 장으로 3D 모델을 만들 때 보이지 않는 뒷모습은 인공지능이 임의로 생성하기 때문에 제어가 불가능하고 어색한 경우가 많았다. 이 논문은 거대 시각-언어 모델(VLM)의 방대한 지식을 확산 모델을 통해 3D 생성 과정에 주입함으로써, 텍스트 명령만으로 뒷모습의 세부 특징을 정교하게 조절하고 물리적으로 타당한 구조를 만들 수 있게 한다.
왜 중요한가
사진 한 장으로 3D 모델을 만들 때 보이지 않는 뒷모습은 인공지능이 임의로 생성하기 때문에 제어가 불가능하고 어색한 경우가 많았다. 이 논문은 거대 시각-언어 모델(VLM)의 방대한 지식을 확산 모델을 통해 3D 생성 과정에 주입함으로써, 텍스트 명령만으로 뒷모습의 세부 특징을 정교하게 조절하고 물리적으로 타당한 구조를 만들 수 있게 한다.
핵심 기여
Know3D 프레임워크 제안
MLLM의 풍부한 시각적·언어적 지식을 3D 생성 프로세스에 통합하여, 단일 뷰 입력에서도 뒷면 생성의 의미론적 제어력을 확보한 새로운 프레임워크를 구축했다.
VLM-Diffusion 브릿지 구조 설계
추상적인 VLM 표현을 직접 사용하는 대신, 멀티모달 확산 모델의 중간 은닉 상태(Hidden State)를 추출하여 3D 모델에 주입함으로써 공간 인지 능력과 의미론적 일관성을 동시에 개선했다.
공간 인지 능력 강화를 위한 미세조정
Qwen-Image-Edit 모델을 3D 데이터셋의 앞-뒤 이미지 쌍으로 미세조정하여, 뒷면 생성 시 발생하던 시점 오류와 포즈 변형 문제를 해결하고 안정성을 높였다.
정량적·정성적 SOTA 성능 입증
HY3D-Bench 등 주요 벤치마크에서 기존 단일 뷰 3D 생성 모델 대비 우수한 ULIP 및 Uni3D 점수를 기록하며 구조적 타당성과 텍스트 정렬 성능을 증명했다.
핵심 아이디어 이해하기
기존의 단일 이미지 기반 3D 생성은 사진에 찍히지 않은 영역을 모델이 학습한 통계적 분포에 의존해 '환각(Hallucination)'하는 방식이다. 이는 3D 데이터셋의 부족으로 인해 뒷면의 구조가 뭉개지거나 사용자의 의도와 상관없는 무작위한 결과가 나오는 한계를 가진다.
Know3D는 인터넷 규모의 데이터를 학습한 시각-언어 모델(VLM)이 사물의 구조에 대한 방대한 '상식'을 가지고 있다는 점에 주목한다. 하지만 VLM의 추상적인 텍스트/이미지 특징을 3D 공간에 직접 주입하면 기하학적 정렬이 맞지 않는 문제가 발생한다. 이를 해결하기 위해 확산 모델(Diffusion Model)을 중간 다리로 활용한다.
확산 모델이 이미지를 생성하는 과정에서 거치는 중간 단계의 은닉 상태(Hidden State)에는 풍부한 공간 정보와 의미 정보가 담겨 있다. 이 정보를 3D 생성 모델인 TRELLIS2의 Cross-Attention 레이어에 주입함으로써, 텍스트 프롬프트에 따라 뒷면의 형태를 정교하게 설계할 수 있게 된다. 결과적으로 단순한 추측이 아닌, 지식에 기반한 논리적인 3D 복원이 가능해진다.
방법론
전체 아키텍처는 Qwen-Image-Edit 기반의 지식 추출부와 TRELLIS2 기반의 3D 생성부로 구성된다. 입력 이미지 와 뒷면에 대한 텍스트 설명 를 받아 VLM이 의미론적 이해를 수행하고, 확산 모델이 이를 시각적 정보로 구체화하는 과정을 거친다.
확산 모델의 노이즈 제거(Denoising) 과정 중 특정 타임스텝 에서 MMDiT 레이어의 은닉 상태 들을 추출한다. 여러 레이어의 특징값을 결합(Concatenate)하여 구조적-의미론적 조건 신호 를 형성한다. 이 과정에서 [추출된 레이어 특징 → 채널 방향 결합 → 고차원 텐서 생성] 순으로 연산하여 3D 모델이 참조할 수 있는 지식 맵을 만든다.
3D 생성 모델인 TRELLIS2 내부의 Self-Attention 레이어와 병렬로 새로운 Cross-Attention 브랜치를 설계한다. 를 Key와 Value로 입력받아 기존 3D 생성 프리어(Prior)와 결합하며, 학습 안정성을 위해 Zero-initialized 선형 레이어를 통해 출력을 조절한다. [3D 잠재 변수와 사이의 유사도 계산 → 가중치 적용 → 특징 업데이트] 과정을 통해 텍스트 지시사항이 기하 구조에 반영된다.
학습은 2단계로 진행된다. 1단계에서는 Qwen-Image-Edit을 5,000개의 고품질 3D 에셋에서 렌더링한 앞-뒤 이미지 쌍으로 LoRA 미세조정하여 뒷면 생성 능력을 강화한다. 2단계에서는 60,000개의 메쉬 데이터를 사용하여 3D 생성 모델을 학습시키며, Conditional Flow Matching(CFM) 목적 함수를 통해 실제 3D 기하 구조와 모델 출력 사이의 오차를 최소화한다.
주요 결과
HY3D-Bench 테스트 결과, Know3D는 ULIP 점수 0.2174, Uni3D 점수 0.3518을 기록하며 TRELLIS2(0.1948 / 0.3308) 및 Hunyuan3D-2.1(0.2140 / 0.3434) 등 기존 SOTA 모델들을 상회하는 성능을 보였다. 이는 생성된 3D 모델이 입력 이미지 및 텍스트 설명과 매우 높은 의미론적 일치도를 보임을 의미한다.
Ablation Study를 통해 확산 모델의 중간 은닉 상태를 사용하는 것이 VAE 잠재 변수나 DINOv3 특징을 사용하는 것보다 효과적임을 확인했다. 특히 타임스텝 에서 추출한 특징이 전역 레이아웃과 핵심 의미 성분을 가장 잘 보존하여 IoU 0.352, Chamfer Distance 2.262로 최적의 결과를 냈다. 너무 이른 단계()는 저수준 픽셀 정보에 치중하고, 늦은 단계()는 노이즈 간섭이 심해 성능이 저하됐다.
정성적 평가에서 사용자가 "뒷면에 작은 발코니를 추가해줘" 또는 "나무로 된 스윙 도어를 달아줘"와 같은 구체적인 텍스트 명령을 내렸을 때, Know3D는 입력 이미지의 정체성을 유지하면서도 명령에 부합하는 기하학적 구조를 정확히 생성해냈다. 이는 기존 모델들이 단순히 앞면을 복제하거나 무작위한 뒷면을 만들던 것과 차별화되는 결과다.
기술 상세
본 연구는 VLM의 고수준 의미 정보와 확산 모델의 중간 레이어에 내재된 공간적 특징을 3D 생성의 가이드로 활용하는 'Knowledge-guided' 접근법을 취한다. Qwen2.5-VL을 백본으로 하는 Qwen-Image-Edit 모델을 활용하며, Conditional Flow Matching(CFM) 목적 함수를 통해 속도 필드(Velocity Field)를 예측하도록 최적화한다.
3D 생성부에서는 Sparse Voxel을 생성하는 1단계와 고해상도 기하 구조를 복원하는 2단계의 TRELLIS2 파이프라인을 따른다. 각 단계의 DiT 블록에 신호를 주입하기 위해 기존 Self-Attention과 병렬로 작동하는 Cross-Attention 모듈을 추가하여 프리트레이닝된 3D 지식을 보존하면서 새로운 지식을 주입한다.
추출 시 를 선택한 이유는 이 시점이 확산 과정에서 전역적인 레이아웃이 결정되면서도 세부 노이즈의 간섭이 적어 3D 구조적 프리어와 가장 잘 정렬되기 때문이다. 실험을 통해 MMDiT의 20, 30, 40번째 블록의 은닉 상태를 결합하여 사용하는 것이 가장 풍부한 정보를 제공함을 확인했다.
한계점
생성된 3D 에셋의 구조적 견고함은 여전히 기반이 되는 멀티모달 파운데이션 모델(MLLM)의 성능에 의존한다. MLLM이 사용자의 텍스트 지시사항을 잘못 이해할 경우, 물리적으로 불가능하거나 의도와 다른 3D 형태가 생성될 수 있는 한계가 있다.
실무 활용
단일 이미지로부터 사용자가 원하는 세부 특징을 포함한 고품질 3D 모델을 생성할 수 있어 게임, 영화, 가상 현실 콘텐츠 제작 효율을 극대화한다.
- 게임 캐릭터의 앞모습 원화 한 장으로 뒷면 장신구까지 텍스트로 제어하며 3D 모델링 자동화
- 전자상거래 제품 사진을 기반으로 보이지 않는 부분의 디자인을 텍스트로 수정 및 보완하여 3D 에셋 생성
- 가상 현실(VR) 환경 구축 시 2D 이미지를 활용해 사용자의 의도가 반영된 인터랙티브 3D 오브젝트 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.