TAPESTRY: 일관된 턴테이블 비디오를 통한 기하학적 구조에서 외형으로의 변환

왜 중요한가

3D 모델에 질감을 입히는 작업은 수작업이 많이 필요하지만, 이 논문은 비디오 생성 AI를 활용해 이를 자동화한다. 특히 기존 모델들이 놓치던 기하학적 일관성을 확보하여, 생성된 비디오만으로도 실제 3D 렌더링 수준의 고품질 자산을 만들 수 있게 한다.

핵심 기여

기하학적 조건부 비디오 확산 프레임워크

3D 메시의 법선(Normal) 및 위치(Position) 맵을 픽셀 단위 가이드로 사용하여 비디오 생성 과정에서 엄격한 기하학적 일관성을 강제함.

3D 인식 인페인팅을 포함한 점진적 텍스처링 파이프라인

자가 가려짐(Self-occlusion) 문제를 해결하기 위해 모델을 회전시키며 미확인 영역을 채워나가는 다단계 생성 방식을 도입함.

효율적인 학습 및 범용적 출력 형식

단일 DGX Spark 서버에서 학습 가능하며, 생성된 비디오는 UV 텍스처 맵 추출이나 3D Gaussian Splatting 학습용 데이터로 즉시 활용 가능함.

핵심 아이디어 이해하기

기존의 3D 텍스처 생성은 여러 각도의 이미지를 독립적으로 생성한 뒤 합치는 방식을 사용했다. 하지만 이는 각 이미지 간의 미세한 차이 때문에 3D 공간에서 합쳤을 때 경계선이 생기거나 질감이 뭉개지는 한계가 있었다. TAPESTRY는 비디오 확산 모델의 시간적 연속성을 활용하여 이 문제를 해결한다.

3D 메시에서 추출한 법선 벡터와 좌표 정보를 입력값으로 주어, AI가 단순히 상상해서 그리는 것이 아니라 정해진 뼈대 위에 색을 칠하도록 유도한다. 이는 마치 색칠 공부 책의 밑그림처럼 AI에게 칠해야 할 위치와 방향을 정확히 알려주는 역할을 하여, 360도 회전 중에도 질감이 고정되도록 만든다.

특히 360도 회전 시 보이지 않는 뒷면이나 굴곡진 부위는 한 번에 그리기 어렵다. 이를 해결하기 위해 이미 그려진 부분을 참고하여 나머지 빈칸을 채우는 인페인팅 기술을 3D 공간과 연결한다. 이를 통해 조각난 이미지들을 이어 붙일 때 발생하는 경계선 문제를 해결하고 매끄러운 전체 외형을 완성한다.

방법론

기하학적 가이드 생성 단계에서는 입력된 3D 메시를 중심으로 원형 궤도를 설정하고, 각 프레임에 대응하는 Normal Video와 Position Map Video를 렌더링한다. Normal Video는 표면의 법선 벡터를 RGB 값으로 변환하여 국부적인 굴곡 정보를 전달하며, Position Map은 3D 좌표를 픽셀 값으로 매핑하여 전역적인 구조 정보를 제공한다.

지오메트리 제어 주입 단계에서는 사전 학습된 Wan2.1 모델의 DiT 블록에 기하학적 특징을 주입한다. [Normal/Position 맵 입력] → [VAE 인코딩 및 컨볼루션 연산] → [기하학적 잠재 변수 생성] → [노이즈 잠재 변수와 결합] 과정을 거쳐 모델이 픽셀 수준에서 3D 구조를 따르도록 강제한다.

점진적 텍스처링 및 3D 인식 인페인팅 단계에서는 첫 번째 생성에서 가려진 영역을 채우기 위해 모델을 최적의 각도로 회전시킨다. [기존 텍스처 투영 결과 입력] → [인페인팅 마스크 적용] → [컨텍스트 기반 재생성] 과정을 반복하여 자가 가려짐 문제를 해결하고 전체 표면의 텍스처를 확보한다.

주요 결과

비디오 일관성 평가 결과, GSO 및 Objaverse 데이터셋에서 PSNR 25.79, SSIM 0.924를 기록하며 기존 SOTA 모델인 Wan2.1-Fun(Canny) 대비 PSNR 기준 약 1.47dB 향상된 성능을 보였다. FVD 수치 또한 189.9로 낮아져 시각적 품질과 일관성이 대폭 개선되었음이 확인됐다.

텍스처 품질 분석에서는 생성된 텍스처의 FID가 26.90, KID가 16.21로 나타났다. 이는 Paint3D(FID 43.47)나 HY3D-2.0(FID 31.45)보다 월등히 우수한 수치로, 실제와 유사한 고품질 질감을 생성함을 입증했다.

사용자 선호도 조사 결과, 초기 참조 이미지와의 일치성(79.8%), 기하학적 일관성(80.9%), 전체 비디오 품질(76.1%) 모든 항목에서 기존 방식보다 압도적인 선호도를 얻었다. 또한 단일 DGX Spark 서버에서 4단계 추론 시 61프레임 비디오 생성에 단 30초가 소요되는 효율성을 보였다.

실무 활용

이 기술은 이커머스 제품의 3D 시각화나 게임 자산 제작 공정을 획기적으로 단축할 수 있다. 텍스처가 없는 화이트 모델만 있으면 고품질의 360도 홍보 영상과 실제 게임에 쓸 수 있는 3D 자산을 동시에 얻을 수 있다.

이커머스 제품의 360도 인터랙티브 미리보기 영상 자동 생성
게임 및 메타버스용 3D 에셋의 텍스처 자동 베이킹
저품질 3D 스캔 모델의 외형 복원 및 고해상도 렌더링
3D Gaussian Splatting 학습을 위한 고정밀 다각도 데이터셋 생성

기술 상세

아키텍처는 VideoX-Fun 프레임워크 기반의 Wan2.1-Fun-V1.1-Control 모델을 백본으로 사용한다. DiT 구조 내의 모든 선형 레이어와 새롭게 제안된 Geometry Control Mix 모듈에 LoRA(rank=128)를 적용하여 효율적인 파인튜닝을 수행했다.

기하학적 조건 주입 시 Normal Map과 Position Map을 동시에 사용한다. Normal Map은 국부적인 표면 디테일을, Position Map은 전역적인 공간 참조를 제공하여 장거리 드리프트(Long-range drift)를 억제한다. Ablation study 결과 두 맵을 모두 사용할 때 가장 높은 성능을 보였다.

텍스처 투영 시 레이 트레이싱을 사용하여 픽셀 정보를 UV 공간으로 역투영한다. 이때 카메라 각도에 따른 가중치(cos θ^4)와 깊이 그래디언트 페널티를 적용하여 경계면의 정렬 오류와 블러링 현상을 최소화했다.

학습 데이터셋은 Objaverse에서 수집한 3만 개의 고품질 3D 에셋을 활용하여 총 12만 개의 턴테이블 비디오를 렌더링하여 구축했다. 조명 변화에 대한 강건성을 위해 4종의 환경 맵과 무작위 광원 설정을 적용했다.

한계점

입력 3D 메시의 품질에 크게 의존하며, 토폴로지가 잘 정의된 깨끗한 메시가 필요하다. 또한 생성된 외형에 비디오 모델의 조명이 포함되어 있어 환경 맵을 통한 재조명(Re-lighting)이 어렵다는 한계가 있다.

키워드

Video Diffusion(비디오 확산 모델)3D Texturing(3D 텍스처링)Geometric Consistency(기하학적 일관성)3DGS(3D 가우시안 스플래팅)Inpainting(인페인팅)