핵심 요약
기존 3D 생성 AI는 복잡한 기하학적 구조를 모두 토큰화하느라 연산량이 방대하고 초기 생성 결과가 불분명했다. 이 논문은 의미 중심의 토큰 순서를 도입하여 아주 적은 토큰만으로도 완성도 높은 3D 형상을 먼저 그려내고 점진적으로 디테일을 채우는 효율적인 방식을 제시한다.
왜 중요한가
기존 3D 생성 AI는 복잡한 기하학적 구조를 모두 토큰화하느라 연산량이 방대하고 초기 생성 결과가 불분명했다. 이 논문은 의미 중심의 토큰 순서를 도입하여 아주 적은 토큰만으로도 완성도 높은 3D 형상을 먼저 그려내고 점진적으로 디테일을 채우는 효율적인 방식을 제시한다.
핵심 기여
의미론적 중요도 기반의 LoST 토큰화
3D 형상을 기하학적 해상도가 아닌 의미론적 중요도에 따라 정렬하여, 매우 짧은 초기 토큰 시퀀스만으로도 물체의 전체적인 형태와 카테고리를 식별 가능한 수준으로 복원한다.
RIDA 손실 함수 제안
비싼 렌더링 과정 없이 3D 잠재 공간의 관계 구조를 2D DINO 특징 공간과 정렬하는 Relational Inter-Distance Alignment 기법을 통해 3D 모델에 풍부한 의미론적 감독 신호를 제공한다.
압도적인 토큰 효율성 달성
기존 SOTA 3D 자기회귀 모델 대비 0.1%~10% 수준의 토큰만 사용하고도 더 정교한 형상 복원 및 생성 성능을 기록하며 연산 비용을 획기적으로 절감한다.
핵심 아이디어 이해하기
기존 3D 토큰화는 공간을 잘게 쪼개는 LoD(Level of Detail) 방식에 의존했다. 이는 마치 퍼즐 조각을 무작위로 맞추는 것과 같아서, 조각이 절반 이상 모이기 전까지는 전체 그림이 무엇인지 알기 어렵고 자기회귀 모델이 다음 조각을 예측하는 데 큰 부담을 준다. 특히 초기 토큰들이 기하학적으로 너무 단순화되어 의미 없는 파편처럼 보이는 문제가 존재했다.
LoST는 '의미의 중요도'를 기준으로 토큰을 정렬한다. 첫 번째 토큰이 물체의 전체적인 실루엣과 핵심 특징을 결정하고, 뒤로 갈수록 세부적인 부품이나 질감을 묘사하도록 설계했다. 이를 위해 ViT 인코더에 별도의 Register 토큰을 도입하여 기하학적 정보에서 의미적 정보를 추출해내고, 앞쪽 토큰에 정보가 집중되도록 Nested Dropout 기법을 적용했다.
결과적으로 모델은 단 몇 개의 토큰만으로도 논리적으로 완결된 형태를 생성할 수 있다. 이는 추론 속도를 비약적으로 높일 뿐만 아니라, 3D 데이터의 핵심 특징을 압축적으로 표현할 수 있게 하여 검색이나 분석 등 다양한 하위 작업의 효율성을 개선한다. 3D 생성에서도 텍스트나 이미지처럼 의미 단위의 처리가 가능해진 셈이다.
방법론
LoST 인코더는 Direct3D의 VAE 잠재 공간인 트리플레인(Triplane)을 입력으로 받는다. ViT 기반 구조를 사용하며, 입력 패치와 별개로 학습 가능한 Register 토큰()을 추가하여 전체 형상의 요약된 표현을 학습한다. [트리플레인 패치 → ViT 어텐션 → Register 토큰 응축 → 1D 토큰 시퀀스] 과정을 거쳐 기하학적 정보를 의미론적 시퀀스로 변환한다. 이때 Causal Masking과 Nested Dropout을 적용하여 앞쪽 토큰에 핵심 정보를 몰아넣는 계층적 구조를 강제한다.
디코더는 확산 트랜스포머(DiT)를 채택하여 가변 길이의 토큰 접두사를 조건으로 입력받아 3D 잠재 변수를 복원한다. [가변 길이 토큰 → DiT 교차 어텐션 → 노이즈 제거 연산 → 3D 잠재 공간 복원] 과정을 수행한다. 이는 결정론적인 복원이 아닌 생성적 접근 방식을 취함으로써, 정보가 부족한 초기 토큰만으로도 기하학적으로 모호하지 않고 시각적으로 타당한 형상을 만들어내도록 유도한다.
핵심 학습 기법인 RIDA(Relational Inter-Distance Alignment)는 3D 공간과 2D DINO 공간의 관계적 위상을 일치시킨다. [3D 샘플 간 코사인 유사도 계산 → Z-scoring 정규화 → 관계 벡터 생성] 과정을 거쳐 3D 공간의 구조를 정의하고, 이를 DINO 공간에서 추출한 동일한 관계 벡터와 비교하여 MSE 손실을 계산한다. 이 연산은 렌더링 없이도 3D 모델이 이미지 수준의 풍부한 의미 정보를 학습하게 하여, 서로 다른 모달리티 간의 의미적 정렬을 가능하게 한다.
주요 결과
복원 실험에서 LoST는 OctGPT나 VertexRegen 같은 기존 LoD 기반 방식보다 훨씬 적은 토큰으로 더 낮은 Chamfer Distance(CD)와 높은 DINO 유사도를 기록했다. 특히 단 1~4개의 토큰만으로도 기존 모델이 수천 개의 토큰을 사용했을 때와 대등하거나 우수한 의미적 복원 성능을 보였다. 이는 의미 중심의 토큰 정렬이 정보 압축 효율을 극대화했음을 증명한다.
자기회귀 생성(AR Generation) 성능 측정 결과, LoST-GPT는 단 128개의 토큰만 사용하여 FID 34.251을 달성했다. 이는 약 50,000개의 토큰을 사용하는 OctGPT(FID 66.926)나 3,758개를 사용하는 Llama-Mesh(FID 118.576)를 압도하는 수치이다. 토큰 수를 1/400 수준으로 줄이면서도 생성된 형상의 품질과 일관성은 오히려 향상된 결과가 나타났다.
의미 기반 형상 검색(Semantic Retrieval) 작업에서도 RIDA로 학습된 특징점은 기존 트리플레인 잠재 변수보다 월등한 성능을 보였다. Out-of-Distribution 데이터셋에서 mAP@3 점수가 17.47%에서 28.28%로 상승했으며, 이는 모델이 단순한 기하학적 모양 비교를 넘어 물체의 추상적인 의미를 정확히 파악하고 있음을 시사한다.
실무 활용
3D 생성 AI의 추론 비용과 지연 시간을 획기적으로 낮추어 실시간 인터랙티브 서비스 및 모바일 환경에서의 활용도를 높인다.
- 실시간 3D 게임 에셋 프리뷰 및 초고속 초안 생성
- 저대역폭 환경에서 점진적으로 상세해지는 3D 데이터 스트리밍
- 대규모 3D 모델 라이브러리에서의 의미 기반 고속 검색 및 분류
- 모바일 기기 및 웹 브라우저용 경량화 3D 생성 엔진 구축
기술 상세
아키텍처는 VAE-Triplane 기반의 잠재 공간을 활용하며, 인코더는 12개 층의 ViT(임베딩 차원 768, 헤드 16개)를 사용한다. 512개의 Register 토큰을 통해 정보를 병목화하며, 최종적으로 각 토큰은 32차원으로 투영되어 매우 압축된 형태를 유지한다. 디코더는 24개 층의 DiT(숨겨진 차원 1024, 헤드 16개)로 구성되어 가변 길이 입력을 처리한다.
RIDA 손실 함수는 Global Relational Contrast, Inter-Instance Rank Distillation, Spatial Structure Distillation의 세 가지 컴포넌트로 구성된다. 특히 Rank Distillation은 Z-scoring을 통해 모달리티 간의 스케일 차이를 제거하고 순수하게 샘플 간의 상대적 거리 순위만을 정렬한다. 이는 3D-to-2D 정렬 시 발생하는 수렴 불안정성 문제를 해결하는 핵심적인 수학적 장치이다.
학습 데이터셋은 Direct3D 파이프라인을 통해 생성된 30만 개의 고품질 3D 형상을 사용했다. Gemini 2.5 Pro로 생성한 500개 이상의 다양한 카테고리 프롬프트를 Flux.1 이미지 생성 모델에 입력하고 이를 3D로 리프팅하여 데이터의 다양성을 확보했다. 테스트 시에는 Step1X-3D로 생성된 독립적인 1,000개 형상을 사용하여 모델의 일반화 성능을 검증했다.
한계점
현재 VAE 트리플레인 잠재 공간에 국한되어 있어 가우시안 스플래팅(Gaussian Splatting) 등 다른 3D 표현 방식에 대한 확장이 과제로 남아 있다. 또한 확산 디코더 사용으로 인해 순수 자기회귀 디코딩보다 연산량이 다소 증가하며, 극단적으로 적은 토큰(1~4개) 사용 시에는 전체적인 형태는 맞으나 세부적인 아티팩트가 발생할 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료