OneWorld: 3D 통합 표현 오토인코더를 활용한 3D 장면 생성 제어

기존 3D 생성 기술의 고질적 문제인 시점 이동 시의 화면 깨짐과 구조적 불일치를 3D 통합 잠재 공간에서의 직접 확산 방식으로 해결했다. 이를 통해 단일 이미지로부터 어떤 각도에서도 완벽하게 연결되는 고품질 3D 가우시안 스플래팅 장면을 즉시 생성할 수 있어 가상 환경 구축 비용을 획기적으로 낮춘다.

핵심 요약

왜 중요한가

핵심 기여

3D 통합 표현 오토인코더(3D-URAE) 설계

3D 파운데이션 모델을 기반으로 외형 정보 주입과 의미론적 증류를 결합하여 기하학, 외형, 의미가 공존하는 통합 3D 잠재 공간을 구축함.

교차 뷰 대응(CVC) 일관성 손실 도입

확산 모델 학습 과정에서 여러 시점 간의 토큰 수준 대응 관계를 강제하여, 생성된 장면의 구조적 정렬과 시각적 일관성을 극대화함.

매니폴드 드리프트 포싱(MDF) 전략 제안

학습과 추론 사이의 샘플링 오차로 발생하는 왜곡을 방지하기 위해, 노이즈가 섞인 잠재 변수와 원본 변수를 혼합하여 디코더를 학습시킴으로써 복원 안정성을 높임.

핵심 아이디어 이해하기

기존의 3D 장면 생성은 주로 2D 비디오 확산 모델에 의존했다. 하지만 2D 픽셀 간의 관계만으로는 복잡한 3D 기하학적 구조를 완벽히 이해하기 어렵고, 시점이 크게 변하면 물체의 모양이 변하는 일관성 붕괴 현상이 발생한다. 이는 2D 잠재 공간이 3D 공간의 물리적 제약을 명시적으로 반영하지 못하기 때문이다.

OneWorld는 3D 파운데이션 모델을 기반으로 한 3D-URAE를 통해 이 문제를 해결한다. 이는 이미지의 의미(Semantics)와 겉모습(Appearance)을 3D 토큰(Token)이라는 하나의 통합된 표현으로 변환한다. 생성 과정 자체가 3D 공간 내에서 직접 이루어지므로, 어떤 각도에서 렌더링하더라도 기하학적 모순이 발생할 여지를 원천적으로 차단한다.

특히 CVC 손실 함수를 통해 서로 다른 각도에서 본 토큰들이 공간상의 동일한 지점을 가리키도록 정렬한다. 결과적으로 복잡한 실내외 환경에서도 끊김 없는 시점 전환과 고해상도 3D 가우시안 스플래팅(3DGS) 결과물을 얻을 수 있으며, 이는 기존 2D 기반 방식보다 훨씬 견고한 3D 구조를 보장한다.

방법론

3D-URAE 아키텍처. π3 모델을 뼈대로 삼아 DINOv2에서 추출한 의미 토큰과 별도의 합성곱 인코더로 얻은 외형 토큰을 결합한다. [입력 이미지 I → 인코더 E_app, E_patch → 3D 토큰 V] 과정을 통해 기하학적 구조와 시각적 세부 사항이 통합된 잠재 공간을 형성한다.

교차 뷰 대응(CVC) 메커니즘. 타겟 뷰와 조건부 뷰의 토큰 간 코사인 유사도를 계산하여 대응 관계를 식별한다. [두 뷰의 토큰 쌍 → 코사인 유사도 연산 → 대응 확률 분포 생성] 과정을 거쳐 시점 간 구조적 정렬을 강제하는 교차 엔트로피 손실 함수를 적용한다.

매니폴드 드리프트 포싱(MDF). 추론 시 발생하는 샘플링 드리프트를 해결하기 위해, 실제 데이터와 확산 모델이 생성한 중간 단계의 노이즈 데이터를 특정 비율 α로 섞어 디코더를 학습시킨다. [원본 토큰 V + 예측 토큰 V_hat_0 → 가중치 합산 → 혼합 토큰 V_tilde] 연산으로 디코더가 오차를 스스로 보정하며 복원하도록 유도한다.

주요 결과

RealEstate10K 데이터셋에서 21.57 PSNR과 0.735 SSIM을 기록하며 기존 SOTA 모델인 FlashWorld(20.18 PSNR)와 Gen3R(20.09 PSNR)을 유의미한 차이로 앞질렀다. 특히 지각적 품질 지표인 LPIPS에서 0.231을 달성하여 가장 선명하고 실제와 유사한 이미지를 생성함을 입증했다.

야외 데이터셋인 DL3DV-10K에서도 17.19 PSNR을 기록하며 실외 환경에 대한 일반화 성능을 보여주었다. WorldScore 벤치마크의 3D 일관성(3D Consist.) 항목에서 84.98점을 획득하여 시점 이동 시의 안정성이 경쟁 모델 대비 월등히 높음을 확인했다.

실무 활용

단일 이미지나 텍스트 프롬프트만으로 즉시 탐색 가능한 고품질 3D 장면을 생성할 수 있어 게임, VR/AR 콘텐츠 제작 효율을 획기적으로 높인다.

부동산 매물 사진 한 장으로 내부를 자유롭게 둘러볼 수 있는 가상 투어 생성
게임 개발 시 컨셉 아트로부터 즉각적인 3D 레벨 디자인 프로토타이핑
자율주행 및 로봇 학습을 위한 다양한 구조의 가상 환경 시뮬레이션 데이터 생성

기술 상세

전체 시스템은 3D-URAE, 확산 모델(DiT), 3DGS 디코더의 3단계 파이프라인으로 구성된다. 3D-URAE는 고차원 의미 특징을 3D 가우시안 파라미터로 변환 가능한 저차원 매니폴드로 압축하여 생성 효율을 높인다.

확산 모델은 DiT(Diffusion Transformer) 아키텍처를 채택하여 3D 토큰 공간에서 직접 노이즈 제거를 수행한다. 이때 x0-prediction 파라미터화를 사용하여 고차원 토큰 공간에서의 수렴 속도를 높이고 잔류 아티팩트를 최소화했다.

CVC 손실은 최인접 이웃(Nearest-Neighbor) 매칭 패턴을 정렬하여, 확산 과정 중에도 기하학적 구조가 유지되도록 정규화한다. 임계값 τ=0.9를 적용해 신뢰도 높은 매칭만 학습에 반영함으로써 노이즈에 의한 구조 왜곡을 방지한다.

MDF는 학습-추론 노출 편향(Exposure Bias) 문제를 해결하기 위한 기법으로, 디코더가 매니폴드에서 벗어난(off-manifold) 잠재 변수를 다시 유효한 3D 기하 구조로 투영하는 연산자 역할을 수행하도록 설계되었다.

한계점

데이터셋의 규모와 다양성 한계로 인해 희귀한 장면이나 극단적인 시점에서는 성능이 저하될 수 있다. 또한 상대적으로 낮은 해상도에서 학습 및 디코딩이 이루어져 미세한 질감이나 얇은 구조의 표현에 한계가 있다.

키워드

3D Scene Generation(3D 장면 생성)Diffusion Model(확산 모델)3D Gaussian Splatting(3D 가우시안 스플래팅)Representation Learning(표현 학습)Cross-View Consistency(교차 뷰 일관성)

OneWorld: 3D 통합 표현 오토인코더를 활용한 3D 장면 생성 제어

핵심 요약

왜 중요한가

핵심 기여

3D 통합 표현 오토인코더(3D-URAE) 설계

3D 파운데이션 모델을 기반으로 외형 정보 주입과 의미론적 증류를 결합하여 기하학, 외형, 의미가 공존하는 통합 3D 잠재 공간을 구축함.

교차 뷰 대응(CVC) 일관성 손실 도입

확산 모델 학습 과정에서 여러 시점 간의 토큰 수준 대응 관계를 강제하여, 생성된 장면의 구조적 정렬과 시각적 일관성을 극대화함.

매니폴드 드리프트 포싱(MDF) 전략 제안

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

단일 이미지나 텍스트 프롬프트만으로 즉시 탐색 가능한 고품질 3D 장면을 생성할 수 있어 게임, VR/AR 콘텐츠 제작 효율을 획기적으로 높인다.

부동산 매물 사진 한 장으로 내부를 자유롭게 둘러볼 수 있는 가상 투어 생성
게임 개발 시 컨셉 아트로부터 즉각적인 3D 레벨 디자인 프로토타이핑
자율주행 및 로봇 학습을 위한 다양한 구조의 가상 환경 시뮬레이션 데이터 생성

기술 상세

한계점

키워드

3D Scene Generation(3D 장면 생성)Diffusion Model(확산 모델)3D Gaussian Splatting(3D 가우시안 스플래팅)Representation Learning(표현 학습)Cross-View Consistency(교차 뷰 일관성)

OneWorld: 3D 통합 표현 오토인코더를 활용한 3D 장면 생성 제어

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

OneWorld: 3D 통합 표현 오토인코더를 활용한 3D 장면 생성 제어

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글