Omni123: 텍스트-2D 및 3D 생성을 통합하여 제한된 데이터로 3D 네이티브 파운데이션 모델 구축

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Omni123은 텍스트-2D와 텍스트-3D 생성을 단일 Autoregressive 프레임워크 내에서 통합한 3D 네이티브 Foundation Model이다. 기존 방식이 2D 편집 후 3D 최적화를 거치며 기하학적 일관성을 잃는 문제를 해결하기 위해 텍스트, 이미지, 3D를 공유 시퀀스 공간의 Discrete Tokens로 표현한다. 풍부한 2D 데이터를 기하학적 사전 지식으로 활용하며, 텍스트-이미지-3D 간의 교차 모달 일관성을 암시적 구조 제약 조건으로 사용한다. 실험 결과 Omni123은 텍스트 가이드 기반 3D 생성 및 편집 성능을 크게 향상시켰으며 확장 가능한 3D 월드 모델의 가능성을 입증했다.

배경

3D 컴퓨터 비전 기초, Autoregressive 모델에 대한 이해, 멀티모달 학습 개념

대상 독자

3D 생성 AI 및 멀티모달 파운데이션 모델을 연구하는 개발자 및 연구자

의미 / 영향

3D 데이터 부족 문제를 2D 데이터와의 통합 학습으로 해결함으로써, 향후 고품질 3D 콘텐츠 생성 비용을 낮추고 메타버스나 게임 산업에서의 AI 활용도를 높일 것으로 기대된다.

섹션별 상세

고품질 3D 자산의 부족으로 인해 기존 3D 합성 방식은 2D 편집 결과를 3D로 끌어올리는 간접적인 최적화 과정에 의존해왔다. 이 과정에서 다각도 뷰 간의 기하학적 일관성이 깨지는 문제가 빈번하게 발생했다. Omni123은 이를 해결하기 위해 2D와 3D 생성을 하나의 네이티브 프레임워크로 통합했다.

모델은 텍스트, 이미지, 3D 데이터를 공유된 시퀀스 공간 내에서 Discrete Tokens로 변환하여 처리한다. 이러한 통합 표현 방식은 모델이 방대한 2D 이미지 데이터를 3D 표현을 개선하기 위한 기하학적 사전 지식으로 학습하게 한다. 결과적으로 데이터가 부족한 3D 영역에서도 높은 품질의 결과물을 생성할 수 있다.

Interleaved X-to-X 학습 패러다임을 도입하여 텍스트-이미지-3D가 완벽하게 정렬된 데이터셋 없이도 이종의 쌍 데이터를 통해 학습을 수행한다. 텍스트에서 이미지, 이미지에서 3D로 이어지는 시맨틱-비주얼-지오메트릭 사이클을 순환하며 학습을 진행한다. 이 과정에서 시맨틱 정렬, 외관의 충실도, 다각도 기하학적 일관성을 동시에 강화한다.

실험을 통해 Omni123이 텍스트 가이드 기반의 3D 생성 및 편집 작업에서 기존 모델 대비 우수한 성능을 기록했음이 확인됐다. 특히 복잡한 텍스트 지시어에 따른 3D 객체의 형태 변화와 질감 표현에서 높은 일관성을 유지한다. 이는 멀티모달 3D 월드 모델로 나아가는 확장 가능한 경로를 제시한다.

실무 Takeaway

3D 데이터 부족 문제를 해결하기 위해 2D 이미지 데이터를 3D 학습의 기하학적 제약 조건으로 활용하는 토큰 기반 통합 아키텍처를 채택해야 한다.
완벽한 3D 데이터셋이 없더라도 Interleaved X-to-X 학습 방식을 통해 텍스트와 이미지 데이터를 3D 생성 성능 향상에 효과적으로 기여시킬 수 있다.
Autoregressive 프레임워크에서 텍스트-이미지-3D 사이클을 순환 학습시키면 다각도 뷰에서의 기하학적 일관성을 암시적으로 확보할 수 있다.

언급된 리소스

논문Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation