핵심 요약
기존의 3D 가우시안 스플래팅 방식은 입력 이미지가 늘어날수록 데이터 크기가 비대해지고 연산 속도가 느려지는 한계가 있었다. 이 논문은 전역 장면 토큰 방식을 도입하여 입력 뷰의 개수와 상관없이 일정한 수의 가우시안만으로 고품질 3D 장면을 재구성함으로써, 모바일 기기 등 저사양 환경에서도 실시간 3D 렌더링이 가능한 길을 열었다.
왜 중요한가
기존의 3D 가우시안 스플래팅 방식은 입력 이미지가 늘어날수록 데이터 크기가 비대해지고 연산 속도가 느려지는 한계가 있었다. 이 논문은 전역 장면 토큰 방식을 도입하여 입력 뷰의 개수와 상관없이 일정한 수의 가우시안만으로 고품질 3D 장면을 재구성함으로써, 모바일 기기 등 저사양 환경에서도 실시간 3D 렌더링이 가능한 길을 열었다.
핵심 기여
Align First, Decode Later 패러다임 제시
픽셀 단위로 가우시안을 생성하던 기존 방식과 달리, 모든 입력 뷰를 먼저 전역 잠재 공간에서 정렬하고 통합한 뒤 3D 기하 구조를 디코딩하는 방식을 채택하여 중복성을 제거했다.
고정된 크기의 전역 장면 토큰 활용
입력 이미지 수에 관계없이 고정된 개수(M=2048)의 잠재 토큰을 사용하여 3D 장면을 표현함으로써 메모리 효율성을 극대화하고 일관된 재구성 성능을 확보했다.
Coarse-to-Fine 학습 커리큘럼 도입
학습 초기에는 적은 수의 가우시안으로 전체적인 구조를 잡고, 점진적으로 가우시안의 개수를 늘려 세부 묘사를 정교화하는 전략을 통해 학습 안정성과 품질을 동시에 높였다.
압도적인 추론 속도 및 경량화 실현
RealEstate10K 데이터셋 기준 78ms 이하의 추론 속도와 4MB 미만의 저장 용량을 달성하며 기존 SOTA 모델 대비 파라미터 수를 99% 이상 절감했다.
핵심 아이디어 이해하기
기존의 3D 재구성 방식은 각 이미지의 픽셀을 3D 공간으로 쏘아 올린 뒤(Unprojection) 이를 합치는 방식을 사용했다. 이 경우 여러 이미지에서 겹치는 영역이 중복 생성되어 가우시안의 개수가 수십만 개로 불어나고, 각 이미지 간의 미세한 오차가 전체 구조를 흔드는 문제가 발생한다. 이는 마치 여러 장의 사진을 단순히 겹쳐 붙여 입체 카드를 만들 때 생기는 두께 문제와 정렬 불량과 유사하다.
GlobalSplat은 이 문제를 해결하기 위해 '전역 장면 토큰'이라는 개념을 도입했다. 이는 신경망이 모든 입력 이미지를 동시에 훑어보고, 장면 전체를 대표하는 핵심 정보(토큰)들을 먼저 추출하는 방식이다. Transformer의 Attention Mechanism을 활용하여 각 이미지 조각들이 서로 어떤 관계가 있는지 계산하고, 중복된 정보는 깎아내어 장면의 정수만을 잠재 공간에 담는다.
이렇게 정제된 토큰들로부터 3D 가우시안을 직접 생성하기 때문에, 입력 이미지가 10장이든 100장이든 출력되는 가우시안의 총량은 일정하게 유지된다. 결과적으로 불필요한 데이터 낭비 없이 장면의 핵심 기하 구조와 질감만을 효율적으로 복원할 수 있게 된다.
방법론
전체 아키텍처는 인코더-디코더 구조로 설계되었다. 먼저 입력 이미지에서 패치 단위로 특징을 추출하고, 여기에 카메라의 위치와 방향 정보를 담은 Plücker Rays와 카메라 메타데이터를 결합하여 입력 컨텍스트를 구성한다. [이미지 패치 특징 + 카메라 좌표 → 결합 → 기하학적 정보가 포함된 입력 토큰]
핵심인 Dual-Branch Encoder는 기하 구조(Geometry)와 외형(Appearance) 스트림으로 나뉘어 작동한다. 각 스트림은 입력 컨텍스트와 학습 가능한 잠재 토큰 사이의 Cross-Attention을 수행하여 정보를 수집한 뒤, 토큰 간의 Self-Attention을 통해 전역적인 일관성을 확보한다. [잠재 토큰 ↔ 입력 이미지 특징 → Cross-Attention → 이미지 정보가 주입된 토큰]
디코딩 단계에서는 정제된 토큰을 바탕으로 가우시안의 위치, 크기, 회전, 불투명도 및 색상(Spherical Harmonics)을 예측한다. 이때 Coarse-to-Fine 전략을 사용하여, 학습 단계에 따라 하나의 토큰이 생성하는 가우시안의 개수를 1개에서 8개까지 점진적으로 늘려가며 세부 표현력을 조절한다. [잠재 토큰 → 선형 변환 → 가우시안 파라미터 세트 → 3D 장면 구성]
주요 결과
RealEstate10K 벤치마크에서 24개의 입력 뷰를 사용했을 때 28.5 PSNR의 높은 화질을 기록했다. 이는 수십만 개의 가우시안을 사용하는 기존 방식(Zpressor 등)과 대등한 수준이면서도, 가우시안 개수는 단 16K개로 제한하여 저장 용량을 4MB 수준으로 낮춘 결과이다.
효율성 측면에서 GlobalSplat은 단일 NVIDIA A100 GPU 기준 77.88ms의 추론 시간을 기록하여, 기존 모델들보다 수 배에서 수십 배 빠른 속도를 보여주었다. 특히 GPU 메모리 점유율이 1.79GB에 불과해 대규모 장면 재구성 시에도 하드웨어 부담이 매우 적음을 입증했다.
Ablation Study를 통해 Dual-Branch 구조와 Self-Supervised Consistency Loss의 효과를 검증했다. 기하와 외형을 분리하지 않거나 일관성 손실 함수를 제거할 경우 PSNR 수치가 하락하고 시각적 아티팩트가 발생하는 것이 확인되어, 제안된 구조적 설계가 품질 유지에 필수적임을 보여주었다.
기술 상세
GlobalSplat의 핵심은 입력 뷰의 수에 독립적인 고정 크기 잠재 표현(M=2048)을 유지하는 것이다. 이는 기존의 픽셀 정렬(Pixel-aligned) 방식이 가진 O(N) 복잡도의 메모리 증가 문제를 해결한다. 인코더는 4개의 블록으로 구성되며, 각 블록 내에서 기하와 외형 정보를 분리하여 처리함으로써 텍스처 정보가 기하 구조 예측을 방해하는 현상을 방지한다.
수학적으로는 가우시안의 불투명도(Opacity)와 크기(Scale)에 대한 정규화 항을 추가하여 학습 안정성을 높였다. 특히 Opacity Regularization은 학습 초기에 전면 가우시안이 너무 빨리 불투명해져 후면으로의 그래디언트 흐름을 막는 현상을 억제한다. 또한 Frustum Constraint를 통해 가우시안이 실제 카메라 시야 범위 밖으로 벗어나지 않도록 기하학적 제약을 가한다.
학습 시에는 13개의 입력 뷰와 12개의 타겟 뷰를 샘플링하여 사용하며, Subset Consistency Loss를 통해 서로 다른 입력 조합에서도 동일한 3D 구조가 도출되도록 강제한다. 이는 단일 통과 방식의 모델이 다중 뷰 간의 기하학적 일관성을 스스로 학습하게 만드는 핵심 장치이다.
한계점
현재 모델은 고정된 16K32K 가우시안 예산을 사용하므로, 도시 규모의 거대 장면이나 매우 복잡한 환경에서는 표현력이 부족할 수 있다. 또한 정적인 장면만을 가정하고 있어 움직이는 물체가 포함된 동적 장면 재구성에는 한계가 있으며, 입력 뷰가 극도로 적은(23장) 상황에서는 정확한 전역 잠재 공간 해결이 어려울 수 있다.
실무 활용
매우 적은 메모리와 빠른 속도로 고품질 3D 장면을 생성할 수 있어 모바일 및 웹 기반 실시간 3D 서비스에 즉시 적용 가능하다.
- 부동산 앱에서 스마트폰 사진 몇 장으로 실내 3D 가상 투어 자동 생성
- 드론 촬영 영상을 활용한 광범위한 지형의 경량 3D 맵핑 및 모니터링
- 제한된 대역폭 환경에서 3D 콘텐츠를 빠르게 전송하고 렌더링해야 하는 메타버스 플랫폼
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.