TL;DR
3D Gaussian Splatting(3DGS)의 학습은 각 프리미티브가 59차원 파라미터를 갖고 전체 파라미터 테이블이 VRAM 용량을 빠르게 소모한다. TideGS는 SSD–CPU–GPU 계층에서 파라미터를 관리하고, GPU에는 현재 카메라 배치에서 활성화된 working set만 materialize하여 메모리 바운드를 완화한다. 그 결과 단일 24 GB GPU에서 1.1B Gaussian으로 대규모 장면의 학습이 가능해졌으며, 대규모 도시 스케일 장면에서도 Native 3DGS 품질을 유지하거나 상향할 수 있다.
왜 중요한가
3D Gaussian Splatting(3DGS)의 학습은 각 프리미티브가 59차원 파라미터를 갖고 전체 파라미터 테이블이 VRAM 용량을 빠르게 소모한다. TideGS는 SSD–CPU–GPU 계층에서 파라미터를 관리하고, GPU에는 현재 카메라 배치에서 활성화된 working set만 materialize하여 메모리 바운드를 완화한다. 그 결과 단일 24 GB GPU에서 1.1B Gaussian으로 대규모 장면의 학습이 가능해졌으며, 대규모 도시 스케일 장면에서도 Native 3DGS 품질을 유지하거나 상향할 수 있다.
핵심 기여
Block-virtualized geometry with SSD-aligned blocks
Gaussian 파라미터 Θ ∈ R^{N×D}, D=59,을 SSD-aligned 블록으로 묶고 Morton-sort로 블록 경계의 공간적 인접성을 보장한다. Level 1에서 CPU가 대략적인 구(sphere) 프러스텀 컬링으로 Kt를 선별하고, Level 2에서 GPU가 resident 블록 Rt 안에서 Gaussians를 정확히 렌더링한다. 이로써 전체 모델 크기에 비해 GPU VRAM 의존도가 낮아지며 3DGS의 렌더링/학습Semantics가 보존된다.
Trajectory-adaptive differential streaming
연속 뷰 간의 Block working set의 중첩을 활용해 Rt와 Rt+1의 차이인 S^+t = Rt+1 ackslash Rt, S^-t = Rt ackslash Rt+1를 스트리밍한다. 권장 정책은 카메라-밸런스 Top-C 선정을 통해 Kt+1에 포함될 블록을 우선 커버하고 남은 슬롯은 전체 집합 Ct에서 점수 s(k) = λ·1[k∈Kt+1] + (1−λ)·Recency(k)로 선택한다.
Hierarchical asynchronous cross-tier pipeline
SSD read/prefetch → H2D → GPU Compute/Render → D2H writeback의 흐름을 비동기로 중첩하여 SSD/PCIe 지연을 계산과 겹치도록 한다. 이때 더블 버퍼링된 블록 버퍼를 사용해 다음 이터레이션의 블록을 현재 이터레이션과 겹치게 전송한다.
Out-of-core training enabling billion-scale on a single GPU
full parameter 테이블을 VRAM 외부에 유지하고, per-이터레이션 활성 블록만 VRAM에 매터리얼라이즈한다. 이로써 VRAM은 |Rt| 및 It의 크기에 의해 결정되고, 전체 스케일 N과 무관하게 메모리 바운드를 완화한다.
Optimizer-state 관리의 트레이드오프
Eviction 시 Adam Moments를 보존하지 않고 Evicted blocks의 moments를 버리는 대신, 재적재 시 Cold start를 허용한다. hot 블록은 지속적으로 남길 수 있고, 재적재 시점에만 모멘트를 재초기화한다.
핵심 아이디어 이해하기
출발점: 3DGS는 모든 Gaussians의 파라미터와 학습 상태를 GPU에 보관해야 하는 메모리 한계에 직면한다. 활성 Gaussians만 gradient가 흐르고, 보이는 영역의 업데이트만 필요하므로, VRAM은 전체 파라미터 저장소가 아니라 working-set 캐시로서 작동할 수 있다. 핵심 아이디어는 이 sparsity와 시계열 로컬리티를 이용해 블록 단위로 데이터를 로드하고, CPU/SSD 계층을 활용해 파일 시스템의 대역폭에 맞춰 데이터를 비동기적으로 흐르게 하는 것이다. 이때 CPU에서 coarse frustum culling으로 Kt를 먼저 결정하고, GPU에서 Rt 안에서 It를 정확히 필터링해 3DGS의 렌더링/백프로파게이션을 수행한다. Trajectory-ordered views는 인접 뷰 간 gradient 변화가 작아지도록 하여 VπTSP의 변동성을 감소시키고, cross-tier 데이터 이동을 delta 기반으로 제한한다. 결과적으로 VRAM 의존도를 N에 비례하지 않고, Rt/It의 크기에 의해 좌우되며, 24 GB GPU에서도 1.1B Gaussians을 학습하는 것이 가능해진다. 4D에서의 실험은 Native 3DGS 대비 품질 손실을 최소화하는 한편, PCIe 트래픽과 이터레이션 타임 사이의 trade-off를 효과적으로 관리한다.
방법론
전체적 접근 방식: TideGS는 GPU VRAM을 고대역의 working-set 캐시로 간주하고, 전체 파라미터 테이블 Θ를 SSD에 두고 필요한 블록만 GPU에 로드한다. 핵심 아이디어는 (i) block-virtualized geometry로 SSD-aligned 블록을 구성하고, (ii) 두 단계의 가시성 필터링으로 CPU에서 coarse Kt를 산출한 뒤 GPU에서 세부 It를 결정하는 것, (iii) trajectory-adaptive differential streaming으로 이터레이션 간 block delta만 전송하는 것, (iv) 비동기 파이프라인으로 SSD/CPU/GPU 사이의 데이터 흐름을 겹치는 것이다.
관련 Figure

도식은 OOC 학습의 핵심 구성요소를 한 눈에 보여주며, block-virtualization, H2D/D2H, 쓰기 백 등 주요 흐름을 연결한다. 이는 방법론 섹션의 핵심 아이디어를 시각적으로 보강한다.
TideGS의 아키텍처 다이어그램으로 SSD–CPU–GPU 간 계층적 파라미터 관리와 OOC 파이프라인을 시각화한다.

상세 파이프라인(SSD reads, H2D, compute, D2H)을 showing하며 비동기 실행의 중요한 흐름을 보여준다. 시스템 설계의 근거가 되는 시퀀스 흐름을 시각적으로 보완한다.
TideGS 파이프라인과 Differential Streaming의 구성도.

트랜잭션 간 오버랩과 execution 흐름, Block 갱신, 프리패치, 방문 세트(Kt)와 Rt의 관계를 설명하는 도식이다. 방법론의 구체적 구현과 병렬화 포인트를 시각화한다.
TideGS 파이프라인의 상세 흐름도.

Morton-order로 블록화하고 Level 1의 CPU 프러스텀 컬링과 Level 2의 GPU 정밀 렌더링으로 정확성을 보존한다는 점을 시각적으로 전달한다.
Block virtualization 및 2-단계 가시성 필터링 다이어그램.
주요 결과
주요 결과: VRAM 한계에서 TideGS는 단일 24 GB GPU에서 1.1B Gaussians를 학습하는 유일한 평가 대비 방법이며, 102M Gaussians에서 Naive Offload는 메모리 초과(OOM)이고 CLM은 1.1B에서 역시 OOM에 이른다. 102M 단계에서 TideGS의 PCIe 트래픽은 0.10 GB/iter, 이터레이션 타임은 90.7 ms, GPU Util은 43.3%. 1.1B 단계에서는 PCIe 0.97 GB/iter, 이터레이션 타임 525.6 ms, GPU Util 49.5%. Large-scale에서 1.1B에서 PSNR은 26.1 dB으로 Native 3DGS보다 높다. 102M 규모에서의 PSNR은 24.8–25.0 dB 구간이며, Native 3DGS와 CLM 대비 성능 저하가 작다. 실험은 MatrixCity BigCity/Aerial 시나리오에서 수행되었고, Billion-scale에서 TideGS가 단일 GPU에서 가능하다는 점을 강조한다.
관련 Figure

뷰 순서에 따른 이터레이션 시간 차이를 보여주며 Trajectory Ordering의 locality 이점과 품질 손실의 미미함을 시사한다.
Shuffle vs Trajectory Ordering의 성능 비교 그래프(참조 Figure).

표본 수(N)가 증가해도 TideGS가 높은 PSNR을 유지하며, Billion scale에서 TideGS의 품질이 가장 좋음을 시각적으로 보여준다.
MatrixCity에서의 품질 스케일링(PSNR) 비교 그래프; densification의 영향과 TideGS의 성능 비교.

높은 규모에서의 품질 차이를 보여주며 TideGS의 대규모 학습에서의 이점이 강조된다.
bonsai/대규모 맥락에서의 densify 비교 차트.

다양한 하드웨어에서 TideGS의 성능 및 활용률 차이를 보여주며, 단일 GPU에서의 효율성을 강조한다.
GPU 비교 시간 차트(성능/유틸리제이션).
기술 상세
아키텍처 구조: Θ ∈ R^{N×D}, D=59. Block(k) := Θ[kB : (k+1)B], K=⌈N/B⌉, B=4096, 각 블록의 페이로드는 4 KB 페이지로 정렬된다. Level 1: CPU에서 coarse block visible를 프러스텀 평면 6-Plane Frustum test로 Kt를 선별한다. Level 2: GPU에서 resident blocks Rt를 VRAM에 로딩하고 Gaussians It ⊆ ∪_{k∈(Rt∩Kt)} Block(k)를 렌더링한다. Out-of-Core 엔진: 로그 구조 SSD 저장, Patch 로그(patch segments), Index[k] = (file id, offset, size, version)로 최신 버전 참조. CPU 캐시는 LRU 정책으로 dirty 비트를 관리하고 eviction 시 SSD patch에 비동기로 flush. 비동기 실행: SSD read/prefetch/flush, H2D, GPU compute, D2H를 서로 다른 스트림으로 overlapped. Tide: 트래젝터리 순서(Clustered TSP)로 뷰 순서를 구성하고, Residency Rt를 capacity C 이하로 유지하며 Rt+1 도출 시 Rt ∩ Rt+1를 Ω_R,t로 남기고 S^+t, S^-t를 스트리밍한다. Optimizer-state: Evicted 블록의 Adam moments를 보존하지 않고, 재적재 시 재초기화한다. 알고리즘 1 Tide residency selection: Kt+1 ← ∪j K^(j){t+1}, Recency 갱신, Ct ← Rt ∪ Kt+1, Rt+1는 CameraBalancedTopC over Ct, Ω_R,t ← Rt ∩ Rt+1, S^+t ← Rt+1 t, S^-t ← Rt t+1. 수식/개념: (i) Block(k) = Θ[(kB):(k+1)B], (ii) Kt = {k | visible(k, c) ∀ planes}, (iii) S^+t, S^-t 정의, (iv) Recency(k) 업데이트, (v) s(k) = λ·1[k∈Kt+1] + (1−λ)·Recency(k).
한계점
카메라 순서에 따른 시퀀스 로컬리티가 약하면 Trajectory+Differential Streaming의 재사용이 감소하고 cross-tier 트래픽이 증가한다. NVMe SSD의 속도가 느리면 I/O 병목이 더 두드러진다. Append-only 로그 구조는 임시 저장 공간 증가와 엔드런드 지속성 이슈를 야기하며, 주기적 컴팩션으로 감소시킬 수 있다. Evicted 블록의 optimizer-state를 폐기하는 정책은 block churn이 커질 때 cold-start 비율이 높아질 수 있으며 CPU 캐샵의 확장이나 선택적 optimizer-state 보존이 도움이 될 수 있다. 다중-GPU 분산 학습과 비교하는 경우 TideGS는 단일-GPU의 비용-효율성에 초점을 맞추므로 interconnect/동적 관리 필요성은 다르다.
실무 활용
TideGS는 commodity 하드웨어에서 out-of-core 학습 파이프라인을 제공하며, VRAM 한계를 넘어서는 대규모 3DGS 학습을 가능하게 한다. 이는 도시 규모의 신시 인식/합성 렌더링에 적합하며, 대규모 3D 장면의 학습 효율과 품질을 향상시킨다.
- 도시 규모의 신시 인식 렌더링 및 시각화 파이프라인 구축
- 대규모 3D 장면의 학습 기반 신시 재현 및 인터랙티브 뷰 합성
- 장면당 수십억 Gaussians를 사용하는 3DGS 연구 및 벤치마크
- SSD–CPU–GPU 계층을 활용한 저비용 초대규모 학습 인프라 연구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.