Out-of-Core 최적화를 통한 1B+ Gaussian Splatting 프리미티브 학습: TideGS

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

3D Gaussian Splatting(3DGS)의 학습은 각 프리미티브가 59차원 파라미터를 갖고 전체 파라미터 테이블이 VRAM 용량을 빠르게 소모한다. TideGS는 SSD–CPU–GPU 계층에서 파라미터를 관리하고, GPU에는 현재 카메라 배치에서 활성화된 working set만 materialize하여 메모리 바운드를 완화한다. 그 결과 단일 24 GB GPU에서 1.1B Gaussian으로 대규모 장면의 학습이 가능해졌으며, 대규모 도시 스케일 장면에서도 Native 3DGS 품질을 유지하거나 상향할 수 있다.

왜 중요한가

핵심 기여

Block-virtualized geometry with SSD-aligned blocks

Gaussian 파라미터 Θ ∈ R^{N×D}, D=59,을 SSD-aligned 블록으로 묶고 Morton-sort로 블록 경계의 공간적 인접성을 보장한다. Level 1에서 CPU가 대략적인 구(sphere) 프러스텀 컬링으로 Kt를 선별하고, Level 2에서 GPU가 resident 블록 Rt 안에서 Gaussians를 정확히 렌더링한다. 이로써 전체 모델 크기에 비해 GPU VRAM 의존도가 낮아지며 3DGS의 렌더링/학습Semantics가 보존된다.

Trajectory-adaptive differential streaming

연속 뷰 간의 Block working set의 중첩을 활용해 Rt와 Rt+1의 차이인 S^+t = Rt+1 ackslash Rt, S^-t = Rt ackslash Rt+1를 스트리밍한다. 권장 정책은 카메라-밸런스 Top-C 선정을 통해 Kt+1에 포함될 블록을 우선 커버하고 남은 슬롯은 전체 집합 Ct에서 점수 s(k) = λ·1[k∈Kt+1] + (1−λ)·Recency(k)로 선택한다.

Hierarchical asynchronous cross-tier pipeline

SSD read/prefetch → H2D → GPU Compute/Render → D2H writeback의 흐름을 비동기로 중첩하여 SSD/PCIe 지연을 계산과 겹치도록 한다. 이때 더블 버퍼링된 블록 버퍼를 사용해 다음 이터레이션의 블록을 현재 이터레이션과 겹치게 전송한다.

Out-of-core training enabling billion-scale on a single GPU

full parameter 테이블을 VRAM 외부에 유지하고, per-이터레이션 활성 블록만 VRAM에 매터리얼라이즈한다. 이로써 VRAM은 |Rt| 및 It의 크기에 의해 결정되고, 전체 스케일 N과 무관하게 메모리 바운드를 완화한다.

Optimizer-state 관리의 트레이드오프

Eviction 시 Adam Moments를 보존하지 않고 Evicted blocks의 moments를 버리는 대신, 재적재 시 Cold start를 허용한다. hot 블록은 지속적으로 남길 수 있고, 재적재 시점에만 모멘트를 재초기화한다.

핵심 아이디어 이해하기

출발점: 3DGS는 모든 Gaussians의 파라미터와 학습 상태를 GPU에 보관해야 하는 메모리 한계에 직면한다. 활성 Gaussians만 gradient가 흐르고, 보이는 영역의 업데이트만 필요하므로, VRAM은 전체 파라미터 저장소가 아니라 working-set 캐시로서 작동할 수 있다. 핵심 아이디어는 이 sparsity와 시계열 로컬리티를 이용해 블록 단위로 데이터를 로드하고, CPU/SSD 계층을 활용해 파일 시스템의 대역폭에 맞춰 데이터를 비동기적으로 흐르게 하는 것이다. 이때 CPU에서 coarse frustum culling으로 Kt를 먼저 결정하고, GPU에서 Rt 안에서 It를 정확히 필터링해 3DGS의 렌더링/백프로파게이션을 수행한다. Trajectory-ordered views는 인접 뷰 간 gradient 변화가 작아지도록 하여 VπTSP의 변동성을 감소시키고, cross-tier 데이터 이동을 delta 기반으로 제한한다. 결과적으로 VRAM 의존도를 N에 비례하지 않고, Rt/It의 크기에 의해 좌우되며, 24 GB GPU에서도 1.1B Gaussians을 학습하는 것이 가능해진다. 4D에서의 실험은 Native 3DGS 대비 품질 손실을 최소화하는 한편, PCIe 트래픽과 이터레이션 타임 사이의 trade-off를 효과적으로 관리한다.

방법론

전체적 접근 방식: TideGS는 GPU VRAM을 고대역의 working-set 캐시로 간주하고, 전체 파라미터 테이블 Θ를 SSD에 두고 필요한 블록만 GPU에 로드한다. 핵심 아이디어는 (i) block-virtualized geometry로 SSD-aligned 블록을 구성하고, (ii) 두 단계의 가시성 필터링으로 CPU에서 coarse Kt를 산출한 뒤 GPU에서 세부 It를 결정하는 것, (iii) trajectory-adaptive differential streaming으로 이터레이션 간 block delta만 전송하는 것, (iv) 비동기 파이프라인으로 SSD/CPU/GPU 사이의 데이터 흐름을 겹치는 것이다.

주요 결과

주요 결과: VRAM 한계에서 TideGS는 단일 24 GB GPU에서 1.1B Gaussians를 학습하는 유일한 평가 대비 방법이며, 102M Gaussians에서 Naive Offload는 메모리 초과(OOM)이고 CLM은 1.1B에서 역시 OOM에 이른다. 102M 단계에서 TideGS의 PCIe 트래픽은 0.10 GB/iter, 이터레이션 타임은 90.7 ms, GPU Util은 43.3%. 1.1B 단계에서는 PCIe 0.97 GB/iter, 이터레이션 타임 525.6 ms, GPU Util 49.5%. Large-scale에서 1.1B에서 PSNR은 26.1 dB으로 Native 3DGS보다 높다. 102M 규모에서의 PSNR은 24.8–25.0 dB 구간이며, Native 3DGS와 CLM 대비 성능 저하가 작다. 실험은 MatrixCity BigCity/Aerial 시나리오에서 수행되었고, Billion-scale에서 TideGS가 단일 GPU에서 가능하다는 점을 강조한다.

기술 상세

아키텍처 구조: Θ ∈ R^{N×D}, D=59. Block(k) := Θ[kB : (k+1)B], K=⌈N/B⌉, B=4096, 각 블록의 페이로드는 4 KB 페이지로 정렬된다. Level 1: CPU에서 coarse block visible를 프러스텀 평면 6-Plane Frustum test로 Kt를 선별한다. Level 2: GPU에서 resident blocks Rt를 VRAM에 로딩하고 Gaussians It ⊆ ∪_{k∈(Rt∩Kt)} Block(k)를 렌더링한다. Out-of-Core 엔진: 로그 구조 SSD 저장, Patch 로그(patch segments), Index[k] = (file id, offset, size, version)로 최신 버전 참조. CPU 캐시는 LRU 정책으로 dirty 비트를 관리하고 eviction 시 SSD patch에 비동기로 flush. 비동기 실행: SSD read/prefetch/flush, H2D, GPU compute, D2H를 서로 다른 스트림으로 overlapped. Tide: 트래젝터리 순서(Clustered TSP)로 뷰 순서를 구성하고, Residency Rt를 capacity C 이하로 유지하며 Rt+1 도출 시 Rt ∩ Rt+1를 Ω_R,t로 남기고 S^+t, S^-t를 스트리밍한다. Optimizer-state: Evicted 블록의 Adam moments를 보존하지 않고, 재적재 시 재초기화한다. 알고리즘 1 Tide residency selection: Kt+1 ← ∪j K^(j){t+1}, Recency 갱신, Ct ← Rt ∪ Kt+1, Rt+1는 CameraBalancedTopC over Ct, Ω_R,t ← Rt ∩ Rt+1, S^+t ← Rt+1 t, S^-t ← Rt t+1. 수식/개념: (i) Block(k) = Θ[(kB):(k+1)B], (ii) Kt = {k | visible(k, c) ∀ planes}, (iii) S^+t, S^-t 정의, (iv) Recency(k) 업데이트, (v) s(k) = λ·1[k∈Kt+1] + (1−λ)·Recency(k).

한계점

카메라 순서에 따른 시퀀스 로컬리티가 약하면 Trajectory+Differential Streaming의 재사용이 감소하고 cross-tier 트래픽이 증가한다. NVMe SSD의 속도가 느리면 I/O 병목이 더 두드러진다. Append-only 로그 구조는 임시 저장 공간 증가와 엔드런드 지속성 이슈를 야기하며, 주기적 컴팩션으로 감소시킬 수 있다. Evicted 블록의 optimizer-state를 폐기하는 정책은 block churn이 커질 때 cold-start 비율이 높아질 수 있으며 CPU 캐샵의 확장이나 선택적 optimizer-state 보존이 도움이 될 수 있다. 다중-GPU 분산 학습과 비교하는 경우 TideGS는 단일-GPU의 비용-효율성에 초점을 맞추므로 interconnect/동적 관리 필요성은 다르다.

실무 활용

TideGS는 commodity 하드웨어에서 out-of-core 학습 파이프라인을 제공하며, VRAM 한계를 넘어서는 대규모 3DGS 학습을 가능하게 한다. 이는 도시 규모의 신시 인식/합성 렌더링에 적합하며, 대규모 3D 장면의 학습 효율과 품질을 향상시킨다.

도시 규모의 신시 인식 렌더링 및 시각화 파이프라인 구축
대규모 3D 장면의 학습 기반 신시 재현 및 인터랙티브 뷰 합성
장면당 수십억 Gaussians를 사용하는 3DGS 연구 및 벤치마크
SSD–CPU–GPU 계층을 활용한 저비용 초대규모 학습 인프라 연구

코드 공개 여부: 공개

코드 저장소 보기

키워드

3D Gaussian Splattingout-of-core trainingSSD-CPU-GPU hierarchyblock-virtualized geometryMorton-orderfrustum cullingtrajectory-adaptive differential streamingMatrixCity