Mobile-GS: 모바일 기기를 위한 실시간 가우시안 스플래팅

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 3D 가우시안 스플래팅은 연산량이 많고 용량이 커서 스마트폰 같은 모바일 기기에서 구동하기 어려웠다. 이 논문은 정렬 과정을 없앤 새로운 렌더링 방식과 강력한 압축 기술을 결합하여 모바일에서도 고화질 3D 장면을 실시간으로 보여줄 수 있는 길을 열었다.

왜 중요한가

핵심 기여

깊이 기반 순서 독립적 렌더링 도입

전통적인 알파 블렌딩의 병목 현상인 가우시안 정렬 과정을 제거하고, 깊이와 크기에 따른 가중치 합산 방식을 사용하여 렌더링 속도를 획기적으로 높였다.

신경망 기반 시점 의존적 강화 전략

정렬 생략으로 인해 발생하는 투명도 오류를 해결하기 위해 가벼운 MLP를 사용하여 시점에 따른 불투명도와 특징을 보정함으로써 화질 저하를 방지했다.

1차 구면 조화 함수 증류 및 양자화

고차원 데이터를 저차원으로 증류하고 신경망 벡터 양자화를 적용하여 저장 용량을 원본 대비 180배 이상 압축하면서도 시각적 품질을 유지했다.

기여도 기반 프루닝 알고리즘

불투명도와 공간적 크기 통계를 결합하여 렌더링에 기여도가 낮은 가우시안들을 효과적으로 제거함으로써 메모리 사용량과 연산 부하를 동시에 줄였다.

핵심 아이디어 이해하기

3D 가우시안 스플래팅은 수만 개의 타원체(Gaussian)를 카메라 거리에 따라 정렬(Sorting)한 뒤 겹쳐 그리는 방식을 사용한다. 하지만 모바일 GPU에서는 이 정렬 과정이 전체 렌더링 시간의 절반 이상을 차지하는 심각한 병목 현상을 일으킨다. Mobile-GS는 이 문제를 해결하기 위해 정렬을 아예 생략하고 모든 가우시안을 병렬로 한 번에 처리하는 아이디어를 채택했다.

정렬이 없으면 앞뒤 관계가 꼬여 물체가 투명해 보이거나 겹쳐 보이는 문제가 발생한다. 이를 극복하기 위해 가우시안의 깊이와 크기를 바탕으로 가까운 물체가 더 선명하게 보이도록 가중치를 부여하는 수학적 모델을 설계했다. 여기에 딥러닝 기초 개념인 MLP(Multi-Layer Perceptron)를 결합하여, 현재 카메라가 바라보는 방향에 맞춰 각 가우시안의 투명도를 실시간으로 미세 조정하게 했다.

결과적으로 정렬이라는 무거운 연산을 제거하면서도 신경망의 보정 능력을 통해 원본과 대등한 화질을 얻어냈다. 이는 연산 자원이 제한된 모바일 환경에서 고화질 3D 그래픽을 구현하기 위한 핵심적인 전환점이다.

방법론

전체 접근 방식은 정렬 없는 렌더링(Order-independent Rendering)과 신경망 기반 보정 및 압축으로 구성된다. 기존의 정렬 기반 알파 블렌딩 대신 가중치 합산 방식을 사용한다. [가우시안의 깊이 d_i와 최대 크기 s_max를 입력으로] → [역수 제곱과 지수 함수를 포함한 가중치 w_i를 계산해] → [픽셀 색상 C를 산출하고] → [정렬 없이도 물리적으로 타당한 전후 관계가 표현되도록 유도한다].

시점 의존적 효과를 강화하기 위해 경량 MLP 구조를 활용한다. [카메라 방향 벡터와 가우시안의 기하학적 속성을 입력으로] → [MLP 연산을 통해 보정된 불투명도 o_i와 보조 파라미터 ϕ_i를 출력해] → [정렬 생략으로 인한 투명도 아티팩트를 억제하고 세밀한 질감을 복원한다].

모델 압축을 위해 구면 조화 함수(SH) 증류와 양자화를 수행한다. [3차 SH 계수를 1차로 투영하고 K-means 클러스터링 기반의 벡터 양자화를 적용해] → [파라미터 수를 75% 이상 줄이고 허프만 코딩으로 추가 압축하여] → [수백 MB에 달하던 장면 데이터를 수 MB 수준으로 경량화한다].

주요 결과

Snapdragon 8 Gen 3 GPU가 탑재된 모바일 기기에서 1600x1063 해상도로 116 FPS라는 실시간 렌더링 속도를 기록했다. 이는 기존 3DGS 대비 수십 배 빠른 속도이며, RTX 3090 Ti 데스크톱 환경에서는 최대 1098 FPS까지 도달했다.

저장 용량 측면에서 Mip-NeRF 360 데이터셋 기준 4.6 MB를 달성했다. 이는 원본 3DGS의 839.9 MB와 비교했을 때 약 180배 이상 압축된 수치이다. 화질 지표인 PSNR은 27.12를 기록하여 원본(27.21)과 거의 차이가 없는 고화질을 유지했다.

Ablation study를 통해 정렬 제거 시 속도가 약 1.6배 향상됨을 확인했으며, 신경망 기반 보정(view-dependent enhancement)이 없을 경우 PSNR이 26.68로 하락하여 해당 모듈이 화질 유지에 필수적임을 입증했다.

기술 상세

Mobile-GS는 정렬 과정을 제거한 병렬 가우시안 블렌딩 아키텍처를 채택했다. 기존 3DGS가 타일 기반 래스터화와 정렬에 의존했던 것과 달리, 모든 가우시안을 독립적으로 처리할 수 있는 구조로 설계되어 GPU의 병렬 연산 능력을 극대화했다.

수학적으로는 가중치 함수 w_i = ϕ_i^2 + ϕ_i/d_i^2 + exp(s_max/d_i)를 통해 깊이와 스케일을 반영한다. 여기서 ϕ_i는 MLP가 예측한 시점 의존적 파라미터로, 정렬이 없는 환경에서도 가시성을 조절하는 핵심 역할을 수행한다. 이는 기존의 단순한 깊이 기반 가중치 방식보다 훨씬 정교한 렌더링을 가능하게 한다.

압축 과정에서는 3차 구면 조화 함수(SH)를 1차로 증류(Distillation)하여 파라미터 수를 16개에서 4개로 줄였다. 교사 모델(Mini-Splatting)의 렌더링 결과와 깊이 맵을 감독 신호로 사용하여 정보 손실을 최소화했다. 또한 신경망 벡터 양자화(NVQ)를 통해 가우시안 속성을 5개 그룹으로 나누고 각각 코드북을 생성하여 저장 효율을 높였다.

학습 시에는 L1 손실과 SSIM 손실을 기본으로 하되, 교사 모델과의 색상 차이를 줄이는 증류 손실(L_dstill)과 깊이 차이를 줄이는 척도 불변 깊이 손실(L_depth)을 추가하여 모바일 환경에 최적화된 가우시안 분포를 학습하도록 설계했다.

한계점

추론 속도는 매우 빠르지만, 학습 과정은 여전히 데스크톱 GPU에서 수만 번의 반복 연산이 필요하여 모바일 기기 자체에서의 실시간 학습은 어렵다. 또한 매우 복잡한 텍스처를 가진 장면에서 과도한 양자화를 적용할 경우 미세한 색상 왜곡이나 블러 현상이 나타날 수 있다.

실무 활용

모바일 기기에서 고화질 3D 콘텐츠를 실시간으로 구동해야 하는 AR/VR 서비스와 모바일 게임에 즉시 적용 가능한 기술이다. 특히 낮은 전력 소모와 적은 저장 용량이 핵심인 온디바이스 AI 환경에 최적화되어 있다.

모바일 쇼핑 앱에서 가구 등 상품을 실사 수준의 3D로 미리보기
스마트폰 카메라를 이용한 실시간 3D 내비게이션 및 AR 가이드
저사양 모바일 기기에서도 부드럽게 작동하는 메타버스 플랫폼의 배경 렌더링

코드 공개 여부: 공개

코드 저장소 보기

키워드

3DGS(3D 가우시안 스플래팅)Real-time Rendering(실시간 렌더링)Mobile AI(모바일 인공지능)Model Compression(모델 압축)Order-independent Rendering(순서 독립적 렌더링)