AvatarPointillist: 자기회귀 4D 가우시안 아바타 생성 기술

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 3D 아바타 생성 기술은 고정된 템플릿을 사용하여 복잡한 헤어스타일이나 수염을 표현하는 데 한계가 있었다. 이 논문은 3D 가우시안 포인트를 순차적으로 생성하는 방식을 도입하여 대상의 복잡도에 따라 포인트 밀도를 유연하게 조절함으로써 훨씬 정교하고 움직임이 자연스러운 아바타를 구현한다.

왜 중요한가

핵심 기여

자기회귀 기반 3D 포인트 클라우드 생성

3D 가우시안 스플래팅을 위한 포인트 클라우드 생성을 순차적 토큰 예측 문제로 정의하여 고정된 템플릿 없이도 복잡한 기하학적 구조를 자유롭게 생성한다.

적응형 포인트 밀도 제어

입력 이미지의 복잡도에 따라 포인트의 개수와 위치를 동적으로 결정한다. 머리카락이나 수염처럼 세밀한 묘사가 필요한 영역에 더 많은 포인트를 집중 배치하여 디테일을 살린다.

애니메이션 바인딩 정보 동시 예측

포인트 생성 과정에서 각 가우시안이 얼굴 메쉬의 어느 부위에 연결될지(binding)를 함께 예측하여 생성 직후 즉시 자연스러운 표정 애니메이션이 가능하다.

2단계 하이브리드 디코더 구조

자기회귀 모델의 잠재 특징(latent features)을 가우시안 디코더에 전달하여 색상, 투명도, 회전 등 렌더링 속성을 정밀하게 복원함으로써 시각적 품질을 극대화한다.

핵심 아이디어 이해하기

기존 아바타 생성은 미리 정해진 얼굴 틀(Mesh) 위에 피부를 입히는 방식이었다. 이는 틀을 벗어나는 긴 머리나 특이한 외형을 표현하기 어렵다는 한계가 있다. Transformer가 문장에서 다음 단어를 예측하듯, 이 모델은 3D 공간 상의 점(Point)을 하나씩 찍어나가며 아바타의 형상을 완성한다.

먼저 3D 좌표를 1024개의 구간으로 나누어 숫자로 바꾸는 Quantization 과정을 거친다. Transformer는 이전까지 찍힌 점들의 위치 정보를 바탕으로 다음에 어디에 점을 찍을지 결정한다. 복잡한 형태가 필요한 곳에서는 점을 더 촘촘하게 찍고, 단순한 곳은 성기게 찍는 '적응형 생성'이 가능해진다.

단순히 점의 위치만 정하는 것이 아니라, 각 점이 얼굴 근육의 움직임에 어떻게 반응해야 하는지 정보를 함께 담는다. 결과적으로 고정된 틀에 얽매이지 않으면서도 실제 사람처럼 표정을 짓고 고개를 돌릴 수 있는 정교한 4D 아바타가 탄생한다.

방법론

전체 프레임워크는 자기회귀(AR) 모델과 가우시안 디코더(Gaussian Decoder)의 두 단계로 구성된다. AR 모델은 Decoder-only Transformer 아키텍처를 채택하여 3D 좌표(x, y, z)와 바인딩 인덱스(b)로 구성된 4개 토큰의 시퀀스를 순차적으로 예측한다. 입력 이미지에서 DINOv2로 추출한 특징과 Pixel3DMM으로 얻은 3D 얼굴 정보를 Cross-Attention을 통해 주입하여 개인의 고유한 특성을 반영한다.

데이터 구성 단계에서 3D 가우시안 포인트들을 y-z-x 축 순서로 정렬하여 일관된 시퀀스를 생성한다. [연속적인 좌표값 → 1024단계 이산화 → 정수 토큰 변환] 과정을 통해 Transformer가 학습 가능한 형태로 만든다. 바인딩 인덱스는 FLAME 메쉬의 특정 면에 대응하며, 이를 통해 생성된 포인트가 얼굴의 움직임에 따라 동적으로 변형될 수 있는 기반을 마련한다.

가우시안 디코더는 AR 모델의 마지막 은닉 상태(hidden state)와 좌표의 Positional Encoding을 입력으로 받아 각 포인트의 최종 속성(색상, 투명도, 크기, 회전, 오프셋)을 예측한다. 학습 시에는 L1 Loss, SSIM, LPIPS를 조합한 렌더링 손실 함수를 사용하여 실제 이미지와 렌더링 결과 사이의 오차를 줄인다.

주요 결과

NeRSemble 데이터셋을 이용한 실험에서 기존 SOTA 모델인 GAGAvatar 및 LAM 대비 모든 지표에서 우수한 성능을 기록했다. Self-reenactment 작업에서 LPIPS 0.15(기존 최저 0.18), FID 95.18(기존 최저 111.76)을 달성하여 시각적 유사도와 이미지 품질이 크게 향상되었음을 입증했다.

표정 재현의 정확도를 나타내는 AKD(Average Keypoint Distance) 지표에서도 2.38을 기록하여 기존 모델(3.93~6.87) 대비 훨씬 정밀한 표정 모사가 가능함을 보여주었다. 특히 정성적 평가 결과에서 기존 모델들이 뭉개뜨리던 머리카락의 질감이나 수염의 디테일이 명확하게 표현되는 것이 확인되었다.

Ablation Study를 통해 AR 모델의 잠재 특징을 디코더에 함께 입력하는 것이 정체성 유지(Identity Preservation)와 세부 묘사에 결정적인 역할을 한다는 점을 증명했다. 단순히 좌표값만 사용했을 때보다 시각적 노이즈가 줄어들고 더 선명한 렌더링 결과를 얻었다.

기술 상세

AvatarPointillist는 3DGS의 명시적 기하학 구조를 자기회귀 시퀀스로 모델링한 최초의 시도 중 하나이다. 기존의 고정 템플릿 방식(LAM 등)이 가진 위상적 제약을 제거하기 위해 포인트 클라우드를 가변 길이의 시퀀스로 취급한다. 이는 복잡한 기하학적 구조를 가진 대상에 대해 포인트 밀도를 적응적으로 할당할 수 있게 한다.

아키텍처 측면에서 DINOv2의 글로벌 특징과 3DMM의 로컬 기하학 특징을 결합하여 Identity-aware 생성을 강화했다. 특히 AR 모델의 내부 Hidden State를 가우시안 디코더의 컨디셔닝 입력으로 재사용하는 'Feature Injection' 기법은 생성된 포인트의 기하학적 위치와 시각적 속성 사이의 정렬(Alignment)을 돕는다.

학습 효율성을 위해 12,000 토큰 크기의 슬라이딩 윈도우(Sliding Window) 메커니즘을 적용하여 긴 포인트 시퀀스를 처리한다. 또한 Linear Blend Skinning(LBS)과 보정용 블렌드쉐이프(Corrective Blendshapes)를 결합하여 생성된 가우시안 포인트들이 FLAME 메쉬의 변형에 맞춰 자연스럽게 움직이도록 리깅(Rigging) 프로세스를 자동화했다.

한계점

자기회귀 방식의 특성상 포인트 개수가 많아질수록 시퀀스 길이가 길어져 생성 속도가 느려질 수 있다. 또한 학습 데이터셋인 NeRSemble의 범위를 벗어나는 극단적인 의상이나 액세서리에 대한 일반화 성능은 아직 검증이 필요하다.

실무 활용

단일 사진만으로 즉시 구동 가능한 고품질 3D 아바타를 생성할 수 있어 실시간 통신 및 엔터테인먼트 분야에 즉각 적용 가능하다.

화상 회의 시스템에서 실시간으로 사용자의 표정을 따라하는 3D 아바타 페르소나 구현
모바일 게임 내에서 사용자 사진을 기반으로 한 정교한 3D 캐릭터 커스터마이징 자동화
VR/AR 환경에서 실제 인물과 유사한 디지털 트윈 생성 및 실시간 상호작용

코드 공개 여부: 공개

코드 저장소 보기

키워드

3DGS(3D 가우시안 스플래팅)Autoregressive(자기회귀)4D Avatar(4D 아바타)Transformer(트랜스포머)Point Cloud(포인트 클라우드)