FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다수의 신개념 3D 아바타 재구성 연구가 per-subject 최적화에 의존하는 한계를 지니는 반면, FFAvatar는 단일 feed-forward 패스로 다중 뷰 정보를 융합해 unseen identity에서도 일반화성과 재현 품질을 달성한다. 세 단계 학습 커리큘럼과 end-to-end FLAME 추정기를 통해 대규모 데이터에서의 확장성과 실제 운영 조건에서의 실시간 성능을 확보한다.

왜 중요한가

핵심 기여

Three-stage training curriculum

scalable pretraining on monocular videos (>1M identities), multi-view fine-tuning on high-quality 360° captures, 그리고 optional personalization으로 언 seen identity에 대한 일반화와 빠른 개인화(≤500 스텝, 7초) 달성.

End-to-end FLAME Estimator

FLAME 파라미터 ψ, θ, π를 per-view 이미지 임베딩에서 직접 예측하는 학습 가능한 estimator를 도입하여 외부 FLAME 전처리 없이 학습 가능.

Multi-view Query-Former architecture

여러 입력 뷰의 정보를 canonical FLAME vertex에 매핑된 Gaussian 쿼리 세트에 대해 cross-attention으로 융합하는 다중 뷰 기반 구조를 제시.

Few-to-many training objective

conditioning view 집합으로 can(Gcan)을 예측하고, 그 후 다양한 표현/포즈의 target 뷰를 렌더링하도록 학습하는 전략으로 unseen expressions/ viewpoints에 대한 일반화를 촉진.

핵심 아이디어 이해하기

출발점: 단일-view 기반 아바타 생성은 시야가 가려지거나 관찰되지 않는 영역에서 품질 저하를 야기한다. 해결: multi-view 입력을 Q-Former로 통합하여 canonical space의 Gaussian splats를 구성하고, end-to-end FLAME Estimator로 표현/포즈를 예측한다. 달라지는 점: scalable pretraining으로 대규모 아이덴티티 일반화를 확보하고, 360° 뷰에 대한 멀티 뷰 파인튜닝으로 기하학적 정합성과 뱅뱅성 강화, personalized residual로 특정 아이덴티티에 대한 재현을 대폭 향상시킨다.

방법론

전체 접근 방식과 핵심 아이디어: N개의 이미지 {In}에서 각 뷰의 피처를 ViT 기반 인코더로 추출하고, 멀티-뷰 Query-Former를 통해 canonical space의 Gcan을 예측한다. FLAME Estimator F는 ψ, θ, π를 per-view에서 예측하고, Gcan은 vm + om 형태의 canonical Gaussian 머리 모델이다. 학습 목표: Few-to-Many 손실 L = L1 + Llpips + Lssim + Ladv의 가중합으로 최적화한다. 학습 전략: 3단계 커리큘럼(Scalable Pretraining, Multi-View Finetuning, Personalization)으로 일반화와 Fidelity를 점진적으로 강화한다. 구현 세부: conditioning view 집합 S와 reconstruction view 집합 R를 나누고, 각 r에 대해 LBS를 이용해 애니메이션을 적용한다.

주요 결과

주요 벤치마크: NeRSemble에서 GAGAvatar(1-view) 15.03, LAM(1-view) 13.31, Ours(1-view) 17.60, Ours(4-view) 18.78, Ours(4-view+Personalization) 25.78. CSIM은 각각 0.47, 0.61, 0.68, 0.74, 0.89로 개선되었다. ablation: w/o GAN loss 17.51, w/o scalable pretraining 10.42, w/o multi-view finetuning 15.25, w/o few-to-many loss 15.91, Ours(4-view) 18.78. FLAME Estimator 비교: Ours 25.78 PSNR, 0.94 SSIM, 0.09 LPIPS, 0.89 CSIM, FPS 60 vs VHAP 25.81, 0.96, 0.09, 0.90, 0.3 FPS. 개인화는 500스텝으로 수렴하며, 7초 추가 비용으로 아이덴티티를 크게 보존한다.

기술 상세

아키텍처: Multi-View Large Avatar Model로, 각 driver 이미지 Ir은 ViT로 임베딩되고 per-view fper-view가 ψr, θr, πr를 추정한다. Condition View 세트 Is를 concat해 F가 FWA(FLAME) 파라미터를 예측한다. Q-Former는 고정된 Gaussian 쿼리에 대해 self-attention과 cross-attention을 수행해 Gcan의 모든 m에 대해 오브젝트를 생성한다. 애니메이션은 FLAME의 뼈대 트랜스폼을 이용해 μ'm,r = Rm,r μm + tm,r로 갱신하고 V의 공분산/불투명도/색상은 불변으로 유지한다. 학습 손실은 L1, LPIPS, SSIM, Ladv의 가중합으로 구성되며, 3단계 학습에서 데이터셋은 MFHQ-1M(모노큘러 비디오)과 Ava256(360° 다중뷰)로 구성된다.

한계점

FLAME 솔루션 공간에 한정되어 있어 눈 gaze, 입 내부, 혀의 정밀한 모델링은 제한적이다. 희소 뷰에서Hair나 clothing 경계가 누락될 수 있으며, personalization 없이 sparse-view에서 아이덴티티 디테일이 흐려질 수 있다.

실무 활용

FFAvatar는 few-shot 입력으로도 다중 뷰 정보를 활용해 360° 재현이 가능한 애니메이티드 3D Gaussian head avatar를 실시간에 가깝게 생성한다. personalization으로 특정 아이덴티티에 대한 품질도 빠르게 향상시킨다.

실시간 telepresence 및 원격 회의용 아바타 생성과 애니메이션
가상 프로덕션 및 스트리밍에서의 디지털 휴먼 생성
VR/AR 소셜 플랫폼의 개인화된 아바타 운영
Celebrities/브랜드 아이덴티티를 위한 빠른 커스텀 아바타 제작

코드 공개 여부: 비공개

키워드

FFAvatarGaussian head avatarMulti-View Query-FormerFLAME Estimatorthree-stage trainingscalable pretrainingmulti-view fine-tuningpersonalizationNeRSembleA100 GPU