TL;DR
다수의 신개념 3D 아바타 재구성 연구가 per-subject 최적화에 의존하는 한계를 지니는 반면, FFAvatar는 단일 feed-forward 패스로 다중 뷰 정보를 융합해 unseen identity에서도 일반화성과 재현 품질을 달성한다. 세 단계 학습 커리큘럼과 end-to-end FLAME 추정기를 통해 대규모 데이터에서의 확장성과 실제 운영 조건에서의 실시간 성능을 확보한다.
왜 중요한가
다수의 신개념 3D 아바타 재구성 연구가 per-subject 최적화에 의존하는 한계를 지니는 반면, FFAvatar는 단일 feed-forward 패스로 다중 뷰 정보를 융합해 unseen identity에서도 일반화성과 재현 품질을 달성한다. 세 단계 학습 커리큘럼과 end-to-end FLAME 추정기를 통해 대규모 데이터에서의 확장성과 실제 운영 조건에서의 실시간 성능을 확보한다.
핵심 기여
Three-stage training curriculum
scalable pretraining on monocular videos (>1M identities), multi-view fine-tuning on high-quality 360° captures, 그리고 optional personalization으로 언 seen identity에 대한 일반화와 빠른 개인화(≤500 스텝, 7초) 달성.
End-to-end FLAME Estimator
FLAME 파라미터 ψ, θ, π를 per-view 이미지 임베딩에서 직접 예측하는 학습 가능한 estimator를 도입하여 외부 FLAME 전처리 없이 학습 가능.
Multi-view Query-Former architecture
여러 입력 뷰의 정보를 canonical FLAME vertex에 매핑된 Gaussian 쿼리 세트에 대해 cross-attention으로 융합하는 다중 뷰 기반 구조를 제시.
Few-to-many training objective
conditioning view 집합으로 can(Gcan)을 예측하고, 그 후 다양한 표현/포즈의 target 뷰를 렌더링하도록 학습하는 전략으로 unseen expressions/ viewpoints에 대한 일반화를 촉진.
핵심 아이디어 이해하기
출발점: 단일-view 기반 아바타 생성은 시야가 가려지거나 관찰되지 않는 영역에서 품질 저하를 야기한다. 해결: multi-view 입력을 Q-Former로 통합하여 canonical space의 Gaussian splats를 구성하고, end-to-end FLAME Estimator로 표현/포즈를 예측한다. 달라지는 점: scalable pretraining으로 대규모 아이덴티티 일반화를 확보하고, 360° 뷰에 대한 멀티 뷰 파인튜닝으로 기하학적 정합성과 뱅뱅성 강화, personalized residual로 특정 아이덴티티에 대한 재현을 대폭 향상시킨다.
방법론
전체 접근 방식과 핵심 아이디어: N개의 이미지 {In}에서 각 뷰의 피처를 ViT 기반 인코더로 추출하고, 멀티-뷰 Query-Former를 통해 canonical space의 Gcan을 예측한다. FLAME Estimator F는 ψ, θ, π를 per-view에서 예측하고, Gcan은 vm + om 형태의 canonical Gaussian 머리 모델이다. 학습 목표: Few-to-Many 손실 L = L1 + Llpips + Lssim + Ladv의 가중합으로 최적화한다. 학습 전략: 3단계 커리큘럼(Scalable Pretraining, Multi-View Finetuning, Personalization)으로 일반화와 Fidelity를 점진적으로 강화한다. 구현 세부: conditioning view 집합 S와 reconstruction view 집합 R를 나누고, 각 r에 대해 LBS를 이용해 애니메이션을 적용한다.
관련 Figure

해당 그림은 방법론 섹션의 흐름을 직관적으로 제시하므로, 다중 뷰 입력을 하나의 canonical representation으로 융합하는 핵심 아이디어를 확인하는 데 유용하다.
FFAvatar 파이프라인 다이어그램으로 canonical FLAME vertex를 이용한 Gaussian avatar 생성 흐름과 Multi-view Query-Former, FLAME Estimator의 연결 관계를 보여준다.
주요 결과
주요 벤치마크: NeRSemble에서 GAGAvatar(1-view) 15.03, LAM(1-view) 13.31, Ours(1-view) 17.60, Ours(4-view) 18.78, Ours(4-view+Personalization) 25.78. CSIM은 각각 0.47, 0.61, 0.68, 0.74, 0.89로 개선되었다. ablation: w/o GAN loss 17.51, w/o scalable pretraining 10.42, w/o multi-view finetuning 15.25, w/o few-to-many loss 15.91, Ours(4-view) 18.78. FLAME Estimator 비교: Ours 25.78 PSNR, 0.94 SSIM, 0.09 LPIPS, 0.89 CSIM, FPS 60 vs VHAP 25.81, 0.96, 0.09, 0.90, 0.3 FPS. 개인화는 500스텝으로 수렴하며, 7초 추가 비용으로 아이덴티티를 크게 보존한다.
관련 Figure

다중 입력 뷰와 personalization의 효과를 시각적으로 뒷받침하며, 결과 섹션의 성능 향상을 시각적으로 보조한다.
Self-reenactment 및 cross-reenactment에 대한 4-view와 personalization의 정량적/정성적 비교를 담은 이미지 몽타주
기술 상세
아키텍처: Multi-View Large Avatar Model로, 각 driver 이미지 Ir은 ViT로 임베딩되고 per-view fper-view가 ψr, θr, πr를 추정한다. Condition View 세트 Is를 concat해 F가 FWA(FLAME) 파라미터를 예측한다. Q-Former는 고정된 Gaussian 쿼리에 대해 self-attention과 cross-attention을 수행해 Gcan의 모든 m에 대해 오브젝트를 생성한다. 애니메이션은 FLAME의 뼈대 트랜스폼을 이용해 μ'm,r = Rm,r μm + tm,r로 갱신하고 V의 공분산/불투명도/색상은 불변으로 유지한다. 학습 손실은 L1, LPIPS, SSIM, Ladv의 가중합으로 구성되며, 3단계 학습에서 데이터셋은 MFHQ-1M(모노큘러 비디오)과 Ava256(360° 다중뷰)로 구성된다.
한계점
FLAME 솔루션 공간에 한정되어 있어 눈 gaze, 입 내부, 혀의 정밀한 모델링은 제한적이다. 희소 뷰에서Hair나 clothing 경계가 누락될 수 있으며, personalization 없이 sparse-view에서 아이덴티티 디테일이 흐려질 수 있다.
실무 활용
FFAvatar는 few-shot 입력으로도 다중 뷰 정보를 활용해 360° 재현이 가능한 애니메이티드 3D Gaussian head avatar를 실시간에 가깝게 생성한다. personalization으로 특정 아이덴티티에 대한 품질도 빠르게 향상시킨다.
- 실시간 telepresence 및 원격 회의용 아바타 생성과 애니메이션
- 가상 프로덕션 및 스트리밍에서의 디지털 휴먼 생성
- VR/AR 소셜 플랫폼의 개인화된 아바타 운영
- Celebrities/브랜드 아이덴티티를 위한 빠른 커스텀 아바타 제작
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.