핵심 요약
기존 3D 아바타 생성 모델은 정교하게 통제된 스튜디오 데이터가 대량으로 필요했으나, 이 논문은 일반적인 야생 비디오(In-the-wild)만으로도 고품질 3D 아바타를 학습할 수 있는 방법론을 제시했다. 110만 명 이상의 방대한 데이터를 활용해 생성 성능과 일반화 능력을 획기적으로 높였으며, 텍스트와 이미지를 통한 자유로운 편집까지 가능하게 했다.
왜 중요한가
기존 3D 아바타 생성 모델은 정교하게 통제된 스튜디오 데이터가 대량으로 필요했으나, 이 논문은 일반적인 야생 비디오(In-the-wild)만으로도 고품질 3D 아바타를 학습할 수 있는 방법론을 제시했다. 110만 명 이상의 방대한 데이터를 활용해 생성 성능과 일반화 능력을 획기적으로 높였으며, 텍스트와 이미지를 통한 자유로운 편집까지 가능하게 했다.
핵심 기여
대규모 3D 확산 모델 GenLCA 제안
텍스트와 이미지 입력을 기반으로 고해상도 전신 3D 가우시안 아바타를 생성하고 편집할 수 있는 멀티모달 3D 확산 모델을 구축했다.
비정형 비디오를 위한 3D 토크나이저 도입
사전 학습된 아바타 재구성 모델을 활용해 비정형 비디오 프레임을 구조화된 3D 토큰으로 변환함으로써 3D 공간에서 직접적인 확산 학습을 가능하게 했다.
가시성 인식 학습 전략 개발
단일 시점 비디오의 부분적 관찰 특성으로 발생하는 아티팩트를 해결하기 위해, 유효한 영역에 대해서만 손실을 계산하고 미관찰 영역은 학습 가능한 플레이스홀더로 대체하는 전략을 도입했다.
110만 명 규모의 대규모 데이터셋 확장
기존 수천 명 수준에 머물던 3D 데이터셋 규모를 110만 명 이상의 실제 인물 데이터로 확장하여 모델의 일반화 성능과 시각적 사실성을 극대화했다.
관련 Figure

텍스트와 얼굴 이미지를 입력받아 고품질 아바타를 생성하는 과정(A)과, 스크리블이나 텍스트를 통해 의상을 변경하는 편집 기능(B)을 시각화한다. 하단(C)은 모델이 생성할 수 있는 매우 다양한 인종, 연령, 직업군의 아바타들을 보여주며 모델의 강력한 일반화 성능을 입증한다.
GenLCA의 생성, 편집 및 결과물 다양성을 보여주는 종합 예시 도표
핵심 아이디어 이해하기
기존의 3D 생성 모델은 3D 에셋 자체가 부족하여 2D 확산 모델의 지식에 의존하거나(SDS 방식), 소수의 스튜디오 데이터로만 학습되어 다양한 인물을 표현하는 데 한계가 있었다. GenLCA는 2D 비디오를 3D 토큰(Embedding)으로 변환하는 '토크나이저' 개념을 도입하여, 방대한 양의 일반 비디오 데이터를 3D 모델 학습에 직접 활용할 수 있도록 설계됐다.
핵심 원리는 단일 시점 비디오에서 발생하는 '보이지 않는 부분'의 문제를 해결하는 것이다. 카메라 한 대로는 사람의 앞모습만 볼 수 있으므로 뒷모습 데이터는 불완전할 수밖에 없는데, 이를 무시하고 학습하면 결과물이 흐릿해지는 문제가 발생한다. GenLCA는 가시성 마스크(Visibility Mask)를 통해 모델이 확실히 '본' 부분만 학습하게 하고, 보지 못한 부분은 공통적인 특징(Placeholder)으로 채워 넣도록 유도하여 전체적인 품질을 유지한다.
결과적으로 이 모델은 수백만 명의 실제 인물 데이터를 학습함으로써, 단순한 텍스트 묘사만으로도 피부 질감, 옷의 주름, 머리카락의 세부 사항이 살아있는 고품질 3D 아바타를 생성할 수 있게 됐다. 이는 3D 생태계에서도 2D 이미지 생성 모델과 같은 대규모 데이터 기반의 스케일링 법칙이 작동함을 증명한 것이다.
관련 Figure

단일 시점 입력 이미지에서 관찰되지 않은 부분(노란색/파란색 박스)이 어떻게 흐릿하게 재구성되는지 보여주고, 가시성 마스크를 통해 이러한 무효 토큰들을 제거하여 깨끗한 3D 구조만 남기는 과정을 시각적으로 증명한다.
가시성 마스크(Visibility Mask)의 작동 원리와 유효 토큰 필터링 과정
방법론
GenLCA의 전체 구조는 3D 토크나이저, 토큰 압축기, 그리고 흐름 기반 확산 모델(Flow-based Diffusion)로 구성된다. 먼저 사전 학습된 LCA 모델을 토크나이저로 사용하여 입력 이미지들을 8,192개의 3D 가우시안 토큰 T로 변환한다. 각 토큰은 3D 공간의 특정 쿼리 포인트에 대응하며 가우시안의 위치, 색상, 불투명도 정보를 담고 있다.
추출된 고차원 토큰 T ∈ R^(8192×1024)는 효율적인 학습을 위해 압축기(Compressor)를 거쳐 저차원 잠재 공간 Z ∈ R^(8192×8)로 변환된다. 압축기는 L1 재구성 손실과 KL 발산 손실을 사용하여 학습된다. [입력 토큰 T → 인코더 MLP 및 Self-Attention → 잠재 변수 Z → 디코더 → 복원된 T' → 원본 T와의 차이 최소화] 과정을 통해 정보 손실을 최소화하면서 차원을 축소한다.
확산 모델은 Rectified Flow 목적 함수를 사용하여 학습된다. 특히 가시성 인식 학습(Visibility-aware training)을 위해 마스크 M을 계산한다. [3D 가우시안 렌더링 → 입력 이미지와의 그래디언트 계산 → 기여도가 낮은 가우시안 식별 → 마스크 생성] 과정을 거친다. 손실 함수 계산 시 마스크가 0인(보이지 않는) 영역은 학습 가능한 플레이스홀더 토큰으로 대체하고, 유효한 영역에 대해서만 가중치를 부여하여 손실을 계산함으로써 데이터의 불완전성을 극복한다.
모델 아키텍처는 MMDiT(Multi-Modal Diffusion Transformer) 구조를 채택하여 텍스트(CLIP), 신체 부위 이미지(DINOv2), 스크 scribble(DINOv2) 등 다양한 조건부 입력을 동시에 처리한다. 각 조건은 별도의 브랜치에서 처리된 후 Attention 메커니즘을 통해 잠재 특징과 결합되어 최종적인 3D 아바타 구조를 생성한다.
관련 Figure

3D 토큰이 압축기를 거쳐 잠재 공간으로 변환되고, MMDiT 기반의 GenLCA 블록에서 텍스트 및 이미지 조건과 결합되는 과정을 상세히 설명한다. 특히 가시성 마스크와 플레이스홀더가 학습 과정에서 어떻게 개입하여 데이터 불완전성을 해결하는지 구조적으로 보여준다.
GenLCA의 전체 학습 파이프라인과 모델 내부 아키텍처 다이어그램
주요 결과
GenLCA는 기존 SOTA 모델인 TADA, HumanGaussian, DreamWaltz-G 등과 비교하여 정성적, 정량적 모든 면에서 압도적인 성능을 보였다. 특히 텍스트 정렬(Semantic Alignment) 지표인 BLIP-VQA에서 0.64, Text CLIP Score에서 0.76을 기록하며 가장 높은 일치도를 보였다. 시각적 품질을 측정하는 HyperIQA 점수에서도 63.05로 기존 모델들을 크게 앞질렀다.
사용자 평가(User Study) 결과, 텍스트 정렬(4.56), 다중 시점 일관성(4.68), 시각적 품질(4.65), 기하학적 품질(4.63) 등 모든 항목에서 5점 만점에 가까운 점수를 받으며 1위를 차지했다. 이는 대규모 실제 데이터를 통한 학습이 모델의 일반화 능력과 사실성을 얼마나 크게 향상시켰는지를 입증한다.
Ablation Study를 통해 가시성 인식 학습의 중요성도 확인됐다. 해당 전략을 제외하고 학습했을 경우, 모델이 관찰되지 않은 영역을 억지로 생성하려다 결과물이 흐릿해지거나 투명해지는 아티팩트가 발생했다. 반면 GenLCA는 플레이스홀더와 마스크 손실을 통해 깨끗하고 일관된 전신 구조를 생성하는 데 성공했다.
관련 Figure

동일한 텍스트 프롬프트에 대해 GenLCA가 기존 모델들보다 훨씬 더 사실적인 텍스트 정렬, 선명한 얼굴 디테일, 그리고 정확한 의상 색상 표현력을 가짐을 보여준다. 특히 얼굴 확대 샷을 통해 타 모델 대비 압도적인 해상도 차이를 확인할 수 있다.
GenLCA와 기존 SOTA 모델들(TADA, HumanGaussian 등)의 생성 결과 비교
기술 상세
GenLCA는 28개의 블록으로 구성된 Denoising 네트워크를 사용하며, 각 블록은 1,024개의 채널과 16개의 Attention Head를 가진다. 학습에는 64개의 NVIDIA A100 GPU가 사용되었으며, 128 배치 사이즈로 4일간 학습을 진행했다. Rectified Flow 기법을 통해 노이즈에서 데이터로 가는 경로를 직선화하여 샘플링 효율을 높였다.
데이터셋 측면에서 1,113,476개의 야생 비디오와 2,737명의 스튜디오 캡처 데이터를 혼합하여 사용했다. 이는 기존 3D 아바타 연구들이 수백~수천 명 단위의 데이터에 의존했던 것과 대조되는 규모다. 특히 Sapiens 모델을 활용해 배경을 제거하고 신체 부위를 세그멘테이션하여 정교한 조건부 입력을 구성한 것이 성능 향상의 핵심 요인 중 하나다.
아키텍처적으로는 MMDiT 블록을 사용하여 잠재 특징(Latent)과 조건부 토큰(Conditional)을 독립적인 브랜치에서 처리한 후 결합하는 방식을 취했다. 이를 통해 텍스트와 이미지라는 서로 다른 모달리티의 정보를 효과적으로 융합할 수 있었다. 또한 Classifier-free guidance를 적용하여(확률 0.25로 조건 누락) 생성 결과의 품질과 프롬프트 준수 능력을 조절했다.
한계점
모델의 애니메이션 성능이 재구성 모델로부터 상속받은 Linear Blend Skinning(LBS)에 의존하고 있어, 헐렁한 옷을 입은 상태에서 극단적인 포즈를 취할 경우 비현실적인 변형이 발생할 수 있다는 한계가 있다.
실무 활용
실제 인물의 비디오만으로 고품질 3D 아바타를 생성할 수 있어 게임, 메타버스, 가상 피팅 등 다양한 산업 분야에서 즉각적인 활용이 가능하다.
- 사용자 셀카 비디오를 활용한 개인 맞춤형 고화질 3D 아바타 생성
- 텍스트 프롬프트를 통한 가상 캐릭터의 의상, 헤어스타일 실시간 편집 및 디자인
- 고해상도 얼굴 및 전신 애니메이션이 필요한 VR/AR 콘텐츠 제작
- 다양한 체형과 의상을 가진 디지털 휴먼 데이터셋 자동 생성
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.