핵심 요약
기존의 텍스트 기반 동작 생성 모델들은 모든 사람의 체형이 동일하다고 가정하여 마른 사람과 비만한 사람의 움직임 차이를 반영하지 못했다. 이 논문은 신체 조건과 동작 역학의 상관관계를 직접 모델링하여 가상 아바타나 로봇 시뮬레이션에서 훨씬 사실적인 움직임을 구현할 수 있게 한다.
왜 중요한가
기존의 텍스트 기반 동작 생성 모델들은 모든 사람의 체형이 동일하다고 가정하여 마른 사람과 비만한 사람의 움직임 차이를 반영하지 못했다. 이 논문은 신체 조건과 동작 역학의 상관관계를 직접 모델링하여 가상 아바타나 로봇 시뮬레이션에서 훨씬 사실적인 움직임을 구현할 수 있게 한다.
핵심 기여
Joint Motion-Shape Paradigm 제안
동작 시퀀스와 신체 파라미터의 결합 분포를 학습하여 신체 조건이 동작 역학에 직접 영향을 미치는 통합 생성 방식을 도입했다.
멀티모달 신원 사전 정보 활용
자연어 묘사와 시각적 단서를 결합하여 수치적인 측정값 없이도 정교한 신체 속성을 제어할 수 있는 인터페이스를 구축했다.
대규모 IdentityMotion 데이터셋 구축
20만 개 이상의 시퀀스를 포함하며 신체 유형, 연령, 성별 등 다양한 신원 정보가 주석 처리된 대규모 인더와일드 비디오 데이터셋을 공개했다.
관련 Figure

하나의 동작 명령(예: 벽돌 들고 걷기)이 주어졌을 때 마른 체형, 근육질, 과체중 등 신원 조건에 따라 모델이 신체 비율과 움직임 스타일을 어떻게 다르게 생성하는지 보여준다. 동작과 신원의 분리 제어 능력을 입증한다.
동일한 동작 프롬프트에 대해 서로 다른 체형 조건이 적용된 생성 결과
핵심 아이디어 이해하기
딥러닝에서 인간의 동작은 보통 표준화된 골격(Skeleton) 위에서 정의되는 Embedding 시퀀스로 표현된다. 하지만 실제 세계에서 '조깅'이라는 동작은 수행자의 다리 길이, 체중 분포, 근육량에 따라 보폭과 관절의 궤적이 달라진다. 기존 모델들은 표준 체형에서 생성된 동작을 사후에 강제로 다른 체형에 맞추는 Retargeting 방식을 사용했기 때문에 물리적 어색함이 발생했다.
이 논문은 동작(Motion)과 체형(Shape)을 별개의 요소로 보지 않고 하나의 결합된 상태 공간(Joint State Space)으로 정의한다. Diffusion 모델의 역확산 과정에서 노이즈로부터 동작 토큰과 체형 파라미터를 동시에 복원함으로써, 생성되는 움직임이 해당 체형의 물리적 제약 조건을 자연스럽게 따르도록 유도한다.
결과적으로 '마른 여성'과 '근육질 남성'이라는 조건이 주어졌을 때, 모델은 단순히 겉모습만 바꾸는 것이 아니라 각 체형에 최적화된 고유의 움직임 패턴을 생성해낸다. 이는 동작의 사실성을 높일 뿐만 아니라 텍스트 설명과 실제 생성된 신체 사이의 일관성을 획기적으로 개선한다.
방법론
전체 시스템은 데이터 처리 파이프라인과 통합 생성 프레임워크로 구성된다. 데이터 처리 단계에서는 GVHMR을 통해 비디오에서 동작 M과 체형 β를 추출하고, Gemini 2.5 Pro를 활용해 해당 인물의 외형적 특징을 텍스트 Ti로 기술하며, 대표 키프레임을 시각적 정보 Ii로 확보한다.
멀티모달 조건화 메커니즘은 Frozen 상태의 DistilBERT와 CLIP 인코더를 사용한다. 동작 프롬프트 Tm과 신원 텍스트 Ti, 시각적 사전 정보 Ii를 각각 임베딩한 후, 이를 단일 시퀀스로 결합(Concatenation)하여 Transformer 디코더의 조건 신호로 입력한다. [텍스트 및 이미지 특징 벡터 → 시퀀스 차원 결합 → 통합 조건 벡터 C 생성 → 생성 모델 제어]
Diffusion 기반 패러다임에서는 각 프레임의 포즈 특징 x(272차원)와 체형 파라미터 β(10차원)를 결합하여 282차원의 통합 상태 벡터 z = [x; β]를 구성한다. 모델은 가우시안 노이즈에서 이 통합 벡터를 복원하도록 학습되며, 손실 함수는 전체 조인트 공간에 대한 Mean Squared Error(MSE)를 사용한다. [노이즈 섞인 통합 벡터 z_t → Denoising Network → 예측된 z_0 → MSE Loss 계산 및 역전파]
관련 Figure

비디오와 MoCap 데이터에서 동작, 체형, 멀티모달 설명을 추출하는 과정과 이를 Diffusion 모델에 입력하여 통합 생성하는 과정을 보여준다. 텍스트와 시각적 인코더가 결합되어 Transformer 디코더를 제어하는 구조를 명확히 설명한다.
IAM 프레임워크의 전체 데이터 처리 파이프라인과 동작-체형 생성 구조도
주요 결과
HumanML3D 벤치마크 실험 결과, 제안된 Diffusion 기반 모델은 FID 7.371을 기록하며 기존 VQ 기반 모델(11.34)보다 뛰어난 동작 품질을 보였다. 특히 체형 정확도를 나타내는 β Dist. 지표에서 0.647을 달성하여 신체 조건 반영 능력이 탁월함을 입증했다.
IdentityMotion 데이터셋을 이용한 제로샷(Zero-shot) 평가에서도 학습 데이터에 포함되지 않은 새로운 신원에 대해 FID 23.174와 β Dist. 1.279를 기록하며 강력한 일반화 성능을 보였다. 이는 모델이 단순히 특정 인물을 암기하는 것이 아니라 신원 묘사와 신체 구조 사이의 상관관계를 학습했음을 의미한다.
사용자 평가(User Study)에서는 동작의 타당성(83.2%), 체형의 타당성(77.6%), 동작-체형 간의 사실적 조화(88.0%) 모든 항목에서 기존 SOTA 모델인 Shape My Moves를 압도하는 선호도를 기록했다.
관련 Figure

제안된 Diffusion 기반 방법이 VQ 기반이나 기존 Shape My Moves 모델보다 목표 체형을 더 정확하게 유지하면서도 텍스트 프롬프트에 맞는 동작을 생성함을 보여준다. 메쉬의 색상은 타겟 체형과의 오차를 나타낸다.
다양한 모델 간의 동작 및 체형 생성 결과 비교 시각화
기술 상세
IAM 아키텍처는 8개의 레이어와 4개의 어텐션 헤드를 가진 Transformer 기반 디코더를 핵심으로 한다. 잠재 차원은 256으로 설정되었으며, 텍스트 인코더로는 DistilBERT를, 이미지 인코더로는 CLIP을 사용하여 멀티모달 정보를 처리한다.
이 연구의 핵심 차별점은 동작과 체형을 독립적인 태스크로 분리하지 않고 p(M, β|Ci)라는 결합 밀도 추정 문제로 재정의한 것이다. 이를 통해 정적인 신체 구조와 동적인 시간적 역학 사이의 고유한 상관관계를 모델이 직접 포착할 수 있게 했다.
학습 시에는 Classifier-free guidance를 지원하기 위해 10%의 확률로 텍스트와 이미지 임베딩을 Null 토큰으로 대체하는 Joint Dropout 메커니즘을 적용했다. 이는 추론 단계에서 조건부 점수와 비조건부 점수 사이를 효과적으로 탐색하게 하여 생성 품질을 높인다.
한계점
참조 이미지에서 헐렁한 옷을 입고 있거나 신체가 가려진 경우 체형 재구성의 정확도가 떨어지는 민감도가 존재한다. 또한, 학습 데이터 분포를 벗어나는 극단적인 신체 조건(매우 크거나 작은 키 등)에 대해서는 절대적인 오차가 증가하는 경향이 있다.
실무 활용
게임 캐릭터 애니메이션, 가상 아바타 생성, 디지털 트윈 구현 등 개인화된 인간 모델링이 필요한 분야에 즉시 적용 가능하다. 특히 전문적인 수치 입력 없이 텍스트나 사진 한 장으로 체형에 맞는 동작을 생성할 수 있어 사용자 편의성이 높다.
- 사용자 사진을 기반으로 체형이 반영된 개인화된 게임 아바타 동작 생성
- 다양한 체형의 군중 애니메이션을 물리적으로 일관되게 자동 생성
- 의류 시뮬레이션 시 모델의 체형에 따른 자연스러운 워킹 동작 구현
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.