Flow Matching을 이용한 통합된 인원수 제한 없는 텍스트 기반 모션 생성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 다인원 동작 생성 기술은 인원수가 고정되어 있거나 순차적 생성 시 오차가 누적되어 동작이 어색해지는 한계가 있었다. 이 논문은 단일 인원 데이터를 활용해 인원수 제한 없이 자연스러운 상호작용을 생성하는 Unified Motion Flow를 제안하여, 게임이나 가상현실 내 복잡한 군중 애니메이션 제작 비용을 획기적으로 낮출 수 있는 길을 열었다.

왜 중요한가

핵심 기여

Unified Latent Space 구축

서로 다른 형식의 단일 인원 및 다인원 데이터셋을 통합하여 학습할 수 있도록 멀티 토큰 기반의 공통 잠재 공간을 설계함.

Pyramid Motion Flow (P-Flow) 설계

노이즈 수준에 따라 해상도를 조절하는 계층적 구조를 도입하여, 연산 효율성을 극대화하면서도 고품질의 초기 동작 프라이어를 생성함.

Semi-Noise Motion Flow (S-Flow) 개발

반응 동작 생성 시 맥락 재구성(Context Reconstruction) 경로를 함께 학습하여 자기회귀 모델의 고질적인 오차 누적 문제를 완화함.

Zero-shot 다인원 확장성 입증

2인 상호작용 데이터로 학습했음에도 불구하고 3인 이상의 복잡한 그룹 시나리오에서 자연스러운 동작을 생성하는 일반화 성능을 보여줌.

핵심 아이디어 이해하기

여러 명의 동작을 텍스트로 만들 때 가장 큰 문제는 '누가 먼저 움직이고 누가 어떻게 반응하는가'를 자연스럽게 연결하는 것이다. 기존 방식은 한 명씩 순서대로 만들다 보니 앞사람의 작은 실수가 뒷사람에게 전달되어 전체 동작이 엉키는 경우가 많았다. UMF는 이를 해결하기 위해 'Flow Matching'이라는 수학적 경로 최적화 기법을 사용한다.

먼저 P-Flow는 첫 번째 사람의 동작을 만든다. 이때 처음부터 정밀하게 그리는 대신, 초기에는 낮은 해상도로 뼈대를 잡고 나중에 고해상도로 살을 붙이는 '피라미드' 방식을 써서 연산 속도를 5배 이상 높였다. 이는 마치 화가가 스케치를 먼저 하고 세부 묘사를 하는 것과 유사한 원리다.

그다음 S-Flow가 다른 사람들의 반응을 만든다. 단순히 앞사람을 따라가는 게 아니라, 노이즈 섞인 상태에서 앞사람이 무엇을 했는지 스스로 다시 그려보는 '맥락 재구성' 과정을 거친다. 이 과정을 통해 모델은 주변 상황을 더 정확히 이해하게 되고, 결과적으로 여러 명이 서로 부딪히거나 엉뚱한 동작을 하지 않고 텍스트 명령에 맞는 정교한 상호작용을 완성하게 된다.

방법론

전체 프레임워크는 Unified Latent Space, P-Flow, S-Flow의 세 단계로 구성된다. 먼저 SMPL 스켈레톤 데이터를 Transformer 기반 VAE를 통해 16x32 크기의 잠재 벡터로 압축하여 데이터 간의 이질성을 제거한다. [입력 동작 → Encoder → Latent Vector → 동작 특징 압축]

P-Flow는 가우시안 플로우 매칭을 계층적으로 수행한다. 타임스텝 $t$ 가 작을 때는 $Up(Down(z, 2^k))$ 연산을 통해 해상도를 낮춰 연산량을 $1/K$ 로 줄이고, $t$ 가 커질수록 원본 해상도로 복원하며 정밀도를 높인다. [노이즈와 텍스트 → 계층적 해상도 연산 → 모션 프라이어 → 효율적 생성]

S-Flow는 반응 동작 $W$ 를 생성하기 위해 두 가지 확률 경로를 동시에 학습한다. 반응 변환 경로는 맥락 $C$ 에서 $W$ 로 가는 길을 찾고, 맥락 재구성 경로는 노이즈에서 $C$ 를 복원한다. 이 두 손실 함수를 가중치 $\lambda_{recon}$ 으로 합산하여 최적화함으로써 맥락 인지 능력을 강화한다. [이전 동작들 → Context Adapter → 맥락 $C$ → S-Flow Transformer → 반응 동작 생성]

주요 결과

InterHuman 벤치마크 실험 결과, UMF는 기존 SOTA 모델인 FreeMotion 대비 FID 점수를 6.740에서 4.772로 약 29% 개선했다. 텍스트 일치도를 나타내는 Top3 R-Precision 역시 28% 향상된 수치를 기록했다.

Ablation Study를 통해 단일 인원 데이터셋(HumanML3D)을 프라이어로 활용하는 것이 다인원 상호작용의 품질을 높이는 데 결정적임을 확인했다. 또한 P-Flow의 계층적 구조 덕분에 기존 방식보다 연산량(FLOPs)을 줄이면서도 추론 속도를 약 5배 단축하는 성과를 거뒀다.

사용자 평가(User Study)에서는 텍스트 정렬, 동작의 사실성, 상호작용 품질 모든 면에서 UMF가 생성한 동작이 기존 방식보다 우수하다는 평가를 받았다. 특히 학습 데이터에 없던 3인 이상의 시나리오에서도 인물 간 관통 현상 없이 자연스러운 동작을 생성했다.

기술 상세

UMF 아키텍처는 Transformer 기반의 VAE와 두 개의 전용 Flow Transformer로 설계되었다. VAE는 Latent Adapter를 사용하여 16x256의 고해상도 토큰을 16x32의 밀집된 공간으로 투영함으로써 재구성 성능을 유지하면서도 생성 모델의 학습 안정성을 확보했다.

P-Flow는 Piecewise Flow Matching을 구현하여 $[0, 1]$ 구간을 $K$ 개의 타임 윈도우로 분할한다. 각 윈도우의 시작점과 끝점은 노이즈 $\epsilon$ 과 데이터 $z_1$ 의 선형 보간으로 정의되며, 낮은 해상도에서 높은 해상도로 전이될 때 JumpUpdate 알고리즘을 통해 확률 경로의 연속성을 보장한다.

S-Flow는 Adaptive Context Formulation을 통해 이전 에이전트들의 동작 시퀀스를 동적으로 인코딩한다. $i > 2$ 인 경우 에이전트별 평균 풀링(Agent-wise Average Pooling)을 적용하여 가변적인 인원수의 정보를 고정된 차원의 글로벌 맥락으로 변환함으로써 오차 누적을 방지하고 확장성을 확보했다.

학습 시에는 AdamW 옵티마이저와 Cosine Decay 스케줄러를 사용했으며, VAE는 6K 에포크, P-Flow와 S-Flow는 각각 2K 에포크 동안 학습되었다. 모든 모듈은 별도의 Transformer 백본을 사용하여 노이즈-투-모션과 모션-투-모션 태스크 간의 간섭을 최소화했다.

한계점

UMF는 약 10명 내외의 중간 규모 그룹 상호작용 생성에는 효과적이나, 100명 이상의 초고밀도 군중 역학을 모델링하기에는 한계가 있다. 또한 현재는 텍스트 조건에 의존하고 있어 대규모 비디오 확산 모델의 시각적 정보를 활용한 정밀한 제어 연구가 추가로 필요하다.

실무 활용

텍스트 프롬프트만으로 인원수 제한 없이 자연스러운 다인원 상호작용 동작을 생성할 수 있어 실무 활용도가 매우 높다.

게임 개발 시 NPC들의 자연스러운 군중 상호작용 및 대화 동작 자동 생성
VR/AR 콘텐츠에서 사용자 명령에 반응하는 다수 캐릭터의 실시간 애니메이션
영화 및 애니메이션 제작 시 복잡한 군중 씬의 초안 동작 생성 및 비용 절감

코드 공개 여부: 공개

코드 저장소 보기

키워드

Flow Matching(플로우 매칭)Text-to-Motion(텍스트 기반 동작 생성)Multi-agent(다중 에이전트)Hierarchical Resolution(계층적 해상도)Error Accumulation(오차 누적)