리만 운동 생성: 리만 플로우 매칭을 통한 인간 운동 표현 및 생성의 통합 프레임워크

기존의 인간 운동 생성 모델은 복잡한 관절 움직임을 평평한 유클리드 공간에서 다루어 물리적 제약을 어기거나 비효율적인 계산을 수행하는 한계가 있었다. 이 논문은 운동 데이터를 구부러진 공간인 리만 다양체 위에서 직접 모델링하여, 별도의 후처리 없이도 물리적으로 자연스럽고 정밀한 동작을 생성하는 새로운 표준을 제시한다.

왜 중요한가

핵심 기여

RMG 프레임워크 구축

인간의 운동을 여러 개의 저차원 매니폴드 인자의 곱으로 분해하여 모델링하는 통합 기하학적 패러다임을 구축했다.

컴팩트한 리만 표현 설계

전역 이동(Translation)과 회전(Rotation)만으로 구성된 효율적인 표현 방식을 통해 학습 안정성과 생성 품질을 동시에 확보했다.

대규모 데이터셋 확장성 입증

리만 플로우 매칭 기법이 100만 개의 모션 클립을 포함하는 대규모 데이터셋(MotionMillion)에서도 효과적으로 작동함을 최초로 증명했다.

SOTA 성능 달성

HumanML3D 데이터셋에서 FID 0.043을 기록하며 기존 모델들을 능가하는 최고 수준의 동작 현실성을 보여주었다.

핵심 아이디어 이해하기

인간의 몸은 여러 관절이 연결된 구조로, 각 관절의 움직임은 단순히 숫자의 나열이 아니라 회전과 같은 기하학적 제약을 따른다. 기존 방식은 이를 평평한 유클리드 공간(Euclidean space)의 벡터로 처리했는데, 이는 마치 지구의 둥근 표면을 평면 지도로만 이해하려는 것과 같아 왜곡이 발생하고 물리적으로 불가능한 자세가 생성되는 원인이 되었다.

RMG는 운동 데이터를 그 본연의 형태인 리만 다양체(Riemannian Manifold), 즉 구부러진 공간 위에서 직접 정의한다. 특히 복잡한 전신 움직임을 전역 이동과 각 관절의 회전이라는 독립적인 기하학적 요소들의 곱(Product Manifold)으로 분해하여 문제를 단순화한다.

이렇게 정의된 공간 위에서 데이터 사이의 최단 경로인 측지선(Geodesic)을 따라 확률 분포를 이동시키는 리만 플로우 매칭을 적용한다. 이를 통해 모델은 데이터가 존재하는 실제 기하학적 구조를 존중하며 학습하게 되고, 결과적으로 후처리 없이도 관절의 길이가 변하거나 발이 땅에 묻히는 등의 오류가 없는 고품질의 동작을 생성한다.

방법론

운동 표현의 분해 및 매니폴드 매핑 단계에서 인간의 포즈를 전역 이동(T ∈ R³), 전역 및 관절별 회전(R ∈ (S³)ᴶ)으로 분해한다. 각 회전 성분은 4차원 단위 사원수(Unit Quaternion)로 표현되어 3차원 초구(Hypersphere S³) 매니폴드 위에 놓인다.

리만 플로우 매칭(Riemannian Flow Matching)을 통해 소스 분포 p₀에서 타겟 분포 p₁으로 이동하는 시간 가변 속도장(Velocity Field)을 학습한다. 유클리드 공간의 선형 보간 대신 매니폴드 상의 측지선 보간 xt = Expx₀(t Logx₀(x₁))을 사용한다. [x₀, x₁ 입력 → 로그 사상(Log map)으로 접공간 벡터 추출 후 시간 t 곱함 → 지수 사상(Exp map) 수행 → 중간 상태 xt 생성]

접공간 감독(Tangent-space Supervision) 및 추론 단계에서는 신경망 vθ가 예측한 속도 벡터를 해당 지점의 접공간으로 투영하는 Πₜₓₜℳvθ(xt, t) 연산을 수행한다. [네트워크 출력 벡터 입력 → 접공간 투영 연산 → 매니폴드 제약을 따르는 속도 벡터 출력 → 유효한 운동 역학 보장]. 추론 시에는 리만 오일러 업데이트 xt+h = Expxt(h ẋt)를 통해 매니폴드 구조를 유지하며 샘플링한다.

주요 결과

HumanML3D 벤치마크 결과, 표준 포맷에서 FID 0.043을 달성하여 기존 최고 성능 모델인 MoMask(0.045)를 능가했다. 특히 MotionStreamer 포맷에서는 보고된 모든 지표(FID 5.835, R@1 0.710 등)에서 1위를 차지하며 다양한 출력 형식에 대한 강건성을 입증했다.

대규모 데이터셋 실험인 MotionMillion 데이터셋(100만 개 데이터)에서 0.5B 파라미터 모델로 FID 5.6, R@1 0.86을 기록했다. 이는 기존 7B 규모의 대형 모델들보다 훨씬 뛰어난 성능으로, 제안된 기하학적 프레임워크가 모델 크기보다 데이터의 본질적 구조를 파악하는 데 더 효율적임을 보여준다.

Ablation Study를 통해 전역 이동과 회전(T + R)만 사용한 컴팩트한 표현이 포즈 좌표(P)를 포함하거나 시간 차분(Temporal Difference)을 추가한 경우보다 가이드 스케일 변화에 더 안정적이고 낮은 FID를 유지함을 확인했다.

기술 상세

RMG는 인간의 운동을 제품 매니폴드(Product Manifold) ℳ_RMG = R³ × (S³)ᴶ로 모델링한다. 여기서 J는 관절의 수이며, 각 관절의 회전은 SO(3)의 중복 없는 표현인 단위 사원수를 통해 S³ 위에서 정의된다. 이는 기존의 6D 회전 표현보다 차원을 줄이면서도 매끄러운 측지선을 보장한다.

학습의 핵심은 리만 가우시안 분포(Riemannian Gaussian Distribution)로부터 샘플링된 사전 확률 분포 p₀를 실제 데이터 분포 p₁으로 매핑하는 것이다. 이때 평균 지점 μ를 'Rest Pose'(T-pose)로 설정하여 생성의 시작점을 물리적으로 타당한 정적 자세로 고정함으로써 학습 효율을 높였다.

수학적으로 리만 플로우 매칭은 유클리드 플로우 매칭의 일반화된 형태다. 손실 함수 L(θ)는 타겟 접속도 vt와 모델이 예측하고 접공간으로 투영된 속도 사이의 평균 제곱 오차를 최소화한다. 이는 통계적으로 데이터가 저차원 매니폴드에 존재할 때 유클리드 방식보다 더 빠른 수렴 속도와 낮은 오차 경계(Error Bound)를 가짐이 이론적으로 증명되었다.

한계점

자기 회귀(Auto-regressive) 설정에서의 성능은 아직 테스트되지 않았다. 또한 음악, 비디오 등 텍스트 이외의 다양한 조건부 입력이나 인간-물체 상호작용 시나리오는 탐구되지 않았으며, 생성 가능한 동작의 길이가 현재 10초(300 프레임)로 제한되어 있다. 손가락이나 얼굴 표정과 같은 세밀한 신체 부위의 구성은 현재 프레임워크에 포함되어 있지 않다.

실무 활용

리만 기하학을 활용하여 물리적 제약 조건을 모델 구조에 내재화했으므로, 게임이나 애니메이션 제작 시 별도의 복잡한 IK(Inverse Kinematics) 후처리 없이도 즉시 사용 가능한 고품질 동작 데이터를 생성할 수 있다.

텍스트 기반 게임 캐릭터 애니메이션 자동 생성
VR/AR 환경에서의 실시간 인간 동작 합성
로봇의 자연스러운 보행 및 작업 동작 계획(Motion Planning)
디지털 휴먼의 감정 표현 및 제스처 생성

코드 공개 여부: 미확인

키워드

Riemannian-Manifold(리만-다양체)Flow-Matching(플로우-매칭)Human-Motion-Generation(인간-운동-생성)Quaternion(사원수)Geodesic(측지선)

용어 해설

리만 다양체(Riemannian Manifold): — 각 점에서의 접공간에 내적이 정의되어 거리와 각도를 측정할 수 있는 매끄러운 곡면 공간이다. 인간의 관절 회전과 같이 유클리드 기하학으로 설명하기 어려운 비선형적 데이터 구조를 물리적으로 정확하게 모델링하는 데 필수적이다.
플로우 매칭(Flow Matching): — 노이즈 분포를 데이터 분포로 변환하는 연속적인 속도장(Velocity Field)을 직접 학습하는 생성 모델 기법이다. 확산 모델보다 학습이 안정적이고 추론 속도가 빠르며, 특히 리만 다양체와 같은 복잡한 기하학적 구조 위에서도 정의가 가능하다.
사원수(Quaternion): — 3차원 회전을 표현하기 위해 사용되는 4차원 복소수 체계이다. 오일러 각(Euler angles)의 고질적 문제인 짐벌 락(Gimbal lock) 현상이 없고 계산이 효율적이며, 단위 사원수는 3차원 초구(S3) 매니폴드 위의 점으로 대응된다.
측지선(Geodesic): — 굽은 공간(다양체) 위에서 두 점을 잇는 가장 짧은 경로를 의미한다. 평면에서의 직선 개념을 곡면으로 확장한 것으로, 리만 다양체 위에서 데이터를 보간하거나 이동시킬 때 물리적인 왜곡을 최소화하는 기준선이 된다.
접공간(Tangent Space): — 다양체 위의 한 점에 접하는 평평한 벡터 공간이다. 곡면 위의 복잡한 연산을 이 평면 위에서의 선형 연산으로 변환하여 처리할 수 있게 해주며, 플로우 매칭에서 속도 벡터가 정의되는 실제 연산 공간이다.

리만 운동 생성: 리만 플로우 매칭을 통한 인간 운동 표현 및 생성의 통합 프레임워크

왜 중요한가

핵심 기여

RMG 프레임워크 구축

인간의 운동을 여러 개의 저차원 매니폴드 인자의 곱으로 분해하여 모델링하는 통합 기하학적 패러다임을 구축했다.

컴팩트한 리만 표현 설계

전역 이동(Translation)과 회전(Rotation)만으로 구성된 효율적인 표현 방식을 통해 학습 안정성과 생성 품질을 동시에 확보했다.

대규모 데이터셋 확장성 입증

리만 플로우 매칭 기법이 100만 개의 모션 클립을 포함하는 대규모 데이터셋(MotionMillion)에서도 효과적으로 작동함을 최초로 증명했다.

SOTA 성능 달성

HumanML3D 데이터셋에서 FID 0.043을 기록하며 기존 모델들을 능가하는 최고 수준의 동작 현실성을 보여주었다.

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

텍스트 기반 게임 캐릭터 애니메이션 자동 생성
VR/AR 환경에서의 실시간 인간 동작 합성
로봇의 자연스러운 보행 및 작업 동작 계획(Motion Planning)
디지털 휴먼의 감정 표현 및 제스처 생성

코드 공개 여부: 미확인

키워드

Riemannian-Manifold(리만-다양체)Flow-Matching(플로우-매칭)Human-Motion-Generation(인간-운동-생성)Quaternion(사원수)Geodesic(측지선)

용어 해설

리만 다양체(Riemannian Manifold): — 각 점에서의 접공간에 내적이 정의되어 거리와 각도를 측정할 수 있는 매끄러운 곡면 공간이다. 인간의 관절 회전과 같이 유클리드 기하학으로 설명하기 어려운 비선형적 데이터 구조를 물리적으로 정확하게 모델링하는 데 필수적이다.
플로우 매칭(Flow Matching): — 노이즈 분포를 데이터 분포로 변환하는 연속적인 속도장(Velocity Field)을 직접 학습하는 생성 모델 기법이다. 확산 모델보다 학습이 안정적이고 추론 속도가 빠르며, 특히 리만 다양체와 같은 복잡한 기하학적 구조 위에서도 정의가 가능하다.
사원수(Quaternion): — 3차원 회전을 표현하기 위해 사용되는 4차원 복소수 체계이다. 오일러 각(Euler angles)의 고질적 문제인 짐벌 락(Gimbal lock) 현상이 없고 계산이 효율적이며, 단위 사원수는 3차원 초구(S3) 매니폴드 위의 점으로 대응된다.
측지선(Geodesic): — 굽은 공간(다양체) 위에서 두 점을 잇는 가장 짧은 경로를 의미한다. 평면에서의 직선 개념을 곡면으로 확장한 것으로, 리만 다양체 위에서 데이터를 보간하거나 이동시킬 때 물리적인 왜곡을 최소화하는 기준선이 된다.
접공간(Tangent Space): — 다양체 위의 한 점에 접하는 평평한 벡터 공간이다. 곡면 위의 복잡한 연산을 이 평면 위에서의 선형 연산으로 변환하여 처리할 수 있게 해주며, 플로우 매칭에서 속도 벡터가 정의되는 실제 연산 공간이다.

리만 운동 생성: 리만 플로우 매칭을 통한 인간 운동 표현 및 생성의 통합 프레임워크

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

용어 해설

리만 운동 생성: 리만 플로우 매칭을 통한 인간 운동 표현 및 생성의 통합 프레임워크

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

용어 해설

관련 토론

댓글

관련 기사

Flow-ERD: 에이전트 유형 인식 플로우 매칭과 엔트로피 정규화 증류를 통한 다양성 있는 교통 시뮬레이션

관련 토론

댓글

관련 기사

Flow-ERD: 에이전트 유형 인식 플로우 매칭과 엔트로피 정규화 증류를 통한 다양성 있는 교통 시뮬레이션