MACE-Dance: 음악 기반 댄스 비디오 생성을 위한 동작-외형 직렬 전문가 모델

음악에 맞춰 춤추는 영상을 생성할 때 발생하는 동작의 물리적 어색함과 외형의 불일치 문제를 동작 전문가와 외형 전문가를 분리한 MoE 구조로 해결했다. 3D 동작 파라미터를 중간 매개체로 사용하여 기존 2D 기반 방식보다 훨씬 정교하고 역동적인 댄스 비디오 생성이 가능하다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

#1Diagram
음악과 참조 이미지가 입력되면 Motion Expert가 3D 동작을 생성하고, Appearance Expert가 이를 바탕으로 최종 영상을 합성하는 과정을 설명한다. 다양한 장르(민속 무용, 팝핀, K-pop)에 대한 생성 결과물이 시각적으로 제시되어 모델의 범용성을 보여준다.
MACE-Dance 프레임워크의 전체 개요와 생성 사례를 보여주는 도식이다.

핵심 기여

동작-외형 직렬 전문가(MoE) 프레임워크

음악에서 3D 동작을 추출하는 Motion Expert와 이를 바탕으로 영상을 합성하는 Appearance Expert를 직렬로 연결하여 복잡한 생성 작업을 단계별로 최적화했다.

BiMamba-Transformer 하이브리드 아키텍처

로컬 의존성을 잘 파악하는 BiMamba와 글로벌 문맥을 모델링하는 Transformer를 결합하여 음악의 리듬과 동작의 흐름이 일치하는 긴 시퀀스의 3D 동작을 생성한다.

가이던스 프리 트레이닝(GFT) 전략 도입

기존의 Classifier-Free Guidance(CFG) 대신 단일 모델 내에서 온도 파라미터를 학습하는 GFT를 적용하여 추론 속도를 2배 높이면서도 동작의 다양성과 품질을 개선했다.

대규모 댄스 데이터셋 MA-Data 구축

20개 이상의 장르를 포함하는 70,000개의 클립(총 116시간)으로 구성된 대규모 데이터셋을 구축하여 모델의 범용성과 성능을 검증했다.

핵심 아이디어 이해하기

기존의 댄스 비디오 생성은 음악에서 바로 픽셀을 만들어내려다 보니 동작이 꼬이거나 사람의 모습이 뭉개지는 한계가 있었다. 이는 딥러닝에서 고차원 데이터를 한 번에 매핑할 때 발생하는 전형적인 복잡성 문제이다. MACE-Dance는 이를 해결하기 위해 '동작'과 '외형'이라는 두 가지 핵심 요소를 분리하여 각각의 전문가 모델에게 맡기는 전략을 취한다.

먼저 Motion Expert는 음악 임베딩을 입력받아 인체의 관절 각도와 위치를 나타내는 3D SMPL 파라미터를 생성한다. 이때 BiMamba 구조를 통해 앞뒤 동작의 연속성을 확보하고, Transformer의 Attention 메커니즘으로 음악의 전체적인 분위기와 박자를 맞춘다. 이는 마치 댄서가 안무를 먼저 짜는 과정과 유사하다.

그다음 Appearance Expert는 생성된 3D 동작과 참조 이미지를 결합하여 실제 비디오 픽셀을 생성한다. 3D 동작은 시점에 상관없이 일관된 정보를 제공하므로, 2D 키포인트 방식에서 흔히 발생하는 신체 가려짐이나 왜곡 문제를 원천적으로 방지한다. 결과적으로 음악의 비트와 정확히 일치하면서도 시각적으로 선명한 댄스 영상을 얻을 수 있다.

방법론

MACE-Dance는 크게 Motion Expert(ME)와 Appearance Expert(AE)로 구성된다. ME는 Diffusion 모델을 기반으로 하며, BiMamba와 Transformer가 교차로 배치된 블록을 사용한다. 입력된 음악 특징은 Librosa 라이브러리로 추출되며, BiMamba 레이어는 시퀀스의 로컬한 움직임 변화를 학습하고 Transformer 레이어는 음악과 동작 간의 전역적인 정렬을 수행한다.

ME의 학습에는 Guidance-Free Training(GFT)이 사용된다. [조건부 예측값 + (1 - 온도) * 무조건부 예측값]을 계산하여 단일 모델이 다양한 가이던스 강도를 학습하도록 유도한다. 이를 통해 추론 시 조건부와 무조건부 예측을 두 번 수행할 필요가 없어 연산 효율이 극대화된다. 손실 함수는 재구성 오차, 관절 위치 오차, 속도 오차, 발 접지(Foot Contact) 오차를 가중 합산하여 물리적 타당성을 강제한다.

AE는 Wan-Animate를 기반으로 하며, 3D 동작을 2D 키포인트로 투영하는 Projector를 거쳐 동작 정보를 전달받는다. 학습은 2단계로 진행되는데, 1단계(Kinematic Stage)에서는 신체 어댑터만 파인튜닝하여 동작 준수 능력을 높이고, 2단계(Aesthetic Stage)에서는 LoRA를 통해 텍스처와 스타일의 일관성을 정교화한다.

관련 Figure

#2Diagram
Motion Expert의 BiMamba-Transformer 하이브리드 구조와 Appearance Expert의 2단계 파인튜닝(Body Adapter, LoRA) 과정을 상세히 보여준다. GFT 전략을 위한 온도 파라미터(beta) 입력 구조도 확인할 수 있다.
Motion Expert와 Appearance Expert의 상세 아키텍처 다이어그램이다.

주요 결과

MA-Data 데이터셋 실험 결과, MACE-Dance는 외형(Appearance)과 동작(Motion) 모든 지표에서 기존 SOTA 모델들을 압도했다. 동작 품질 지표인 FID_k는 16.46, 비트 정렬 점수(BAS)는 0.523을 기록하여 실제 데이터(Ground Truth)에 가장 근접한 성능을 보였다. 특히 기존 모델들이 흔히 겪는 동작의 불연속성이나 신체 왜곡 현상을 현저히 줄였다.

Ablation Study를 통해 BiMamba 아키텍처가 동작의 부드러움을 유지하는 데 핵심적인 역할을 함을 증명했다. 또한 2D 키포인트 대신 3D SMPL을 중간 표현으로 사용했을 때, 신체 구조의 일관성이 더 잘 유지되고 복잡한 춤 동작에서도 외형이 무너지지 않음을 확인했다. 사용자 평가에서도 60% 이상의 선호도를 얻으며 정성적으로도 우수함을 입증했다.

관련 Figure

#3Photo
Hallo2, EDGE, Lodge 등 기존 모델들이 겪는 신체 왜곡, 배경 아티팩트, 동작 불연속성 문제를 MACE-Dance가 어떻게 극복했는지 시각적으로 비교한다. 특히 복잡한 배경에서도 인물의 정체성이 잘 유지됨을 보여준다.
기존 SOTA 모델들과 MACE-Dance의 생성 결과물을 비교한 정성적 분석표이다.

#7Chart
댄스 동기화(DS), 품질(DQ), 창의성(DC), 정체성 유지(IC), 지각 품질(PQ), 시간적 일관성(TC) 모든 항목에서 본 모델이 타 모델 대비 압도적인 선호도를 기록했음을 수치로 증명한다.
6가지 평가 차원에 대한 사용자 선호도 조사 결과 그래프이다.

기술 상세

MACE-Dance의 핵심은 3D 동작 파라미터를 병목(Bottleneck)으로 활용하여 음악-동작-외형 간의 복잡한 상관관계를 효과적으로 분리한 것이다. Motion Expert는 시계열 데이터 처리에 효율적인 Mamba 구조를 양방향(BiMamba)으로 설계하여 댄스 동작의 인과성을 학습하며, GFT를 통해 추론 효율성을 확보했다. Appearance Expert는 DiT(Diffusion Transformer) 구조에 LoRA를 결합하여 대규모 사전 학습 모델의 지식을 보존하면서도 댄스 특화 미학을 학습한다. 또한 3D-to-2D Projector를 통해 3D 모델의 물리적 일관성을 유지하면서 기존 2D 비디오 생성 파이프라인과의 호환성을 확보했다.

한계점

현재 모델은 신체 중심의 동작 생성에 집중하고 있어, 손가락의 미세한 움직임이나 얼굴 표정의 정교한 변화를 완벽하게 포착하는 데는 한계가 있다. 또한 14B 파라미터 규모의 외형 전문가 모델로 인해 실시간 생성에는 높은 컴퓨팅 자원이 요구된다.

실무 활용

음악 한 곡과 사진 한 장만으로 전문가 수준의 댄스 챌린지 영상을 자동 생성할 수 있어 콘텐츠 제작 분야에서 높은 활용도를 가진다.

숏폼 플랫폼(TikTok, YouTube Shorts)용 댄스 콘텐츠 자동 생성
가상 아이돌 및 아바타의 안무 비디오 제작
기존 안무 영상의 인물 교체 및 스타일 변환
3D 캐릭터 애니메이션을 위한 안무 데이터 생성 도구

코드 공개 여부: 공개

코드 저장소 보기

키워드

MACE-Dance(메이스 댄스)MoE(전문가 혼합)Diffusion Model(확산 모델)3D Motion Generation(3D 동작 생성)BiMamba(양방향 맘바)

MACE-Dance: 음악 기반 댄스 비디오 생성을 위한 동작-외형 직렬 전문가 모델

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

핵심 기여

동작-외형 직렬 전문가(MoE) 프레임워크

음악에서 3D 동작을 추출하는 Motion Expert와 이를 바탕으로 영상을 합성하는 Appearance Expert를 직렬로 연결하여 복잡한 생성 작업을 단계별로 최적화했다.

BiMamba-Transformer 하이브리드 아키텍처

가이던스 프리 트레이닝(GFT) 전략 도입

대규모 댄스 데이터셋 MA-Data 구축

20개 이상의 장르를 포함하는 70,000개의 클립(총 116시간)으로 구성된 대규모 데이터셋을 구축하여 모델의 범용성과 성능을 검증했다.

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

음악 한 곡과 사진 한 장만으로 전문가 수준의 댄스 챌린지 영상을 자동 생성할 수 있어 콘텐츠 제작 분야에서 높은 활용도를 가진다.

숏폼 플랫폼(TikTok, YouTube Shorts)용 댄스 콘텐츠 자동 생성
가상 아이돌 및 아바타의 안무 비디오 제작
기존 안무 영상의 인물 교체 및 스타일 변환
3D 캐릭터 애니메이션을 위한 안무 데이터 생성 도구

코드 공개 여부: 공개

코드 저장소 보기

키워드

MACE-Dance(메이스 댄스)MoE(전문가 혼합)Diffusion Model(확산 모델)3D Motion Generation(3D 동작 생성)BiMamba(양방향 맘바)

MACE-Dance: 음악 기반 댄스 비디오 생성을 위한 동작-외형 직렬 전문가 모델

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

MACE-Dance: 음악 기반 댄스 비디오 생성을 위한 동작-외형 직렬 전문가 모델

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드