Kling-MotionControl 기술 보고서: 적응형 전신 캐릭터 애니메이션을 위한 이종 모션 조율

왜 중요한가

기존 캐릭터 애니메이션 기술이 얼굴이나 몸동작 중 하나에만 치중하거나 복잡한 동작에서 정체성이 무너지는 한계를 극복했다. 전신 동작, 미세 표정, 손가락 움직임을 통합 제어하면서도 추론 속도를 10배 향상시켜 실무 활용도를 극대화했다.

핵심 기여

통합 다중 해상도 모션 조율

몸, 얼굴, 손의 서로 다른 특성을 고려한 이종 모션 표현법을 하나의 DiT 프레임워크 내에서 조율하여 대규모 구조적 안정성과 미세한 표현력을 동시에 확보했다.

적응형 정체성 불가지론적 학습

캐릭터의 외형과 동작 패턴을 기하학적 수준에서 분리하여 실사 인간부터 카툰 캐릭터까지 자연스러운 모션 전이가 가능하도록 설계했다.

피사체 라이브러리 메커니즘

단일 이미지의 한계를 넘어 다각도 이미지나 영상 클립을 참조 정보로 활용함으로써 극한의 포즈에서도 캐릭터의 정체성을 완벽하게 유지한다.

다단계 증류를 통한 추론 가속

다단계 증류 기법을 통해 모델 성능 저하 없이 추론 속도를 기존 대비 10배 이상 가속화하여 실시간 응용 가능성을 높였다.

핵심 아이디어 이해하기

기존 비디오 생성 모델은 전신 동작의 안정성과 얼굴/손가락의 미세한 표현력을 동시에 잡기 어려웠다. 특히 Diffusion Transformer(DiT) 구조에서 모든 부위를 동일한 토큰 방식으로 처리하면 큰 움직임에 디테일이 묻히거나 구조적 붕괴가 발생하기 쉽다.

Kling-MotionControl은 '분할 정복(Divide-and-Conquer)' 전략을 사용한다. 몸의 큰 움직임은 구조적 안정성을 담당하는 임베딩으로 처리하고, 얼굴과 손은 정밀한 표현력을 위한 별도의 모션 표현법을 적용해 하나의 시스템에서 통합 조율한다. 이는 마치 오케스트라가 각기 다른 악기의 소리를 하나로 모으는 것과 유사한 원리이다.

또한 Identity-Agnostic 학습을 통해 동작의 기하학적 정보에서 캐릭터의 외형 정보를 완전히 분리해낸다. 이를 통해 성인에서 아이로, 혹은 인간에서 동물로 모션을 옮길 때 발생하는 형태적 왜곡을 최소화하며, 3D 인지 능력을 부여해 텍스트만으로도 자유로운 카메라 앵글 조절이 가능해졌다.

방법론

DiT(Diffusion Transformer) 기반의 통합 프레임워크를 구축하고, 몸, 얼굴, 손의 이종 모션 표현(Heterogeneous Motion Representations)을 설계했다. 각 부위의 특성에 맞는 제어 신호를 입력받아 점진적 다단계 학습(Progressive Multi-stage Training)을 수행하여 전체적인 조화를 꾀했다.

Identity Encoding & Fusion 메커니즘을 도입했다. [참조 이미지의 특징 벡터를 입력으로] → [Cross-Attention 연산을 통해 DiT의 중간 레이어에 주입하여] → [캐릭터의 고유 외형이 유지된 비디오 프레임을 생성하고] → [이를 통해 정체성 유지 성능을 확보한다]. 또한 Subject Library를 통해 다각도 참조 데이터를 통합 관리한다.

추론 가속을 위해 Multi-stage Distillation을 적용했다. Teacher 모델의 다중 조건부 그레이디언트를 Student 모델에 병합하여 [Classifier-Free Guidance(CFG) 연산 횟수를 줄임으로써] → [추론 단계를 획기적으로 단축하고] → [최종적으로 10배 이상의 속도 향상을 달성한다].

주요 결과

Dreamina, Runway Act-Two, Wan-Animate 등 최신 상용 및 오픈소스 모델과 비교 실험을 진행했다. 1080P 해상도 설정에서 GSB(Good/Same/Bad) 평가 결과, 모든 평가 지표에서 경쟁 모델을 압도하는 성과를 거두었다.

특히 시각적 품질(Visual Quality)과 정체성 보존(ID Preservation) 측면에서 높은 점수를 기록했다. Runway Act-Two 대비 Overall Preference에서 약 16.25배 높은 선호도를 보였으며, 미세 표정 및 손동작 재현에서도 우위를 점했다. 또한 복잡하고 빠른 동작에서도 신체 구조가 무너지지 않는 안정성을 입증했다.

실무 활용

고품질 전신 애니메이션을 실시간에 가까운 속도로 생성할 수 있어 전문 영상 제작부터 개인 크리에이터 활동까지 폭넓게 활용 가능하다.

디지털 아바타 및 가상 인플루언서의 실감나는 전신 동작 생성
기존 애니메이션 제작 공정에서 캐릭터 모션 캡처 및 리타겟팅 자동화
텍스트 프롬프트를 활용한 시네마틱 카메라 워크 및 의상 스타일 변경
실사 이미지를 기반으로 한 고품질 댄스 챌린지 및 퍼포먼스 비디오 제작

기술 상세

DiT 백본을 사용하여 장기적 템포럴 다이내믹스를 캡처하며, 3D VAE를 통해 비디오를 시공간 토큰으로 압축하여 처리 효율을 극대화했다. 이는 기존 U-Net 구조의 해상도 및 길이 제한 문제를 해결하는 핵심 요소이다.

Semantic Motion Modeling 모듈을 통해 동작의 의도(예: '박수치기', '얼굴 가리기')를 텍스트 프롬프트와 정렬한다. 이는 단순한 기하학적 정렬을 넘어 동작의 의미론적 정확도를 높여 복잡한 상호작용 상황에서도 자연스러운 결과를 보장한다.

3D Awareness를 위해 대규모 멀티뷰 감독 학습을 수행했다. 이를 통해 모델이 캐릭터의 내재적 3D 기하 구조를 이해하게 되어, 텍스트 설명만으로 자유로운 카메라 궤적(Pan, Zoom 등) 제어가 가능하며 시점 변화 시에도 캐릭터의 구조적 일관성이 유지된다.

추론 단계에서는 Dual-branch Sampling 전략을 통해 CFG의 계산 부담을 줄였다. Student 모델은 학습 과정에서 Teacher 모델의 조건부 그레이디언트를 내재화하여, 추가적인 샘플링 오버헤드 없이도 고품질의 결과를 단 몇 단계 만에 생성해낸다.

한계점

본 보고서에서는 구체적인 한계점을 명시적으로 언급하지 않았다.

키워드

DiT(확산 트랜스포머)Character Animation(캐릭터 애니메이션)Motion Retargeting(모션 리타겟팅)Distillation(지식 증류)Multimodal(멀티모달)