OmniHumanoid: Paired-Free Adaptation으로 크로스-임버디먼트 비디오를 스트리밍 방식으로 생성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다양한 humanoid embodiment 간 모션 재현을 위한 데이터 생성의 확장성과 비용이 큰 제약을 해소한다. OmniHumanoid은 transferable motion을 공유 모듈로 학습하고 embodiment-specific appearance를 LoRA로 경량화해 unseen embodiment에 대해서도 paired data 없이 적응 가능성을 확보한다. 또한 브랜치-이소레이티드 어텐션과 스트리밍 디스틸레이션을 도입해 모션 품질과 렌더링 일관성 간의 상충을 줄이고, 대규모 합성 데이터 생성을 실용적으로 만든다.

왜 중요한가

핵심 기여

Factorized cross-embodiment framework

Shared Motion Transfer Model과 Embodiment Video LoRA로 구성된 분리된 학습 체계로, 모션은 공유 모듈에서 학습하고 특정 embodiment는 경량 LoRA로 대체해 paired-free adaptation을 가능하게 한다.

Branch-isolated attention design

embodiment-특정 priors가 공유 모션 경로에 간섭하지 않도록 asymmetric attentionMask를 적용하여 denoise 브랜치가 conditioning으로부터 모션 정보를 읽되 반대 흐름은 차단한다.

Two-stage training with Paired-Free adaptation

Stage I에서 Embodiment Video LoRA를 unpaired 영상으로 프리트레이닝하고, Stage II에서 Paired dataset Dpair를 이용해 Shared Motion Transfer Model을 동결한 채 LoRA를 롤링 로딩하며 학습한다.

Streaming video-to-video distillation

bidirectional generator를 causal streaming 학생으로 증류해 long-horizon cross-embodiment 비디오를 4단계로 생성하도록 한다. L_stream = LDSM + λvsdLVSD + λGAN으로 최적화한다.

Motion-aligned synthetic cross-embodiment dataset

Humoto motion library 기반 700여 모션 시퀀스와 10개 엔봄디먼트 자산으로 구성된 motion-aligned dataset을 제작해 학습 및 일반화 평가에 활용한다.

핵심 아이디어 이해하기

출발점은 모션 dynamics와 embodiment의 appearance를 분리하는 것이다. Diffusion 기반 비디오 생성에서 motion은 시간적 변화에 해당하고 appearance는 객체의 형태 및 하드웨어적 디테일에 해당한다. 기존 방법은 두 요인을 함께 학습해 일반화에 어려움을 겪었다. OmniHumanoid은 Shared Motion Transfer Model과 Embodiment Video LoRA를 도입해 모션-발생 경로와 렌더링 경로를 분리하고, unidirectional 정보를 통해 모션 지식의 재사용을 보장한다. 이로써 unseen humanoid에 대한 paired-free 적응을 가능하게 하며, 2단계 학습과 스트리밍 디스틸레이션으로 데이터 효율성과 추론 속도를 동시에 달성한다.

방법론

단계 1: 두 구성 요소를 기반으로 아키텍처를 구성한다. Shared Motion Transfer Model은 conditioning 브랜치를 통해 source video의 시간적 모션과 장면 변화를 인코딩하고, Embodiment Video LoRA는 각 embodiment에 대해 denoise 브랜치에 경량 모듈로 작용한다. 단계 2: LoRA 업데이트 규칙은 Wden,e• = Wden• + ΔW(e)•, ΔW(e)• = B(e)• A(e)•, • ∈ {Q, K, V}로 표현된다. 단계 3: 비대칭 마스크 M(den → cond) = 1, M(cond → den) = 0를 적용해 motion-conditioning은 conditioning에서 읽되, conditioning은 denoising 업데이트에서 역전하지 않게 한다. 단계 4: 학습 전략은 Stage I LoRA 프리트레이닝, Stage II Shared Motion Transfer 학습, unseen embodiment에 대한 Paired-Free adaptation, 그리고 50단계 Bidirectional Generator를 4단계 Streaming Student로 증류하는 것이다. L_stream = LDSM + λvsdLVSD + λGAN으로 최적화하며 teacher-forcing denoising과 self-forcing distillation을 병행한다.

주요 결과

주요 벤치마크에서의 성능이 개선된다. Synthetic Held-out Benchmark에서 Ours의 PSNR은 25.47, SSIM 0.9039, MSE 0.0033으로 Kling O1의 22.70/0.8951/0.0067 대비 우수하다. Motion, Embod, BG, Overall 점수도 각각 9.06/8.43/9.94/7.92로 나타난다. Real-world Benchmark에서도 Motion 8.47, Embod 8.56, BG 9.95, Overall 8.39로 높은 품질을 보인다. Ablation 연구에서 decoupling을 제거하면 Embod가 2.53으로 급감하고 Motion이 6.35로 저하되어, 모션-appearance 분리가 성능에 필수적임이 확인된다. 스트리밍 디스틸레이션은 전체 속도를 크게 향상시키지만 품질에 약간의 손실이 있으며, Full Streaming Student의 경우 FPS가 4.96으로 증가하고 SSIM/MSE/모션/렌더링 일관성이 부분 개선된다.

기술 상세

전체 아키텍처는 two-path 모듈로 구성된다. 첫 번째 경로인 conditioning/모션 경로는 source video의 시간적 변화와 상호 작용을 포착하는 Shared Motion Transfer Model이다. 두 번째 경로인 denoise 경로는 Embodiment Video LoRA를 통해 embodiment-specific appearance와 morphology를 구현한다. 수식적으로 Q, K, V는 Xtext, Xden, Xcond에서 계산되며, LoRA 업데이트는 Wden,e• = W• + ΔW(e)• 형태로 주어지고, ΔW(e)• = B(e)• A(e)• 이다. 비대칭 마스크 M(den → cond) = 1, M(cond → den) = 0으로 모션-appearance 간 간섭을 차단한다. 학습은 Stage I LoRA 프리트레이닝, Stage II 공유 모션 학습, Unseen Embodiment Adaptation, Streaming Distillation의 4단계로 구성된다. L_stream = LDSM + λvsdLVSD + λGAN로 최적화되며 교사-강제denoising에서 시작해 자기 주도 롤아웃으로 개선된다.

한계점

few-step distillation 시 성능 저하가 관찰된다. 예를 들어 4단계로 감소시키면 fine-grained detail과 temporal smoothness에서 손실이 나타날 수 있으며, 따라서 속도-품질 트레이드오프를 고려한 streaming distillation이 제안된다.

실무 활용

로봇 엔봇디먼트 간 모션 학습과 시뮬레이션 기반 데이터 생성을 위한 scalable한 파이프라인을 제공한다. Paired-Free 적응으로 unseen 로봇에 대한 모션 전이 데이터를 빠르게 생성하고, 스트리밍 디스틸레이션으로 대규모 데이터 생산에 적합하다.

로봇 정책 학습용 대규모 합성 데이터 생성
시뮬레이션-투-현실 도메인 전이 데이터 보강
새로운 로봇 엔봄디먼트의 빠른 프로토타이핑 및 학습 데이터 확보
휴먼-로봇 협동 시나리오의 다중-도메인 비디오 데이터 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

cross-embodiment video generation(크로스-임버디먼트 비디오 생성)motion transfer(모션 전이)embodiment adaptation(임버디먼트 적응)motion-aligned dataset(모션 정렬 데이터셋)branch-isolated attention(브랜치 분리 어텐션)LoRA(로라)diffusion transformer(확산 트랜스포머)