ReImagine: 이미지 우선 합성을 통한 제어 가능한 고품질 인간 비디오 생성의 재고

기존의 인간 비디오 생성 방식은 외형 유지와 동작 제어를 동시에 달성하기 위해 방대한 멀티뷰 비디오 데이터가 필요했으나, 이 논문은 고품질 이미지 생성 모델을 활용해 데이터 의존도를 낮췄다. 이미지 합성과 비디오 정제 단계를 분리함으로써 복잡한 학습 없이도 일관된 외형과 정교한 시점 제어가 가능한 가상 인간 비디오를 생성할 수 있다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

이미지 우선 합성 파이프라인

고품질 인간 외형 학습은 이미지 생성 모델에서 수행하고, 비디오 생성은 학습이 필요 없는 정제 단계로 처리하여 외형 모델링과 시간적 일관성을 분리했다.

SMPL-X 기반의 정교한 제어

3D 인체 모델인 SMPL-X의 노멀 맵과 파라미터를 DiT 백본에 통합하여 신체 포즈와 카메라 시점을 동시에 정밀하게 제어하는 기능을 구현했다.

학습이 필요 없는 시간적 일관성 모듈

사전 학습된 비디오 확산 모델을 활용하여 생성된 프레임 간의 미세한 떨림을 제거하고 움직임을 안정화하는 3D FFT 기반의 정제 기법을 도입했다.

정규화된 인간 자산 데이터셋 공개

GPT-4o를 활용해 구축한 약 1,600명의 정규화된 인간 자산 데이터셋을 통해 얼굴, 의류, 신발이 분리된 구성적 이미지 합성을 지원한다.

관련 Figure

#1Photo
시점 변화에도 의복의 패턴과 인물의 정체성이 유지됨을 보여준다. 특히 (c)에서는 얼굴, 의류, 신발을 각각 독립적으로 제어하여 합성할 수 있는 능력을 시각화한다.
제안된 방법으로 생성된 다양한 시점과 포즈의 가상 인간 비디오 및 구성적 제어 예시

핵심 아이디어 이해하기

기존 비디오 생성 모델은 시공간적 일관성과 고해상도 외형을 동시에 학습해야 하므로 연산 복잡도가 매우 높고 고품질 멀티뷰 데이터 확보가 어렵다. ReImagine은 이미 강력한 인간 외형 정보를 학습한 이미지 생성 모델(FLUX 등)을 앵커로 삼아, 각 프레임을 독립적으로 고품질로 생성하는 것에서 출발한다. Transformer 기반의 DiT 구조에서 Self-Attention 연산 시 인체 포즈 정보와 외형 정보를 결합하여 공간적 구조를 먼저 확립한다.

독립적으로 생성된 프레임들은 의복의 주름이나 미세한 질감에서 시간적 불일치가 발생할 수 있는데, 이를 해결하기 위해 사전 학습된 비디오 모델의 잠재 공간(Latent Space)에서 3D FFT(고속 푸리에 변환)를 수행한다. 이는 비디오 데이터 전체를 주파수 영역으로 변환한 뒤, 프레임 간 급격한 변화를 일으키는 고주파 성분을 억제하고 저주파 성분을 유지하여 움직임의 흐름을 부드럽게 만드는 원리이다.

결과적으로 대규모 비디오 학습 없이도 이미지 모델의 높은 표현력과 비디오 모델의 움직임 사전 지식을 결합하여, 사용자가 원하는 시점과 포즈에 맞춰 자연스럽게 움직이는 가상 인간 비디오를 생성할 수 있게 된다.

방법론

전체 시스템은 포즈 및 시점 가이드 이미지 합성 모듈과 학습이 필요 없는 시간적 일관성 모듈로 구성된다. 이미지 합성 단계에서는 SMPL-X 파라미터로부터 렌더링된 노멀 맵을 입력으로 받아 ControlNet 스타일의 인코더를 통해 DiT 블록에 주입한다. 이때 노멀 맵의 각 픽셀 값은 세계 좌표계의 표면 법선 벡터를 나타내며, 이를 통해 모델은 인체의 3D 구조와 시점 변화를 인식한다.

입력 데이터는 [포즈 토큰 || 전면 이미지 토큰 || 후면 이미지 토큰 || 노이즈 토큰] 순으로 연결되어 DiT 백본에서 처리된다. 각 토큰에는 Condition-Aware RoPE가 적용되는데, 이는 토큰 i의 위치 p_i = (x_i, y_i, c_i)에서 c_i라는 이산적 인덱스를 부여하여 서로 다른 속성의 토큰들이 공간적 구조를 유지하면서도 명확히 구분되도록 한다. 학습은 Flow Matching 손실 함수를 사용하여 속도 벡터 v를 예측하는 방식으로 진행된다.

시간적 일관성 모듈은 SDEdit의 원리를 활용하여 생성된 프레임에 미세한 노이즈를 주입한 후 비디오 확산 모델로 재역전(Re-denoising)을 수행한다. 이 과정에서 잠재 변수 h_s에 대해 3D FFT를 적용하고 가우시안 필터를 곱해 고주파 노이즈를 제거한다. 구체적으로 [입력 잠재 변수 → 3D FFT 변환 → 주파수 필터링 → 역 3D FFT] 과정을 거쳐 시간적으로 안정된 비디오 프레임을 얻는다.

관련 Figure

#2Diagram
SMPL-X 파라미터, 전/후면 이미지, 가우시안 노이즈가 어떻게 토큰화되어 DiT 백본에 입력되는지 보여준다. Condition-aware RoPE가 각 토큰의 위치 정보를 보존하는 핵심 구조임을 명시한다.
포즈 및 시점 가이드 이미지 합성 모듈의 전체 아키텍처 다이어그램

#3Diagram
생성된 프레임에 노이즈를 주입한 후 3D FFT를 통해 주파수 영역에서 필터링하여 움직임을 안정화하는 과정을 설명한다. 이 과정을 통해 프레임 간의 떨림(jitter)이 억제된 결과물을 얻을 수 있다.
학습이 필요 없는 시간적 일관성 모듈의 작동 원리

주요 결과

실험 결과, DNA-Rendering 및 MVHumanNet 데이터셋에서 기존 SOTA 모델들(Wan-Animate, Human4DiT 등)보다 우수한 성능을 보였다. 특히 MVHumanNet에서 FVD(비디오 품질 지표) 0.275를 기록하여 Wan-Animate(0.403) 대비 시간적 일관성이 크게 향상되었음을 입증했다. 시점 변화가 심한 360도 회전 시나리오에서도 정체성 유지와 기하학적 왜곡 방지 측면에서 압도적인 정성적 결과를 나타냈다.

Ablation Study를 통해 3D FFT 기반의 정규화가 단순한 메디안 필터링보다 움직임의 궤적을 훨씬 부드럽게 유지함을 확인했다. 또한 전/후면 이미지가 모두 제공될 때 시점 변화에 따른 외형 복원력이 가장 높았으며, 후면 이미지가 없는 경우에도 모델이 전면 정보를 바탕으로 타당한 후면 모습을 추론해내는 강건함을 보였다.

관련 Figure

#4Chart
RD+3DFFT(제안 방법)가 다른 방식들에 비해 팔의 움직임 궤적을 가장 매끄럽고 일관되게 유지함을 보여준다. 붉은색 원으로 표시된 영역에서 타 기법들의 궤적 불연속성을 확인할 수 있다.
다양한 시간적 일관성 전략에 따른 움직임 궤적 비교

#5Photo
후면 이미지가 없을 때(a)보다 있을 때(b) 뒷모습의 디테일과 로고 재현이 훨씬 정확함을 보여준다. 이는 명시적인 전/후면 가이드가 고품질 비디오 생성에 중요함을 시사한다.
후면 이미지 입력 유무에 따른 생성 결과 비교

기술 상세

ReImagine 아키텍처는 FLUX.1 Kontext를 기반으로 하며, LoRA(rank 128)를 사용하여 효율적으로 미세 조정되었다. 핵심 차별점은 이종 토큰 시퀀스 설계에 있다. SMPL-X 파라미터를 MLP를 통해 글로벌 기하학적 사전 지식으로 변환하고, VAE로 인코딩된 전/후면 이미지 토큰과 결합하여 단일 DiT 레이어에서 교차 참조가 일어나도록 설계했다. 이는 기존의 단순한 어텐션 방식보다 시점 간의 대응 관계를 더 명확히 학습하게 한다.

구현 측면에서 비디오 생성 시 Wan 2.1(I2V-14B-480P) 모델을 백본으로 사용하며, 추론 시에만 작동하는 시간적 정제 모듈을 통해 추가적인 비디오 학습 파라미터 없이도 높은 일관성을 확보했다. 데이터 구축 시에는 GPT-4o를 활용해 배경 제거, 조명 정규화, 부위별 세그멘테이션을 자동화하여 고품질의 정규화된 자산 데이터셋을 생성하는 파이프라인을 구축했다.

한계점

논문은 명시적으로 언급하지 않았으나, 실험 섹션에서 후면 이미지 입력이 없을 경우 시점 변화에 따른 제어력이 다소 저하될 수 있음을 시사하는 분석이 포함되어 있다.

실무 활용

가상 피팅, 디지털 휴먼 제작, VR/AR 콘텐츠 생성 분야에서 고비용의 비디오 촬영 없이도 정교한 제어가 가능한 비디오를 생성하는 데 활용될 수 있다.

가상 시착(Virtual Try-on) 서비스에서 사용자의 포즈와 시점 변화에 따른 의상 핏 시뮬레이션
디지털 마케팅을 위한 다양한 포즈의 가상 모델 홍보 영상 제작
게임 및 메타버스 환경에서 사용자 사진 한 장으로 생성하는 3D 애니메이션 캐릭터

코드 공개 여부: 공개

코드 저장소 보기

키워드

Human Video Generation(인간 비디오 생성)SMPL-X(3D 인체 모델)Diffusion Model(확산 모델)Temporal Consistency(시간적 일관성)DiT(확산 트랜스포머)

ReImagine: 이미지 우선 합성을 통한 제어 가능한 고품질 인간 비디오 생성의 재고

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

이미지 우선 합성 파이프라인

SMPL-X 기반의 정교한 제어

3D 인체 모델인 SMPL-X의 노멀 맵과 파라미터를 DiT 백본에 통합하여 신체 포즈와 카메라 시점을 동시에 정밀하게 제어하는 기능을 구현했다.

학습이 필요 없는 시간적 일관성 모듈

사전 학습된 비디오 확산 모델을 활용하여 생성된 프레임 간의 미세한 떨림을 제거하고 움직임을 안정화하는 3D FFT 기반의 정제 기법을 도입했다.

정규화된 인간 자산 데이터셋 공개

GPT-4o를 활용해 구축한 약 1,600명의 정규화된 인간 자산 데이터셋을 통해 얼굴, 의류, 신발이 분리된 구성적 이미지 합성을 지원한다.

관련 Figure

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

가상 피팅, 디지털 휴먼 제작, VR/AR 콘텐츠 생성 분야에서 고비용의 비디오 촬영 없이도 정교한 제어가 가능한 비디오를 생성하는 데 활용될 수 있다.

가상 시착(Virtual Try-on) 서비스에서 사용자의 포즈와 시점 변화에 따른 의상 핏 시뮬레이션
디지털 마케팅을 위한 다양한 포즈의 가상 모델 홍보 영상 제작
게임 및 메타버스 환경에서 사용자 사진 한 장으로 생성하는 3D 애니메이션 캐릭터

코드 공개 여부: 공개

코드 저장소 보기

키워드

Human Video Generation(인간 비디오 생성)SMPL-X(3D 인체 모델)Diffusion Model(확산 모델)Temporal Consistency(시간적 일관성)DiT(확산 트랜스포머)

ReImagine: 이미지 우선 합성을 통한 제어 가능한 고품질 인간 비디오 생성의 재고

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

ReImagine: 이미지 우선 합성을 통한 제어 가능한 고품질 인간 비디오 생성의 재고

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드