핵심 요약
기존 비디오 생성 모델은 물체가 화면 밖으로 나갔다가 다시 들어올 때 그 정체성을 잊어버리거나 형태를 왜곡하는 고질적인 문제가 있었다. 이 연구는 정적 배경과 동적 물체를 동시에 관리하는 하이브리드 메모리 기술을 통해 복잡한 물리적 상호작용이 포함된 비디오 생성의 일관성을 획기적으로 높였다.
왜 중요한가
기존 비디오 생성 모델은 물체가 화면 밖으로 나갔다가 다시 들어올 때 그 정체성을 잊어버리거나 형태를 왜곡하는 고질적인 문제가 있었다. 이 연구는 정적 배경과 동적 물체를 동시에 관리하는 하이브리드 메모리 기술을 통해 복잡한 물리적 상호작용이 포함된 비디오 생성의 일관성을 획기적으로 높였다.
핵심 기여
Hybrid Memory 패러다임 정의
정적 배경을 기록하는 아카이브 기능과 동적 피사체를 추적하는 트래커 기능을 동시에 수행하여 화면 밖 물체의 연속성을 보장하는 새로운 학습 방식을 제안했다.
HM-World 대규모 데이터셋 구축
카메라 궤적과 물체 이동 경로를 분리 설계하여 물체가 화면을 나갔다 들어오는 이벤트를 집중적으로 다루는 59,000개의 고화질 비디오 클립 데이터셋을 공개했다.
HyDRA 아키텍처 설계
3D 컨볼루션 기반의 Memory Tokenizer와 시공간 연관성 기반의 검색 메커니즘을 결합하여 과거의 움직임 맥락을 현재 생성 과정에 동적으로 주입하는 구조를 구현했다.
DSC 평가 지표 도입
재진입하는 물체의 외형과 움직임 일관성을 정밀하게 측정하기 위한 Dynamic Subject Consistency 지표를 개발하여 모델 성능을 객관적으로 검증했다.
핵심 아이디어 이해하기
기존 비디오 모델의 Attention Mechanism은 모든 과거 프레임을 동등하게 참조하려다 보니, 정적인 배경 정보에 압도되어 빠르게 움직이거나 화면 밖으로 사라진 물체의 정보를 놓치기 쉽다. 이는 마치 사람이 복잡한 군중 속에서 특정 인물을 놓치는 것과 유사한 한계이다.
HyDRA는 이를 해결하기 위해 '기억의 선별적 소환' 원리를 도입한다. 먼저 3D 컨볼루션을 통해 과거 프레임들을 시간과 공간이 결합된 압축 토큰으로 변환한다. [과거 잠재 벡터 → 3D 컨볼루션 연산 → 시공간 압축 토큰] 과정을 거치면, 단순한 이미지가 아니라 물체의 이동 방향과 속도 정보가 포함된 '동적 기억'이 형성된다.
새로운 프레임을 생성할 때 모델은 현재 쿼리와 가장 유사한 과거 토큰을 Top-K 방식으로 찾아낸다. [현재 상태 쿼리 → 과거 토큰과의 유사도 계산 → 상위 K개 추출] 과정을 통해, 지금은 화면에 보이지 않더라도 과거에 존재했던 물체의 정보를 정확히 불러온다. 결과적으로 모델은 화면 밖 물체의 궤적을 '상상'하며 생성할 수 있게 되어, 물체가 다시 나타날 때 이전과 동일한 모습과 자연스러운 움직임을 유지한다.
방법론
HyDRA는 Diffusion Transformer(DiT) 구조를 기반으로 하며, 카메라 제어를 위해 ReCamMaster의 방식을 차용하여 카메라 궤적 정보를 주입한다. [카메라 회전 및 평행 이동 행렬 → MLP 인코딩 → 특징 벡터] 과정을 통해 생성되는 비디오의 시점을 정밀하게 조절한다.
핵심 모듈인 Memory Tokenizer는 2x4x4 크기의 3D 컨볼루션 커널을 사용하여 메모리 잠재 공간(Z_mem)을 토큰 M으로 변환한다. [입력 잠재 벡터 → 3D 컨볼루션 → 시공간 압축 토큰] 순으로 연산이 이루어지며, 이는 시간축 상호작용을 강화하여 장기적인 움직임 정보를 보존한다.
Dynamic Retrieval Attention은 표준 Self-Attention을 대체하여 작동한다. 현재 타겟 쿼리(q)를 메모리 토큰 해상도로 풀링한 후, 메모리 키(k)와의 어피니티(Affinity)를 계산한다. [풀링된 쿼리와 메모리 키의 요소별 곱 → 공간적 합산 → 유사도 점수] 과정을 통해 가장 관련성 높은 토큰을 선별하고, 이를 현재의 로컬 윈도우 정보와 결합하여 최종 Attention 값을 도출함으로써 시공간적 일관성을 확보한다.
주요 결과
HM-World 데이터셋에서의 실험 결과, HyDRA는 PSNR 20.357, SSIM 0.606을 기록하며 기존 SOTA 모델인 Context-as-Memory(PSNR 18.921)를 크게 상회했다. 특히 배경 일관성 0.932, 피사체 일관성 0.926을 달성하여 정적 요소와 동적 요소 모두에서 우수한 성능을 입증했다.
새로운 지표인 DSC(Dynamic Subject Consistency) 측정에서 HyDRA는 DSC_ctx 0.827, DSC_GT 0.849를 기록했다. 이는 화면 밖으로 나갔던 물체가 다시 나타날 때의 외형과 움직임이 실제 정답 및 과거 맥락과 매우 높은 일치도를 보임을 의미한다.
Ablation Study 결과, Memory Tokenizer의 시간축 커널 크기를 2에서 1로 줄였을 때 PSNR이 1.281 하락했다. 이는 시간적 상호작용이 배제될 경우 물체의 움직임 맥락을 잃어버려 하이브리드 메모리 기능이 정상적으로 작동하지 않음을 시사한다.
기술 상세
전체 아키텍처는 Causal 3D VAE와 Flow Matching 기반의 DiT로 구성된다. 77개의 컨텍스트 프레임을 입력으로 받아 4배 시간축 다운샘플링을 거쳐 처리한다. DiT 블록 내에는 Dynamic Retrieval Attention, Projector, Cross-Attention, FFN이 통합되어 있다.
메모리 검색 시 계산 효율성을 위해 쿼리(q)를 메모리 토큰 해상도에 맞춰 공간 풀링하여 어피니티를 계산한다. 이는 연산 복잡도를 낮추면서도 핵심적인 시공간 대응 관계를 포착할 수 있게 한다. 검색된 Top-K 토큰은 현재 프레임 주변의 로컬 윈도우 특징과 결합되어 안정적인 디노이징(denoising)을 지원한다.
학습은 32개의 GPU를 사용하여 총 10,000회 반복 수행되었으며, 배치 사이즈는 32로 설정되었다. Wan2.1-T2V-1.3B 모델을 사전 학습된 베이스로 사용하여 하이브리드 메모리 능력을 전이 학습시켰다.
한계점
세 개 이상의 피사체가 동시에 등장하거나 극심한 가려짐(occlusion)이 발생하는 매우 복잡한 장면에서는 일관성이 다소 저하되는 경향이 있다. 또한 현재는 통제된 데이터셋 위주로 검증되어, 완전히 제약 없는 실제 환경으로의 확장이 추가 연구 과제로 남아 있다.
실무 활용
자율 주행 시뮬레이터, 로봇 제어 환경 구축, 고품질 영상 제작 등 복잡한 동적 객체 추적이 필요한 비디오 생성 분야에 활용도가 높다.
- 자율 주행 AI 학습을 위해 가려짐과 재등장이 빈번한 복잡한 도로 시나리오 생성
- 로봇 시뮬레이션에서 물체가 시야를 벗어났을 때의 대응 능력을 평가하기 위한 환경 구축
- 영화 및 애니메이션 제작 시 카메라 워킹에 따른 캐릭터와 배경의 일관성 자동 유지
- 가상 현실(VR) 콘텐츠에서 사용자 시선 밖 객체의 논리적 위치 및 상태 보존
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.