TokenDial: 시공간 토큰 오프셋을 통한 텍스트-비디오 생성의 연속적 속성 제어

기존 비디오 생성 모델은 특정 속성(나이, 날씨, 움직임 강도 등)을 미세하게 조절하기 어려웠으나, 이 논문은 모델 재학습 없이 '슬라이더'처럼 연속적인 제어를 가능하게 한다. 특히 외형뿐만 아니라 움직임의 빠르기나 강도까지 독립적으로 조절할 수 있어 창작자의 의도를 정밀하게 반영할 수 있다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

시공간 토큰 오프셋(Spatiotemporal Token Offsets) 기반 제어

사전 학습된 비디오 Diffusion Transformer(DiT)의 중간 시공간 패치 토큰 공간에 가산적 오프셋을 주입하여 속성을 제어하는 TokenDial 프레임워크를 제안했다.

외형 및 움직임 역학의 연속적 슬라이더 제어

나이, 색상 등 외형적 속성뿐만 아니라 움직임의 크기(magnitude)와 리듬을 연속적으로 조절할 수 있는 기능을 제공하며, 기존 방식들이 해결하지 못한 움직임 제어 영역을 확장했다.

외부 이해 모델을 활용한 자기 지도 학습 전략

InternVideo2를 이용한 시맨틱 방향 매칭과 DINOv2 기반 광학 흐름 스케일링을 통해 백본 모델 수정 없이 속성별 오프셋을 학습하는 효율적인 방법론을 구축했다.

구조 인식 시공간 변조 및 구성 가능성

어텐션 맵 유도 소프트 마스크를 통해 특정 영역이나 시간에만 편집을 적용하며, 여러 슬라이더를 동시에 조합하여 복합적인 편집이 가능함을 증명했다.

핵심 아이디어 이해하기

비디오 생성 모델(DiT)은 비디오를 작은 시공간 패치들의 집합인 토큰으로 처리한다. 기존 제어 방식은 프롬프트를 바꾸거나 모델 가중치를 직접 미세 조정하는데, 이는 특정 속성만 정밀하게 바꾸기 어렵고 배경이나 정체성이 변하는 드리프트 현상을 유발한다.

TokenDial은 DiT 내부의 토큰 임베딩 공간에 특정 속성을 나타내는 '방향(vector)'이 존재한다는 점에 착안한다. 예를 들어 '더 붉게' 또는 '더 빠르게'라는 의미를 담은 작은 오프셋 벡터를 기존 토큰에 더해줌으로써, 모델의 핵심 지식은 유지한 채 특정 속성만 강화하거나 약화시킨다.

이 과정에서 외부의 비디오 이해 모델(InternVideo2, DINOv2)을 가이드로 활용한다. 생성된 비디오가 목표한 방향으로 변했는지 외부 모델로 측정하고, 그 피드백을 통해 오프셋 벡터만 학습한다. 결과적으로 사용자는 슬라이더를 조절하듯 오프셋의 크기를 키우거나 줄여서 비디오의 변화 정도를 실시간으로 제어할 수 있게 된다.

방법론

전체 아키텍처 및 오프셋 주입 단계에서는 사전 학습된 비디오 DiT 모델을 고정한 상태에서, 각 레이어의 시공간 패치 토큰 $t_i$ 에 학습 가능한 오프셋 $\Delta$ 를 더해 $T' = \{t_i + s_i \Delta\}$ 형태의 새로운 토큰 시퀀스를 생성한다. 여기서 $s_i$ 는 특정 영역을 지정하는 시공간 마스크이다.

외형 제어(Appearance Control)는 InternVideo2 비주얼 인코더 $E(\cdot)$ 를 사용하여 오프셋 적용 전후의 임베딩 차이 $d_{pred} = E(\hat{x}_0(\Delta)) - E(\hat{x}_0(\emptyset))$ 를 계산한다. 이 예측 방향과 목표 방향 $d_{tgt}$ 사이의 코사인 유사도를 최대화하도록 학습하며, LPIPS 손실을 추가해 원본 콘텐츠를 보존한다.

움직임 제어(Motion Control)는 DINOv2 패치 특징에서 루카스-카나데(Lucas-Kanade) 기법으로 광학 흐름 $m(\cdot)$ 을 추출한다. 목표 움직임 강도 $\gamma$ 에 대해 $L_{mot} = \|m(\hat{x}_0(\Delta)) - \gamma \cdot m(\hat{x}_0(\Delta)).sg()\|^2$ 를 최소화하여 움직임의 패턴은 유지하되 크기만 조절하도록 학습한다. [특징 벡터 $f_t, f_{t+1}$ 입력 → 중앙 차분 연산으로 시공간 기울기 산출 → 최소자승법으로 속도 벡터 $(u, v)$ 도출 → 움직임의 방향과 빠르기 의미]

추론 시에는 텍스트 토큰과 비주얼 토큰 사이의 어텐션 맵에서 추출한 소프트 마스크 $s$ 를 오프셋에 곱한다. 이를 통해 편집이 필요한 객체의 궤적에만 오프셋이 적용되도록 국소화하며, 여러 오프셋을 선형 결합하여 복합적인 효과를 구현한다.

주요 결과

VLM 기반 평가에서 TokenDial은 Edit Quality 4.165점, ID Preservation 4.988점을 기록하며 ConceptSlider, FreeSliders 등 기존 모델들을 압도했다. 특히 움직임 제어의 연속성을 측정하는 Continuity 지표에서 4.234점으로 가장 높은 성능을 보였다.

사용자 평가 결과, 외형 및 움직임 슬라이더 모두에서 가장 높은 선호도를 얻었다. 기존 방식들이 움직임의 크기를 키우는 데 한계를 보인 반면, TokenDial은 걷기에서 달리기로의 변화와 같은 큰 폭의 역학 변화를 안정적으로 수행했다.

학습된 오프셋은 훈련 시보다 높은 해상도(720P)나 긴 프레임(64F)에서도 제로샷으로 작동하며, Wan 2.1과 같은 다른 DiT 아키텍처에도 성공적으로 이식됨을 확인했다. 학습 파라미터 수는 rank-64 LoRA 대비 0.256% 수준으로 매우 경제적이다.

기술 상세

TokenDial은 DiT의 중간 레이어에서 시공간 패치 토큰에 직접 가산적 오프셋을 적용한다. 이는 모델 가중치를 수정하는 LoRA와 달리 백본의 일반화 능력을 훼손하지 않으며, 토큰 공간의 선형적 구조를 활용해 직관적인 슬라이더 제어를 가능케 한다.

학습 안정성을 위해 다단계 사후 정제(Multi-step posterior refinement)를 도입했다. 노이즈가 섞인 상태에서 한 단계 예측된 $\hat{x}_0$ 는 불안정하므로, $K=4$ 단계의 추가 역확산 과정을 거친 정제된 추정치를 외부 모델의 입력으로 사용하여 고주파 세부 사항과 구조적 일관성을 확보한다.

시맨틱 디바이아싱(Semantic Debiasing) 전략을 통해 속성 간 얽힘 문제를 해결한다. 예를 들어 나이 속성이 체중과 상관관계를 가질 경우, 외부 모델의 임베딩 공간에서 편향된 주성분 방향을 투영 제거함으로써 순수한 속성 변화만을 추출한다.

움직임 제어 시 DINOv2 특징 공간에서의 광학 흐름을 사용한 이유는 픽셀 수준의 흐름보다 시맨틱하게 안정적이기 때문이다. 또한 정지된 참조 비디오 대신 현재 오프셋이 적용된 비디오의 흐름을 스케일링한 값을 타겟으로 삼는 자기 지도 방식을 통해 훈련 중 발생하는 프레임 불일치 문제를 해결했다.

한계점

외부 이해 모델(InternVideo2 등)의 성능에 의존하므로, 해당 모델이 정의하지 못하는 속성은 제어가 어렵다. 또한 임베딩 공간 내에서 색상 변화와 같은 저수준 속성이 다른 시각적 요소와 복잡하게 얽혀 있을 경우 단순한 투영만으로는 완벽한 분리가 어려울 수 있다.

실무 활용

비디오 생성 및 편집 워크플로우에서 특정 객체의 속성이나 움직임을 미세 조정하는 도구로 즉시 활용 가능하다.

비디오 내 인물의 나이 또는 감정 표현 강도 조절
특정 효과(불꽃, 연기, 눈)의 밀도 및 확산 속도 제어
생성된 비디오의 배경은 유지한 채 특정 객체의 이동 속도만 변경
여러 시각적 효과를 슬라이더 형태로 조합하여 실시간 프리뷰 구현

코드 공개 여부: 공개

코드 저장소 보기

키워드

T2V(텍스트-비디오 생성)DiT(확산 트랜스포머)Continuous Control(연속적 제어)Token Offset(토큰 오프셋)Motion Dynamics(움직임 역학)

TokenDial: 시공간 토큰 오프셋을 통한 텍스트-비디오 생성의 연속적 속성 제어

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

시공간 토큰 오프셋(Spatiotemporal Token Offsets) 기반 제어

사전 학습된 비디오 Diffusion Transformer(DiT)의 중간 시공간 패치 토큰 공간에 가산적 오프셋을 주입하여 속성을 제어하는 TokenDial 프레임워크를 제안했다.

외형 및 움직임 역학의 연속적 슬라이더 제어

외부 이해 모델을 활용한 자기 지도 학습 전략

구조 인식 시공간 변조 및 구성 가능성

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

비디오 생성 및 편집 워크플로우에서 특정 객체의 속성이나 움직임을 미세 조정하는 도구로 즉시 활용 가능하다.

비디오 내 인물의 나이 또는 감정 표현 강도 조절
특정 효과(불꽃, 연기, 눈)의 밀도 및 확산 속도 제어
생성된 비디오의 배경은 유지한 채 특정 객체의 이동 속도만 변경
여러 시각적 효과를 슬라이더 형태로 조합하여 실시간 프리뷰 구현

코드 공개 여부: 공개

코드 저장소 보기

키워드

T2V(텍스트-비디오 생성)DiT(확산 트랜스포머)Continuous Control(연속적 제어)Token Offset(토큰 오프셋)Motion Dynamics(움직임 역학)

TokenDial: 시공간 토큰 오프셋을 통한 텍스트-비디오 생성의 연속적 속성 제어

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

TokenDial: 시공간 토큰 오프셋을 통한 텍스트-비디오 생성의 연속적 속성 제어

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드