핵심 요약
기존 비디오 생성 모델은 긴 문장으로 여러 사건을 설명할 때 각 장면이 서로 뒤섞이는 '의미론적 엉킴' 문제를 겪는다. 이 논문은 별도의 학습이나 모델 구조 변경 없이 추론 단계에서 프롬프트를 시간대별로 배분하여 영화처럼 정교한 서사 구조를 가진 비디오 생성을 가능하게 한다.
왜 중요한가
기존 비디오 생성 모델은 긴 문장으로 여러 사건을 설명할 때 각 장면이 서로 뒤섞이는 '의미론적 엉킴' 문제를 겪는다. 이 논문은 별도의 학습이나 모델 구조 변경 없이 추론 단계에서 프롬프트를 시간대별로 배분하여 영화처럼 정교한 서사 구조를 가진 비디오 생성을 가능하게 한다.
핵심 기여
Prompt Relay 메커니즘 제안
추론 시점에 각 텍스트 프롬프트를 지정된 시간 세그먼트로 라우팅하여 다중 이벤트 비디오 생성 시 발생하는 의미론적 간섭을 방지하는 플러그 앤 플레이 방식을 도입했다.
Boundary-Attention Decay 기법 도입
Cross-Attention 로짓에 부드러운 가우시안 페널티를 적용하여 세그먼트 경계에서 급격한 변화 대신 자연스러운 장면 전환을 유도하는 메커니즘을 설계했다.
추가 연산 비용 없는 시간적 제어 달성
모델 재학습이나 아키텍처 수정 없이 기존 비디오 확산 모델의 Attention 맵을 조절하는 것만으로 정교한 시간적 정렬 성능을 확보했다.
핵심 아이디어 이해하기
비디오 확산 모델의 Cross-Attention 메커니즘은 기본적으로 모든 비디오 프레임이 전체 프롬프트 토큰을 동시에 참조하도록 설계되어 있다. 이로 인해 '시리얼을 붓고 우유를 붓는다'는 프롬프트를 입력하면, 모델은 모든 프레임에서 시리얼과 우유를 동시에 표현하려 하거나 두 개념이 뒤섞인 모호한 영상을 생성하게 된다.
Prompt Relay는 이 문제를 해결하기 위해 Attention 연산 과정에 '시간적 제약'을 주입한다. 특정 시간대의 비디오 토큰(Query)이 해당 시간대에 할당된 텍스트 토큰(Key)에만 강하게 반응하도록 Attention 점수를 조절하는 방식이다. 이는 마치 오케스트라 지휘자가 특정 악보 구절에서 특정 악기들만 연주하도록 신호를 주는 것과 유사한 원리다.
특히 경계 지점에서의 부자연스러운 끊김을 막기 위해 가우시안 분포 기반의 소프트 페널티를 적용한다. 이를 통해 이전 사건의 시각적 구조를 유지하면서 다음 사건의 의미론적 정보를 서서히 주입하여, 물리적으로 일관되면서도 서사적으로 명확한 고품질 비디오 생성을 가능하게 한다.
방법론
전체 시스템은 기존 Video Diffusion 모델의 Cross-Attention 레이어에 개입하는 방식으로 동작한다. 사용자가 각 프롬프트별로 시작 시간과 종료 시간을 정의하면, 시스템은 해당 구간에 맞춰 Attention Routing을 수행한다.
핵심 메커니즘인 Temporal Prompt Routing은 Cross-Attention 로짓 계산 시 페널티 항 C(Q, K)를 도입한다. [비디오 쿼리 i와 텍스트 키 j가 주어질 때] → [i가 속한 프레임 위치와 j가 할당된 시간 구간의 중심점 ms 사이의 거리를 계산하여] → [거리가 멀어질수록 큰 페널티 값을 부여하고] → [이를 Softmax 이전의 로짓 값에서 차감한다]. 이 결과로 비디오 토큰은 자신과 관련 없는 시간대의 프롬프트 정보를 무시하게 된다.
Boundary-Attention Decay는 페널티 함수에 ReLU와 가우시안 감쇠를 결합하여 구현된다. [세그먼트 중심부 근처의 윈도우 w 내에서는] → [페널티를 0으로 유지하여 완전한 Attention을 허용하고] → [윈도우 밖으로 벗어나면 거리에 비례해 지수적으로 Attention 강도를 낮추는] → [부드러운 감쇠 곡선을 형성한다]. 이 방식은 Hard Masking이 유발하는 시각적 불연속성 문제를 해결한다.
관련 Figure

윈도우 파라미터 w와 감쇠 임계값 ϵ에 따른 Attention 분포 변화를 보여준다. w=L-2 설정 시 세그먼트 내부에서는 완전한 Attention을 유지하다가 경계에서 부드럽게 감쇠하여, 정보 손실 없이 자연스러운 전환이 가능함을 시각적으로 증명한다.
시간적 페널티 함수에 따른 Attention 유지 비율 곡선
주요 결과
Wan 2.2-T2V-A14B 모델을 기반으로 Sora Storyboard, Kling 2.6, Veo 3.1 등 최신 모델들과 비교 실험을 진행했다. 인간 선호도 조사 결과, Prompt Relay를 적용한 모델은 Temporal Prompt Alignment(시간적 프롬프트 정렬) 항목에서 1.10점을 기록하여 베이스라인인 Wan 2.2(4.00점) 대비 압도적인 성능 향상을 보였다.
Transition Naturalness(전환 자연스러움) 측면에서도 1.17점을 획득하여 기존 모델들(3.50~4.60점)보다 훨씬 매끄러운 장면 전환 능력을 입증했다. 특히 복잡한 카메라 움직임이나 급격한 장면 변화가 포함된 시나리오에서도 객체의 일관성을 유지하면서 정확한 순서대로 이벤트를 생성하는 데 성공했다.
관련 Figure

홍콩 거리에서 셀카를 찍다가 손으로 렌즈를 가린 후 그랜드 캐년으로 장면이 바뀌는 복잡한 시나리오를 테스트했다. 타 모델들이 장면을 섞거나 전환에 실패하는 반면, Prompt Relay는 정확한 타이밍에 자연스러운 장면 전환과 객체 일관성을 유지함을 보여준다.
Sora, Kling, Veo 등 주요 모델과 Prompt Relay의 다중 이벤트 생성 결과 비교
기술 상세
Prompt Relay는 Cross-Attention의 로짓(Logit) 레벨에서 작동하며, 연산량 증가가 거의 없는 O(1) 수준의 오버헤드를 가진다. 페널티 함수는 C(i, j) = ReLU(|f(i) - ms| - w)^2 / (2σ^2)로 정의되며, 여기서 f(i)는 프레임 인덱스, ms는 세그먼트 중간 지점이다.
학습 기반의 기존 연구(MinT 등)와 달리 아키텍처 수정이 필요 없으며, DiTCtrl과 같은 마스크 기반 방식이 겪는 배경 불일치 문제를 Boundary-Attention Decay를 통해 해결했다. 세그먼트 경계에서 인접한 두 프롬프트를 일시적으로 공통 활성화(Co-activating)함으로써 Self-Attention이 이전 프레임의 구조를 유지하면서도 새로운 의미 정보를 수용할 수 있는 '핸드오프(Handoff)' 영역을 제공한다.
또한 전역적인 맥락 유지를 위해 비디오 전체 구간에 영향을 미치는 Global Prompt를 Local Prompt와 병행하여 사용할 수 있도록 설계되어, 장면 전환 중에도 핵심 객체나 스타일의 일관성을 보존한다.
한계점
각 세그먼트가 독립적인 로컬 프롬프트에 집중하기 때문에, 프롬프트 간에 캐릭터나 객체에 대한 설명이 일관되지 않을 경우 시간에 따라 외형이 변하는 현상이 발생할 수 있다. 이는 전역 프롬프트를 통해 완화할 수 있으나 완벽한 해결을 위해서는 정교한 프롬프트 작성이 요구된다.
실무 활용
영화 제작, 광고, 스토리텔링 등 정교한 타임라인 제어가 필요한 비디오 생성 분야에 즉시 적용 가능하다. 기존 모델의 가중치를 변경하지 않으므로 다양한 비디오 확산 모델 백본에 쉽게 통합할 수 있다.
- 스토리보드 기반의 영화 장면 생성 (사건 A 이후 사건 B가 일어나는 구조)
- 정교한 카메라 워크 제어 (줌인 후 패닝 등 단계별 명령 수행)
- 다중 캐릭터 상호작용 비디오 생성 (캐릭터별 등장 시점 조절)
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.