TL;DR
현행 영상 기초 모델은 단일 샷 생성에 최적화되어 있어 실제 영화적 서사를 구현하는 다중샷 시퀀스의 제어와 연속성 확보가 어렵다. MuSS는 3,000편이 넘는 영화에서 추출한 다중샷 비디오/S2V 생성을 위한 이중 트랙 데이터셋을 제시하고, 로컬 샷 수준의 정확성에서 글로벌 서사 일관성으로 점진적으로 확립하는 프로그레시브 캡션 파이프라인과 크로스샷 매칭 메커니즘을 통해 S2V의 복사-붙여넣이 문제를 근본적으로 제거한다. 또한 시각적 논리 기반 벤치마크와 ACP-Var 지표를 도입해 연속적 서사성과 3D 구조적 일관성을 엄밀히 평가한다. 이로써 현재의 베이스라인이 연속적 서사를 유지하기보다는 2D 스티커 생성에 빠지는 한계를 극복할 수 있다.
왜 중요한가
현행 영상 기초 모델은 단일 샷 생성에 최적화되어 있어 실제 영화적 서사를 구현하는 다중샷 시퀀스의 제어와 연속성 확보가 어렵다. MuSS는 3,000편이 넘는 영화에서 추출한 다중샷 비디오/S2V 생성을 위한 이중 트랙 데이터셋을 제시하고, 로컬 샷 수준의 정확성에서 글로벌 서사 일관성으로 점진적으로 확립하는 프로그레시브 캡션 파이프라인과 크로스샷 매칭 메커니즘을 통해 S2V의 복사-붙여넣이 문제를 근본적으로 제거한다. 또한 시각적 논리 기반 벤치마크와 ACP-Var 지표를 도입해 연속적 서사성과 3D 구조적 일관성을 엄밀히 평가한다. 이로써 현재의 베이스라인이 연속적 서사를 유지하기보다는 2D 스티커 생성에 빠지는 한계를 극복할 수 있다.
관련 Figure

샷 간 montage와 서사 흐름의 연결성을 시각적으로 제시한다. 연구 전체의 맥락을 보강하는 도해로 핵심 아이디어를 시각적으로 전달한다.
논문 상단에 위치한 다중샷 구성을 나타내는 인포그래픽 성격의 그림
핵심 기여
MuSS 데이터셋의 제시
다중샷 비디오 및 S2V 생성을 위한 대규모 듀얼 트랙(dataset)으로, 3,000편이 넘는 영화에서 파생된 샷 경계, 맥락, 주제 정보를 포함한다. montage 전환과 주제 중심 서사를 명시적으로 지원하도록 설계되었다.
Progressive captioning pipeline
로컬 샷 수준의 정확성을 우선 보장한 뒤 전역 서사의 일관성을 강제하는 단계적 캡션 생성 파이프라인을 제시한다. 이를 통해 컨텍스트 충돌을 제거하고 샷 간 서사 흐름을 안정화한다.
Cross-shot matching 메커니즘
S2V 복사-붙여넣이(short-cut) 문제를 근본적으로 제거하는 크로스샷 매칭 기제를 도입하여 동일 주제의 샷 간 아이덴티티 보존을 강화한다.
Cinematic Narrative Benchmark와 ACP-Var 지표
시각적 논리 중심의 벤치마크와 연속적 서사 및 3D 구조적 일관성을 평가하는 ACP-Var 지표를 제안한다. 이를 통해 지속적 스토리텔링의 품질을 정량화한다.
MuSS-augmented 모델의 성능
기존 베이스라인은 연속적 서사 로직에서 한계에 봉착하거나 2D 스티커 생성으로 수렴하는 반면, MuSS를 활용한 모델은 서사적 효과와 샷 간 아이덴티티 보존에서 최첨단 수준을 달성한다.
핵심 아이디어 이해하기
초기 문제 정의: 영상 생성 모델은 일반적으로 단일 샷 중심이다. 다중샷으로 구성된 영화적 서사를 구현하려면 샷 경계, 맥락 연결성, 샷 간 아이덴티티 보존이 모두 필요하지만 데이터와 평가 체계가 부족하다. 이 논문은 두 축의 데이터셋과 파이프라인을 통해 이 한계를 해결한다. MuSS 데이터셋은 다중샷 비디오와 S2V를 모두 지원하는 이중 트랙 구조를 갖추고, progressive captioning으로 샷 단위의 정확성부터 글로벌 서사 흐름까지 순차적으로 맞춘다. 또한 cross-shot matching으로 S2V의 복사-붙여넣이 문제를 차단하고, 새로 제시한 ACP-Var 지표로 연속적 서사와 3D 구조적 일관성을 정량화한다. 이로써 기존 접근의 2D 스티커 생성 문제를 넘어, 연속적인 영화적 서사를 구현하는 방향으로 실무 및 연구 흐름을 전진시킨다.
관련 Figure

샷별 캡션 및 서사 흐름의 품질 차이를 시각적으로 보여주며, progressive captioning의 효과를 보조한다.
다양한 샷의 캡션 샘플과 서사 흐름 예시
방법론
다음과 같이 구성한다. 샷 경계 탐지 및 원시 영상을 수집하는 데이터 프레이밍 → 샷별 캡션의 로컬 정확성 확보를 위한 progressive captioning 파이프라인 → 샷 간 맥락 연결을 위한 글로벌 서사 일관성 강화 → cross-shot matching으로 주제 일관성 유지 및 copy-paste 방지 → Cinematic Narrative Benchmark 및 ACP-Var를 통한 평가 → MuSS 데이터 및 벤치마크를 이용한 모델 학습 및 평가.
관련 Figure

데이터 수집, 샷 경계, progressive captioning, cross-shot matching 및 벤치마크 과정을 연결한다. 연구 흐름을 한 눈에 파악하도록 돕는 도식이다.
MuSS 파이프라인의 전체 흐름을 나타내는 도식

Stage 구분과 multi-shot coherence의 중요성을 시각적으로 나타낸 도식으로 방법론의 핵심 포인트를 보강한다.
Stage 1-2의 다중샷 영상 생성 흐름 다이어그램

샷 간 아이덴티티 보존과 copy-paste 회피 효과를 시각적으로 제시한다. 논문 핵심 기법의 직관적 이해를 돕는다.
Cross-shot matching의 예시를 보여주는 이미지 시퀀스
주요 결과
주요 벤치마크에서 MuSS-향상 모델이 연속적 서사 로직과 샷 간 아이덴티티 보존 측면에서 기존 baselines보다 우수하다고 보고한다. 또한 Cross-shot Identity Preservation 측면에서도 개선이 확인되며, 3D 구조적 일관성 평가에서도 높은 점수를 기록한다. 베이스라인은 연속적 서사를 유지하기보다 2D 스티커 생성에 가까운 경향을 보인다.
관련 Figure

연속적 서사와 3D 구조적 일관성 평가를 위한 지표의 개념적 설명을 제공한다. 벤치마크의 해석에 도움을 준다.
ACP-Var 지표에 대한 시각적 예시
기술 상세
아키텍처 차원에서 MuSS는 다중샷 비디오 생성 및 S2V를 위한 데이터 파이프라인과 평가 프레임워크를 포함한다. 프로그래밍적으로는 데이터 전처리 파이프라인에서 샷 경계 탐지, 샷 간 매칭, 샷 레벨 캡션 생성 및 글로벌 서사 정합성 검증을 수행한다. 핵심은 progressive captioning과 cross-shot matching으로, 로컬 정보의 정확성을 확보한 뒤 샷 간 서사를 정렬한다. Prior work 대비 차별점은 1) 이중 트랙 데이터셋 구조, 2) 로컬-글로벌 캡션 정합성 보장 파이프라인, 3) 샷 간 아이덴티티 보존을 위한 cross-shot 매칭, 4) ACP-Var를 통한 지속적 서사 및 3D 구조 평가의 도입이다.
실무 활용
MuSS 데이터셋은 다중샷 비디오 생성 및 S2V 모델 학습에 활용되어 영화적 서사를 보다 안정적으로 생성하도록 돕는다.
- 다중샷 비디오 생성 모델 학습 및 평가
- S2V(S2V) 생성에서의 복사-붙여넣이 문제 진단 및 방지 연구
- 연속적 서사 평가를 위한 ACP-Var 기반 벤치마크 활용
- 필름/드라마 장면의 몽타주 전환 연구 및 실험
- 샷 간 아이덴티티 보존 및 맥락 일관성 분석
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

데이터셋의 다중샷 구성을 명확히 보여주고 연구의 실무적 적용 가능성을 시사한다.
MuSS 데이터셋의 예시 샷 구성 및 영상 시퀀스 예시
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.