TL;DR
장편 영상은 수백에서 수천 샷에 걸친 긴 시퀀스로, 샷 간 아이덴티티 drift와 배경 변화로 인한 일관성 손실이 누적되기 쉽다. Soap2Soap은 Dual-Bridge Consistency로 언어-시각 간 상호작용을 안정화하고, grid-based keyframe 생성 및 검증 루프를 통해 수백 샷 규모의 리메이크에서도 캐릭터 식별과 내러티브를 유지한다.
왜 중요한가
장편 영상은 수백에서 수천 샷에 걸친 긴 시퀀스로, 샷 간 아이덴티티 drift와 배경 변화로 인한 일관성 손실이 누적되기 쉽다. Soap2Soap은 Dual-Bridge Consistency로 언어-시각 간 상호작용을 안정화하고, grid-based keyframe 생성 및 검증 루프를 통해 수백 샷 규모의 리메이크에서도 캐릭터 식별과 내러티브를 유지한다.
핵심 기여
Long-video remaking 프레이크워크 제시
장편(수백 샷)에 걸친 시네마틱 리메이크 문제를 정의하고, 스타일링 및 배우 교체를 통해 이야기 구조·모션 연출을 보존하는 과제를 제시한다.
Dual-Bridge Consistency 도입
Language Bridge(Sjson)와 Visual Bridge(M)라는 두 상호 보완적 브리지를 통해 시나리오 맥락과 시각적 앵커를 공유합니다. 이로써 길고 복잡한 비디오에서도 일관성을 명시적으로 제어할 수 있습니다.
Contextual memory allocation 도입
샷별로 최소 충분한 맥락 패키지 Mi,j를 동적으로 구성하여 필요한 정보만 전달하고, 전체 맥락 로딩으로 인한 혼동을 줄인다.
Grid Joint Synthesis로 키프레임 일관성 강화
4개 또는 9개 프레임의 그리드를 한 번에 생성해 같은 시퀀스 내 프레임 간 어텐션 공유를 촉진하고, intra-scene 일관성을 크게 강화한다.
Verification Agent에 의한 폐쇄 루프 검증
생성 키프레임 및 샷을 Sjson, Mi,j 와 대조해 Identity, Environment, Plot Consistency를 점검하고 문제 샷만 선택적으로 재생성하는 피드백 루프를 구성한다.
핵심 아이디어 이해하기
단계 1: 긴 길이의 비디오를 이해하기 위해 Video Understanding Agent가 소스 비디오를 스크린플레이 Sjson으로 구조화합니다. 단계 2: Visual Anchors를 포함한 Memory를 구성해 샷별로 필요한 맥락을 할당합니다. 단계 3: Video Generation Agent가 Keyframe을 그리드 형태로 동시 생성하고, I2V로 샷 단위 비디오를 합성합니다. 단계 4: Verification Agent가 생성 결과를 semantically/visually 검증하고 필요 시 선택적으로 재생성합니다. 이 과정을 통해 언어적 시나리오와 시각적 제약 사이의 일관성을 길게 유지합니다.
관련 Figure

샷 간 아이덴티티 보존의 필요성을 직관적으로 보이며 Dual-Bridge Consistency의 기반인 캐릭터 일관성의 중요성을 보강한다
Original Characters와 New Characters를 나란히 비교하는 다이어그램으로 캐릭터 교체의 아이덴티티 관리 맥락을 시각화
방법론
전체 접근 방식과 핵심 아이디어: 세 가지 에이전트(Video Understanding, Video Generation, Verification)로 구성된 협력 프레임워크를 제시하고 Dual-Bridge Consistency를 통해 장편 비디오의 장기적 일관성을 달성한다. 핵심 메커니즘: Sjson이라는 Language Bridge와 Mi,j라는 Visual Bridge를 통해 샷별 맥락을 공유하고, 샷 간 drift를 억제한다. Contextual Memory Allocation은 샷별 필요한 최소 맥락만 로드해 안정성을 높이며, Grid Joint Synthesis는 2×2/3×3 그리드에서 다수 프레임을 한꺼번에 생성해 내부 어텐션을 공유한다. Verification Agent는 크로스-샷 검증과 피드백 루프를 통해 재생성을 선택적으로 트리거한다.
관련 Figure

세 에이전트 간 상호작용과 Dual-Bridge Consistency의 흐름을 구체화하여 methodology를 시각적으로 보강한다
Soap2Soap의 3-에이전트 아키텍처 및 데이터 흐름 도식

그리드 내에서 프레임 간 어텐션 공유가 Keyframe 간 일관성을 높이는 기여를 설명하는 시각적 보강
Grid Joint Synthesis의 2×2/3×3 그리드 예시
주요 결과
주요 벤치마크에서의 성능: ID-VLM 9.17, Scene-VLM 8.84, Plot-VLM 8.67, CLIP-I(ID) 0.842, CLIP-I(Scene) 0.819로, Mocha/Kling O1/Runway Gen4 대비 우수하다. Ablation 연구: w/o Dynamic Alloc.은 IoU 0.569, F1 0.618로 큰 하락; w/o Verification Loop는 IoU 0.874, F1 0.887로 완전한 Full보다 떨어진다. 전체 Full(Soap2Soap)은 IoU 0.921, Prec. 0.940, Recall 0.943, F1 0.936이며, Remaking 벤치의 ID-VLM 9.17, Scene-VLM 8.84, Plot-VLM 8.67, CLIP-I(ID) 0.842, CLIP-I(Scene) 0.819로 가장 높은 점수를 얻었다.
관련 Figure

장르 간 스타일 변환에서도 일관성을 유지하는 것을 시각적으로 보여주며 결과의 일관성 측면을 강화한다
다양한 장르에서의 결과 예시 타일 모음

ID/Scene/Plot 벤치마크에서 Soap2Soap의 우수성을 시각적으로 보여주며 방법론의 이점이 성능으로 연결됨을 보강한다
baseline과 Soap2Soap 간 비교 프레임의 샷별 차이 시각화

다양한 샷에서의 아이덴티티 유지와 스타일 일관성을 직접 보여주며 결과의 질을 보강한다
Keyframe 결과의 샘플 모음
한계점
음향-시각 동기화 및 극한의 모션 다이나믹스에 대한 정밀 제어 한계, 고해상도/장르 간 차이에 따른 일반화 한계, 실시간 편집에는 여전히 계산 비용이 높음.
실무 활용
실무적으로는 영화/드라마 리메이크, 스타일링, 배우 대체에 적용 가능하며, 긴 시퀀스의 내러티브와 시각적 일관성 보장을 필요로 하는 현장에 활용될 수 있다.
- 장편 영화의 스타일 트랜스퍼/리메이크
- 배우 교체가 포함된 시리즈 재촬영 시 일관성 유지
- 다중 등장인물 간 상호작용이 많은 장면의 연출 유지
- 다양한 스타일(Anime, Lego 등)로의 리메이크 시도
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.