Soap2Soap: 다중 에이전트 협업을 통한 장편 시네마틱 비디오 리메이크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

장편 영상은 수백에서 수천 샷에 걸친 긴 시퀀스로, 샷 간 아이덴티티 drift와 배경 변화로 인한 일관성 손실이 누적되기 쉽다. Soap2Soap은 Dual-Bridge Consistency로 언어-시각 간 상호작용을 안정화하고, grid-based keyframe 생성 및 검증 루프를 통해 수백 샷 규모의 리메이크에서도 캐릭터 식별과 내러티브를 유지한다.

왜 중요한가

장편 영상은 수백에서 수천 샷에 걸친 긴 시퀀스로, 샷 간 아이덴티티 drift와 배경 변화로 인한 일관성 손실이 누적되기 쉽다. Soap2Soap은 Dual-Bridge Consistency로 언어-시각 간 상호작용을 안정화하고, grid-based keyframe 생성 및 검증 루프를 통해 수백 샷 규모의 리메이크에서도 캐릭터 식별과 내러티브를 유지한다.

핵심 기여

Long-video remaking 프레이크워크 제시

장편(수백 샷)에 걸친 시네마틱 리메이크 문제를 정의하고, 스타일링 및 배우 교체를 통해 이야기 구조·모션 연출을 보존하는 과제를 제시한다.

Dual-Bridge Consistency 도입

Language Bridge(Sjson)와 Visual Bridge(M)라는 두 상호 보완적 브리지를 통해 시나리오 맥락과 시각적 앵커를 공유합니다. 이로써 길고 복잡한 비디오에서도 일관성을 명시적으로 제어할 수 있습니다.

Contextual memory allocation 도입

샷별로 최소 충분한 맥락 패키지 Mi,j를 동적으로 구성하여 필요한 정보만 전달하고, 전체 맥락 로딩으로 인한 혼동을 줄인다.

Grid Joint Synthesis로 키프레임 일관성 강화

4개 또는 9개 프레임의 그리드를 한 번에 생성해 같은 시퀀스 내 프레임 간 어텐션 공유를 촉진하고, intra-scene 일관성을 크게 강화한다.

Verification Agent에 의한 폐쇄 루프 검증

생성 키프레임 및 샷을 Sjson, Mi,j 와 대조해 Identity, Environment, Plot Consistency를 점검하고 문제 샷만 선택적으로 재생성하는 피드백 루프를 구성한다.

핵심 아이디어 이해하기

단계 1: 긴 길이의 비디오를 이해하기 위해 Video Understanding Agent가 소스 비디오를 스크린플레이 Sjson으로 구조화합니다. 단계 2: Visual Anchors를 포함한 Memory를 구성해 샷별로 필요한 맥락을 할당합니다. 단계 3: Video Generation Agent가 Keyframe을 그리드 형태로 동시 생성하고, I2V로 샷 단위 비디오를 합성합니다. 단계 4: Verification Agent가 생성 결과를 semantically/visually 검증하고 필요 시 선택적으로 재생성합니다. 이 과정을 통해 언어적 시나리오와 시각적 제약 사이의 일관성을 길게 유지합니다.

방법론

전체 접근 방식과 핵심 아이디어: 세 가지 에이전트(Video Understanding, Video Generation, Verification)로 구성된 협력 프레임워크를 제시하고 Dual-Bridge Consistency를 통해 장편 비디오의 장기적 일관성을 달성한다. 핵심 메커니즘: Sjson이라는 Language Bridge와 Mi,j라는 Visual Bridge를 통해 샷별 맥락을 공유하고, 샷 간 drift를 억제한다. Contextual Memory Allocation은 샷별 필요한 최소 맥락만 로드해 안정성을 높이며, Grid Joint Synthesis는 2×2/3×3 그리드에서 다수 프레임을 한꺼번에 생성해 내부 어텐션을 공유한다. Verification Agent는 크로스-샷 검증과 피드백 루프를 통해 재생성을 선택적으로 트리거한다.

주요 결과

주요 벤치마크에서의 성능: ID-VLM 9.17, Scene-VLM 8.84, Plot-VLM 8.67, CLIP-I(ID) 0.842, CLIP-I(Scene) 0.819로, Mocha/Kling O1/Runway Gen4 대비 우수하다. Ablation 연구: w/o Dynamic Alloc.은 IoU 0.569, F1 0.618로 큰 하락; w/o Verification Loop는 IoU 0.874, F1 0.887로 완전한 Full보다 떨어진다. 전체 Full(Soap2Soap)은 IoU 0.921, Prec. 0.940, Recall 0.943, F1 0.936이며, Remaking 벤치의 ID-VLM 9.17, Scene-VLM 8.84, Plot-VLM 8.67, CLIP-I(ID) 0.842, CLIP-I(Scene) 0.819로 가장 높은 점수를 얻었다.

한계점

음향-시각 동기화 및 극한의 모션 다이나믹스에 대한 정밀 제어 한계, 고해상도/장르 간 차이에 따른 일반화 한계, 실시간 편집에는 여전히 계산 비용이 높음.

실무 활용

실무적으로는 영화/드라마 리메이크, 스타일링, 배우 대체에 적용 가능하며, 긴 시퀀스의 내러티브와 시각적 일관성 보장을 필요로 하는 현장에 활용될 수 있다.

장편 영화의 스타일 트랜스퍼/리메이크
배우 교체가 포함된 시리즈 재촬영 시 일관성 유지
다중 등장인물 간 상호작용이 많은 장면의 연출 유지
다양한 스타일(Anime, Lego 등)로의 리메이크 시도

코드 공개 여부: 공개

코드 저장소 보기

키워드

video-to-video generationcinematic remakinglong-video understandingidentity driftdual-bridge consistencyJSON screenplayvisual anchors