비디오 모델은 일찍 추론한다: 미로 찾기를 위한 계획 확정성 활용

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

비디오 확산 모델이 생성 초기 단계에서 이미 전체 이동 경로를 결정한다는 '조기 계획 확정' 현상을 발견했습니다. 이를 활용해 유망한 초기 계획만 골라 생성하고 여러 영상을 연결하는 기법으로, 기존 모델의 한계를 넘어선 복잡한 공간 추론 성능을 달성했습니다.

왜 중요한가

핵심 기여

조기 계획 확정(Early Plan Commitment) 현상 규명

비디오 확산 모델이 전체 디노이징 과정의 초기 10-15% 단계에서 이미 고수준의 이동 경로를 결정하며, 이후 단계는 시각적 세부 사항만 다듬는다는 사실을 정량적으로 입증함.

EPBS(Early Planning Beam Search) 알고리즘 제안

초기 단계의 중간 예측값에서 경로를 추출하고 가벼운 검증기로 평가하여, 가능성 높은 시드에만 연산 자원을 집중하는 효율적인 샘플링 전략을 수립함.

ChEaP(Chaining with Early Planning) 프레임워크 구축

모델의 단일 생성 한계를 극복하기 위해 성공적인 부분 경로를 순차적으로 연결하는 체이닝 기법을 도입하여, 장기적인 추론이 필요한 미로 해결 능력을 획기적으로 개선함.

미로 난이도 결정 요인 및 실패 모드 분석

난이도의 핵심 변수가 장애물 밀도가 아닌 경로 길이임을 밝히고, 한계 상황에서 모델이 제약 조건을 위반하며 목표만 달성하려는 '부정행위' 패턴을 체계적으로 분류함.

핵심 아이디어 이해하기

비디오 확산 모델은 무작위 노이즈에서 시작해 점진적으로 픽셀을 정교화하며 영상을 생성함. 이 과정에서 모델은 단순히 시각적 형태만 만드는 것이 아니라, 프레임 간의 논리적 연결성과 물리적 움직임을 함께 설계함. 기존에는 이러한 '추론' 결과가 생성이 거의 완료된 시점에 나타난다고 믿었으나, 실제로는 아주 초기 단계에서 핵심적인 결정이 내려짐.

연구진은 미로 찾기라는 통제된 환경에서 모델의 내부 상태를 분석함. 전체 40단계의 생성 과정 중 단 5단계(12.5%)만 진행된 상태에서 모델의 의도를 추출해본 결과, 최종적으로 완성될 이동 경로의 93%가 이미 결정되어 있었음. 즉, 모델은 초기에 대략적인 '지도'와 '이동 계획'을 먼저 세우고, 남은 시간은 그 계획에 맞춰 화면을 깨끗하게 닦는 데 사용함.

이 발견은 추론 효율성을 극적으로 높일 수 있는 근거가 됨. 수백 개의 무작위 시도 중 성공할 것 같은 시도를 초기에 미리 알아낼 수 있기 때문임. 또한 모델이 한 번에 계획할 수 있는 경로의 길이에 한계가 있다는 점을 파악하여, 이를 여러 단계로 나누어 해결하는 방식으로 기존 모델의 잠재된 추론 능력을 최대한 끌어낼 수 있게 됨.

방법론

Flow Matching 프레임워크를 기반으로 중간 단계의 예측값 $\hat{x}_0^{(t)}$ 를 복원하여 분석함. 현재의 노이즈 상태 $x_t$ 와 모델이 계산한 속도 벡터 $v_\theta$ 를 입력으로 받아 $x_t - t \cdot v_\theta$ 연산을 수행하면, 해당 시점에서 모델이 지향하는 최종 영상의 근사치가 도출됨. 이 근사 영상에서 에이전트의 위치 변화를 추적해 초기 경로를 추출함.

EPBS(Early Planning Beam Search)는 초기 $\tau$ 단계에서 멈춰 선별 작업을 수행함. 추출된 초기 경로를 바탕으로 목표 지점과의 거리 및 장애물 충돌 여부를 점수화하고, 상위 $K$ 개의 유망한 후보만 골라 나머지 디노이징 과정을 진행함. 이는 모든 시드를 끝까지 생성하는 기존 방식보다 연산량을 70% 이상 절감하면서도 더 많은 후보를 탐색할 수 있게 함.

Chaining 기법은 모델의 '생성 지평선' 한계를 극복하기 위한 전략임. 모델이 신뢰할 수 있는 수준(약 12단계 이내)으로 미로의 일부분을 먼저 해결하게 한 뒤, 그 결과물의 마지막 프레임을 다음 생성의 시작 조건으로 입력함. 이 과정을 반복하여 여러 개의 짧은 비디오 세그먼트를 이어 붙임으로써 전체 미로를 완주하는 긴 경로를 완성함.

주요 결과

Wan2.2-14B 모델을 사용한 실험에서 EPBS는 표준 Best-of-N 샘플링 대비 3.3배 적은 연산량(NFE)으로 동일한 정확도를 기록함. 특히 난이도가 높은 10x10 미로에서 단순 샘플링이 도달하지 못한 성능 정체를 돌파하며 우수한 효율성을 보임.

ChEaP 프레임워크는 긴 경로(10-13단계) 미로에서 성공률을 기존 7.3%에서 67.3%로 약 9.2배 향상시킴. 이는 모델을 추가 학습시키지 않고도 추론 시점의 연산 배분 전략만으로 달성한 결과임.

HunyuanVideo-1.5 모델에서도 조기 계획 확정 현상이 동일하게 나타났으며, EPBS 적용 시 VR-Bench 등 다양한 벤치마크에서 일관된 성능 향상을 확인함. 이를 통해 해당 현상이 특정 모델에 국한되지 않은 비디오 확산 모델의 일반적인 특성임을 증명함.

기술 상세

Trajectory Convergence( $\mathcal{C}$ ) 지표를 도입하여 경로의 안정성을 정량화함. 각 단계에서 생성된 영상의 운동 에너지 맵( $\mathbf{m}^{(t)}$ )을 구하고, 이를 최종 영상의 맵( $\mathbf{m}^{(T)}$ )과 코사인 유사도로 비교함. 유사도가 1.0에 가까울수록 경로가 이미 확정되었음을 의미하며, 실험 결과 초기 5단계에서 이미 0.9 이상의 높은 수치를 기록함.

검증기(Verifier)는 $c = 1 - \frac{d(\text{end}, \text{goal})}{d(\text{start}, \text{goal})} - \alpha \lambda$ 식을 통해 후보를 평가함. 목표 지점까지의 맨해튼 거리 감소율에서 장애물 영역 체류 비율( $\lambda$ )에 가중치( $\alpha=0.5$ )를 곱해 감점함. 이 방식은 단순 거리 측정보다 장애물 회피 능력을 더 정확하게 반영함.

실패 사례 분석 결과, 모델은 경로 길이가 생성 한계를 초과할 때 'Constraint Violation(제약 위반)'을 일으킴. 구체적으로는 목표물(Gift)이 에이전트 쪽으로 텔레포트하거나, 목표물 근처에 새로운 에이전트가 갑자기 나타나는 등의 현상이 관찰됨. 이는 모델이 환경의 물리적 제약보다 '목표 도달'이라는 프롬프트 지시사항을 우선시하는 경향이 있음을 보여줌.

한계점

단일 비디오 생성 시 약 12단계 이상의 긴 경로는 해결하지 못하는 '생성 지평선(Generation Horizon)'의 한계가 존재하며, 경로가 너무 길어지면 모델이 장애물을 무시하거나 목표물을 순간이동시키는 등의 '부정행위'를 저지르는 경향이 있음.

실무 활용

비디오 생성 모델을 단순 영상 제작이 아닌, 로봇 경로 계획이나 복잡한 공간 추론 작업에 활용할 수 있는 실질적인 방법론을 제시합니다.

로봇 자율 주행을 위한 시각적 경로 계획 시뮬레이션
복잡한 퍼즐 및 논리 게임 해결을 위한 AI 에이전트 개발
비디오 생성 시 연산 자원을 효율적으로 배분하여 생성 속도 및 품질 최적화

코드 공개 여부: 공개

코드 저장소 보기

키워드

Video Diffusion Model(비디오 확산 모델)Inference-time Scaling(추론 시간 스케일링)Plan Commitment(계획 확정성)Maze Solving(미로 찾기)Flow Matching(플로우 매칭)