Salt: 빠른 비디오 생성을 위한 캐시 인식 학습 기반의 자기 일관성 분포 매칭

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

비디오 생성 모델을 실시간 서비스에 적용하려면 추론 단계를 극단적으로 줄여야 하지만, 기존 방식은 영상이 뭉개지거나 움직임이 어색해지는 문제가 있었다. 이 논문은 적은 단계에서도 선명하고 일관된 영상을 만드는 새로운 증류 기법을 제시하여 실시간 AI 영상 생성의 상용화 가능성을 크게 높였다.

왜 중요한가

핵심 기여

SC-DMD 제안

DMD의 국소적 학습 신호 한계를 극복하기 위해 연속된 노이즈 제거 단계 간의 일관성을 강제하는 반군 결함 정규화(Semigroup-defect regularizer) 기법을 도입했다.

캐시 인식 혼합 단계 학습 도입

자동 회귀 생성 시 다양한 품질의 KV Cache에 모델을 노출시키는 Mixed-step rollout 전략을 통해 추론 시 발생하는 오류 누적 문제를 해결했다.

캐시 조건부 특징 정렬 목적 함수 설계

적은 단계의 출력을 많은 단계의 고품질 참조 출력과 관계적 특징 공간에서 정렬시켜 시각적 세부 사항과 구조적 안정성을 보존했다.

핵심 아이디어 이해하기

기존의 DMD 방식은 각 노이즈 단계에서 깨끗한 영상을 예측하도록 독립적으로 학습된다. 하지만 실제 추론은 여러 단계를 사슬처럼 엮어서 수행되는데, DMD는 이 단계들이 서로 어떻게 연결되는지 고려하지 않는다. 이로 인해 추론 단계가 늘어날수록 오히려 영상이 과노출되거나 세부 구조가 무너지는 '구성성 결핍(Compositionality deficit)' 현상이 발생한다.

이를 해결하기 위해 수학적 반군(Semigroup) 개념을 딥러닝 학습에 도입했다. 즉, A 지점에서 C 지점으로 한 번에 이동한 결과와 B 지점을 거쳐서 이동한 결과가 수학적으로 일치하도록 강제하는 것이다. 이를 통해 각 단계의 노이즈 제거 연산이 서로 충돌하지 않고 하나의 매끄러운 궤적을 형성하게 되어, 적은 단계의 추론에서도 일관된 고품질 영상을 얻을 수 있다.

또한 비디오 생성 시 이전 프레임 정보를 담는 KV Cache의 품질이 추론 단계 수에 따라 달라진다는 점에 주목했다. 학습 과정에서 2단계, 4단계, 8단계 등 다양한 추론 환경을 섞어서 경험하게 함으로써, 모델이 어떤 품질의 캐시 입력이 들어와도 흔들림 없이 다음 프레임을 생성할 수 있는 강건함을 확보했다.

방법론

SC-DMD는 확률 흐름 ODE(Probability Flow ODE) 관점에서 학생 모델의 오일러 수송 연산자(Euler transport operator) $\Psi_\theta$ 가 반군 법칙을 만족하도록 설계했다. $t_s > t_m > t_e$ 인 세 시점에 대해 직접적인 한 단계 업데이트 결과와 두 단계를 거친 업데이트 결과 사이의 L2 거리를 최소화하는 $\mathcal{L}_{SC}$ 손실 함수를 사용한다. [입력 노이즈 $x_{t_s}$ → 직접/단계적 연산 수행 → 두 종점의 차이 계산 → 일관성 확보]

자동 회귀(AR) 비디오 생성을 위해 캐시 인식 혼합 단계 학습(Cache-Aware Mixed-Step Training)을 수행한다. 매 반복마다 $K \in \{2, 4, 8\}$ 중 하나를 샘플링하여 비디오 청크를 생성하며, 이를 통해 모델이 다양한 품질의 KV Cache 조건에 노출되도록 유도한다. 특히 $K=8$ 일 때만 SC 정규화를 활성화하여 가장 긴 연쇄의 일관성을 집중적으로 학습한다.

낮은 단계( $K=2, 4$ )의 성능을 보완하기 위해 캐시 조건부 특징 정렬(Cache-conditioned feature alignment)을 도입했다. 낮은 단계의 출력 특징 맵에서 토큰 간의 공간적 관계 행렬(Relation matrix)을 계산하고, 이를 더 높은 단계의 참조 행렬과 비교하여 차이를 줄인다. [특징 맵 입력 → 토큰 간 유사도 행렬 생성 → 두 행렬 간의 Margin-relaxed 거리 계산 → 고품질 구조 정보 전이]

주요 결과

Wan 2.1 14B 모델을 이용한 이미지-비디오(I2V) 실험에서 4 NFE 기준 VBench 점수 93.90을 기록하며 기존 DMD(93.09) 대비 향상된 성능을 보였다. 특히 배경 일관성(92.79 → 95.97)과 시간적 깜빡임(95.21 → 97.41) 지표가 크게 개선되어 영상의 안정성이 높아졌다.

자동 회귀 텍스트-비디오(T2V) 생성에서도 Self Forcing, LongLive 등 기존 프레임워크에 Salt를 적용했을 때 모든 벤치마크에서 품질과 의미론적 일관성이 상승했다. 특히 2 NFE라는 극단적인 저예산 환경에서도 기존 4 NFE 수준의 품질을 유지하는 효율성을 입증했다.

30초 이상의 장기 비디오 생성 실험(VBench-Long)에서도 Causal Forcing 대비 의미론적 점수가 60.25에서 62.77로 상승했다. 이는 SC-DMD를 통한 단계별 일관성 확보와 캐시 인식 학습이 장기적인 영상 생성의 안정성에 직접적으로 기여함을 보여준다.

기술 상세

Salt는 DMD의 모드 탐색(Mode-seeking) 특성을 유지하면서 다단계 추론의 불안정성을 해결하는 하이브리드 목적 함수 $\mathcal{L}_{DMD} + \lambda_{SC}\mathcal{L}_{SC} + \lambda_{align}\mathcal{L}_{align}$ 를 사용한다. 이는 기존의 궤적 회귀 방식이 비디오의 역동성을 죽이고 평균적인 이미지를 만드는 '모드 평균화' 문제를 방지한다.

SC-DMD의 반군 결함 정규화는 학생 모델이 학습한 벡터 필드 $v_\theta$ 가 시간 축에서 적분 가능하고 일관된 궤적을 형성하도록 유도하는 구조적 편향(Structural bias)을 제공한다. 이는 추론 시 단계 수(Step count)에 따라 결과물이 급격히 변하는 현상을 억제한다.

자동 회귀 모델 학습 시 발생하는 노출 편향(Exposure bias)을 줄이기 위해 Mixed-step rollout 전략을 사용하며, 이는 모델이 생성한 KV Cache의 품질 변동성에 대해 강건한 최적화를 가능하게 한다. 특히 $K=8$ 에서만 SC 손실을 적용하여 계산 효율성을 높이면서도 핵심적인 일관성을 확보한다.

특징 정렬 시 직접적인 픽셀 값 대신 토큰 간의 관계 행렬을 비교하는 방식은 미세한 픽셀 오차에 민감하게 반응하지 않으면서도 전체적인 공간 구조와 의미적 맥락을 효과적으로 전이시킨다. 이는 낮은 NFE에서도 복잡한 텍스처와 움직임을 보존하는 핵심 기법이다.

한계점

이 논문은 실시간 자동 회귀 생성에 최적화되어 있으며, 명시적인 장기 비디오 최적화 기법은 포함하지 않았다. 또한 극단적으로 낮은 단계(1 NFE)에서의 성능은 여전히 개선의 여지가 있을 수 있다.

실무 활용

Salt는 실시간 상호작용이 필요한 비디오 생성 서비스나 저사양 하드웨어에서의 영상 추론에 즉시 적용 가능한 프레임워크이다. 기존의 다양한 비디오 생성 백보드 모델과 호환되며 추가적인 추론 비용 없이 품질만 개선할 수 있다.

실시간 AI 비디오 스트리밍 서비스의 추론 단계 단축 및 비용 절감
모바일 기기 등 제한된 자원 환경에서의 고품질 영상 생성
긴 호흡의 애니메이션이나 영화 제작을 위한 자동 회귀 기반 영상 생성 안정화

코드 공개 여부: 공개

코드 저장소 보기

키워드

DMD(분포 매칭 증류)SC-DMD(자기 일관성 분포 매칭 증류)KV Cache(키-값 캐시)Video Generation(비디오 생성)Autoregressive(자동 회귀)