TL;DR
기존 비디오 생성 모델의 증류 방식은 모든 프레임과 픽셀을 동일하게 취급하여 품질 개선에 한계가 있었다. Stream-R1은 보상 모델을 활용해 개선이 더 필요한 영역에 학습 집중도를 차등 배분함으로써, 추론 속도를 30배 높이면서도 원본 모델보다 더 뛰어난 영상미와 일관성을 확보했다.
왜 중요한가
기존 비디오 생성 모델의 증류 방식은 모든 프레임과 픽셀을 동일하게 취급하여 품질 개선에 한계가 있었다. Stream-R1은 보상 모델을 활용해 개선이 더 필요한 영역에 학습 집중도를 차등 배분함으로써, 추론 속도를 30배 높이면서도 원본 모델보다 더 뛰어난 영상미와 일관성을 확보했다.
핵심 기여
신뢰도 기반의 Inter-Reliability 가중치 설계
DMD 감독 신호의 신뢰도가 샘플마다 다르다는 점에 착안하여, 보상 점수가 높은 신뢰할 수 있는 롤아웃에 더 큰 학습 가중치를 부여함으로써 최적화 방향의 정확도를 높였다.
픽셀 단위의 Intra-Perplexity 최적화
보상 모델의 그래디언트를 역전파하여 비디오 내에서 품질 개선 여지가 큰 특정 공간 영역과 시간 프레임을 식별하고, 해당 부분에 최적화 압력을 집중시키는 메커니즘을 도입했다.
다차원 보상 균형 페널티
시각적 품질, 움직임의 자연스러움, 텍스트 정렬이라는 세 가지 품질 축이 균형 있게 발전하도록 개선 속도의 표준 편차를 손실 함수에 반영하여 특정 지표에만 과적합되는 현상을 방지했다.
핵심 아이디어 이해하기
기존의 비디오 증류 기법은 교사 모델이 생성한 결과물을 학생 모델이 무조건적으로 따라하게 만든다. 하지만 교사 모델의 가이드(Gradient) 자체가 항상 완벽한 것은 아니며, 영상 내에서도 이미 잘 만들어진 부분과 여전히 어색한 부분이 섞여 있기 마련이다. 이는 마치 모든 학생에게 동일한 난이도의 문제를 풀게 하여 학습 효율을 떨어뜨리는 것과 같다.
Stream-R1은 이 문제를 해결하기 위해 보상 모델(Reward Model)을 '선생님의 보조'로 활용한다. 먼저 Inter-Reliability 개념을 통해 교사 모델의 가이드가 실제로 고품질 영상을 향하고 있는지 점수를 매긴다. 점수가 낮은 가이드는 무시하고, 확실히 품질을 높일 수 있는 가이드에만 학생 모델이 집중하도록 가중치를 조절한다.
더 나아가 Intra-Perplexity 개념을 도입하여 영상 내부를 들여다본다. 보상 모델의 민감도를 분석해 영상 속 캐릭터의 얼굴이나 복잡한 움직임처럼 아직 품질이 부족한 '고난도 영역'을 찾아낸다. 이렇게 찾아낸 영역에 더 많은 학습 자원을 투입함으로써, 전체 영상을 균일하게 학습할 때보다 훨씬 정교하고 일관성 있는 비디오 생성을 가능하게 한다.
관련 Figure

기존 방식이 모든 샘플과 지역에 동일한 강도를 부여하는 반면, Stream-R1은 신뢰도가 높은 샘플(Inter-Reliability)과 개선 여지가 큰 지역(Intra-Perplexity)에 최적화 강도를 집중함을 시각화한다.
기존 DMD 방식과 Stream-R1의 샘플 및 지역별 최적화 강도 비교 다이어그램
방법론
Stream-R1은 DMD(Distribution Matching Distillation) 프레임워크를 기반으로 하며, 보상 모델로부터 유도된 두 가지 가중치를 기존 손실 함수에 결합한다. 전체 손실 함수는 Winter * (Wintra ⊙ LDMD) 형태로 정의된다.
Inter-Reliability 가중치(Winter)는 사전 학습된 비디오 보상 모델로부터 얻은 스칼라 점수 r에 지수 함수를 적용하여 계산한다. [보상 점수 r 입력] → [exp(β·r) 연산] → [샘플별 가중치 출력] → 이 값은 교사 모델의 가이드가 신뢰할 만한 샘플의 그래디언트 신호를 증폭시켜 모델이 고품질 데이터 분포로 빠르게 수렴하게 돕는다.
Intra-Perplexity 가중치(Wintra)는 보상 모델의 출력을 입력 픽셀에 대해 역전파하여 얻은 그래디언트 살리언시 맵을 활용한다. [보상 모델 Rd와 비디오 V 입력] → [∂Rd/∂V 절대값 계산] → [픽셀별 민감도 출력] → 이 민감도는 보상 점수가 변화에 가장 예민한 영역, 즉 개선 여지가 큰 영역을 의미하며 이를 시공간적으로 분해 및 정규화하여 학습 시 픽셀 단위 가중치로 사용한다.
관련 Figure

보상 모델로부터 스칼라 점수와 그래디언트 맵을 추출하여 각각 시료별 가중치(Winter)와 시공간 가중치(Wintra)로 변환하는 과정을 상세히 보여준다.
Stream-R1의 전체 학습 파이프라인 및 보상 기반 가중치 생성 구조도
주요 결과
VBench 벤치마크에서 Stream-R1은 1.3B 파라미터 규모로 84.40점의 총점을 기록하며, 14B 규모의 교사 모델인 Wan2.1(84.26점)을 앞질렀다. 특히 Semantic(81.44)과 Quality(85.14) 지표 모두에서 교사 모델보다 높은 점수를 획득하여 증류 모델이 원본의 한계를 넘을 수 있음을 입증했다.
장기 비디오 생성 실험(10초~180초)에서 기존 기법인 Reward Forcing 대비 모든 지표에서 우위를 점했다. 영상이 길어질수록 품질이 급격히 저하되는 'Quality Drift' 현상을 효과적으로 억제했으며, 180초 길이의 영상에서도 배경 및 피사체의 일관성을 안정적으로 유지했다.
인간 선호도 조사 결과, Stream-R1은 움직임의 역동성(63.0% 승률)과 시각적 품질(60.0% 승률) 면에서 대조군보다 압도적인 선호를 받았다. 이는 정량적 지표뿐만 아니라 실제 시각적 만족도 측면에서도 유의미한 개선이 이루어졌음을 보여준다.
관련 Figure

영상 길이가 길어질수록 Stream-R1이 기존 방식보다 일관성 및 품질 저하를 훨씬 효과적으로 방어하며 성능 격차를 벌리는 것을 수치로 증명한다.
비디오 길이에 따른 6가지 품질 지표 변화 그래프
기술 상세
Stream-R1 아키텍처는 Wan2.1-T2V-1.3B를 학생 모델로, 14B 모델을 교사 모델로 사용하는 계층적 구조를 갖는다. 핵심 차별점은 단일 보상 모델을 통해 시료 수준(Inter)과 픽셀 수준(Intra)의 가중치를 동시에 도출한다는 점이다. 특히 Intra-Perplexity 계산 시 보상 모델의 역전파를 단 한 번만 수행하여 학습 오버헤드를 최소화했다.
시공간 살리언시 분해(Spatiotemporal Saliency Decomposition) 기법을 통해 프레임 간의 시간적 중요도와 프레임 내의 공간적 중요도를 독립적으로 정규화한다. 이는 특정 프레임이 전체 가중치를 독점하는 것을 방지하고, 모든 프레임이 각자의 내부 구조 내에서 의미 있는 대비를 유지하며 학습되도록 보장한다.
다차원 보상 설계에서는 VQ(Visual Quality), MQ(Motion Quality), TA(Text Alignment)를 통합한다. 각 축의 개선 속도 차이를 계산하여 표준편차 기반의 페널티(Pbal)를 부여함으로써, 모델이 학습하기 쉬운 특정 요소에만 치우치지 않고 비디오의 모든 측면을 균형 있게 학습하도록 유도한다.
관련 Figure

영상의 특정 부분에 블러를 주었을 때 가중치 맵이 해당 영역을 정확히 포착하여 집중 학습 대상으로 지정하는 것을 통해 메커니즘의 유효성을 입증한다.
인위적인 블러 처리에 따른 시공간 가중치의 반응 시각화
한계점
논문은 보상 모델 자체의 편향성이나 한계가 증류 과정에 전이될 가능성에 대해서는 구체적으로 명시하지 않았으나, 실험 설정에서 특정 보상 모델에 의존하고 있음을 보여준다.
실무 활용
실시간성에 가까운 속도로 고품질 스트리밍 비디오를 생성해야 하는 서비스에 즉시 적용 가능하다. 추가적인 추론 비용 없이 학습 단계의 최적화만으로 품질을 높였기 때문에 효율적이다.
- 실시간 대화형 AI 아바타 및 비디오 생성 서비스
- 무한히 이어지는 배경 영상 또는 게임 배경 생성
- 저사양 디바이스에서의 고해상도 비디오 합성 가속화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.