생각하고 점수 매기기: 비디오 리워드 모델링을 위한 추론과 점수 산출의 분리

기존 비디오 리워드 모델은 복잡한 동작을 논리적으로 분석하지 못하거나 학습 과정이 불안정한 문제가 있었다. 이 논문은 사고 과정(CoT)과 실제 점수 산출을 분리하는 DeScore 구조를 통해 학습 효율을 76% 높이면서도 인간의 선호도를 더 정확하게 예측하는 방법을 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Decoupled Thinking-and-Scoring 패러다임

Chain-of-Thought(CoT) 추론 과정과 최종 리워드 점수 산출을 분리하여, 추론의 해석 가능성과 점수 산출의 최적화 안정성을 동시에 확보한다.

2단계 학습 프레임워크 설계

Discriminative Cold Start 단계에서 기초적인 점수 산출 능력을 배양하고, Dual-Objective RL 단계에서 추론 품질과 리워드 정확도를 독립적으로 정제한다.

Random CoT Masking 기법

학습 중 추론 토큰을 무작위로 가려 모델이 텍스트 추론에만 의존하지 않고 원본 비디오 특징과 추론 결과를 균형 있게 활용하도록 유도한다.

핵심 아이디어 이해하기

기존의 비디오 리워드 모델은 비디오 특징에서 바로 점수를 뽑아내는 Discriminative 방식과, 다음 토큰을 예측하며 점수를 내는 Generative 방식으로 나뉜다. Discriminative 방식은 학습은 안정적이지만 복잡한 세부 사항을 놓치기 쉽고, Generative 방식은 CoT를 통해 논리적 근거를 만들 수 있지만 점수 토큰의 확률값에만 의존하므로 학습 시 그래디언트 변동이 심해 불안정하다는 한계가 있다.

DeScore는 MLLM이 먼저 비디오를 분석하는 CoT를 생성하게 한 뒤, 이 추론 결과의 마지막 상태(Hidden State)를 별도의 Regression Head에 입력하여 직접적인 스칼라 점수를 계산한다. 이는 Transformer의 Attention 메커니즘이 비디오의 시각적 정보와 생성된 텍스트 정보를 모두 참조하여 하나의 압축된 벡터를 만들고, 이를 통해 수치적인 리워드를 도출하는 원리이다.

결과적으로 모델은 '왜 이 비디오가 좋은지'를 먼저 생각하면서도, 학습 시에는 안정적인 Bradley-Terry Loss를 통해 직접적인 점수 교정을 받는다. 이를 통해 적은 데이터로도 복잡한 비디오의 질적 차이를 정교하게 구분할 수 있게 된다.

방법론

DeScore는 Qwen3-VL-8B를 백본으로 사용하며, CoT 생성 이후 [Reward] 쿼리 토큰을 추가하여 최종 점수를 산출하는 구조를 가진다. 전체 학습은 두 단계로 진행된다.

첫 번째 단계인 Discriminative Cold Start에서는 수집된 CoT 데이터를 입력으로 하여 Bradley-Terry(BT) Loss를 통해 모델을 예열한다. [두 비디오의 점수 차이 s_w - s_l을 입력으로] → [Sigmoid 함수 σ를 적용해 승리 확률을 계산하고] → [-log(σ) 값을 최소화하여] → [모델이 인간의 선호 순위를 올바르게 회귀하도록 가중치를 갱신한다]. 이때 Random Masking을 적용해 CoT 없이 비디오만으로도 점수를 낼 수 있는 강건함을 확보한다.

두 번째 단계인 Dual-Objective RL에서는 GRPO와 보조 BT Loss를 결합한다. [생성된 CoT 문장들을 입력으로] → [형식, 품질, 길이에 따른 보상을 계산해 GRPO Loss를 적용하고] → [동시에 실제 리워드 값에 대해 BT Loss를 계산하여] → [추론의 논리성과 점수의 정확도를 동시에 최적화한다]. 이 과정에서 GRPO는 추론의 질을 높이고, BT Loss는 리워드 헤드가 편향되지 않도록 보정하는 역할을 수행한다.

관련 Figure

#1Diagram
Discriminative RM(추론 없음)과 Generative RM(추론과 점수 결합)의 한계를 지적하고, DeScore가 추론과 점수를 분리하여 정확도와 안정성을 모두 잡았음을 보여준다. 그래프 (b)와 (c)를 통해 선호도 정확도 향상과 학습 곡선의 안정성을 시각적으로 증명한다.
DeScore와 기존 리워드 모델 패러다임의 비교 및 성능 지표 요약

주요 결과

DeScore는 In-domain 데이터셋에서 0.734의 선호도 정확도를 기록하며 기존 SOTA 모델인 VideoScore2(0.617)를 크게 상회했다. 특히 OOD(분포 외) 벤치마크인 VideoGen-Bench에서 0.768의 정확도를 달성하여 모델의 범용적인 일반화 성능을 입증했다.

효율성 측면에서는 기존 모델 대비 학습 데이터를 76% 적게 사용하고도 더 높은 성능을 보였다. Ablation Study 결과, CoT를 도입했을 때 정확도가 약 2.7% 향상되었으며, Random Masking 기법이 모델이 텍스트에만 매몰되지 않고 시각 정보를 균형 있게 참조하도록 돕는다는 점이 확인되었다.

관련 Figure

#3Chart
DeScore가 기존 SOTA 모델들보다 훨씬 적은 데이터(76% 절감)를 사용하고도 모든 벤치마크에서 월등한 성능을 기록함을 보여준다. 이는 제안된 구조의 높은 샘플 효율성을 뒷받침하는 핵심 근거이다.
학습 데이터 양에 따른 모델별 성능 비교 차트

#4Screenshot
DeScore가 생성한 CoT가 비디오의 세부 요소(동작, 일관성 등)를 정확히 짚어내며, 이를 바탕으로 타 모델보다 인간의 판단에 가까운 리워드 점수를 부여함을 입증한다.
다양한 비디오 시나리오에 대한 모델별 정성적 평가 결과

기술 상세

DeScore 아키텍처는 MLLM 백본 뒤에 학습 가능한 Query Token과 MLP 기반의 Regression Head를 결합한 형태이다. 기존 Generative RM이 점수를 이산적인 토큰으로 처리하여 서수적 관계를 무시하는 문제를 해결하기 위해, CoT 이후의 컨텍스트를 연속적인 스칼라 값으로 매핑한다.

이론적으로 GRPO의 그래디언트 분산이 응답 길이에 비례하여 증가(Ω(T))한다는 점을 분석하여, 점수 산출부에는 분산이 낮은 BT Loss를 직접 적용함으로써 학습 안정성을 확보했다. 구현 시에는 LoRA(rank 64)를 사용하여 효율적인 파인튜닝을 수행하며, 8개의 A100 GPU 환경에서 최적화가 가능하다.

관련 Figure

#2Diagram
Inference 시에는 CoT 생성 후 쿼리 토큰을 통해 점수를 내는 과정을 보여주며, Training 시에는 Cold-start와 Dual-Objective RL 단계의 데이터 흐름을 상세히 설명한다. 특히 RL 단계에서 GRPO와 BT Loss가 어떻게 병렬적으로 작용하는지 명시한다.
DeScore의 추론 및 2단계 학습 프레임워크 상세 구조

한계점

주로 비디오가 텍스트 프롬프트에 얼마나 충실한지를 평가하는 데 집중되어 있어, 물리적인 모순이나 미세한 시각적 아티팩트를 포착하는 능력은 상대적으로 부족할 수 있다.

실무 활용

고품질 비디오 생성 모델의 사후 학습(Post-training) 및 테스트 시간 스케일링(Test-time scaling)을 위한 핵심 평가 지표로 활용 가능하다.

비디오 생성 AI의 RLHF(인간 피드백 기반 강화학습)를 위한 리워드 모델
생성된 여러 비디오 중 최적의 결과물을 선택하는 Best-of-N 샘플링 필터
비디오-텍스트 정렬도 및 시각적 품질 자동 평가 도구

코드 공개 여부: 미확인

키워드

Video Reward Model(비디오 리워드 모델)Chain-of-Thought(사고의 사슬)MLLM(멀티모달 대형 언어 모델)GRPO(그룹 상대 정책 최적화)Decoupled Learning(분리 학습)

생각하고 점수 매기기: 비디오 리워드 모델링을 위한 추론과 점수 산출의 분리

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Decoupled Thinking-and-Scoring 패러다임

Chain-of-Thought(CoT) 추론 과정과 최종 리워드 점수 산출을 분리하여, 추론의 해석 가능성과 점수 산출의 최적화 안정성을 동시에 확보한다.

2단계 학습 프레임워크 설계

Discriminative Cold Start 단계에서 기초적인 점수 산출 능력을 배양하고, Dual-Objective RL 단계에서 추론 품질과 리워드 정확도를 독립적으로 정제한다.

Random CoT Masking 기법

학습 중 추론 토큰을 무작위로 가려 모델이 텍스트 추론에만 의존하지 않고 원본 비디오 특징과 추론 결과를 균형 있게 활용하도록 유도한다.

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

고품질 비디오 생성 모델의 사후 학습(Post-training) 및 테스트 시간 스케일링(Test-time scaling)을 위한 핵심 평가 지표로 활용 가능하다.

비디오 생성 AI의 RLHF(인간 피드백 기반 강화학습)를 위한 리워드 모델
생성된 여러 비디오 중 최적의 결과물을 선택하는 Best-of-N 샘플링 필터
비디오-텍스트 정렬도 및 시각적 품질 자동 평가 도구

코드 공개 여부: 미확인

키워드

Video Reward Model(비디오 리워드 모델)Chain-of-Thought(사고의 사슬)MLLM(멀티모달 대형 언어 모델)GRPO(그룹 상대 정책 최적화)Decoupled Learning(분리 학습)

생각하고 점수 매기기: 비디오 리워드 모델링을 위한 추론과 점수 산출의 분리

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

생각하고 점수 매기기: 비디오 리워드 모델링을 위한 추론과 점수 산출의 분리

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드