VideoRLVR: 검증 가능한 보상으로 비디오 추론을 수행하는 방법

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

비디오 확산 모델은 perceptual realism에 집중하는 경향이 있지만, 규칙 기반의 시각 추론에서의 정합성을 보장하지 못한다. VideoRLVR은 verifiable rewards로 실제 규칙을 충족하는 비디오 처리 과정을 촉진하고, Dense decomposed rewards와 Early-Step Focus를 통해 낮은 성공률 환경에서도 informative한 피드백을 제공한다. 이로써 perception-oriented 생성에서 벗어나 규칙-일치 시각 추론으로의 전환을 제시한다.

왜 중요한가

비디오 확산 모델은 perceptual realism에 집중하는 경향이 있지만, 규칙 기반의 시각 추론에서의 정합성을 보장하지 못한다. VideoRLVR은 verifiable rewards로 실제 규칙을 충족하는 비디오 처리 과정을 촉진하고, Dense decomposed rewards와 Early-Step Focus를 통해 낮은 성공률 환경에서도 informative한 피드백을 제공한다. 이로써 perception-oriented 생성에서 벗어나 규칙-일치 시각 추론으로의 전환을 제시한다.

핵심 기여

VideoRLVR 프레임워크 제시

Video diffusion 모델을 verifiable rewards로 최적화하는 RLVR 파이프라인을 제시한다. SDE-GRPO를 백본으로 사용하고, Early-Step Focus와 dense decomposed rewards를 결합해 규칙 기반 추론을 촉진한다.

Early-Step Focus 도입

denoising 트레이스의 초기 L 단계에만 stochastic perturbation과 gradient를 적용해 학습 속도를 약 40% 감소시키면서도 추론 성능을 유지한다.

Dense decomposed rewards 설계

각 도메인(Maze, FlowFree, Sokoban)에 대해 부분적 규칙-기반 보상을 설계하고, sparse 성공 보상만으로는 신호가 부족한 경우에도 학습 신호를 제공하도록 한다.

Rule-based 데이터 생성과 검증

rule-based planners로 solution trajectories를 생성하고 각 전이와 프레임을 verifier로 자동 검증할 수 있도록 메타데이터를 보존한다.

실험에서의 성능 향상 및 일반화

Maze, FlowFree, Sokoban에서 SFT 대비 SR가 각각 6.1%, 5.5%, 3.2% 포인트 향상되었고, VBVR OOD에서 평균 점수가 60.2로 대조군 대비 크게 개선되며, 5B 백본으로도 14B 대비 경쟁력을 보여준다.

실무 활용

VideoRLVR은 비디오 생성 모델을 규칙 기반의 verifiable reward로 학습시키는 실용적 RL 프레임워크를 제공한다. Dense decomposed rewards와 Early-Step Focus를 통해 낮은 성공률 도메인에서도 효과적으로 학습하며, out-of-domain transfer에서도 개선을 보인다.

로봇 시뮬레이션의 시각적 의사결정 트레이스를 규칙으로 검증할 수 있도록 비디오로 생성
교육용 퍼즐 및 문제 해결 시나리오의 시각적 추론 영상 생성
규칙 기반 검증이 필요한 시각적 계획 및 디버깅 영상 생성
VBVR와 같은 OOD 환경에서의 일반화 가능한 시각적 추론 모델 학습

코드 공개 여부: 공개

코드 저장소 보기

키워드

video-diffusionreinforcement-learningverifiable-rewardsSDE-GRPOdense-decomposed-rewardsEarly-Step-Focusvisual-trajectoriesprocedural-generation