핵심 요약
실제 환경에 배포될 때, 시각-언어 모델(Vision-Language Models)은 날씨, 가림(occlusion), 카메라 움직임과 같은 방해 요소를 자주 마주하게 됩니다. 이러한 조건에서 모델의 이해와 추론 능력은 실질적으로 저하되며, 이는 깨끗하고 통제된(즉, 섭동이 없는) 평가 환경과 실제 세계의 강건성(robustness) 사이에 간극이 있음을 드러냅니다. 이러한 한계를 해결하기 위해, 우리는 시공간적 왜곡(spatio-temporal corruptions) 상황에서 강건성 인지 일관성 보상(robustness-aware consistency reward)을 모델링하여 강건성을 향상시키는 새로운 학습 프레임워크인 ROVA를 제안합니다. ROVA는 모델의 진화하는 능력에 따라 정보가 풍부한 샘플의 우선순위를 정하는 난이도 인지 온라인 학습 전략(difficulty-aware online training strategy)을 도입합니다. 구체적으로, 자기 성찰적 평가(self-reflective evaluation)를 통해 샘플 난이도를 지속적으로 재추정함으로써 강건성 인지 일관성 보상을 활용한 적응형 학습을 가능하게 합니다. 또한, 실제적인 방해 요소 하에서 정확도와 추론 품질을 모두 평가하기 위해 체화된 비디오 데이터셋(embodied video datasets)에 실제 세계의 섭동(perturbations)을 주입한 새로운 벤치마크인 PVRBench를 소개합니다. 우리는 PVRBench, UrbanVideo, VisBench에서 ROVA와 베이스라인 모델들을 평가했으며, 오픈 소스 및 상용 모델들이 실제 섭동 하에서 정확도와 추론 능력이 각각 최대 35%와 28% 하락함을 확인했습니다. ROVA는 이러한 성능 저하를 효과적으로 완화하여, 베이스라인 모델(Qwen2.5/3-VL, InternVL2.5, Embodied-R) 대비 상대적 정확도를 최소 24%, 추론 능력을 9% 이상 향상시켰습니다. 이러한 이점은 깨끗한 표준 벤치마크로도 전이되어 일관된 개선을 보여주었습니다.
핵심 기여
ROVA 학습 프레임워크 제안
시공간적 왜곡 상황에서 강건성 인지 일관성 보상을 활용하여 비디오 추론 모델의 실제 환경 적응력을 높이는 새로운 프레임워크를 개발했습니다.
난이도 인지 온라인 학습 전략
모델의 현재 성능에 맞춰 학습 샘플의 난이도를 실시간으로 평가하고, 정보 가치가 높은 데이터를 우선적으로 학습에 활용하는 전략을 도입했습니다.
PVRBench 벤치마크 구축
날씨, 가림, 카메라 흔들림 등 실제 세계에서 발생할 수 있는 다양한 섭동을 체화된 비디오 데이터에 적용하여 모델의 강건성을 정밀하게 측정할 수 있는 평가 지표를 마련했습니다.
방법론
ROVA는 시공간적 왜곡이 가해진 비디오와 원본 비디오 간의 출력 일관성을 극대화하는 강건성 인지 일관성 보상(Robustness-aware Consistency Reward) 메커니즘을 사용합니다. 또한, 자기 성찰적 평가(Self-reflective Evaluation)를 통해 각 학습 샘플의 난이도를 동적으로 추정하고, 모델의 숙련도에 따라 최적의 샘플을 선택하는 온라인 학습 파이프라인을 구축했습니다.
주요 결과
PVRBench 실험 결과, 기존 모델들이 실제 환경 노이즈에서 최대 35%의 정확도 하락을 보인 반면, ROVA는 Qwen2.5-VL 및 InternVL2.5 등의 베이스라인 대비 상대적 정확도를 24% 이상, 추론 품질을 9% 이상 향상시켰습니다. 특히 UrbanVideo와 VisBench 등 외부 데이터셋에서도 일관된 성능 향상을 입증했습니다.
시사점
자율주행이나 로봇 공학 등 외부 환경에서 작동해야 하는 AI 시스템의 신뢰성을 크게 높일 수 있습니다. 특히 데이터 증강이나 단순 재학습 없이도 온라인 적응을 통해 모델의 추론 일관성을 유지할 수 있는 실무적 방법론을 제시합니다.
키워드
섹션별 상세
ROVA 학습 프레임워크 제안
난이도 인지 온라인 학습 전략
PVRBench 벤치마크 구축
AI 요약 · 북마크 · 개인 피드 설정 — 무료