핵심 요약
현재 비디오-언어 모델(VLM)의 성능 향상이 실제 시각 이해가 아닌 언어적 편향에 의존하고 있다는 충격적인 사실을 폭로한다. 데이터 큐레이션만으로 복잡한 알고리즘보다 더 큰 성능 향상을 이룰 수 있음을 증명하여 VLM 연구의 새로운 방향성을 제시한다.
왜 중요한가
현재 비디오-언어 모델(VLM)의 성능 향상이 실제 시각 이해가 아닌 언어적 편향에 의존하고 있다는 충격적인 사실을 폭로한다. 데이터 큐레이션만으로 복잡한 알고리즘보다 더 큰 성능 향상을 이룰 수 있음을 증명하여 VLM 연구의 새로운 방향성을 제시한다.
핵심 기여
비디오 벤치마크 및 데이터셋의 언어적 편향성 규명
VideoMME, MMVU 등 주요 비디오 이해 벤치마크 문제의 40-60%가 영상 없이 텍스트만으로 정답 도출이 가능함을 확인했다. 이는 모델의 실제 시각적 추론 능력이 과대평가되었음을 시사한다.
시각적 근거 기반 데이터 큐레이션 기법 VidGround 제안
텍스트만으로 정답을 맞힐 수 없는 '시각적 근거(Visually Grounded)'가 필수적인 질문만을 선별하여 학습에 사용하는 단순하고 효과적인 데이터 정제 파이프라인을 구축했다.
적은 데이터로 더 높은 성능 달성
전체 데이터의 69.1%만 사용하고도 기존 전체 데이터를 사용한 학습 대비 최대 6.2점의 성능 향상을 기록했다. 이는 데이터의 양보다 질이 VLM 성능 개선의 핵심 병목임을 입증한 결과이다.
핵심 아이디어 이해하기
기존의 비디오-언어 모델(VLM)은 대규모 데이터로 학습되지만, 많은 경우 영상 내용을 실제로 분석하기보다 질문 텍스트에 포함된 힌트나 상식(Linguistic Shortcut)을 이용해 답을 맞힌다. 이는 마치 시험 문제를 읽고 지문은 보지도 않은 채 배경지식으로 답을 고르는 것과 같다. 이러한 '언어적 지름길' 학습은 모델이 복잡한 시각적 정보를 처리하는 능력을 기르는 데 방해가 된다.
VidGround는 이 문제를 해결하기 위해 '영상 없이는 절대 풀 수 없는 문제'만 골라 모델을 훈련시킨다. GPT-5-mini와 같은 강력한 언어 모델에게 영상 없이 질문만 주고 풀게 한 뒤, 맞히지 못한 문제들만 추출한다. 이렇게 선별된 데이터는 모델이 정답을 맞히기 위해 반드시 영상 속의 시각적, 시간적 단서를 찾아내도록 강제하는 강력한 신호가 된다.
결과적으로 모델은 텍스트 패턴에 의존하는 대신 실제 영상의 픽셀 정보를 더 깊게 파고들게 된다. 이는 강화학습(RL) 과정에서 모델이 시각적 증거를 바탕으로 사고 체인(Reasoning Chain)을 형성하도록 유도하며, 영상의 길이가 길어지거나 정보가 복잡해질수록 기존 방식보다 훨씬 뛰어난 정확도와 일관성을 보여준다.
방법론
전체 학습 파이프라인은 데이터 큐레이션 단계와 강화학습(RL) 단계로 구성된다. 먼저 데이터 큐레이션 단계에서는 Video-R1-260K 데이터셋에서 시각적 근거가 부족한 데이터를 필터링한다. [질문 및 선택지 입력 → GPT-5-mini 텍스트 전용 추론 → 오답 데이터 선별 → 시각적 근거(VG) 데이터셋 구축] 과정을 거쳐 전체의 약 69.1%에 해당하는 181,710개의 고품질 샘플을 확보한다.
강화학습 단계에서는 GRPO(Group Relative Policy Optimization) 알고리즘을 사용한다. [비디오-질문 쌍 입력 → G개의 응답 샘플링 → 그룹 내 상대적 보상 계산 → 정책 업데이트] 순으로 진행된다. 특히 토큰 수준의 정책 경사 손실(Token-level policy gradient loss)에 비대칭 클리핑(Asymmetric clipping)을 적용하여 학습의 안정성을 높였다.
보상 함수는 정답 여부뿐만 아니라 시간적 맥락을 고려하는 보상을 포함한다. [모델 출력값 → 정답 비교 및 시간적 일관성 검사 → 보상 수치 산출 → 가중치 갱신] 과정을 통해 모델이 영상의 특정 시점을 정확히 참조하여 논리적인 답변을 생성하도록 유도한다. 베이스 모델로는 Qwen2.5-VL-7B-Instruct를 사용했다.
주요 결과
VidGround는 VideoMME, VideoMMMU, MMVU 등 주요 비디오 벤치마크에서 기존 SOTA 모델들을 압도했다. 특히 전체 데이터를 모두 사용한 Video-R1 방식과 비교했을 때, 64프레임 설정에서 평균 6.2점의 성능 향상을 보였다. 이는 더 적은 데이터(69.1%)를 사용하고도 이룬 성과라는 점에서 데이터 효율성이 매우 높음을 증명한다.
프레임 수 확장에 따른 성능 변화 분석에서도 VidGround는 독보적인 결과를 보였다. 기존 모델들은 프레임 수가 16개에서 64개로 늘어날 때 성능이 정체되거나 오히려 하락하는 현상을 보였으나, VidGround는 프레임이 늘어날수록 성능이 꾸준히 우상향했다. 이는 모델이 추가된 시각 정보를 실제로 활용할 수 있는 능력을 갖췄음을 의미한다.
또한 이미지 QA 벤치마크(MME, MMMU, MMBench)에서도 성능 저하 없이 오히려 베이스 모델 대비 점수가 상승했다. 이는 비디오 특화 학습이 모델의 일반적인 시각 이해 능력을 해치지 않고 오히려 강화했음을 보여주는 결과이다.
기술 상세
본 연구는 VLM의 사후 학습에서 '데이터 오염'이 아닌 '언어적 편향 오염'이 성능 저하의 핵심 원인임을 기술적으로 분석했다. 아키텍처 측면에서는 Qwen2.5-VL의 비전 엔코더와 언어 모델 간의 정렬을 강화하기 위해 GRPO를 채택했으며, 이는 기존 PPO 대비 Critic 모델이 필요 없어 메모리 효율적이다.
데이터 선별 과정에서 GPT-5-mini를 필터로 사용한 것은 모델 불가지론적(Model-agnostic)인 시각적 근거를 확보하기 위함이다. 실험 결과, GPT-5-mini가 영상 없이 맞히지 못한 문제의 85%를 Qwen2.5-VL도 맞히지 못해 모델 간 편향 공유가 강력함을 확인했다. 또한 MCQ(객관식) 문제의 선택지 순서를 바꾸는 순환 평가(Circular Evaluation)를 통해 위치 편향(Positional Bias)을 제거한 큐레이션의 견고함을 확보했다.
학습 시에는 8개의 NVIDIA H100 GPU를 사용하여 700 스텝 동안 미세 조정을 진행했다. 하이퍼파라미터로는 KL 발산 계수 β=0.04, 학습률 1e-6을 설정했다. 정성적 분석 결과, VidGround로 학습된 모델은 답변 생성 시 '영상의 내용을 바탕으로 분석하면...'과 같이 시각적 증거를 먼저 언급하는 고유한 추론 패턴을 형성하는 것으로 나타났다.
한계점
본 논문은 시각적 근거가 있는 데이터 선별에 집중했으나, 필터링 과정에서 사용된 언어 모델(GPT-5-mini) 자체의 한계로 인해 일부 유효한 데이터가 누락될 가능성이 있다. 또한 강화학습 보상 설계가 주로 객관식 정답률에 의존하고 있어, 주관식 설명의 풍부함이나 창의성을 직접적으로 평가하고 보상하는 데는 한계가 있을 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.