핵심 요약
비디오 추론 모델이 정답의 근거를 시공간적으로 정확히 짚어내지 못하고 환각을 일으키는 문제를 해결했다. 학습 단계에서만 시각적 가이드를 제공하고 이를 모델이 스스로 내재화하게 함으로써, 추론 속도 저하 없이도 정교한 근거 제시와 높은 정확도를 동시에 달성했다.
왜 중요한가
비디오 추론 모델이 정답의 근거를 시공간적으로 정확히 짚어내지 못하고 환각을 일으키는 문제를 해결했다. 학습 단계에서만 시각적 가이드를 제공하고 이를 모델이 스스로 내재화하게 함으로써, 추론 속도 저하 없이도 정교한 근거 제시와 높은 정확도를 동시에 달성했다.
핵심 기여
VISIONCOACH 프레임워크
학습 시에만 시각적 프롬프트를 가이드로 활용하고 자가 증류를 통해 이를 내재화하여, 추론 시에는 외부 도구 없이도 높은 그라운딩 성능을 유지하는 강화학습 체계이다.
적응형 VP-SELECTOR
비디오의 복잡도와 질문의 성격에 따라 빨간 원, 어둡게 하기, 프레임 번호 매기기 등 최적의 시각적 보조 수단을 선택하여 모델에게 제공한다.
객체 인식 기반 공간 보상 설계
단순한 영역 겹침(IoU)을 넘어 객체의 정체성 일관성을 검증하는 새로운 보상 체계를 도입하여 모델의 시각적 환각 현상을 억제했다.
주요 벤치마크 SOTA 달성
V-STAR 벤치마크에서 Qwen2.5-VL-7B 대비 mAM 지표를 15.0% 향상시켰으며, GPT-4o를 상회하는 성능을 입증했다.
핵심 아이디어 이해하기
기존의 비디오 추론 모델은 Attention 메커니즘을 통해 시각 정보를 처리하지만, 복잡한 영상에서는 질문과 관련된 핵심 증거를 놓치고 텍스트 정보에만 의존해 잘못된 답변(Hallucination)을 내놓는 경우가 많다. 이를 해결하기 위해 마치 사람이 학생에게 중요한 부분을 짚어주듯 학습 과정에서 직접적인 시각적 가이드를 주는 방식을 도입했다.
VISIONCOACH는 학습 중에 모델이 어려워하는 샘플을 식별하고, 해당 장면에서 중요한 객체에 빨간 원을 그리거나 주변을 어둡게 만드는 '시각적 프롬프트'를 적용한다. 이는 모델이 수많은 픽셀 데이터 중 정답의 근거가 되는 특정 시점과 위치에 강제로 집중하게 만드는 역할을 한다.
가장 중요한 지점은 이 '코칭'의 효과를 모델 내부에 심는 것이다. 프롬프트가 있는 상태에서 얻은 정교한 추론 경로를 프롬프트가 없는 원본 상태에서도 재현하도록 자가 증류(Self-distillation)를 수행한다. 결과적으로 모델은 학습이 끝나면 별도의 보조 도구 없이도 스스로 영상 속 핵심 증거를 찾아내는 능력을 갖추게 된다.
방법론
VISIONCOACH는 VP-SELECTOR와 ST-REASONER라는 두 가지 핵심 모듈로 구성된다. VP-SELECTOR는 비디오와 질문을 입력으로 받아 [Input → VLM Classifier → Prompt Type] 과정을 거쳐 최적의 시각적 가이드를 결정한다. 이때 사용되는 프롬프트는 Red circle, Darken, Frame numbering 등 5가지 후보군 중 하나로 선택된다.
ST-REASONER는 강화학습(RL)을 통해 최적화되며, 네 가지 보상 요소의 합으로 학습된다. 특히 새롭게 제안된 객체 인식 기반 공간 보상()은 [예측된 객체명과 실제 정답의 일치 여부 확인 → 시간적 오차가 임계값 이내인 프레임 선별 → 해당 프레임들의 IoU 계산 → 전체 평균 산출] 순으로 계산되어 다중 객체 추적의 정확도를 높인다.
학습의 마지막 단계인 자가 증류에서는 프롬프트가 적용된 입력()에서 생성된 고득점 궤적을 타겟으로 설정한다. 모델은 원본 입력()에 대해 동일한 궤적을 생성할 확률인 를 최대화하도록 가중치를 갱신하며, 이를 통해 시각적 가이드 없이도 정교한 추론 능력을 내재화한다.
주요 결과
V-STAR 벤치마크 실험 결과, VISIONCOACH는 Qwen2.5-VL-7B 모델 대비 VQA 정확도를 27.6% 향상시켰으며, 종합 성능 지표인 mAM에서 15.0%, mLGM에서 25.1%의 압도적인 성능 향상을 기록했다. 이는 상용 모델인 GPT-4o의 성능을 뛰어넘는 수치이다.
VideoMME 및 WorldSense와 같은 일반 비디오 이해 벤치마크에서도 기존의 도구 호출(Tool-calling) 방식 모델들보다 높은 정확도를 기록했다. 특히 PerceptionTest의 인식(Recognition) 카테고리에서 큰 폭의 성능 향상을 보여, 시공간 그라운딩 능력이 실제 비디오 답변 정확도로 직결됨을 확인했다.
효율성 측면에서도 단일 추론 경로(Single forward pass)만을 사용하므로, 반복적인 도구 호출이 필요한 기존 방식 대비 추론 지연 시간(Latency)을 대폭 단축하면서도 높은 정확도를 유지하는 데 성공했다.
실무 활용
추가적인 연산 비용 없이 비디오 내 객체 추적 및 추론 능력을 극대화할 수 있어, 실시간 응답이 필요한 다양한 비디오 AI 서비스에 즉시 적용 가능하다.
- CCTV 보안 영상 내 특정 인물의 행동 및 도구 사용 여부에 대한 근거 기반 자동 보고
- 스포츠 경기 영상에서 특정 반칙 상황이나 득점 장면의 시공간적 근거를 포함한 자동 하이라이트 생성
- 자율주행 시스템에서 주변 객체의 움직임을 추적하고 판단 근거를 시각적으로 제시하는 설명 가능한 AI 모듈
- 대규모 비디오 데이터베이스에서 특정 사건의 발생 시점과 위치를 정확히 찾아내는 정밀 검색 시스템
기술 상세
전체 아키텍처는 GSPO(Group Sequence Policy Optimization) 강화학습 알고리즘을 기반으로 하며, 비디오 추론 궤적을 최적화하는 데 초점을 맞춘다. VP-SELECTOR는 Qwen2.5-VL-3B 모델을 LoRA로 파인튜닝하여 구축되었으며, 8,000개 이상의 비디오-질문 쌍으로 구성된 데이터셋을 통해 최적의 프롬프트를 예측하도록 학습되었다.
보상 설계 측면에서 는 Soft Identity Matching 기법을 도입했다. 이는 예측된 객체명이 정답의 부분 문자열이거나 정확히 일치할 때만 보상을 부여함으로써, 모델이 단순히 박스 위치만 맞히는 것이 아니라 객체의 종류를 정확히 인지하도록 강제한다. 또한 시간적 게이팅(Temporal Gating)을 통해 시간적 위치가 틀린 예측은 공간 보상 계산에서 제외하여 시공간적 정렬을 강화했다.
학습 데이터로는 STGR-RL-36k 데이터셋을 활용했으며, 8개의 NVIDIA GPU 환경에서 DeepSpeed ZeRO-3 최적화를 적용해 효율적인 학습을 진행했다. 자가 증류 시에는 상위 2개의 고득점 궤적만을 선별하여 학습 신호의 품질을 유지했다.
한계점
본 연구는 학습 과정에서 객체 박스 및 시간 구간에 대한 정교한 어노테이션이 포함된 데이터셋에 의존한다. 또한 현재 제공되는 시각적 프롬프트의 종류가 미리 정의된 5가지로 제한되어 있어, 보다 복잡하거나 새로운 형태의 시각적 가이드를 생성하는 능력은 아직 부족하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료