핵심 요약
기존 멀티모달 모델들이 비디오의 시각적 정보보다 텍스트 옵션에 의존해 미래를 예측하던 한계를 해결했다. 비디오를 시간 순서대로 사건 단위로 구조화하는 '사건 사슬' 방식을 도입하여 모델의 논리적 추론 능력과 시각 정보 활용도를 획기적으로 높였다.
왜 중요한가
기존 멀티모달 모델들이 비디오의 시각적 정보보다 텍스트 옵션에 의존해 미래를 예측하던 한계를 해결했다. 비디오를 시간 순서대로 사건 단위로 구조화하는 '사건 사슬' 방식을 도입하여 모델의 논리적 추론 능력과 시각 정보 활용도를 획기적으로 높였다.
핵심 기여
Chain of Events (CoE) 패러다임 제안
비디오를 세밀한 사건 사슬로 구조화하여 시각적 근거 기반의 논리적 추론을 유도하는 새로운 예측 프레임워크를 수립했다.
2단계 학습 전략 수립
소규모 추론 데이터셋을 이용한 CoE-SFT와 강화학습 기반의 CoE-GRPO를 결합하여 모델의 사건 사슬 생성 및 예측 능력을 극대화했다.
시각적 정보 활용도 극대화
시각적 토큰에 대한 Attention 할당량을 기존 대비 유의미하게 높여 텍스트 편향 문제를 해결하고 실제 영상 기반 추론을 강화했다.
주요 벤치마크 SOTA 달성
FutureBench와 AVEP에서 GPT-4o 및 기존 오픈소스 모델들을 능가하는 성능을 기록하며 비디오 사건 예측 분야의 새로운 기준을 제시했다.
핵심 아이디어 이해하기
멀티모달 모델의 Attention Mechanism은 텍스트와 비디오 토큰 간의 관계를 계산하지만, 기존 모델들은 비디오 사건 예측 시 질문의 선택지(Textual cues)에만 집중하는 경향이 있었다. 이는 모델이 비디오 내용을 실제로 이해하지 않고 텍스트 정보만으로 정답을 추측하는 한계를 낳았다. Video-CoE는 이를 해결하기 위해 모델이 정답을 내놓기 전 비디오의 주요 장면들을 시간 순서대로 요약하는 '사건 사슬(Chain of Events)'을 먼저 생성하도록 강제한다.
이 과정은 마치 사람이 복잡한 문제를 풀 때 개요를 먼저 작성하여 논리적 흐름을 잡는 것과 같다. 모델은 비디오의 각 구간을 사건 단위로 정의하고, 이들이 어떻게 연결되어 미래 사건으로 이어지는지 논리적으로 서술해야 한다. 특히 강화학습 기법인 GRPO를 통해 모델이 생성한 사건 설명이 실제 비디오 장면과 얼마나 일치하는지(Similarity Reward)를 평가함으로써, 모델이 텍스트만으로 그럴듯한 시나리오를 쓰는 현상을 방지하고 시각적 정보에 끝까지 집중하게 만든다.
결과적으로 모델은 비디오의 미세한 변화를 포착하여 논리적 근거를 쌓게 되며, 시각적 토큰에 대한 Attention 점수가 기존 대비 최대 15% 이상 상승하는 변화를 보였다. 이는 모델이 단순히 패턴을 암기하는 것이 아니라 시각적 증거와 논리적 추론을 결합하여 미래를 예측할 수 있음을 의미한다.
방법론
Video-CoE는 비디오 와 질문 가 주어질 때, 중간 단계인 사건 사슬 을 생성하고 이를 바탕으로 최종 미래 사건 를 예측하는 구조를 가진다. 각 사건 는 시작/종료 타임스탬프()와 텍스트 설명()의 쌍으로 구성된다.
학습은 2단계로 진행된다. 1단계인 CoE-SFT에서는 Qwen2.5-VL-72B를 활용해 구축한 약 2,000~5,000개의 고품질 추론 데이터셋으로 모델을 미세 조정한다. 모델이 비디오 내용을 바탕으로 논리적 추론 과정을 생성하는 기초 능력을 배양한다.
2단계인 CoE-GRPO에서는 강화학습을 적용한다. 하나의 질문에 대해 4개의 답변 후보를 생성하고 그룹 내 상대적 보상을 계산하여 가중치를 갱신한다. 보상 함수는 정답 여부(), 사건 사슬의 구조적 완성도(), 그리고 비디오-텍스트 유사도 보상()의 합으로 정의된다.
유사도 보상()은 모델이 출력한 타임스탬프 구간의 비디오 클립 특징 벡터 와 해당 사건 설명의 텍스트 특징 벡터 사이의 코사인 유사도를 계산한다. [] 연산을 통해 텍스트 설명이 실제 영상 장면을 정확히 반영하는지 수치화하여 보상으로 제공한다.
주요 결과
FutureBench 벤치마크에서 Qwen2.5-VL-7B 기반의 CoE-GRPO 모델은 평균 정확도(AVG) 75.00%를 기록했다. 이는 GPT-4o(59.04%)와 GPT-5(57.92%)를 크게 상회하는 수치이며, 특히 3단계 이상의 복잡한 추론이 필요한 3-Hop 작업에서 압도적인 성능 우위를 보였다.
AVEP 벤치마크에서도 사건의 핵심인 동사(Verb) 예측 정확도가 12.24%에서 18.75%로 향상되었으며, 명사 및 동작 예측의 F1-Score에서도 기존 SOTA 모델들을 모두 추월했다.
Ablation Study 결과, 시각적 토큰에 대한 Attention 개선율(IR)이 Vanilla SFT 모델은 -3.33%로 오히려 감소한 반면, CoE-SFT는 +15.11%, CoE-GRPO는 +9.20%를 기록했다. 이는 제안된 방법론이 모델의 시각 정보 활용 능력을 실질적으로 복원하고 강화했음을 입증한다.
실무 활용
비디오 보안 관제, 자율 주행, 영상 편집 보조 등 미래 상황 예측이 필수적인 도메인에서 즉시 활용 가능하다. 적은 양의 고품질 데이터로도 논리적 추론 능력을 강화할 수 있어 특정 산업군 특화 모델 개발에 효율적이다.
- 지능형 CCTV를 통한 사고 발생 전 징후 감지 및 자동 경보 시스템
- 자율 주행 차량의 주변 차량 및 보행자 경로/돌발 행동 예측
- 긴 영상 콘텐츠에서 주요 사건 흐름을 요약하고 이어질 장면을 제안하는 영상 편집 AI
- 스포츠 경기 중 실시간 상황 분석을 통한 다음 플레이 발생 확률 예측
기술 상세
Qwen2.5-VL-3B/7B를 베이스 모델로 채택하고, 추론 과정에서 <think> 태그 내에 사건 사슬을 먼저 생성하도록 프롬프트를 설계했다. GRPO 학습 시 별도의 가치 모델 없이 그룹 내 상대적 이득(Advantage)을 계산하여 정책을 업데이트하는 방식을 사용했다.
보상 설계에서 는 VideoCLIP-XL 모델을 사용하여 비디오와 텍스트 간의 정렬 상태를 감시한다. 이는 모델이 텍스트만으로 그럴듯한 답변을 만들어 보상을 챙기는 'Reward Hacking'을 방지하는 핵심적인 기술적 장치다.
데이터 효율성 측면에서 단 2,000개의 CoE-SFT 샘플만으로도 성능이 급격히 향상되었으며, 데이터 규모가 커질수록 성능이 지속적으로 우상향하는 Scaling Law를 확인했다. 이는 본 방법론이 데이터 효율성과 확장성을 동시에 갖추었음을 시사한다.
한계점
모델의 시간적 로컬라이제이션(Temporal Localization) 능력에 의존하므로, 베이스 모델의 타임스탬프 생성 정확도가 낮을 경우 전체 성능이 저하될 수 있다. 또한 현재는 선형적인 사건 사슬만 다루고 있어, 복잡한 인과 관계나 병렬적인 사건 구조를 모델링하는 데는 추가 연구가 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료