핵심 요약
기존 비디오 언어 모델들은 장황한 텍스트 설명에 의존하여 인과 관계를 파악하는 데 한계가 있었다. 이 논문은 인간의 인지 과정처럼 비디오를 구조화된 사건들로 먼저 정리한 뒤 추론하는 방식을 도입하여, 더 정확하고 해석 가능한 비디오 이해를 가능하게 한다.
왜 중요한가
기존 비디오 언어 모델들은 장황한 텍스트 설명에 의존하여 인과 관계를 파악하는 데 한계가 있었다. 이 논문은 인간의 인지 과정처럼 비디오를 구조화된 사건들로 먼저 정리한 뒤 추론하는 방식을 도입하여, 더 정확하고 해석 가능한 비디오 이해를 가능하게 한다.
핵심 기여
Structured Event Facts 프레임워크
비디오 추론 전 단계에서 시간, 인물, 행동, 장면, 객체, 인과적 캡션을 포함하는 고밀도 스키마를 생성하여 모델이 명확한 증거에 기반해 사고하도록 강제한다.
CausalFact-60K 데이터셋 구축
정밀한 시간적 경계와 인과 관계를 포함하는 6만 개의 고품질 비디오 주석 데이터를 구축하여 구조화된 추론 학습을 지원한다.
P-FAB 알고리즘 제안
강화학습 과정에서 발생하는 구조적 엄격함과 추론 정확도 사이의 충돌을 해결하기 위해 Pareto-Frontier를 따르는 다중 목표 최적화 기법을 도입했다.
Factum-4B 모델 개발
4B 규모의 경량 모델임에도 불구하고 구조화된 추론 방식을 통해 7B 이상의 대형 모델 및 상용 모델인 GPT-4o를 능가하는 시간적 추론 성능을 달성했다.
핵심 아이디어 이해하기
기존의 비디오 Chain-of-Thought(CoT)는 텍스트 기반 CoT를 그대로 적용하여 비디오의 방대한 시공간적 중복성 속에서 핵심 단서를 놓치거나 논리적 흐름을 잃는 '추론 표류(Reasoning Drift)' 현상이 빈번했다. 이는 Transformer 아키텍처가 모든 프레임 토큰에 동일하게 주목하려다 보니 정작 중요한 인과적 사건의 경계를 명확히 구분하지 못하기 때문이다.
이 논문은 인간이 비디오를 볼 때 먼저 인물과 행동의 경계를 나누어 '정신적 스케치'를 만든다는 심리학적 연구에 착안했다. 모델이 추론을 시작하기 전, 비디오를 [시간-인물-행동-장면-객체]라는 정형화된 Embedding 구조로 먼저 요약하게 함으로써 사고의 범위를 명확히 제한한다.
결과적으로 모델은 무의미한 프레임 나열 대신, 추출된 '사건 사실(Facts)'들 사이의 논리적 연결 고리를 찾는 데 집중하게 된다. 이는 Gradient Descent 과정에서 모델이 정답에 도달하기 위한 최단 경로를 더 명확히 학습할 수 있게 하며, 특히 복잡한 인과 관계를 묻는 질문에서 성능이 비약적으로 향상되는 결과를 낳는다.
관련 Figure

기존 방식은 비정형 텍스트에 증거가 묻혀 인과 관계가 약한 반면, 제안 방식은 <facts>와 <thinking> 태그를 통해 명확한 단서와 강한 인과 관계를 형성함을 보여준다.
기존 비디오 CoT 방식과 제안된 구조화된 접근 방식의 비교 다이어그램
방법론
전체 시스템은 'Facts-Thinking-Answering'의 3단계 구조를 따르며, 이를 학습시키기 위해 4단계 훈련 파이프라인을 설계했다. 1단계는 사건 사실 정렬, 1.5단계는 형식 예열, 2단계는 사고 과정 예열, 3단계는 강화학습 기반 사후 훈련으로 구성된다.
핵심 메커니즘인 P-FAB(Pareto-Frontier guided Advantage Balancing)은 다중 목표 강화학습(MORL)을 수행한다. 보상 벡터 R이 주어질 때 각 목표 m에 대해 그룹 평균을 뺀 중앙화된 보상 δ_i,m = r_m(q, o_i) - (1/G)Σr_m(q, o_j)을 계산한다. 이는 특정 응답이 그룹 내 다른 응답보다 해당 목표를 얼마나 더 잘 달성했는지 수치화한다.
이후 MGDA(Multiple Gradient Descent Algorithm) 원리를 적용하여 min_α ||D_q α||² (단, Σα=1) 문제를 푼다. 표준화된 보상 행렬 D_q에 가중치 α를 곱해 노름을 최소화하는 최적 가중치를 찾음으로써, 특정 목표가 다른 목표를 압도하지 않도록 동적으로 균형을 맞춘다. 이 과정을 통해 모델은 답변의 길이를 줄이면서도 논리적 엄격함을 유지하는 Pareto 최적점에 도달한다.
관련 Figure

비디오 프레임에서 시간대별 사건 사실을 추출하고, 이를 바탕으로 글로벌 검색 및 인과 검증을 거쳐 최종 답변을 도출하는 과정을 구체적으로 보여준다.
제설 작업 비디오를 활용한 모델의 전체 추론 파이프라인 예시
주요 결과
Factum-4B는 Charades-TimeLens 벤치마크의 R1@0.7 지표에서 21.6%를 기록하며 기존 오픈소스 모델 중 최고 성능을 달성했다. 이는 Qwen3-VL-4B-Thinking 대비 약 3.8%p 향상된 수치이다.
ActivityNet-Captions 데이터셋에서도 R1@0.3 기준 69.8%의 정확도를 보여, 7B 규모의 모델인 Time-R1-7B(58.1%)를 크게 앞질렀다. 특히 복잡한 시간적 추론이 필요한 ETBench의 TEM(Temporal Event Matching) 작업에서는 26.8%를 기록하여 상용 모델인 GPT-4o(13.6%)보다 두 배 가까운 성능 우위를 보였다.
Ablation Study 결과, 'Thinking' 과정을 제거했을 때 VideoMME 성능이 64.7%에서 58.5%로 급락하는 것을 확인하여, 구조화된 사고 과정이 비디오 이해의 핵심임을 입증했다.
관련 Figure

GRPO는 모든 목표에 동일한 가중치를 주어 변별력이 낮지만, P-FAB은 희귀하고 중요한 신호에 더 높은 가중치를 할당하여 최적화 방향을 명확히 함을 입증한다.
표준 GRPO와 제안된 P-FAB의 보상 가중치 할당 비교 차트
기술 상세
Factum-4B는 Qwen3-VL-4B-Instruct를 베이스 모델로 사용하며, LoRA를 활용한 단계별 미세 조정을 수행한다. 1단계와 1.5단계에서는 rank=64, α=128 설정을 사용하고, 2단계에서는 학습률을 1e-4로 높여 사고 능력을 극대화한다.
강화학습 단계인 Stage 3에서는 Format, Linear IoU, Multi-choice Accuracy, Length라는 4가지 보상 함수를 결합한다. 특히 Length 보상은 답변이 길어질수록 선형적으로 페널티를 부여하여 모델이 간결하면서도 핵심적인 정보만 출력하도록 유도한다.
P-FAB 알고리즘은 Frank-Wolfe 알고리즘을 사용하여 2차 계획법 문제를 효율적으로 해결한다. 이는 매 반복마다 가장 작은 그래디언트 성분을 가진 좌표에 가중치를 배치하는 방식으로 최적의 α*를 찾아내며, 이를 통해 다중 목표 간의 충돌을 수학적으로 해소한다.
한계점
현재 학습 데이터의 규모가 여전히 제한적이며, 모든 비디오 이해 작업에서 강력한 성능을 발휘하기 위해서는 데이터셋의 스케일업이 추가로 필요함을 명시하고 있다.
실무 활용
정밀한 시간적 경계 파악과 인과 관계 분석이 필요한 비디오 보안, 스포츠 분석, 교육용 영상 요약 분야에 즉시 적용 가능하다.
- CCTV 영상에서 특정 사건(예: 사고 발생 전후 상황)의 인과 관계 자동 분석
- 스포츠 경기 영상에서 주요 득점 장면의 시작과 끝 지점을 정확히 추출하고 전술적 맥락 설명
- 긴 튜토리얼 영상에서 단계별 행동 지침을 구조화된 텍스트로 요약 및 인덱싱
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.