핵심 요약
비디오 내에서 인간이 어디를 집중해서 보는지 예측하는 기술은 효율적인 영상 압축과 자율주행, 미디어 편집의 핵심 기술이다. 이 논문은 2,000개의 대규모 비디오 데이터셋을 기반으로 최신 VLM과 확산 모델을 활용한 시각적 주의 집중 예측의 최신 기술적 도약을 보여준다.
왜 중요한가
비디오 내에서 인간이 어디를 집중해서 보는지 예측하는 기술은 효율적인 영상 압축과 자율주행, 미디어 편집의 핵심 기술이다. 이 논문은 2,000개의 대규모 비디오 데이터셋을 기반으로 최신 VLM과 확산 모델을 활용한 시각적 주의 집중 예측의 최신 기술적 도약을 보여준다.
핵심 기여
대규모 비디오 시각적 주의 집중 데이터셋 구축
5,000명 이상의 평가자로부터 수집한 마우스 트래킹 데이터를 기반으로 2,000개의 다양한 비디오 시퀀스와 100만 개 이상의 프레임에 대한 시각적 주의 집중 맵(Saliency Map)을 구축했다.
InternVideo2 기반의 멀티 엑스퍼트 앙상블 프레임워크
iLearn 팀은 InternVideo2-Stage2 6B 모델을 백본으로 사용하고, 시간적 변조 디코더와 멀티 스케일 디코더를 결합한 앙상블 구조를 통해 최고 성능을 달성했다.
V-JEPA2를 활용한 예측적 시공간 표현 학습
CVSP 팀은 비디오의 가려진 부분을 예측하도록 학습된 V-JEPA2 모델이 물리적 세계에 대한 이해를 바탕으로 인간의 시선 집중을 효과적으로 모방할 수 있음을 증명했다.
상태 공간 모델(SSM) 기반의 확산 네트워크 제안
SHU-MIIPLab 팀은 Mamba 구조의 상태 공간 모델을 확산 모델(Diffusion Model)과 결합하여 광학 흐름(Optical Flow)과 RGB 정보를 통합하는 SSF-DiffNet을 선보였다.
핵심 아이디어 이해하기
비디오 시각적 주의 집중 예측은 단순히 눈에 띄는 색상이나 밝기를 찾는 것을 넘어, 시간에 따른 물체의 움직임과 맥락을 이해해야 한다. 기존 모델들은 정적인 이미지 특징에 의존하거나 단순한 순환 신경망(RNN)으로 시간 정보를 처리하여 복잡한 동적 장면에서 한계를 보였다.
이 문제를 해결하기 위해 본 챌린지의 상위 모델들은 대규모 비디오 언어 모델(VLM)의 사전 학습된 시공간 표현(Spatiotemporal Representation)을 활용한다. 예를 들어, InternVideo2나 V-JEPA2와 같은 모델은 수많은 비디오 데이터를 통해 물체가 어떻게 움직이고 상호작용하는지에 대한 '물리적 직관'을 이미 학습한 상태다.
이러한 강력한 백본 위에 LoRA와 같은 효율적인 파인튜닝 기법을 적용하고, 서로 다른 층(Layer)에서 추출된 저수준의 세부 특징과 고수준의 의미론적 정보를 계층적으로 결합(Hierarchical Fusion)함으로써, 인간이 복잡한 영상 속에서 특정 대상을 추적하는 메커니즘을 정밀하게 모방한다.
방법론
챌린지 우승팀인 iLearn의 방법론은 InternVideo2-Stage2 6B 백본을 기반으로 두 개의 상호 보완적인 디코더를 사용하는 구조다. 백본의 11, 23, 35, 47번 레이어에서 특징을 추출하여 저수준 공간 정보부터 고수준 의미 정보까지 모두 활용한다.
첫 번째 디코더는 Temporal-Modulated Decoder로, 가장 깊은 레이어의 특징으로부터 시간적 주의 집중 맵을 생성한다. [입력 특징 벡터 → 3D 컨볼루션 및 풀링 → 시간적 가중치 산출 → 얕은 레이어 특징에 곱셈 연산 수행] 과정을 통해 프레임 간의 동적인 중요도를 조절한다.
두 번째 디코더는 Multi-Scale Decoder로, 모든 레이어의 특징을 동일한 차원으로 투영한 후 연결(Concatenation)한다. [추출된 특징들 → 통합 차원 투영 → 3D 잔차 퓨전 블록 연산 → 중간 단계별 보조 감독(Auxiliary Supervision) 수행] 과정을 거쳐 복잡한 장면에서도 안정적인 예측 결과를 도출한다.
최종 결과물은 두 디코더의 출력을 로짓(Logit) 공간에서 평균낸 후 시그모이드 함수를 통과시켜 생성한다. [디코더 출력값 → 역 시그모이드 변환 → 산술 평균 → 시그모이드 재투영 → 확률 분포 형태의 Saliency Map 산출] 과정을 통해 최종 확률 지도를 얻는다.
관련 Figure

InternVideo2 백본에서 추출된 특징이 두 개의 독립적인 전문가(Expert) 디코더로 전달되어 처리되는 과정을 보여준다. 각 디코더가 시간적 변조와 멀티 스케일 융합이라는 서로 다른 전략을 취함으로써 앙상블 효과를 극대화함을 알 수 있다.
iLearn 팀의 비디오 시각적 주의 집중 예측 파이프라인 다이어그램
주요 결과
iLearn 팀은 Private Test Subset에서 CC 0.8280, SIM 0.6927, AUC-Judd 0.8921을 기록하며 종합 순위 1위를 차지했다. 특히 68억 개의 파라미터를 사용하여 모델의 규모가 성능에 미치는 영향을 입증했다.
CVSP 팀은 V-JEPA2 백본을 사용하여 CC 0.8272를 기록하며 근소한 차이로 2위를 차지했다. 이는 자기주도 학습(Self-supervised learning)으로 얻은 비디오 표현이 시각적 주의 집중 예측에 매우 효과적임을 보여준다.
ARK_MMLAB 팀은 NSS(Normalized Scanpath Saliency) 지표에서 3.4562로 전체 팀 중 가장 높은 점수를 기록했다. 이는 해당 모델이 실제 인간의 시선 고정 지점(Fixation point)을 가장 정확하게 짚어내고 있음을 의미한다.
기술 상세
본 논문은 비디오 시각적 주의 집중 예측을 위해 대규모 사전 학습 모델의 전이 학습(Transfer Learning) 능력을 극대화하는 아키텍처를 중점적으로 다룬다. 특히 InternVideo2와 V-JEPA2와 같은 거대 모델을 백본으로 채택하고, 파라미터 효율적인 학습을 위해 LoRA(Low-Rank Adaptation)를 적용한 점이 특징이다.
계층적 특징 융합(Hierarchical Feature Fusion)이 핵심적인 역할을 수행한다. 인코더의 서로 다른 깊이에서 나오는 특징 맵들을 업샘플링하여 해상도를 맞춘 뒤, 3D 컨볼루션을 통해 시간적 연속성을 보존하며 결합한다. 이때 인간의 시선이 화면 중앙에 머무는 경향을 반영하기 위해 Center Prior를 가우시안 분포 형태로 학습 가능한 파라미터와 결합하여 최종 로짓에 더해준다.
손실 함수(Loss Function)는 KL Divergence, Pearson Correlation Coefficient(CC), Similarity(SIM), Normalized Scanpath Saliency(NSS)를 가중 합산하여 구성한다. 이는 예측된 맵의 분포 유사도뿐만 아니라 실제 픽셀 단위의 상관관계와 시선 고정 지점의 정확도를 동시에 최적화하기 위함이다.
관련 Figure

16프레임의 입력을 받아 V-JEPA2 Giant 모델을 통해 시공간 특징을 추출하고, 3D 컨볼루션 디코더와 스킵 커넥션을 통해 최종 맵을 생성하는 구조를 명시한다. 예측적 학습 기반의 백본이 어떻게 시각적 주의 집중 작업에 재활용되는지 설명한다.
V-JEPA2 백본을 활용한 PredJSal 프레임워크의 아키텍처 구조
한계점
대부분의 고성능 모델들이 수십억 개의 파라미터를 가진 거대 백본(InternVideo2 6B 등)을 사용하고 있어, 모바일 기기나 임베디드 시스템에서의 실시간 추론에는 연산 자원 제약이 따를 수 있다.
실무 활용
이 연구에서 제안된 모델들은 높은 정확도로 비디오 내 중요 영역을 식별할 수 있어 실시간 영상 처리 시스템에 즉시 적용 가능하다.
- 시각적 주의 집중 기반 비디오 압축(VVC): 중요하지 않은 배경의 비트레이트를 낮추고 집중 영역의 화질을 높여 전송 효율 극대화
- 자율주행 시스템: 보행자나 장애물 등 운전자가 반드시 주시해야 할 위험 요소를 우선적으로 탐지하고 강조
- 지능형 영상 편집: 영상의 핵심 피사체를 자동으로 추적하여 소셜 미디어용 세로 영상으로 자동 리프레임(Reframing)
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.