핵심 요약
비디오 데이터를 학습시키면 모델의 시각적 이해도가 전반적으로 향상될 것이라는 통념과 달리, 실제로는 정지 이미지에 대한 세부 인식 능력이 저하되는 현상을 발견했다. 이를 해결하기 위해 질문의 의도에 따라 프레임 수를 조절하는 전략을 제시하여 효율성과 성능의 균형을 맞추는 새로운 연구 방향을 제시한다.
왜 중요한가
비디오 데이터를 학습시키면 모델의 시각적 이해도가 전반적으로 향상될 것이라는 통념과 달리, 실제로는 정지 이미지에 대한 세부 인식 능력이 저하되는 현상을 발견했다. 이를 해결하기 위해 질문의 의도에 따라 프레임 수를 조절하는 전략을 제시하여 효율성과 성능의 균형을 맞추는 새로운 연구 방향을 제시한다.
핵심 기여
Temporal Trap 현상 규명
Video-SFT가 비디오 성능은 향상시키지만 정지 이미지 벤치마크 성능은 오히려 저하시키는 일관된 패턴을 발견하고 이를 '시간적 함정'으로 정의했다.
Temporal Budget과의 상관관계 분석
샘플링하는 프레임 수가 많아질수록 비디오 성능은 개선되나 이미지 성능 저하가 심화됨을 확인하고, 이를 Gradient Alignment 개념을 통해 이론적으로 증명했다.
Hybrid-Frame 전략 제안
지시어의 요구사항에 따라 프레임 수를 적응적으로 할당하는 방식을 통해 이미지와 비디오 성능 간의 트레이드오프를 완화하고 연산 효율성을 높였다.
모델 규모에 따른 강건성 입증
모델 파라미터 규모가 커질수록(예: 72B) Video-SFT로 인한 이미지 성능 저하에 더 강건해지며, Attention 집중도가 더 잘 유지됨을 시각적으로 확인했다.
핵심 아이디어 이해하기
멀티모달 모델(MLLM)은 보통 이미지로 기초를 다진 후 비디오 데이터로 추가 학습(Video-SFT)을 진행한다. 비디오는 이미지의 연속이므로 이 과정이 시각적 이해력을 보완할 것이라 기대하지만, 실제로는 비디오 특유의 시간적 흐름을 배우는 과정이 기존에 학습된 정밀한 공간적 특징 추출 능력을 방해하는 현상이 발생한다.
이 논문은 이를 '시간적 함정(Temporal Trap)'이라 부른다. 비디오 학습 시 발생하는 Gradient(기울기)가 이미지 학습 시의 Gradient와 반대 방향으로 정렬(Negative alignment)되면서, 모델이 비디오의 움직임을 파악하는 데 집중하느라 이미지 속 개별 사물의 세부 속성을 놓치게 되는 원리다. 이는 마치 빠른 영상을 보느라 정지 화면 속 작은 글씨를 읽는 능력이 퇴화하는 것과 유사하다.
특히 프레임 수가 많아질수록 시간적 정보에 대한 가중치가 커져 이미지 성능 저하가 뚜렷해진다. 연구팀은 모든 비디오에 동일한 프레임 수를 쓰는 대신, 질문의 의도를 파악해 필요한 만큼만 프레임을 사용하는 방식을 통해 이 충돌을 줄일 수 있음을 보여준다. 이를 통해 비디오 이해력은 챙기면서도 이미지 인식 능력의 손실을 최소화한다.
방법론
Video-SFT 과정에서 이미지와 비디오 성능 간의 충돌을 분석하기 위해 Qwen2.5-VL, LLaVA-Next-Video 등 대표적인 MLLM 아키텍처를 대상으로 8, 16, 32, 64 프레임 설정에서 계통적인 실험을 수행했다.
이론적 분석을 위해 Gradient Alignment 개념을 도입했다. 이미지 손실 함수 L_img와 비디오 손실 함수 L_vid의 기울기 내적을 계산하여, 이 값이 음수일 때 두 목표가 충돌함을 수학적으로 도출했다. [이미지 기울기와 비디오 기울기 벡터를 입력으로] → [두 벡터의 내적 연산을 수행해] → [음수 또는 양수 값을 얻고] → [이 값이 음수면 한 쪽의 업데이트가 다른 쪽의 손실을 키우는 Negative Transfer가 발생함을 의미한다].
Hybrid-Frame 전략은 Qwen3-VL-8B와 같은 모델을 판별기로 사용하여 질문(QA pair)의 특성을 분석한다. [텍스트 질문을 입력으로] → [모델이 시간적/공간적 요구도를 추론하는 연산을 수행해] → [8, 16, 32, 64 중 최적 프레임 숫자를 출력하고] → [불필요한 프레임 연산을 배제하여 이미지 성능 저하를 방지하고 연산 자원을 절약한다].
주요 결과
Video-SFT 이후 Video-MME 등 비디오 벤치마크 점수는 상승했으나, MME, MMStar 등 이미지 벤치마크 점수는 하락하는 경향이 뚜렷했다. 특히 LLaVA-1.5-7B 모델은 MME Celebrity 인식 점수가 80.59점이나 급락하며 세밀한 인지 능력이 크게 손상되었다.
모델 규모가 커질수록(3B에서 72B로) 이러한 성능 저하 폭이 줄어드는 강건성을 보였다. Qwen2.5-VL-72B 모델은 Video-SFT 이후에도 이미지 성능을 비교적 잘 유지하거나 일부 지표에서는 오히려 향상되는 결과를 보여, 대규모 파라미터가 모달리티 간 충돌을 흡수할 수 있는 용량을 제공함을 입증했다.
Hybrid-Frame 전략을 적용한 결과, 고정된 64 프레임을 사용하는 방식보다 MMStar(+0.06) 및 POPE(+0.31) 등 이미지 지표에서 우수한 성적을 거두었다. 동시에 비디오 성능 손실을 최소화하며 고정 프레임 방식 대비 효율적인 성능 균형을 달성했다.
실무 활용
비디오 AI 모델 학습 시 무조건 많은 프레임을 사용하는 것이 최선이 아님을 시사하며, 질문의 성격에 따라 데이터를 선별적으로 처리하는 전략이 필수적이다.
- 비디오 요약 및 질의응답 시스템의 학습 데이터 구성 및 프레임 샘플링 최적화
- 이미지와 비디오를 동시에 처리해야 하는 통합 멀티모달 서비스의 성능 유지
- 제한된 컴퓨팅 자원 환경에서 질문 의도에 따른 가변 프레임 추론으로 비용 절감
기술 상세
Video-SFT가 공유 파라미터 공간에서 이미지 이해를 위한 공간적 특징(Spatial features)과 비디오 이해를 위한 시간적 특징(Temporal features) 간의 Gradient Conflict를 유발함을 기술적으로 분석했다.
수학적 증명을 통해 시간적 예산(Temporal budget) m이 증가할수록 시간적 특화 컴포넌트 g_tmp의 가중치 α(m)가 커지며, 이것이 이미지 목표와의 정렬을 음수로 반전시켜 성능 저하를 심화시키는 메커니즘을 규명했다.
Cross-scale attention 시각화 분석을 통해, 작은 모델은 Video-SFT 이후 특정 객체에 대한 Attention이 분산되는 반면, 큰 모델은 객체 집중력을 유지함을 확인했다. 이는 모델의 용량(Capacity)이 시간적 함정을 극복하고 안정적인 공간적 표현을 유지하는 데 핵심적인 요소임을 시사한다.
실험 결과, Video-SFT는 논리적 추론(Reasoning) 능력은 일부 보존하거나 향상시키기도 하지만, 고해상도 정보가 필요한 세부 인식(Perception) 능력에 가장 큰 타격을 주는 것으로 나타났다.
한계점
본 연구는 스트리밍이나 온라인 학습 환경은 고려하지 않았으며, 제안된 Hybrid-Frame 전략이 아직은 휴리스틱한 프롬프트 기반 결정에 의존하고 있어 완전한 이론적 최적화 단계에는 이르지 못했다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료