왜 중요한가
현재의 시각-언어 모델(VLM)이 복잡한 영상 이해 능력에도 불구하고, 시각적으로 동일한 물체를 시간에 따라 추적하는 기초적인 인지 능력에서 심각한 한계를 보임을 확인했다. 이 연구는 모델이 단순히 정적인 프레임 특징에 의존하는 대신, 중간 추론 과정을 통해 시공간적 연속성을 유지해야 함을 이론적/실험적으로 증명하여 차세대 비디오 AI의 발전 방향을 제시한다.
핵심 기여
VET-Bench 벤치마크 구축
시각적으로 동일한 물체를 사용하여 외형적 단서를 제거하고, 순수하게 움직임의 연속성만으로 물체를 추적해야 하는 합성 진단 테스트베드를 도입했다.
Transformer 구조의 이론적 한계 증명
고정 깊이의 Transformer 기반 VLM이 중간 계산 과정 없이 식별 불가능한 물체를 추적하는 것은 표현력 제약으로 인해 근본적으로 불가능함을 NC1-완전성 증명을 통해 확인했다.
SGCoT(시공간 접지 사고 사슬) 방법론 제안
물체의 궤적을 명시적인 중간 상태로 생성하는 기법을 통해 지각 과정을 추론 과정으로 변환하여 모델의 추적 성능을 획기적으로 개선했다.
Molmo2 기반 SOTA 성능 달성
제안된 SGCoT를 적용하여 기존 모델들이 무작위 수준의 성능을 보였던 VET-Bench에서 90% 이상의 정확도를 기록하며 실질적인 해결책을 제시했다.
핵심 아이디어 이해하기
Transformer의 Self-Attention은 입력 시퀀스의 모든 토큰 간 관계를 계산하지만, 비디오 데이터 처리 시 각 프레임을 독립적인 특징 벡터로 취급하는 경향이 있다. 야바위 게임처럼 똑같이 생긴 컵들이 섞이는 상황에서 모델은 컵의 외형에만 의존하게 되는데, 외형이 동일할 경우 프레임 간의 연결 고리를 잃어버리고 물체의 영속성을 유지하지 못하는 한계가 발생한다.
이러한 추적 문제는 단순히 데이터 부족 때문이 아니라 고정된 층을 가진 Transformer 구조가 가진 계산 복잡도상의 제약이다. 물체 추적은 이전 상태를 계속해서 업데이트해야 하는 순차적 성격을 띠는데, 중간 단계의 명시적인 기록 없이 마지막 결과만 내놓으라고 하면 모델 내부의 병렬 연산 구조로는 이를 감당할 수 없다는 원리다.
이를 해결하기 위해 도입된 '시공간 접지 사고 사슬(SGCoT)'은 모델이 최종 답을 내기 전 물체의 구체적인 궤적 좌표를 먼저 텍스트로 출력하게 만든다. 이렇게 하면 모델은 Attention 메커니즘을 통해 이전 시점의 좌표 정보를 참조하며 다음 시점의 위치를 계산할 수 있게 되어, 복잡한 추적 문제를 단계별 추론 문제로 치환하여 해결할 수 있게 된다.
방법론
VET-Bench는 three.js를 사용하여 렌더링된 합성 데이터셋으로, 컵 게임과 카드 게임 시나리오를 포함한다. 모든 물체는 시각적으로 완전히 동일하게 설정되어 모델이 색상이나 질감 같은 정적 특징으로 물체를 식별하는 지름길을 차단하며, 물체 간의 최소 간격과 프레임 속도를 조절하여 물리적 모호성을 제거했다.
이론적 분석에서는 시각적 엔티티 추적 문제를 대칭군 S5의 단어 문제로 환원하여 NC1-완전성을 증명했다. [추적 대상의 초기 위치를 입력으로] → [프레임 간의 인접 교환 연산을 순차적으로 합성하여] → [최종 위치 순열을 도출하는 과정] → [이 연산이 로그 깊이의 회로 복잡도를 요구하므로 중간 단계 없는 고정 깊이 모델은 실패함]을 수학적으로 뒷받침한다.
SGCoT는 Molmo2 모델의 객체 추적 능력을 활용한다. 모델은 타임스탬프와 정규화된 좌표를 포함하는 구조화된 궤적 데이터를 생성하도록 정렬된다. 학습 시에는 고해상도 비디오 입력의 비용을 피하기 위해 텍스트 전용 합성 데이터를 사용하여 효율적으로 파인튜닝을 진행하며, 모델이 시공간적 좌표를 먼저 생성한 후 최종 답변을 내도록 유도한다.
주요 결과
Gemini-3-Pro, Qwen-3.5, Molmo2 등 현존하는 모든 SOTA VLM들은 VET-Bench에서 무작위 추측 수준인 약 33%의 정확도에 머물렀다. 특히 물체 개수가 늘어나거나 교환 횟수가 증가할수록 성능이 급격히 하락하여, 모델들이 실제로는 물체를 추적하지 못하고 있음을 확인했다.
기존 벤치마크인 Perception Test의 데이터셋을 분석한 결과, 많은 영상이 투명한 컵이나 독특한 외형을 포함하고 있어 모델이 추적 없이도 답을 맞힐 수 있는 구조였다. 이러한 외형적 단서를 제거한 필터링된 데이터셋에서 Gemini-3-Pro의 성능은 80%에서 36.45%로 급락하며 기존 평가의 허점을 드러냈다.
제안된 Molmo2-SGCoT 모델은 VET-Bench에서 90% 이상의 정확도를 달성했다. 이는 중간 궤적 생성 과정이 모델의 시공간적 이해도를 획기적으로 높였음을 보여주며, 단 300개의 합성 텍스트 샘플만으로 1에폭 학습한 결과라는 점에서 매우 효율적인 접근법임이 입증됐다.
실무 활용
비디오 AI 모델이 물리적 세계의 연속성을 이해하도록 만드는 새로운 학습 패러다임을 제시한다. 로봇 공학이나 자율 주행과 같이 물체의 지속적인 추적이 필수적인 실무 분야에서 모델의 신뢰성을 높이는 데 즉각적으로 활용 가능하다.
- 자율 주행 시스템에서 가려짐이 발생하는 보행자나 차량의 연속적 위치 추적
- 로봇 팔이 여러 개의 유사한 부품 중 특정 대상을 끝까지 추적하여 집어 올리는 작업
- 스포츠 중계 영상에서 선수나 공의 움직임을 정밀하게 분석하고 궤적을 생성하는 도구
- 보안 카메라 영상에서 군중 속 특정 인물을 놓치지 않고 추적하는 지능형 관제 시스템
기술 상세
Molmo2-8B 모델을 베이스로 하며, QLoRA 기법을 적용하여 언어 모델 부분만 파인튜닝하고 비전 인코더는 동결 상태를 유지한다. 이는 모델이 이미 가진 시각적 접지 능력을 보존하면서 추적을 위한 추론 로직만 정렬하기 위한 전략이다.
수학적 기반은 NC1 복잡도 클래스에 기반한다. 고정 깊이 Transformer는 TC0 클래스에 속하며, 널리 받아들여지는 가설인 TC0가 NC1의 진부분집합이라는 점에 근거하여 중간 단계 없는 Transformer는 추적 문제를 풀 수 없다는 이론적 차별점을 제시한다.
SGCoT 데이터 포맷은 0.5초 간격의 타임스탬프와 0-1000 사이의 정규화된 좌표(x, y)를 포함한다. 학습 시 궤적 토큰에 대한 손실은 마스킹하고 최종 답변에 대해서만 감독 학습을 진행함으로써, 모델이 스스로 궤적을 생성하여 답을 도출하는 능력을 배양하도록 설계됐다.
한계점
VET-Bench는 물체의 위치 정보만으로 정답이 결정되는 단순화된 환경을 가정한다. 실제 환경에서는 복잡한 지칭 표현이나 물체의 겹침, 모션 블러, 완전한 가려짐 등 더 까다로운 시각적 상황이 발생할 수 있으며 이에 대한 강건성 검증이 추가로 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.