왜 중요한가
기존의 비디오 예측 모델은 짧은 순간의 움직임에만 집중하여 장기적인 맥락을 놓치는 경우가 많았다. 이 논문은 똑똑한 시각-언어 모델(VLM)을 가이드로 삼아, 복잡한 손 동작처럼 정밀한 움직임과 전체적인 작업 흐름을 동시에 파악할 수 있게 하여 예측의 정확도와 안정성을 높였다.
핵심 기여
VLM 가이드 기반 JEPA 스타일 잠재 세계 모델
VLM을 'Thinker'로 통합하여 잠재 세계 모델링에 시각적 의미론과 일반 지식을 주입하는 프레임워크를 구축함.
이중 시간 경로 설계
세밀한 동작을 위한 조밀한 JEPA 브랜치와 장기적 맥락을 위한 성긴 VLM 브랜치를 결합하여 계산 효율성과 정보 밀도를 최적화함.
계층적 피라미드 표현 추출 모듈
VLM의 여러 레이어에서 특징을 추출하고 통합하여 예측 모델에 효과적으로 주입하는 메커니즘을 개발함.
장기 예측 안정성 확보
재귀적 롤아웃 상황에서 VLM의 가이드가 오차 누적을 방지하고 더 견고한 예측을 수행함을 입증함.
핵심 아이디어 이해하기
기존의 V-JEPA와 같은 잠재 세계 모델은 비디오의 다음 프레임을 예측할 때 주로 짧은 시간 내의 연속적인 프레임 간 변화에 집중한다. 이는 국소적인 움직임 패턴을 포착하는 데는 뛰어나지만, 전체적인 작업의 목적이나 사물 간의 복잡한 의미론적 관계를 놓치기 쉽다는 한계가 있다. ThinkJEPA는 대형 시각-언어 모델(VLM)을 'Thinker'로 도입하여 이 문제를 해결한다. VLM은 비디오 전체에서 띄엄띄엄 샘플링된 프레임을 보더라도 Attention Mechanism을 통해 사물의 정체와 작업의 맥락을 파악하는 능력이 탁월하다. 이 VLM이 생성한 고차원적인 추론 신호를 JEPA의 예측 과정에 주입함으로써 모델이 물리적 움직임과 논리적 흐름을 동시에 고려하게 만든다. 결과적으로 모델은 단순히 손의 위치 변화를 추측하는 수준을 넘어 '물체를 집어 옮기는 과정'이라는 전체 맥락 속에서 미래 상태를 예측한다. 이는 특히 예측 기간이 길어질수록 발생하는 오차 누적을 억제하고, 더 자연스럽고 정확한 3D 궤적 생성을 가능하게 하는 핵심 동력이 된다.
방법론
전체 구조는 조밀한 프레임을 처리하는 JEPA 브랜치와 성기게 샘플링된 프레임을 처리하는 VLM Thinker 브랜치의 이중 시간 경로로 구성된다. JEPA 브랜치는 고주파 동작 정보를 보존하고, VLM 브랜치는 넓은 시간적 시야를 통해 의미론적 가이드를 제공한다. VLM의 내부 지식을 추출하기 위해 계층적 피라미드 표현 추출 모듈을 사용한다. VLM의 여러 레이어에서 특징값들을 입력으로 받아 어텐션 풀링과 MLP 투영 연산을 수행하여 가이드 벡터를 생성한다. 이는 VLM의 최종 출력인 텍스트 토큰에만 의존할 때 발생하는 정보 손실 문제를 해결한다. 생성된 가이드는 FiLM 레이어를 통해 JEPA 예측기에 주입된다. [가이드 벡터를 입력으로] → [레이어별 스케일 파라미터와 시프트 파라미터를 계산하고 특징값에 대해 선형 변조 연산을 수행하여] → [변조된 특징값을 얻고] → [이 값이 VLM의 추론 결과가 반영된 새로운 잠재 상태가 되어 다음 단계를 예측함].
주요 결과
EgoDex 데이터셋에서 3D 손 궤적 예측 성능을 평가한 결과, ThinkJEPA는 ADE 0.061, FDE 0.056을 기록하며 V-JEPA 단독 모델 대비 성능을 약 14% 개선했다. 이는 VLM의 의미론적 가이드가 물리적 예측의 정확도를 실질적으로 높였음을 보여준다. 장기 예측 실험에서 VLM 가이드의 효과가 두드러졌다. 예측 시점이 길어질수록 기존 모델들은 오차가 누적되어 궤적이 붕괴되는 경향을 보였으나, ThinkJEPA는 VLM의 맥락 파악 능력 덕분에 훨씬 안정적이고 일관된 궤적을 유지했다. Ablation Study를 통해 VLM의 인코더 토큰과 자기회귀 토큰을 모두 활용하고, 여러 레이어의 특징을 피라미드 형태로 추출하는 방식이 단일 레이어 사용 대비 예측 품질 향상에 결정적인 역할을 수행함을 입증했다.
실무 활용
로봇의 정밀 조작이나 AR/VR 환경에서의 사용자 동작 예측 등 정밀한 3D 궤적 생성이 필요한 실무 분야에 적용 가능하다. 특히 장기적인 작업 흐름 이해가 필수적인 복잡한 서비스 로봇 시나리오에서 유용하다.
- 로봇 팔의 복잡한 물체 조작 및 경로 계획
- AR 기기에서의 사용자 손 동작 선제적 인식 및 렌더링
- 1인칭 작업 비디오 기반의 지능형 교육 및 가이드 시스템
- 자율 주행 시스템의 보행자 의도 파악 및 장기 경로 예측
기술 상세
아키텍처는 V-JEPA-L 백본과 Qwen3-VL 모델을 결합한 형태다. JEPA 브랜치는 32프레임의 과거 관찰을 입력받아 32프레임의 미래 잠재 표현을 예측하며, 내부 임베딩 차원은 1024, 예측기 차원은 384로 설정된다. Dual-temporal Sampling 전략을 채택하여 JEPA는 모든 프레임을 포함하는 짧은 윈도우를, VLM은 전체 비디오에서 균등하게 추출된 소수의 프레임을 처리한다. 이를 통해 VLM의 높은 연산 비용을 제어하면서도 비디오 전체의 장기적 맥락 정보를 확보한다. VLM의 레이어 {0, 4, 8, 12, 16, 20, 24, 27}에서 중간 특징값을 추출하여 계층적 가이드를 형성한다. 이는 언어 생성에 특화된 상위 레이어뿐만 아니라 시각적 세부 사항이 풍부한 중간 레이어의 정보를 모두 활용하기 위함이다. 주입 메커니즘으로 FiLM을 선택하여 JEPA의 잠재 공간 인터페이스를 변경하지 않으면서도 외부 신호를 효과적으로 통합한다. 이는 모델이 물리적 일관성을 유지하면서도 고차원적인 의미론적 제약을 수용하게 한다.
한계점
더 긴 비디오나 더 다양한 상호작용 시나리오에 대한 확장성, 그리고 더 효율적인 가이드 주입 메커니즘에 대한 추가적인 탐구가 필요함.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.