핵심 요약
기존 비디오 AI는 장면의 전체적인 맥락은 잘 파악하지만 물체의 정확한 위치나 미세한 움직임을 놓치는 경우가 많았다. V-JEPA 2.1은 모든 데이터 조각을 학습에 활용하는 새로운 손실 함수를 통해 로봇 제어나 정밀 거리 측정 등 물리 세계와 상호작용하는 능력을 획기적으로 개선했다.
왜 중요한가
기존 비디오 AI는 장면의 전체적인 맥락은 잘 파악하지만 물체의 정확한 위치나 미세한 움직임을 놓치는 경우가 많았다. V-JEPA 2.1은 모든 데이터 조각을 학습에 활용하는 새로운 손실 함수를 통해 로봇 제어나 정밀 거리 측정 등 물리 세계와 상호작용하는 능력을 획기적으로 개선했다.
핵심 기여
Dense Predictive Loss 도입
마스킹된 영역뿐만 아니라 가시적인 컨텍스트 토큰까지 모두 학습 손실 계산에 포함하여 토큰 단위의 공간적/시간적 접지 능력을 강화했다.
Deep Self-Supervision 기법
인코더의 마지막 층뿐만 아니라 중간 계층들에도 자기지도 학습 목표를 계층적으로 적용하여 특징의 세부 품질을 높였다.
Multi-Modal Tokenizer 구현
이미지와 비디오를 각각의 특성에 맞춰 처리하는 전용 토크나이저를 도입하여 단일 모델 내에서 효율적인 통합 학습을 구현했다.
로보틱스 및 정밀 비전 SOTA 달성
Ego4D 상호작용 예측, 로봇 팔 파지, 내비게이션 등 고밀도 특징이 필수적인 벤치마크에서 기존 모델들을 압도하는 성능을 기록했다.
핵심 아이디어 이해하기
기존의 JEPA(Joint-Embedding Predictive Architecture)는 이미지나 비디오의 일부를 가리고 나머지 부분(컨텍스트)을 통해 가려진 내용을 예측하며 학습한다. 이 과정에서 모델은 가려진 부분을 맞추는 데만 집중하느라, 정작 눈에 보이는 컨텍스트 토큰들 사이의 세밀한 공간적 관계나 질감 정보를 무시하고 전역적인 정보로만 요약하려는 경향이 있었다.
V-JEPA 2.1은 'Dense Predictive Loss'를 통해 이 문제를 해결한다. 모델이 가려진 부분뿐만 아니라 이미 알고 있는 컨텍스트 부분에 대해서도 예측을 수행하게 함으로써, 모든 토큰이 각자의 위치 정보와 고유한 특징을 유지하도록 강제한다. 이는 마치 퍼즐 조각의 빈칸만 채우는 것이 아니라, 이미 놓인 조각들의 세부 그림까지 정확히 재구성하도록 훈련하는 것과 같다.
또한 'Deep Self-Supervision'을 통해 모델의 깊은 층뿐만 아니라 중간 층에서도 이러한 학습이 일어나도록 유도한다. 그 결과 모델은 물체의 경계선, 깊이, 움직임의 연속성 같은 미세한 정보를 잃지 않으면서도 장면 전체의 맥락을 파악하는 능력을 동시에 갖추게 된다.
방법론
전체 구조는 Vision Transformer(ViT) 기반의 인코더와 예측기(Predictor)로 구성된다. 입력 데이터는 이미지(2D Conv) 또는 비디오(3D Conv) 전용 토크나이저를 거쳐 임베딩으로 변환되며, 3D RoPE(Rotational Positional Encoding)를 통해 시공간 정보를 주입받는다.
핵심인 Dense Predictive Loss는 L_dense = L_predict + L_ctx로 정의된다. 여기서 L_ctx는 컨텍스트 토큰 i에 대해 예측값과 타겟값의 차이를 계산하는데, 이때 마스킹된 영역과의 거리에 반비례하는 가중치 λ_i = λ / √d_min(i, M)를 적용한다. [컨텍스트 토큰과 가장 가까운 마스크 토큰 사이의 거리 d_min을 입력으로] → [제곱근의 역수를 취해 가중치를 계산하고] → [예측 오차에 곱해줌으로써] → [마스크 경계 근처의 컨텍스트가 더 강하게 학습되도록 유도한다].
Deep Self-Supervision은 인코더의 4개 중간 계층 출력값을 결합하여 다층 예측기(Multi-level Predictor)에 입력한다. 이를 통해 하위 계층의 구체적인 기하학적 정보가 상위 계층의 추상적인 의미 정보와 효과적으로 융합되도록 설계되었다.
주요 결과
Ego4D 단기 객체 상호작용 예측에서 7.71 mAP를 기록하며 SOTA를 달성했고, EPIC-KITCHENS-100 행동 예측에서도 40.8 Recall@5를 기록했다. 이는 모델이 단순히 장면을 분류하는 것을 넘어 미래의 움직임과 위치를 정확히 예측하고 있음을 보여준다.
로보틱스 실험에서 실제 Franka 로봇 팔의 파지(Grasping) 성공률이 이전 버전인 V-JEPA 2 대비 20% 향상되었다. 내비게이션 작업인 Tartan Drive에서는 5.687 ATE를 기록했으며, 기존 SD-VAE 기반 방식보다 10배 빠른 경로 계획 속도를 증명했다.
고밀도 비전 작업인 NYUv2 깊이 추정에서 0.307 RMSE, ADE20K 의미론적 분할에서 47.9 mIoU를 달성했다. 특히 분할 작업에서는 기존 V-JEPA 2(22.2 mIoU) 대비 두 배 이상의 성능 향상을 보이며 고밀도 특징 추출의 효과를 입증했다.
실무 활용
V-JEPA 2.1은 정밀한 공간 이해와 시간적 일관성이 필요한 로봇 제어 및 자율 주행 분야에 즉시 적용 가능하다. 특히 적은 연산량으로도 고품질의 깊이 정보와 객체 추적 기능을 제공하여 실시간 시스템 구축에 유리하다.
- 로봇 팔의 정밀 물체 파지 및 조작 시스템
- 자율 주행 로봇의 실시간 경로 계획 및 장애물 회피
- 비디오 내 객체의 정밀한 세그멘테이션 및 추적
- 단일 카메라 기반의 고정밀 깊이 추정 솔루션
기술 상세
아키텍처는 ViT-L(300M)에서 ViT-G(2B)까지 확장 가능하며, 타겟 인코더는 지수 이동 평균(EMA)을 통해 업데이트되는 모멘텀 인코더 방식을 채택했다. 학습 시 정지 그래디언트(stop-gradient)를 사용하여 표현 붕괴(representation collapse)를 방지한다.
Multi-Modal Tokenizer는 비디오의 경우 16x16x2 크기의 3D 컨볼루션을, 이미지의 경우 16x16 크기의 2D 컨볼루션을 사용하여 각 모달리티의 특성에 맞는 패치 임베딩을 생성한다. 또한 학습 가능한 모달리티 토큰을 추가하여 모델이 입력 소스를 명확히 구분하도록 돕는다.
데이터 스케일링을 위해 VisionMix163M 데이터셋을 구축했다. 기존 ImageNet 1M을 LVD-142M으로 대체하고, 동적인 움직임이 풍부한 YT-1B 비디오 데이터의 샘플링 비중을 0.188에서 0.720으로 대폭 상향 조정하여 모델의 동역학 이해도를 높였다.
학습 후반부에 해상도를 높여 추가 학습하는 'High-Resolution Cool-down' 단계를 도입했다. 비디오는 256px에서 384px로, 이미지는 256px에서 512px로 해상도를 높여 미세한 특징을 정교화하며, 이 과정에서 깊이 추정 성능이 크게 개선되었다.
한계점
의미론적 분할 작업(ADE20K, Cityscapes)에서 여전히 최상위 이미지 전용 인코더들에 비해 약간 뒤처지는 성능을 보이는데, 이는 학습 데이터셋인 VisionMix가 복잡하고 혼잡한 장면(cluttered scenes)을 충분히 포함하지 못했기 때문으로 추정된다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료