EgoForge: 목표 지향적 1인칭 시점 월드 시뮬레이터

왜 중요한가

1인칭 영상은 카메라의 급격한 움직임과 복잡한 손 동작 때문에 AI가 생성하기 매우 까다로운 영역이다. EgoForge는 최소한의 정적인 입력만으로도 물리적으로 타당하고 사용자의 의도를 정확히 따르는 영상을 만들어냄으로써, 가상 현실(VR) 교육이나 로봇의 행동 학습을 위한 고품질 데이터를 저비용으로 생성할 수 있는 길을 열었다.

핵심 기여

EgoForge 프레임워크

단일 1인칭 이미지와 텍스트 지시어를 입력받아 목표 지향적 영상을 생성하는 세계 최초의 1인칭 월드 시뮬레이터이다.

VideoDiffusionNFT

영상 전체 궤적에 대한 보상을 활용해 샘플링 과정을 정제함으로써 목표 달성도와 시간적 일관성을 획기적으로 개선했다.

X-Ego 벤치마크

15,000개의 고품질 1인칭 영상 데이터와 정밀한 행동 주석을 포함한 새로운 평가 표준을 제시했다.

기하학적 약지도 학습

3D 구조 정보를 확산 모델에 주입하여 사물의 형태가 일그러지지 않고 공간적으로 안정적인 영상을 생성하도록 설계했다.

핵심 아이디어 이해하기

1인칭 시점의 영상은 사람이 움직임에 따라 배경이 빠르게 변하고 손이 물체를 가리는 등 변화무쌍하다. 기존의 비디오 생성 모델은 단순히 다음 프레임의 픽셀을 예측하려다 보니, 사물이 갑자기 사라지거나 물리적으로 불가능한 움직임이 나타나는 한계가 있었다. EgoForge는 이를 해결하기 위해 '기하학적 정렬'이라는 개념을 도입한다. 이는 모델이 영상을 그릴 때 단순히 색상만 맞추는 것이 아니라, 사전 학습된 3D 인지 모델의 지식을 빌려와 장면의 입체적인 구조를 먼저 파악하도록 강제하는 방식이다. 이를 통해 영상 속 사물들이 일정한 부피와 위치를 유지하며 안정적으로 존재하게 된다. 또한 사용자가 특정 목표를 지시했을 때 모델이 끝까지 이 의도를 잊지 않도록 '궤적 수준의 보상 시스템'을 적용한다. 영상의 시작부터 끝까지를 하나의 흐름으로 평가하고, 목표를 잘 달성한 방향으로 생성 과정을 미세하게 조정하여 의도에 완벽히 부합하는 결과를 도출한다.

방법론

전체적인 구조는 Diffusion Transformer(DiT)를 백본으로 사용하며, 1인칭 이미지, 텍스트 지시어, 3인칭 참조 이미지를 조건부 입력으로 받아 특징을 융합한다. Geometry Weak Supervision 단계에서는 VGGT 모델에서 추출한 기하학적 특징과 DiT의 중간 레이어 특징을 정렬한다. ℒ_ang = -1/LNQ Σ cos(g, p) 수식은 [VGGT의 특징 g와 DiT의 특징 p를 입력으로] → [코사인 유사도를 계산하여] → [유사도가 높을수록 손실값이 작아지는 결과를 얻고] → [모델이 장면의 3D 구조를 이해하도록 유도하는 의미]를 갖는다. VideoDiffusionNFT는 생성된 영상 후보들에 대해 목표 달성(ℛ_goal), 장면 일관성(ℛ_env), 시간적 인과성(ℛ_temp), 시각적 품질(ℛ_per)을 평가한다. 이 보상값들을 통합하여 v_θ* = v_old + (2r-1)/β (v* - v_old) 수식을 통해 [기존 속도장 v_old와 보상 기반 목표장 v*를 입력으로] → [보상 r에 따른 가중치를 적용해 속도장을 갱신하여] → [더 높은 보상을 받는 영상이 생성되도록 유도하는 결과]를 얻는다.

주요 결과

X-Ego 벤치마크에서 EgoForge는 DINO-Score 61.25, CLIP-Score 39.30을 기록하며 의미적 정렬 능력에서 베이스라인 모델들을 압도했다. 특히 시각적 품질 지표인 FVD는 182.25로 나타나, 기존 SOTA 모델인 WAN2.2(322.17) 대비 약 43% 개선된 현실성을 보여주었다. Ablation study를 통해 VideoDiffusionNFT와 기하학적 정렬 손실 함수가 각각 성능 향상에 필수적임을 확인했다. 기하학적 정렬이 빠질 경우 공간적 안정성이 크게 저하되었으며, 보상 기반 정제가 없을 경우 복잡한 지시사항을 완벽히 수행하지 못하는 경향이 나타났다. 실제 ARGO 스마트 글래스를 활용한 실험에서도 EgoForge는 학습되지 않은 새로운 환경에서 다단계 명령을 성공적으로 수행하는 영상을 생성하며 실무 적용 가능성을 입증했다.

실무 활용

EgoForge는 1인칭 시점의 행동 데이터를 생성하는 강력한 도구로, 데이터가 부족한 웨어러블 AI 및 로봇 공학 분야에서 합성 데이터 생성기로 활용될 수 있다.

로봇의 복잡한 물체 조작 학습을 위한 가상 훈련 데이터 생성
AR 글래스 사용자를 위한 실시간 행동 가이드 영상 시뮬레이션
1인칭 시점 게임 및 인터랙티브 콘텐츠의 자동 생성
인간-AI 협업 시스템에서의 의도 파악 및 미래 행동 예측

기술 상세

EgoForge는 DiT 아키텍처를 기반으로 하며, REPA(Representation Alignment) 기법을 확장하여 3D 기하학적 정보를 주입한다. VGGT 백본의 특징을 타겟으로 삼아 DiT의 중간 레이어들이 공간적 구조를 학습하도록 설계되었다. VideoDiffusionNFT는 DiffusionNFT를 비디오 도메인으로 확장한 것으로, 궤적 수준의 보상을 활용해 샘플링 궤적을 최적화한다. 이는 보상 희소성(Reward Sparsity)과 시간적 신용 할당(Temporal Credit Assignment) 문제를 해결하여 장기적인 목표 달성을 보장한다. 보상 함수는 VLM(Vision-Language Model)을 비매개변수적 평가자로 활용하여, 생성된 영상이 물리적 법칙(Physics Plausibility)과 인과적 논리(Causal Logic)를 따르는지 정밀하게 측정한다.

한계점

EgoForge는 현재 제자리에서 이루어지는 물체 조작(In-place manipulation)에 특화되어 있으며, 보행이나 장거리 이동과 같은 비정적인 행동은 다루지 않는다. 또한 10초 내외의 짧은 영상 생성에 최적화되어 있어 더 긴 호흡의 시뮬레이션에는 추가적인 연구가 필요하다.

키워드

Egocentric Video(1인칭 영상)World Simulator(월드 시뮬레이터)Diffusion Transformer(확산 트랜스포머)VideoDiffusionNFT(비디오 확산 NFT)Goal-Directed Simulation(목표 지향적 시뮬레이션)X-Ego Benchmark(X-Ego 벤치마크)