EgoSim: 체화된 상호작용 생성을 위한 1인칭 시점 월드 시뮬레이터

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 월드 시뮬레이터는 상호작용 후의 환경 변화를 기억하지 못하거나 시점 변경 시 구조가 어긋나는 한계가 있었다. EgoSim은 3D 점구름을 활용해 환경 변화를 실시간으로 업데이트함으로써, 문을 열거나 물건을 옮기는 등의 동작 후에도 일관된 가상 세계를 유지하며 로봇 학습을 위한 고품질 데이터를 생성한다.

왜 중요한가

핵심 기여

업데이트 가능한 3D 월드 상태 모델링

3D 장면을 정적인 배경이 아닌 지속적으로 갱신 가능한 상태로 정의하여, 상호작용에 따른 환경 변화를 물리적으로 일관되게 유지하며 장기 시뮬레이션을 수행함.

상호작용 인식 상태 업데이트 모듈

생성된 영상에서 상호작용이 발생한 객체를 식별하고 해당 객체의 3D 점구름 위치를 최신 상태로 갱신하여, 시점이 변해도 객체의 바뀐 위치가 유지되도록 보장함.

대규모 야생 데이터 처리 파이프라인

단안 1인칭 영상에서 정적 점구름, 카메라 궤적, 손 동작 키포인트를 자동 추출하는 파이프라인을 통해 50만 개의 대규모 학습 데이터를 확보하고 모델의 일반화 성능을 높임.

교차 체화 전이 학습 입증

인간의 손 동작 데이터를 학습한 후 최소한의 파인튜닝만으로 로봇 팔 조작 시뮬레이션에 성공적으로 적용 가능함을 실험적으로 증명함.

핵심 아이디어 이해하기

기존 비디오 생성 모델은 2D 픽셀 간의 관계에만 의존하여 3D 공간에 대한 명시적 이해가 부족하다. 이로 인해 카메라 시점이 크게 변하면 사물의 위치가 뒤섞이는 '구조적 표류'가 발생하며, 특히 물건을 옮기는 등의 상호작용 후 그 변화된 상태를 다음 장면에서 기억하지 못한다.

EgoSim은 3D 점구름(Point Cloud)을 월드의 핵심 상태로 삼아 이 문제를 해결한다. 사용자의 동작이 입력되면 현재의 3D 상태와 카메라 궤적을 바탕으로 배경을 먼저 렌더링하고, 그 위에 동작에 따른 변화량을 합성하여 새로운 영상을 만든다. 이는 픽셀 생성 과정에 명확한 3D 기하학적 닻(Anchor)을 제공하는 효과를 준다.

가장 핵심적인 아이디어는 생성된 영상에서 변화된 사물의 위치를 다시 3D 점구름에 반영하는 '폐루프' 구조다. 예를 들어 컵을 옮겼다면 영상 속 컵의 새 위치를 추적해 3D 지도를 수정한다. 이를 통해 시뮬레이션이 진행될수록 월드 상태가 계속 진화하며, 시점이 한 바퀴 돌아 원래 위치로 왔을 때도 옮겨진 컵이 그 자리에 있는 물리적 일관성을 달성한다.

방법론

전체 시스템은 관측 시뮬레이션 모델과 상태 업데이트 모듈의 순환 구조로 설계됐다. 입력 동작 $A_k$ 는 카메라 궤적 $C_k$ 와 손 상호작용 시퀀스 $H_k$ 로 분리된다. 시뮬레이터는 이전 상태 $S_{k-1}$ 을 $C_k$ 시점에서 렌더링한 배경 위에 $H_k$ 에 의한 동적 변화를 더해 새로운 영상 $O_k$ 를 생성한다. 계산 과정은 $O_k = \Pi(S_{k-1}; C_k) + \Delta O(H_k)$ 로 표현되며, 이는 [이전 3D 지도와 카메라 위치를 입력으로] → [배경을 렌더링하고 동작 변화량을 더하는 연산을 수행해] → [현재 시점의 영상을 얻고] → [이 영상이 물리적으로 타당한 관측값이 됨]을 의미한다.

상태 업데이트 모듈은 생성된 영상 $O_k$ 에서 최신 물리적 배치를 추출하여 $S_k = \mathcal{U}(S_{k-1}, O_k)$ 과정을 거친다. [이전 3D 지도와 방금 생성된 영상을 입력으로] → [VLM과 SAM3를 이용해 움직인 물체를 식별하고 점구름을 갱신하는 연산을 수행해] → [업데이트된 3D 지도를 얻고] → [이 지도가 다음 단계 시뮬레이션의 기준점이 됨]을 의미한다.

학습을 위해 구축된 자동화 파이프라인은 DepthAnything3로 카메라 파라미터를 추정하고, HaMeR로 손의 21개 키포인트를 추출한다. 특히 인간의 손과 로봇의 그리퍼를 공통된 스켈레톤 구조로 매핑하여, 다양한 형태의 에이전트가 동일한 물리 법칙 아래에서 상호작용할 수 있도록 통합된 동작 표현형을 사용한다.

주요 결과

EgoDex(탁상 조작)와 EgoVid(야생 환경) 데이터셋에서 기존 SOTA 모델인 InterDyn, Mask2IV 등을 압도하는 성능을 기록했다. EgoDex 기준 PSNR 25.056, SSIM 0.896을 달성했으며, 특히 3D 구조적 일관성을 측정하는 Depth-ERR 수치에서 InterDyn(44.345) 대비 8.888로 약 5배 이상의 정확도 향상을 보였다.

연속 생성 실험에서 121프레임 이상의 장기 시퀀스를 생성할 때도 상태 업데이트 메커니즘 덕분에 오차가 누적되지 않고 안정적인 품질을 유지했다. 시점이 한 바퀴 돌아 원래 위치로 왔을 때도 이전에 옮겨진 물체의 상태가 정확히 유지됨이 확인됐다.

로봇 시뮬레이션 전이 성능 측정 결과, 대규모 인간 상호작용 데이터로 사전 학습한 모델이 처음부터 로봇 데이터만 학습한 모델보다 PSNR 기준 약 3.5점 높은 성능을 보였다. 이는 인간의 조작 지능이 로봇의 물리적 상호작용 학습에 유효한 사전 지식으로 작용함을 입증한다.

기술 상세

아키텍처의 핵심은 Diffusion Transformer(DiT) 기반의 비디오 생성 모델이다. Wan-2.1-Fun-14B-InP 모델을 백본으로 사용하며, 입력 채널을 52개로 확장하여 3D 점구름 렌더링 영상, 손 키포인트 비디오, 마스크 비디오를 조건부 입력으로 수용한다. 이 구조는 공간적 정렬이 이루어진 잠재 공간에서 노이즈를 제거하도록 설계됐다.

상태 업데이트 시 TSDF(Truncated Signed Distance Function) Fusion 기법을 적용하여 여러 프레임의 관측 정보를 통합한다. 복셀 크기 0.003m의 정밀한 그리드에서 점구름을 샘플링하고 가중 평균을 내어 센서 노이즈와 렌더링 아티팩트를 제거하며, 3.0m 이상의 깊이 정보는 절단하여 신뢰도를 높인다.

데이터 정제 과정에서 Savitzky-Golay 필터와 Kalman 필터를 결합하여 카메라 궤적과 손 동작의 급격한 튀는 현상을 억제한다. 이는 확산 모델이 물리적으로 불가능한 불연속적 움직임을 학습하지 않도록 방지하는 중요한 전처리 단계이며, Sim3 Umeyama 알고리즘을 통해 서로 다른 관측 시퀀스 간의 좌표계를 정밀하게 정렬한다.

한계점

단안 깊이 추정 및 카메라 포즈 추정 모델에 의존하므로, 가림 현상이 심하거나 동적인 변화가 극심한 환경에서는 초기 점구름 구축에 실패할 수 있다. 또한 현재는 물리 기반의 접촉 제약 조건이 명시적으로 통합되지 않아 미세한 물리적 충돌 표현에 한계가 있을 수 있다.

실무 활용

가상 환경에서 로봇이나 에이전트의 조작 능력을 학습시키기 위한 고성능 시뮬레이터로 활용 가능하다. 실제 영상을 기반으로 3D 환경을 구축하므로 데이터 수집 비용을 낮출 수 있다.

로봇 팔 조작 학습을 위한 합성 데이터 생성
1인칭 시점 게임 엔진의 상호작용 시스템 구현
AR/VR 환경에서의 가상 객체 조작 시뮬레이션
에이전트의 장기 계획(Long-horizon planning) 능력 평가

코드 공개 여부: 공개

코드 저장소 보기

키워드

World Model(월드 모델)Egocentric Vision(1인칭 시각)Embodied AI(체화된 인공지능)Point Cloud(점구름)Video Diffusion(비디오 확산 모델)