ABot-PhysWorld: 물리적 정렬을 통한 로봇 조작용 대화형 월드 파운데이션 모델

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 비디오 생성 모델이 물체가 겹치거나 중력을 무시하는 등 물리적 오류를 범하는 한계를 극복했다. 140억 개의 파라미터를 가진 Diffusion Transformer와 물리 법칙 기반의 사후 학습을 통해 로봇 조작의 현실성을 극대화했으며, 이는 실제 로봇 학습을 위한 고정밀 가상 시뮬레이터로 활용될 수 있다.

왜 중요한가

핵심 기여

물리적 선호도 정렬을 위한 Diffusion-DPO 프레임워크

분리된 VLM 판별기를 활용해 물리적으로 타당한 영상과 그렇지 않은 영상을 구분하고, 이를 DPO 학습에 반영하여 물체 관통이나 반중력 운동 같은 비물리적 오류를 획기적으로 줄였다.

300만 개의 물리 인식 로봇 조작 데이터셋 구축

5개의 주요 오픈소스 데이터셋을 통합하고 물리적 인과관계와 정밀한 공간 정보를 포함하는 4단계 캡션 시스템을 적용하여 고품질의 물리 기반 학습 데이터를 확보했다.

병렬 컨텍스트 블록 기반의 정밀 액션 주입

로봇의 제어 명령을 공간적 액션 맵으로 변환하고 이를 병렬 블록을 통해 주입함으로써, 기존 모델의 물리적 지식을 보존하면서도 정밀한 로봇 조작 제어를 가능하게 했다.

독립적 제로샷 벤치마크 EZSbench 제안

학습 데이터에 포함되지 않은 로봇, 작업, 장면의 새로운 조합을 평가하기 위한 최초의 독립적 벤치마크를 구축하여 모델의 일반화 능력을 엄격하게 검증했다.

핵심 아이디어 이해하기

기존의 비디오 생성 모델은 픽셀 간의 통계적 패턴은 잘 파악하지만, 물체가 서로 부딪히거나 중력에 의해 떨어지는 등의 '물리적 규칙'을 명시적으로 배우지 못한다. 이로 인해 로봇이 물체를 뚫고 지나가는 것과 같은 비현실적인 장면이 자주 발생한다. ABot-PhysWorld는 이를 해결하기 위해 Diffusion Transformer 아키텍처에 '물리적 선호도'라는 개념을 도입했다.

핵심 원리는 모델이 생성한 여러 결과물 중 물리적으로 옳은 것(Winner)과 틀린 것(Loser)을 AI 판별기가 골라내게 하고, 이 차이를 학습 지표로 삼는 DPO(Direct Preference Optimization) 과정을 거치는 것이다. 이는 마치 학생이 문제를 풀고 난 뒤 물리 선생님에게 오답 노트를 검사받으며 물리 법칙을 깨우치는 과정과 유사하다.

또한 로봇의 움직임을 단순한 숫자가 아닌 시각적인 '액션 맵' 형태로 변환하여 모델에 입력한다. 이를 통해 모델은 로봇 팔의 위치와 방향을 영상 속 공간 정보와 직접 연결하여 이해하게 되며, 결과적으로 Sora v2 Pro와 같은 범용 모델보다 훨씬 더 정교하고 물리적으로 타당한 로봇 조작 영상을 생성하게 된다.

방법론

전체 아키텍처는 Wan2.1-I2V-14B를 백본으로 하며, 300만 개의 로봇 조작 클립으로 파인튜닝을 진행한다. 데이터 정제 단계에서는 광학 흐름(Optical Flow)을 이용해 움직임이 없는 클립을 제거하고, CLIP 임베딩을 통해 시간적 일관성이 낮은 샘플을 걸러내어 물리적 신호가 뚜렷한 데이터만을 선별한다.

물리적 정렬을 위해 제안된 Decoupled VLM Discriminator는 Qwen3-VL이 물리적 체크리스트를 생성하고 Gemini 3 Pro가 이를 바탕으로 영상을 채점하는 이원화 구조를 가진다. [생성된 N개의 영상 후보 → 물리 체크리스트 기반 채점 → 최적(yw) 및 최악(yl) 샘플 쌍 추출 → DPO 손실 함수 계산] 과정을 통해 모델이 물리 법칙을 위반할 때 더 큰 페널티를 받도록 설계했다.

액션 조건부 생성을 위해 7차원 로봇 액션 벡터를 2D 액션 맵으로 투영한다. [로봇 포즈 벡터 → 카메라 파라미터 기반 투영 → 색상 화살표 및 마스크 렌더링 → 멀티 채널 액션 맵 생성]의 과정을 거친다. 이 맵은 DiT 블록에 병렬로 연결된 컨텍스트 블록에 입력되며, 제로 초기화된 컨볼루션 레이어를 통해 메인 블록에 합산되어 기존의 물리적 지식을 파괴하지 않고 제어 신호를 주입한다.

주요 결과

PBench 로봇 도메인 평가에서 평균 점수 0.8491을 기록하며 Veo 3.1(0.8045)과 Sora v2 Pro(0.7652)를 능가했다. 특히 물리적 타당성을 측정하는 Domain Score에서 0.9306을 달성하여 기존 모델들이 가졌던 물리적 오류 문제를 상당 부분 해결했음이 확인됐다.

새롭게 제안된 제로샷 벤치마크 EZSbench에서도 평균 0.8030의 점수로 최고 성능(SOTA)을 기록했다. 이는 학습 과정에서 보지 못한 새로운 로봇 형태나 복잡한 환경에서도 모델이 물리적으로 일관된 영상을 생성할 수 있는 강력한 일반화 능력을 갖췄음을 보여준다.

액션 조건부 생성 성능 또한 PSNR 21.09, SSIM 0.8126을 기록하며 기존의 Enerverse-AC나 Gen-Sim 모델보다 높은 궤적 일관성을 나타냈다. 정성적 분석 결과, 타 모델들이 흔히 범하는 물체 관통이나 비정상적인 형태 왜곡 없이 정밀한 로봇-물체 상호작용을 재현했다.

기술 상세

14B 파라미터 규모의 Diffusion Transformer 구조를 채택했으며, 효율적인 사후 학습을 위해 LoRA(rank=64)를 활용한다. 이는 전체 가중치를 동결한 상태에서 셀프 어텐션 및 피드포워드 레이어에 어댑터를 삽입하여 연산 자원을 최적화하면서도 물리적 정렬 성능을 확보한다.

물리적 선호도 정렬 손실 함수는 정책 모델과 참조 모델의 노이즈 제거 오차(Denoising Error) 차이를 비교하여 계산된다. [노이즈 섞인 잠재 변수 z_t 입력 → 모델의 예측 오차 계산 → 물리 준수 영상과 위반 영상의 오차 비율 최적화]의 메커니즘을 통해 물리적 법칙을 내재화한다.

액션 주입 아키텍처는 매 5번째 DiT 블록마다 컨텍스트 블록을 복제하여 배치하는 방식을 사용한다. 이는 MLP 기반의 단순 주입 방식보다 크로스-엠보디먼트(Cross-embodiment) 일반화에 유리하며, 제로 초기화 가중치를 통해 학습 초기 단계에서 백본의 물리적 사전 지식이 훼손되는 것을 방지한다.

한계점

현재 모델은 고정된 시점(Fixed-viewpoint) 데이터에 의존하여 생성하며, 실제 로봇 배포를 위한 폐루프(Closed-loop) 평가가 아직 수행되지 않았다. 향후 멀티뷰 생성 및 실시간 제어 환경에서의 검증이 필요하다.

실무 활용

로봇 학습을 위한 고정밀 가상 시뮬레이터로 활용 가능하며, 실제 로봇을 구동하기 전 경로 계획의 타당성을 검증하는 시각적 도구로 적합하다.

로봇 조작 학습을 위한 고품질 합성 비디오 데이터 생성
VLA(Vision-Language-Action) 정책의 실행 결과 미리보기 및 안전성 검증
다양한 로봇 하드웨어에 대한 제로샷 동작 시뮬레이션 및 벤치마킹
물리적 상호작용이 중요한 게임 및 가상 현실용 고정밀 물리 엔진 대체

코드 공개 여부: 공개

코드 저장소 보기

키워드

Diffusion Transformer(확산 트랜스포머)Physical Plausibility(물리적 타당성)DPO(직접 선호도 최적화)Embodied AI(체화된 인공지능)World Model(월드 모델)Robotic Manipulation(로봇 조작)