PhysBrain 1.0 기술 보고서

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대규모 멀티모달 모델의 물리적 이해를 강화한 후 로봇 제어에 적용하면 데이터 효율성과 일반화가 향상된다. 인간의 일인칭 영상에서 추출한 물리적 priors를 통해 로봇에서의 학습 데이터 요구를 감소시키고, 다양한 로봇 embodiment에 걸친 제어 성능을 개선한다.

왜 중요한가

핵심 기여

스케일 가능한 데이터 엔진 설계

대규모 인간 일인칭 비디오를 물리적 상식으로 전환하는 데이터 엔진을 제시하고, 영상에서 구조화된 씬 메타정보(씬 요소, 공간 역학, 실행 동작, 깊이 정보)로 분해하여 QA로 변환한다.

물리 priors를 갖춘 VLM 학습

구조화된 메타정보로 생성된 물리적 QA를 이용해 물리적 상식, 공간 추론, 깊이 이해, 시간적 이해, 내재적 추론 등을 강화한 PhysBrain 베이스 모델을 학습한다.

무시 없이 일반 멀티모달 능력을 보존하는 VLA 적응

Dual-pathway 아키텍처로 일반 경로를 Frozen 상태로 보존하고 Embodied 경로를 학습시키며, 언어 조건화된 액션 쿼리와 flow-matching 디코더로 로봇 제어로의 매핑을 안정적으로 수행한다.

언어-조건화된 액션 적응으로 지시 민감도 유지

액션 쿼리의 prior/posterior 구성을 통해 언어의 정보가 액션 표현에 반영되는 정도를 비교 학습하며, 제한된 로봇 데이터 하에서도 지시를 활용한 제어를 가능하게 한다.

데이터 효율성 및 다 embodient 범용성 강화

물리 priors가 다양한 구현체/시나리오에 대해 효과적으로 전이되도록 하여, 다중 임브로디먼트와 벤치마크에 걸친 성능 향상을 실현한다.

핵심 아이디어 이해하기

출발점: 기존의 로봇 제어 학습은 주로 로봇 트래젝트리 데이터를 축으로 하는 imitation 학습에 의존하지만, 이 자체로 물리 규칙의 일반화를 보장하지 않는다. Self-attention 기반의 대규모 모델이 시퀀스 간 관계를 학습하는 능력은 강하나, 물리적 규칙은 관찰 정보의 외연을 넘어서 행동 가능성 및 공간 구성의 정합성에 의해 좌우된다. Depth와 공간 관계의 정합성은 로봇 제어의 핵심이며, 순차적 실행 계획과 연속 제어를 연결하는 매개가 된다. 두 번째: PhysBrain은 인간 일인칭 비디오에서 물리적 프리오리티를 명시적으로 추출하고 이를 QA로 생성하는 데이터 엔진을 제시한다. 세 번째: 이 물리적 priors를 VLM에 먼저 주입하고, 이후 로봇 적응 데이터로 Embodied Pathway를 학습하는 dual-pathway 아키텍처를 통해 일반 멀티모달 능력을 유지한다. 네 번째: 액션 쿼리 간의 language-aware objective를 도입해 언어 지시가 로봇 제어에서 더 강하게 작동하도록 한다. 다섯 번째: 이 설계는 로봇 데이터의 양이 제한적일 때도 지시를 이용한 제어 민감성을 유지하고, 여러 로봇 embodiment에서의 전이 성능을 개선한다.

방법론

데이터 엔진은 인간 비디오를 three-tier 메타정보로 변환: scene_elements, spatial_dynamics, action_execution; 여기에 depth_info를 더해 depth-aware augmentation을 수행한다. - QA generation은 다중 Annotator 모델 풀을 사용해 물리적 특성과 실행 가능성에 근거한 질문-답변을 생성한다. - PhysBrain의 베이스 모델은 QA를 바탕으로 perception/state/planning/execution의 순서를 따르는 물리적 추론을 학습한다. - VLA 적응은 Frozen General Pathway와 Trainable Embodied Pathway로 구성된 이중 경로를 사용하고, Hl_G, Hl_E의 비대칭 결합을 통해 두 경로 간 정보를 교환한다. - Action-Conditioned Language Alignment Loss를 도입해 언어 정보가 액션 예측에 반영되도록 하고, flow-matching 디코더로 연속 제어를 예측한다. - 로봇 데이터는 각Embodiment에 맞춰 단일 정책으로 재훈련하되, 베이스 모델의 일반 멀티모달 능력은 보존한다.

주요 결과

VLM 벤치마크에서 PhysBrain 8B가 ERQA, PhysBench, MME, MMMU, OCRBench, TextVQA에서 최고 성능을 달성했고, RealWorldQA는 PhysBrain 4B가 최고 점수를 기록했다. Qwen3-VL-8B 대비 ERQA 43.0→45.5, PhysBench 48.5→50.2, MME 2373.3→2431.1, MMMU 53.2→55.2를 달성했고, RealWorldQA도 70.5→72.7로 상승했다. 이는 물리적 추론과 일반 멀티모달 능력을 균형 있게 향상시킴을 시사한다. - VLA 시뮬레이션에서 WidowX에서 Avg 80.2%로 최상위를 기록했고, Xiaomi-Robotics-0 대비 +1.0p, π0.5 및 Isaac-GR00T-N1.6-Bridge 대비 +23.1p의 차이를 보였다. Google Robot 설정에서 Avg 91.33%로 최고였고, Xiaomi-Robotics-0 대비 +2.30p 상승했다. RoboCasa-GR1에서 Avg 64.5%로 24개 작업에서 가장 높았고, VP-VLA 대비 +10.7p, QwenOFT(Qwen3VL) 대비 +15.7p를 달성했다. LIBERO에서도 Avg 98.8%로 최고치에 근접했고 L-Spatial 99.6%, L-Goal 99.4%를 기록했다. 요약하면 네 가지 VLA 평가에서 PhysBrain 1.0이 모든 표에서 최상 평균 점수를 기록했다. 이는 물리 priors가 다른 embodiment/작업 분포에서 강하게 전이되어 로봇 제어 성능 향상에 기여함을 시사한다.

기술 상세

아키텍처: PhysBrain은 베이스 VLM으로 QA-학습을 통해 물리적 commonsense와 공간-깊이 추론을 강화한다. - 데이터 엔진: 영상에서 scene_elements, spatial_dynamics, action_execution의 세 가지 필드를 산출하고, 깊이 정보를 Depth Anything v3로 매핑해 depth_info를 기록한다. - QA 생성: GPT-5 계열 및 Gemini, Qwen 계열 등 다중 Annotator를 활용해 다양한 형태의 QA를 생성하여 한 clip이 공간/깊이/상태/계획/실행 등 다양한 차원을 다룰 수 있게 한다. - Embodied Pathway: Embodied Pathway는 고정된 General Pathway와의 비대칭 결합으로 학습되며, 어텐션은 Embodied Pathway의 쿼리에서 General Pathway의 키/밸류를 stop-gradient로 연결해 학습 안정성을 확보한다. - 액션 디코더: Flow-Matching 오브젝트를 사용해 시계열 빠르게 움직이는 엔드 이펙터 동작을 예측한다. - 언어-액션 정렬: Action queries는 prior/posterior 구성을 통해 언어의 설명 가능성을 측정하고, 로봇 학습은 언어-의존성 정보를 유지한다. - 데이터 효율: 인간 비디오 기반의 물리 priors를 바탕으로 로봇 데이터가 적게 필요하도록 설계한다.

한계점

깊이 추정 및 물체 Grounding의 오류 가능성, Depth-Anything 기반 depth 정보의 지역적 오차, 인간 영상에서 로봇 embodiment로의 매핑 시 morphology 차이로 인한 제어 한계, 애노테이션 품질 편향 및 커뮤니티 벤치마크의 한계로 인한 일반화 한계. 또한 제시된 데이터 엔진은 특정 도메인/환경에 의존하며, 실제 자율성에 도달하기까지 추가 자동 검증 및 확장 연구가 필요하다.

실무 활용

현실 세계 로봇 제어에의 적용은 제한된 로봇 데이터로도 물리 priors를 활용해 학습 효율과 일반화를 개선한다.

다양한 embodiment에서의 언어-제어 로봇 정책의 빠른 적응
한정된 로봇 데이터로도 물리 priors를 매핑해 성능 향상
깊이 정보 기반 질의/추론으로 피처의 공간적 거리와 위치 이해 강화
2D 영상에서 3D 공간 이해를 요구하는 임무의 학습 속도 향상

코드 공개 여부: 공개

코드 저장소 보기

키워드

Vision-Language-Action Modelsphysical commonsensemultimodal QAdepth-aware augmentationembodied controllanguage-conditioned controlrobot adaptation