PhysForge: 상호작용 가능한 가상 세계를 위한 물리 기반 3D 에셋 생성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

기존 3D 생성 모델은 겉모습만 그럴듯한 '빈 껍데기'를 만드는 데 그쳐 로봇 시뮬레이션이나 게임 내 상호작용에 활용하기 어려웠다. PhysForge는 물체의 재질, 질량, 관절 가동 범위 등 물리적 속성을 함께 생성하여 별도의 수작업 없이도 즉시 조작 가능한 지능형 에셋을 제공한다.

왜 중요한가

기존 3D 생성 모델은 겉모습만 그럴듯한 '빈 껍데기'를 만드는 데 그쳐 로봇 시뮬레이션이나 게임 내 상호작용에 활용하기 어려웠다. PhysForge는 물체의 재질, 질량, 관절 가동 범위 등 물리적 속성을 함께 생성하여 별도의 수작업 없이도 즉시 조작 가능한 지능형 에셋을 제공한다.

핵심 기여

PhysForge 프레임워크

VLM 기반의 물리적 설계와 Diffusion 기반의 형상 구현을 결합한 2단계 생성 파이프라인을 구축하여 시뮬레이션 준비가 완료된 3D 에셋을 생성한다.

PhysDB 대규모 데이터셋

15만 개의 3D 객체에 대해 재질, 질량, 기능, 관절 파라미터 등 4단계 계층 구조의 물리적 주석을 포함하는 대규모 데이터셋을 구축했다.

KineVoxel Injection 메커니즘

연속적인 물리 파라미터를 기하학적 정보와 함께 생성하기 위해 운동학 정보를 복셀 형태로 인코딩하여 Diffusion 과정에 주입하는 새로운 기법을 도입했다.

핵심 아이디어 이해하기

딥러닝에서 3D 객체는 주로 점구름(Point Cloud)이나 복셀(Voxel) 같은 기하학적 데이터로 표현되지만, 이는 물체가 어떻게 움직이고 반응하는지에 대한 정보가 결합되지 않은 상태다. 기존의 Diffusion 모델은 이미지의 픽셀 분포를 학습하듯 3D 형상을 생성하는 데 탁월하지만, 관절의 회전축이나 가동 범위와 같은 정밀한 수치적 제약 조건을 동시에 학습하기에는 구조적 한계가 있었다.

PhysForge는 이 문제를 해결하기 위해 '설계'와 '제작'을 분리한다. 먼저 VLM(Vision-Language Model)이 가진 방대한 세상 지식을 활용해 입력 이미지 속 물체의 부위별 기능과 연결 관계를 논리적으로 정의하는 '물리적 청사진'을 만든다. 이는 마치 건축가가 도면을 그리는 과정과 유사하며, 이를 통해 물체의 각 부위가 어떤 재질인지, 어떻게 움직여야 하는지에 대한 시맨틱 제약 조건을 먼저 확보한다.

마지막으로, 이 청사진을 바탕으로 Diffusion 모델이 실제 3D 형상을 빚어낸다. 이때 KineVoxel Injection이라는 기법을 통해 운동학적 파라미터를 기하학적 복셀 데이터와 동일한 잠재 공간(Latent Space)에 배치하여, 모델이 형태를 만들면서 동시에 그 형태에 맞는 물리적 움직임까지 함께 최적화하도록 유도한다. 결과적으로 시각적으로 정교할 뿐만 아니라 물리적으로도 모순이 없는 에셋이 탄생한다.

방법론

PhysForge는 VLM 기반 설계(Planning)와 Diffusion 기반 구현(Realization)의 두 단계로 구성된다. 첫 번째 단계에서는 Qwen2.5-VL을 백본으로 사용하여 입력 이미지로부터 Hierarchical Physical Blueprint를 생성한다. 이 청사진은 물체의 전체 카테고리부터 부위별 Bounding Box, 재질, 질량, 관절 타입(Revolute, Prismatic 등)을 포함하는 텍스트 및 토큰 기반의 구조화된 데이터다.

두 번째 단계인 Diffusion Realization에서는 KineVoxel Injection(KVI) 메커니즘을 사용한다. 관절의 원점(Origin), 축(Axis), 한계값(Limit)을 8차원 벡터 P_i로 정의하고, 이를 Kinematic Encoder를 통해 잠재 벡터 z_k,i로 변환한다. [8차원 물리 파라미터 입력 → 2개 층의 MLP 연산 → 기하학적 복셀과 동일한 차원의 잠재 벡터 출력 → 형상과 움직임의 동시 생성] 과정을 거친다.

전체 모델은 Conditional Flow Matching(CFM) 목적 함수를 통해 학습된다. 손실 함수 L은 기하학적 손실(L_geo)과 운동학적 손실(L_kine)의 가중합으로 구성된다. [예측된 속도 벡터와 실제 속도 벡터의 차이 계산 → L2 Loss 적용 → 가중치 λ_kine=10 부여 → 정밀한 관절 파라미터 학습 강조] 순으로 최적화가 진행되어 고정밀 에셋 생성을 보장한다.

주요 결과

PhysXNet 테스트 세트에서 PhysForge는 기존 SOTA 모델인 TRELLIS 및 PhysXGen 대비 우수한 성능을 기록했다. 기하학적 정확도를 나타내는 Chamfer Distance(CD)에서 9.21을 기록하여 PhysXGen(9.81)보다 개선된 결과를 보였으며, 특히 물리적 속성 예측 정확도에서 Material(0.81), Affordance(1.22) 등 모든 지표에서 가장 낮은 오차율을 달성했다.

자체 구축한 PhysDB 데이터셋 평가에서도 CD 22.89, F1-Score 70.51을 기록하며 복잡하고 다양한 객체에 대한 생성 능력을 입증했다. 특히 관절 파라미터 예측 성능을 측정하는 Joint-Axis-Err-all 지표에서 0.164를 기록하여, 기존 방법론들(0.694 등) 대비 압도적인 정밀도 향상을 확인했다.

기술 상세

PhysForge의 핵심은 VLM의 고수준 추론 능력과 Diffusion의 저수준 정밀 생성 능력을 결합한 아키텍처에 있다. VLM 단계에서는 3D 공간 이해를 돕기 위해 TRELLIS에서 추출한 3D 복셀 특징을 입력으로 받으며, 66개의 특수 토큰을 추가하여 Bounding Box 좌표를 효율적으로 예측한다. 이는 텍스트 기반의 물리 속성 예측과 시너지를 일으켜 부위 분할(Part Segmentation)의 모호성을 해결한다.

Diffusion 단계에서는 OmniPart 아키텍처를 확장하여 KineVoxel을 도입했다. 기하학적 정보를 담은 Voxel Latent와 운동학적 정보를 담은 Kinematic Latent를 Transformer 블록 내에서 결합할 때, VLM이 예측한 관절 타입(Joint Type)을 임베딩 형태로 추가하여 모델이 기하학적 형태와 관절 움직임 사이의 상관관계를 더 잘 학습하도록 설계했다. 구현 시 512차원의 복셀 임베딩과 2개 층의 MLP로 구성된 경량 인코더/디코더를 사용하여 효율성을 높였다.

한계점

PhysDB 데이터셋 구축 시 15만 개의 객체에 대해 정밀한 수치적 관절 축(Numerical Axis)을 모두 수동으로 검수하는 것은 한계가 있어, 학습 과정에서 PartNet-Mobility 등 기존 데이터셋의 정밀 주석을 보조적으로 활용해야 했다.

실무 활용

로봇 학습을 위한 시뮬레이션 환경 구축이나 인터랙티브한 게임 개발에 즉시 활용 가능하다. 생성된 에셋은 URDF 형식으로 변환되어 PyBullet, Isaac Gym 등 주요 물리 엔진에서 바로 동작한다.

Embodied AI 학습을 위한 대규모 인터랙티브 3D 환경 자동 구축
게임 엔진(Unreal Engine 5, Unity) 내 물리 상호작용이 가능한 소품 생성
로봇 조작(Manipulation) 알고리즘 테스트를 위한 다양한 가상 물체 공급

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각 언어 모델)Diffusion Model(확산 모델)3D Asset Generation(3D 에셋 생성)Physics-Grounded(물리 기반)Embodied AI(체화된 인공지능)