TL;DR
기존의 3D 생성 방법은 물리 속성이나 카테고리 다양성의 포괄에 한계가 있다. PhysX-Omni는 VLM 기반의 글로벌-로컬 추론과 고해상도 기하 표현을 도입하여 시뮬레이션에 바로 투입 가능한 자산을 생성하고 PhysXVerse 데이터셋과 PhysX-Bench를 통해 물리 속성·절대 스케일·운동학 등을 실제 조건에서 평가할 수 있게 한다. 이로써 embodied AI 및 로봇 시뮬레이션 분야의 파이프라인 확장을 가능하게 한다.
왜 중요한가
기존의 3D 생성 방법은 물리 속성이나 카테고리 다양성의 포괄에 한계가 있다. PhysX-Omni는 VLM 기반의 글로벌-로컬 추론과 고해상도 기하 표현을 도입하여 시뮬레이션에 바로 투입 가능한 자산을 생성하고 PhysXVerse 데이터셋과 PhysX-Bench를 통해 물리 속성·절대 스케일·운동학 등을 실제 조건에서 평가할 수 있게 한다. 이로써 embodied AI 및 로봇 시뮬레이션 분야의 파이프라인 확장을 가능하게 한다.
핵심 기여
Tailored high-resolution geometry representation for VLMs
Vision-Language Model에 최적화된 새로운 고해상도 기하 표현을 제시한다. 파트 단위 보셀을 z축으로 분할한 뒤 각 슬라이스를 2D 이진 마스크로 표현하고, 텍스트 토큰으로 압축하는 템플릿 기반 2D RLE을 도입한다. 템플릿 레이어를 사용해 공통 구조를 재사용하고 잔차를 저장해 시퀀스 길이를 대폭 줄이면서도 고해상도 기하를 보존한다. 이 표현은 SEGMENTATION 모듈에 의존하지 않고도 TRELLIS 디코더와의 호환성을 유지한다.
PhysXVerse dataset
8.7K 이상 시뮬레이션-준비 3D 자산으로 구성된 일반 목적 데이터셋 PhysXVerse를 구축했다. PartVerse 주석과 휴먼-루프 주석 파이프라인을 통해 절대 스케일, 재질, 애로런스, 기하학 등의 물리 속성을 주석화하며 2K+ indoor/outdoor 카테고리를 포괄한다.
PhysX-Bench benchmark
Geometry, Absolute Scale, Material, Affordance, Kinematic, Description의 여섯 차원으로 구성된 PhysX-Bench를 제시한다. Ground-truth가 필요 없는 현장(야생) 시나리오에서 VLM 기반 평가를 수행하고, CLIP-점수, 3D Consistency, Visual Quality, Absolute Scale 등 다중 지표로 종합 평가한다.
실험적 성과 및 일반화
PhysX-Omni는 PSNR 21.52, CD 2.95, F-score 91.28 등 conventional metrics에서 최상위를 기록했고, PhysXVerse의 절대 스케일 오차를 2.79로 대폭 감소시키며 0.9185의 kinematic 점수로 관절 동작의 물리적 타당성을 크게 개선했다. PhysX-Bench에서 CLIP, 3D Consistency, Visual Quality 등에서도 우수한 성능을 보이며 인간 정렬과의 상관도도 높다.
응용 및 실용성
생성된 시뮬레이션-준비 자산은 물리 시뮬레이터에 직접 적용 가능하며 로봇 정책 학습, 시뮬레이션 기반 시나리오 생성, 실세계 이미지를 통한 씬 구성 등 다운스트림 작업에 활용된다.
핵심 아이디어 이해하기
출발점: Vision-Language Models는 시각적 입력으로부터 구조적 정보를 추정하기 어려운 3D 형태를 직접 예측하기 어렵다. 기존 방식은 분할 기반의 기하 표현이나 segmentation 모듈에 의존하는 경우가 많아 고해상도 디테일과 파트 간 관계의 정확성이 떨어진다. 본 논문은 이러한 한계를 극복하기 위해 텍스트 기반의 고해상도 3D 기하 표현을 도입하고, 글로벌 정보(카테고리, 절대 스케일, 구성요소 트리)로부터 파트별 기하 정보를 순차적으로 생성하는 VLM 기반 coarse-to-fine 파이프라인을 제안한다. 제안 방식은 텍스트 토큰 공간에 추가 토큰 없이 고해상도 기하를 직접 모델링하며, TRELLIS 디코더와의 호환성을 유지한다. 결과적으로 시뮬레이션-준비 자산의 구조적 일관성, 물리적 속성의 정합성, 그리고 관절 객체의 작동 타당성이 크게 향상된다. 또한 PhysXVerse와 PhysX-Bench를 통해 다양한 카테고리와 야생 환경에서의 일반화와 인간 평가 일치성을 검증한다.
관련 Figure

데이터셋의 카테고리 다양성과 파트 구성의 분포를 보여주며, 데이터 다양성이 모델 일반화에 기여함을 시사한다.
Figure 4: PhysXVerse의 분포 및 세계적 태그(Word cloud) 시각화.
방법론
단계1(전체 접근): 입력 이미지(완전/부분 가려짐)로부터 객체의 범주, 고유식별성, 절대 스케일, 구성요소 계층, 물리적 속성 등의 글로벌 정보를 추정한다. 그런 후 이 글로벌 정보를 바탕으로 파트별 기하 구조와 물리 속성을 상세화한다. 단계2(기하 표현): 자산을 보셀로 격자화하고 z축으로 분할한 후 각 슬라이스를 2D 마스크(이진 이미지)로 나눈다. 각 슬라이스에 2D Run-Length Encoding(RLE)을 적용해 텍스트 토큰으로 표현하고, 서로 다른 슬라이스 간의 유사 구조를 템플릿 레이어로 공유하여 토큰 중복을 줄인다. 단계3(디코딩/학습): 텍스트 기반 기하 표현을 TRELLIS 디코더에 입력해 고해상도 메쉬를 재생성한다. 학습은 VLM 백본(Alibaba Qwen2.5-VL-7B-Instruct)으로 수행되며, 최대 시퀀스 길이는 16,384 토큰이다. 데이터는 PhysXVerse, PhysXNet, PhysX-Mobility를 혼합해 학습하고, 64 GPUs에서 5에폭, 14일 걸려 최적화한다. 단계4(평가/벤치마크): PhysX-Bench를 통해 6개 차원(geometry, absolute scale, material, affordance, kinematic, description)으로 평가하고, PSNR/CD/F-score 같은 전통 지표와 물리 속성 지표를 함께 사용한다. 이 구조를 통해 시뮬레이션-준비 자산의 범용성과 물리 일관성을 확보한다.
관련 Figure

아키텍처 구성과 데이터 흐름을 시각적으로 제시해 논문의 핵심 방법론을 직접적으로 보강한다.
Figure 2: PhysX-Omni의 전체 아키텍처 흐름과 Vision-Language Model(VLM) 기반의 입력-출력 관계를 보여준다.

고해상도 기하 표현의 차이를 직관적으로 보여주며, 템플릿 기반 2D RLE의 이점을 시각적으로 보강한다.
Figure 3: 서로 다른 기하 표현 방식의 비교(Geometric representations)와 PhysX-Omni의 상세 구조 표현.
주요 결과
주요 벤치마크 및 실험 결과: PhysXVerse에서의 Geometry PSNR 21.52, CD 2.95, F-score 91.28, Absolute scale 2.79, Material 27.23, Affordance 21.47, Kinematic 0.9185, Description 31.05. PhysX-Mobility에서도 PSNR 18.38, CD 4.70, F-score 88.50, Absolute scale 2.78, Kinematic 0.8603 등 우수한 성능을 보였다. PhysX-Bench의 클립 점수 및 3D Consistency, Visual Quality에서도 경우에 따라 0.54–0.77 범위의 CLIP-상관 및 64–90의 시각 품질 수치를 달성하였다. Ablation 연구에서 템플릿 기반 2D RLE이 baseline(text-based voxel indices) 대비 3D-운동성 및 절대 스케일에서 큰 개선을 보였고, 절대 스케일 오차가 PhysXGen/PhysX-Anything 대비 대폭 감소했다. 또한 로봇 정책 학습 및 시뮬레이션 씬 생성에 직접 적용 가능하다는 점이 확인되었다.
관련 Figure

6 Dimensions(Geometry, Absolute Scale, Material, Affordance, Kinematic, Description)로 구성된 벤치마크의 구성과 평가 지표를 시각화한다.
Figure 5: PhysXBench의 six dimensions와 평가 요소 개요.

기하학적 디테일과 물리 속성의 정합성을 시각적으로 검토할 수 있게 하여 방법의 실제 품질을 보강한다.
Figure 6: 질적 결과(복수 예시) 및 비교 결과의 시각적 예시.

변형 객체의 물리적 거동이 실제 시뮬레이션에서도 유지됨을 시각적으로 확인한다.
Figure 9: Deformable obj의 시뮬레이션 내 변형 동작 시각화.
기술 상세
아키텍처: VLM 기반의 글로벌-로컬(Coarse-to-Fine) 생성 파이프라인. 입력 이미지로부터 객체 카테고리/스케일/부품 계층/물성 정보를 추출하는 Global Understanding 모듈. 기하 표현은 고해상도 3D 구조를 직접 모델링하는 템플릿 기반 2D RLE로 구현되며, 2D 마스크를 z-축으로 슬라이스하여 텍스트 토큰으로 인코딩한다. 템플릿 레이어를 통해 슬라이스 간 구조 변이를 효과적으로 공유하고, 전체 시퀀스 길이를 절감한다. 디코더로 TRELLIS를 사용해 텍스트-기반 표현을 고품질 메시에 매핑한다. 학습 데이터로 PhysXVerse/PhysXNet/PhysX-Mobility를 혼합하고, VLM 백본으로 Alibaba Qwen2.5-VL-7B-Instruct를 사용한다. 학습 구성은 64 GPUs에서 5에폭, 14일 소요, 최대 시퀀스 길이 16,384 토큰. 평가 방식은 PhysX-Bench의 6개 차원과 conventional 지표를 병행한다.
한계점
highly complex 구조의 기하학적 세부 묘사는 여전히 개선 여지가 있다. 프레임워크가 물리 속성/시뮬레이션에 중점을 두고 있어 appearance-oriented 지표에서의 성능은 다소 제한될 수 있다.
실무 활용
생성된 시뮬레이션-준비 자산은 물리 시뮬레이터에 직접 투입 가능하며, 로봇 정책 학습과 시나리오 구축에 활용할 수 있다. 또한 실세계 이미지를 바탕으로 씬을 자동으로 구성하는 시뮬레이션-준비 씬 생성에도 적용 가능하다.
- 로봇 조작 정책 학습을 위한 시뮬레이션 환경 구축
- 실세계 이미지를 이용한 시뮬레이션 씬 자동 구성
- 관절 객체 및 변형 객체를 포함하는 물리 시뮬레이션 연구
- Embodied AI 연구를 위한 대규모 시뮬레이션 자산 공급
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

제시된 Asset으로 로봇 조작 정책 학습 및 시뮬레이션 씬 생성의 실용성을 확인한다.
Figure 8: 로봇 정책 학습 및 시뮬레이션 씬 구성 예시(실험 영상).
키워드
추가 이미지 분석

PhysX-Bench가 인간 평가와 높은 상관성을 보임을 시각적으로 제시한다.
Figure 7: Gesellschaft적 비교 및 인간 정렬과의 상관 분석 개요(벤치마크의 신뢰도).
용어 해설
- Template-based 2D RLE
- — z축으로 분할된 각 슬라이스의 이진 마스크를 텍스트 토큰으로 인코딩하는 기법이다. 템플릿 레이어를 활용해 공통 구조를 재활용하고 잔차 차이로 변동 정보를 저장해 토큰 수를 줄이면서도 고해상도 기하를 보존한다.
- PhysXVerse
- — 강체/변형체/관절 객체를 포괄하는 일반 목적의 시뮬레이션-준비 3D 자산 데이터셋으로, PartVerse 주석과 휴먼-루프 검증을 통해 물리 속성(절대 스케일, 재질, 애로런스, 기하) 주석을 포함한다.
- PhysX-Bench
- — 여섯 차원(기하/절대 스케일/재질/애로런스/운동학/설명)으로 구성된 시뮬레이션-준비 자산의 실세계 현장 조건에서의 이해도와 일관성을 평가하는 ground-truth-free 벤치마크이다.
- TRELLIS
- — 生成된 텍스트 기반 기하 표현을 고품질 메시에 디코드하는 디코더 프레임워크로, 추가 분할/토큰화 없이도 기존 voxel 디코더와 호환된다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.