TL;DR
생성 기반 3D 월드는 고해상도 시각 품질은 높이지만 객체 단위 편집과 상호작용이 불가능하다. WorldAct는 멀티모달 에이전트와 2D-3D 마스크 기법으로 모놀리식 3DGS를 객체 단위로 분해하고 배경을 보정한 뒤, 각 객체를 독립 자산으로 재생성하여 물리적 상호작용과 임베디드 시뮬레이션을 가능하게 한다. 이로써 객체 수준 편집과 시나리오 재구성이 가능해져 창작 파이프라인의 활용도가 크게 향상된다.
왜 중요한가
생성 기반 3D 월드는 고해상도 시각 품질은 높이지만 객체 단위 편집과 상호작용이 불가능하다. WorldAct는 멀티모달 에이전트와 2D-3D 마스크 기법으로 모놀리식 3DGS를 객체 단위로 분해하고 배경을 보정한 뒤, 각 객체를 독립 자산으로 재생성하여 물리적 상호작용과 임베디드 시뮬레이션을 가능하게 한다. 이로써 객체 수준 편집과 시나리오 재구성이 가능해져 창작 파이프라인의 활용도가 크게 향상된다.
핵심 기여
Interactive 3D World Modeling
모놀리식 3D generado 월드를 분해 가능한 객체 중심의 인터랙션 가능한 환경으로 전환하여 객체 수준의 편집과 조작을 가능하게 한다.
Agent-Driven Automation
비전-언어 기반의 에이전트 루프를 통해 작동 가능한 객체를 자동으로 식별하고, 다중 뷰에서 세그먼트를 추출하며 배경 보정과 자산 재생성을 자동화한다.
Background Completion & Object Asset Generation
객체를 제거한 배경은 3D 인페인팅 및 3D 재생성 파이프라인으로 보완되며, 각 객체 자산은 SAM3D로 고품질의 자산으로 재생성된다.
Collision-Aware Assembly & Embodied Interaction
생성된 객체 자산은 간단한 충돌 프록시와 differentiable rendering 기반 정렬으로 원래 씬에 정확히 배치되며, 임베디드 시뮬레이션에서 물리적 상호작용이 가능하다.
핵심 아이디어 이해하기
출발점은 3D Gaussian Splatting(Gaussian primitives의 조합으로 3D 공간을 표현하는 방식)이다. 기존 3D 월드 모델은 텍스트/이미지 조건에서 고해상도 장면을 생성하지만, 객체 수준의 분리 없이 단일 덩어리로 다루어 편집이 불가능하다. WorldAct는 시야를 다수의 뷰에서 관찰하고, vision-language 에이전트(Qwen3.6-Plus 등)으로 상호작용 가능한 객체를 식별한 뒤, SAM3D를 이용해 각 객체의 다뷰 마스크를 얻고 3DGS에서 객체 단위로 분해한다. 배경은 3D-인페인팅(DiffuEraser 등)으로 보정하고, 추출된 객체 자산은 SAM3D로 재생성하여 씬에 재배치한다. 마지막으로 ICP로 초기 포즈를 잡고 differentiable 렌더링으로 포즈를 미세 조정(Lalign)하며, Lmask/Lcontact/Lpenetration으로 물리적 일관성을 확보한다. 이 과정을 통해 모놀리식 장면에서 객체 단위의 편집이 가능하고, 충돌-인식-임베디드 시뮬레이션을 지원하는 상호작용-ready 월드를 얻는다.
관련 Figure

핵심 아이디어인 모놀리식 장면의 객체 분해와 상호작용 가능성을 시각적으로 즉시 보여준다.
WorldAct의 티저로 모놀리식과 객체 중심 씬 간의 변환을 시각적으로 비교한다.
방법론
- 전체 접근: 모놀리식 3DGS G를 입력으로 받아 객체 분해 가능한 환경으로 변환한다. 2) Scene Decomposition: 카메라 궤도 T를 따라 다중 뷰 관측을 얻고, Agent-Driven Interactable Object Discovery를 통해 객체 후보를 식별한다. 각 객체마다 SAM3에 의해 프롬프트를 주고 마스크를 얻은 뒤, SA3D 방식으로 3D에서의 소프트 매핑 si,m을 학습해 Zi,m를 이진화해 Gm을 얻는다. 3) Background Completion: 다중 뷰에서 얻은 객체 마스크를 3D 마스크로 재투영하고 DiffuEraser로 Inpaint; DepthLab로 깊이를 예측해 3D에서 새로운 Gaussians를 초기화하고 Infusion 기반 최적화로 배경 BG를 보강한다. Poisson 재구성을 통해 watertight 메쉬를 구성하고 평면 탐지를 통해 충돌 프록시를 구성한다. 4) Object Generation: 각 객체에 대해 객체 시야 중 최적 뷰를 선택하고 SAM3D로 Ggen_m, Mgen_m를 생성한다. 5) Scene Assembly: ICP로 초기 포즈를 정하고, differentiable 렌더링으로 Lalign을 최소화한다. Lmask, Lcontact, Lpenetration을 통해 마스크 일치, 지지 관계, 충돌 제약을 모두 만족하도록 조정한다. 6) 최종: 배경 BGcomp와 객체 자산을 재배치한 인터랙션-준비 씬을 구성한다.
관련 Figure

객체 발견 → 마스크 생성/분해 → 배경 보정 → 객체 자산 재생성 및 재배치를 명시적으로 보여준다.
월드 액트 파이프라인의 흐름을 다이어그램으로 제시한다.

객체 식별과 최적 뷰 선택의 자동화가 어떻게 이루어지는지 직관적으로 제시한다.
Agent가 객체를 식별하고 최적 뷰를 선택하는 과정을 시각화한다.

파이프라인의 확장 가능성과 일반화 가능성을 보강한다.
추가적인 파이프라인 시각화
주요 결과
주요 벤치마크 결과: Interactable Object Recall은 Ours w/o Agent 23.77%에서 Ours 78.80%로 상승했고, MWM-easy에서 25.40%에서 83.98%, MWM-hard에서 20.49%에서 68.43%로 개선된다. MOS 기반 평가에서 Scene-Level Original vs New Scene은 Overall Quality 4.41/4.00 → 4.13/4.00, Surface Completeness 4.44/4.00 → 4.31/4.00, Boundary Cleanliness 4.28/4.00 → 4.02/4.00, Naturalness 4.20/4.00 → 3.78/3.75로 나타난다. Object-Level 평가에서 Original Object 2.49/2.38, 2.58/2.38, 2.00/1.38, 2.14/2.38 이고, New Object(Ours)는 3.75/3.38, 3.93/3.38, 3.95/3.38, 3.37/3.38로 개선된다. 추가적으로 MWM-easy 및 hard 데이터세트에서의 정성 결과와 시나리오의 다뷰 일관성, 그리고 배경 보정의 품질이 향상된다.
관련 Figure

객체 분해 및 재생성의 품질 차이를 시각적으로 확인할 수 있다.
개별 객체들의 재구성 예시를 보여주는 시각 자료

개체 단위 편집의 시각적 품질 향상을 시사한다.
결과 시각화 도표
기술 상세
G = {gi}N i=1, gi=(µi, Σi, αi, ci)로 3DGS 표현; 렌더링은 C(p)=∑i ci α′i(p)∏j=1..K−1(1−α′j(p))으로 색상 합성. 객체 분해를 위해 si,m∈[0,1]를 학습하고, Mt,m(r)을 ∑i w_i^(t)(r) si,m로 정의한다. 분해 손실 Lm_seg = ∑t∈Vm ∑r∈R(I_t) [Mt,m(r)−M̂t,m(r)]^2 + λ(1−Mt,m(r)) M̂t,m(r) 등의 형태로 최적화한다. zi,m=1은 si,m>τ에 의해 결정된다. 핑(back-ground) 보정은 Mcomp_t로 3D 마스크를 재투영하고 DiffuEraser로 Inpaint; DepthLab로 깊이 초기화 후 Gaussians를 최적화하여 BGcomp_bg를 얻는다. 객체 자산은 SAM3D로 생성하고, ICP를 통해 초기 포즈를 얻은 뒤 differentiable rendering으로 Lalign을 최소화한다. Lalign은 Lmask + wc Lcontact + wp Lpenetration로 구성된다.
한계점
입력 3D 세계 모델의 품질에 의존하며, 동적 씬이나 articulated objects, 질량·마찰과 같은 물리 특성은 현재 다루지 않는다.
실무 활용
WorldAct는 생성 기반 3DGS를 객체 단위로 편집 가능하고 상호작용 가능한 월드로 바꿔 임베디드 시뮬레이션과 창작 작업의 흐름을 개선한다.
- Embodied AI 시뮬레이션: 주방 같은 실내 환경에서 로봇의 객체 조작 및 재배치를 연구
- 실내 디자인 및 씬 편집: 객체 추가/제거, 위치·크기·재질 수정의 시각적 일관성 유지
- 게임 디자인 및 AR/VR 콘텐츠 제작 파이프라인의 모듈화
- 합성 학습 데이터 생성: 객체별로 제어 가능한 다뷰 장면 생성
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

객체-기반 편집의 실용성을 시각적으로 확증한다.
편집 가능 씬에서 객체를 추가/삭제 및 속성 편집 후 재배치하는 예시
키워드
추가 이미지 분석

인간 평가 절차의 구체적 맥락을 보여준다.
웹 기반 MOS 평가 인터페이스의 예시 화면
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.