핵심 요약
기존의 3D 편집 기술은 전체적인 형태를 유지하면서 특정 부분만 정밀하게 수정하는 데 한계가 있었다. 이 논문은 복잡한 3D 모델을 단순한 기하학적 도형들의 조합으로 변환하여 AI가 구조를 명확히 이해하고 수정할 수 있게 함으로써, 전문가 수준의 세밀한 3D 편집을 가능하게 한다.
왜 중요한가
기존의 3D 편집 기술은 전체적인 형태를 유지하면서 특정 부분만 정밀하게 수정하는 데 한계가 있었다. 이 논문은 복잡한 3D 모델을 단순한 기하학적 도형들의 조합으로 변환하여 AI가 구조를 명확히 이해하고 수정할 수 있게 함으로써, 전문가 수준의 세밀한 3D 편집을 가능하게 한다.
관련 Figure

Flux-Kontext와 같은 최신 2D 편집 모델은 질감 변경에는 능숙하지만 '다리 짧게 하기'와 같은 구조적 수정에는 실패함을 보여준다. 반면 Prox·E는 기하학적 추상화를 통해 이러한 구조적 편집을 정확히 수행함을 시각적으로 증명한다.
기존 2D 기반 3D 편집 모델과 Prox·E의 성능 비교 예시
핵심 기여
프리미티브 기반 3D 형상 추상화
복잡한 3D 메쉬 데이터를 Superquadrics라고 불리는 해석 가능한 기하학적 기본 단위들의 집합으로 분해하여 AI 모델이 공간적 추론을 수행할 수 있는 토대를 마련했다.
VLM 기반의 구조적 편집 에이전트
시각-언어 모델(VLM)이 색상 코딩된 추상화 모델과 JSON 파라미터를 동시에 분석하여, 텍스트 지시사항에 따라 특정 부위의 크기, 위치, 회전값을 정밀하게 계산하고 수정한다.
프록시 유도형 디노이징 전략
수정된 추상화 모델(Proxy)을 가이드로 삼아 3D 확산 모델의 잠재 공간에서 원본의 정체성과 수정된 구조를 정교하게 합성하는 블렌딩 메커니즘을 도입했다.
핵심 아이디어 이해하기
기존 3D 편집은 픽셀이나 점 구름(Point Cloud) 수준에서 직접 변화를 주려 했기 때문에 '의자 다리를 1.5배 늘려줘'와 같은 구체적인 수치 기반의 구조적 변화를 이해하기 어려웠다. 이는 딥러닝 모델이 3D 공간의 메트릭(Metric) 속성을 명확한 기호로 파악하지 못하고 단순히 시각적 특징(Feature)으로만 처리하기 때문이다.
Prox·E는 이를 해결하기 위해 3D 모델을 '레고 블록'처럼 해석 가능한 기하학적 기본 단위(Primitive)로 먼저 변환한다. 각 블록은 위치, 크기, 회전이라는 명확한 파라미터를 가지며, VLM은 이 파라미터 값을 직접 수정함으로써 논리적인 구조 변경을 수행한다. 예를 들어 다리에 해당하는 블록의 scale 값을 조정하는 식이다.
마지막으로 이렇게 수정된 단순한 블록 구조를 가이드라인으로 삼아, 고해상도 3D 생성 모델이 세부 디테일을 채워 넣도록 유도한다. 이 과정에서 원본 모델의 특징을 보존해야 하는 영역과 새로 생성해야 하는 영역을 마스킹 기술로 구분하여 합성함으로써 정밀도와 품질을 동시에 확보한다.
방법론
입력된 3D 형상 S_orig를 SuperDec 알고리즘을 사용하여 11개의 파라미터를 가진 Superquadrics 프리미티브들의 집합인 P_orig로 분해한다. 각 프리미티브는 [a1, a2, a3]의 스케일, [e1, e2]의 형상 지수, t의 평행 이동, r의 회전 파라미터로 정의된다.
VLM 에이전트는 색상 코딩된 P_orig의 렌더링 이미지와 각 프리미티브의 파라미터가 담긴 JSON 파일을 입력받는다. 사용자의 텍스트 지시문 c_txt에 따라 VLM은 JSON 내의 수치를 변경하거나 프리미티브를 추가/삭제하여 수정된 프록시 P_edit을 생성한다. 이 과정은 시각적 피드백 루프를 통해 최대 3회 반복 검증된다.
수정된 P_edit을 기반으로 원본 형상을 변형한 S_warp를 생성하고, TRELLIS 확산 모델의 잠재 공간(Latent Space)에서 디노이징을 수행한다. 이때 세 가지 마스크(M_uc: 유지, M_ed: 수정, M_new: 신규)를 사용하여 각 영역에 맞는 잠재 변수를 주입(Injection)한다. 구체적으로 M_uc 영역에서는 원본의 반전된 잠재 변수 z_orig를 매 스텝마다 덮어씌워 형태를 완벽히 보존한다.
마지막으로 외형 정제(Appearance Refinement) 단계에서는 2D 이미지 편집기를 활용하여 텍스트 기반의 질감이나 색상 변경을 적용한다. 생성된 3D 구조의 특정 뷰를 2D로 편집한 후, 이를 다시 3D 모델의 텍스트-이미지 정렬 기능을 통해 전체 표면에 투영하여 고품질의 텍스트화된 3D 에셋을 완성한다.
관련 Figure

입력 형상이 프록시 편집, 구조 생성, 외형 정제의 3단계를 거치는 과정을 상세히 보여준다. 특히 VLM이 JSON 데이터를 수정하고, 이를 확산 모델의 잠재 변수 주입 과정과 연결하는 메커니즘이 핵심적으로 묘기되어 있다.
Prox·E의 전체 파이프라인을 보여주는 아키텍처 다이어그램
주요 결과
ShapeTalk 벤치마크 실험 결과, Prox·E는 기존 SOTA 모델인 Spice-E 및 VoxHammer 대비 정체성 보존(Identity Preservation)과 편집 충실도(Edit Fidelity) 사이의 최적의 균형을 달성했다. 특히 시각적 유사도를 측정하는 DINO-I 점수에서 0.92를 기록하여 비교 모델 중 가장 높은 수치를 보였다.
VLM을 활용한 정성적 평가(VQAScore)에서 0.71점을 기록하며 TRELLIS(0.65)나 EditP23(0.58)보다 사용자의 지시사항을 훨씬 더 정확하게 반영함을 입증했다. 44명의 참가자를 대상으로 한 사용자 조사에서도 편집 품질과 정체성 보존 항목 모두에서 경쟁 모델들을 압도적인 차이로 제치고 가장 선호되는 결과물로 선택되었다.
기술 상세
본 연구는 3D 편집을 기호적 추론(Symbolic Reasoning)과 생성적 확산(Generative Diffusion)의 결합으로 재정의했다. 아키텍처의 핵심은 TRELLIS의 구조적 잠재 공간(Structured Latent)에서 수행되는 프록시 유도형 디노이징이다. 이는 DDIM Inversion을 통해 얻은 잠재 변수들을 공간적 마스크에 따라 동적으로 블렌딩하는 방식을 취한다.
수학적으로는 각 프리미티브의 로컬-월드 변환 행렬 M = TRS를 활용하여 편집 전후의 상대적 아핀 변환 M_rel을 계산한다. 이를 원본 정점들에 적용하여 S_warp를 생성함으로써, 단순한 형태 변화뿐만 아니라 복잡한 기하학적 변형 상황에서도 표면의 디테일을 효과적으로 전이시킬 수 있도록 설계되었다.
학습이 전혀 필요 없는(Training-free) 구조임에도 불구하고, VLM의 Chain-of-Thought 추론 능력을 활용하여 복잡한 기하학적 제약 조건을 JSON 파라미터 수준에서 해결한다. 이는 픽셀 기반의 2D 편집 모델이 가진 3D 공간 이해 부족 문제를 구조적 추상화 계층을 통해 성공적으로 우회한 사례이다.
한계점
초기 프리미티브 분해 단계의 해상도와 정확도에 의존적이다. 예를 들어 의자의 등받이 살(Spindle)들이 하나의 덩어리로 잘못 추상화될 경우, 개별 살을 하나씩 제거하는 식의 세밀한 편집은 불가능하다. 또한 현재는 TRELLIS의 복셀 해상도 제한으로 인해 매우 거대하거나 극도로 세밀한 장면 편집에는 한계가 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.