핵심 요약
기존 이미지 편집 모델은 색상이나 스타일 변경에는 능숙하지만, 물체를 특정 각도로 회전시키거나 정확한 위치로 이동시키는 공간적 제어에는 한계가 있었다. 이 논문은 50만 개의 정밀한 공간 편집 데이터셋과 기하학적 정확도를 측정하는 새로운 평가 지표를 통해 AI가 이미지 내 3D 공간 구조를 이해하고 편집할 수 있는 기반을 마련했다.
왜 중요한가
기존 이미지 편집 모델은 색상이나 스타일 변경에는 능숙하지만, 물체를 특정 각도로 회전시키거나 정확한 위치로 이동시키는 공간적 제어에는 한계가 있었다. 이 논문은 50만 개의 정밀한 공간 편집 데이터셋과 기하학적 정확도를 측정하는 새로운 평가 지표를 통해 AI가 이미지 내 3D 공간 구조를 이해하고 편집할 수 있는 기반을 마련했다.
핵심 기여
SpatialEdit-Bench 벤치마크 구축
단순히 시각적으로 자연스러운지를 넘어, 카메라 시점 재구성 및 프레이밍 분석을 통해 기하학적 충실도(Geometric Fidelity)를 정밀하게 측정하는 평가 체계를 도입했다.
SpatialEdit-500k 대규모 합성 데이터셋 생성
Blender를 활용해 50만 개의 이미지 쌍을 생성했다. 각 데이터는 물체의 회전, 이동, 크기 조절 및 카메라의 Yaw, Pitch, Zoom 변화에 대한 정확한 Ground-truth 값을 포함한다.
SpatialEdit-16B 베이스라인 모델 개발
멀티모달 인코더와 MM-DiT 디코더를 결합하고 LoRA 파인튜닝을 적용하여, 일반적인 편집 성능을 유지하면서도 공간 조작 작업에서 기존 SOTA 모델을 크게 상회하는 성능을 달성했다.
핵심 아이디어 이해하기
기존의 이미지 편집은 주로 텍스트 임베딩과 이미지 특징 사이의 Cross-Attention을 조절하여 '무엇(What)'을 바꿀지에 집중해 왔다. 하지만 물체를 90도 회전시키거나 카메라를 아래로 60도 숙이는 등의 '어디서 어떻게(Where & How)'에 해당하는 공간적 변화는 2D 픽셀 정보만으로는 학습하기 어렵다. 이는 모델이 이미지 속 세상을 평면이 아닌 3D 공간으로 인식해야 함을 의미한다.
이 논문은 이 문제를 해결하기 위해 3D 렌더링 엔진인 Blender를 데이터 생성 엔진으로 활용한다. 3D 모델의 위치와 카메라 파라미터를 직접 제어하며 이미지를 생성함으로써, 모델에게 '카메라가 이동할 때 픽셀이 어떻게 변해야 하는지'에 대한 명확한 기하학적 가이드를 제공한다. 즉, 단순한 이미지 변환이 아니라 3D 환경에서의 좌표 변환을 학습시키는 방식이다.
결과적으로 모델은 텍스트 명령에 포함된 공간적 의도를 수치적인 기하학적 변화로 연결할 수 있게 된다. 이는 단순히 '차가 옆을 보고 있다'는 식의 묘사를 넘어, 실제 3D 공간에서 차가 회전했을 때 나타나야 할 가려진 부분의 생성과 배경과의 정렬을 물리적으로 더 정확하게 수행하도록 만든다.
방법론
전체 시스템은 데이터 생성 파이프라인과 편집 모델 아키텍처로 구성된다. 데이터 생성은 Blender를 기반으로 하며, 객체 중심(Object-centric)과 카메라 중심(Camera-centric)의 두 가지 경로로 나뉜다. 객체 중심 경로는 3D 에셋을 8개의 정해진 각도에서 렌더링하고 SAM3로 마스크를 추출한 뒤, Diffusion 모델을 이용해 다양한 배경에 인페인팅하여 학습 데이터를 만든다. 카메라 중심 경로는 실내외 3D 장면에서 카메라의 Yaw, Pitch, Zoom을 체계적으로 샘플링하여 시점 변화에 따른 이미지 쌍을 생성한다.
모델 아키텍처는 Qwen3VL과 같은 사전 학습된 멀티모달 인코더와 MM-DiT(Multi-Modal Diffusion Transformer) 디코더를 결합한 구조를 채택했다. 입력 이미지와 텍스트 지시문은 인코더를 통해 시각적/텍스트적 특징으로 변환되어 디코더의 입력으로 전달된다. 학습은 2단계로 진행되는데, 먼저 일반적인 이미지 편집 데이터셋으로 사전 학습하여 편집 능력을 갖춘 뒤, SpatialEdit-500k 데이터셋을 사용하여 LoRA(Low-Rank Adaptation) 방식으로 공간 제어 능력을 특화시킨다.
평가 지표인 Viewpoint Error(VE)는 VGGT 모델을 사용하여 예측된 이미지의 카메라 포즈를 역추적한다. [입력 이미지 → VGGT 네트워크 → 3D 카메라 외적 파라미터(Rotation, Translation)] 순으로 연산하여 실제 정답 포즈와의 차이를 계산한다. 이를 통해 모델이 생성한 이미지가 지시된 각도와 위치를 수학적으로 얼마나 정확하게 반영했는지 수치화한다.
주요 결과
SpatialEdit-16B 모델은 SpatialEdit-Bench에서 기존 오픈소스 SOTA 모델인 LongCatImage-Edit 대비 물체 이동(Moving) 점수에서 0.300점, 회전(Rotation) 점수에서 0.127점 높은 성능을 기록했다. 특히 카메라 제어 작업에서 가장 낮은 오류율을 보이며 공간 편집의 정확성을 입증했다.
Ablation Study 결과, 이동(Mov), 회전(Rot), 카메라(Cam) 데이터를 모두 혼합하여 학습했을 때 가장 좋은 성능(Mov Score 0.673, Rot Score 0.632, Cam Error 0.385)을 보였다. 이는 서로 다른 공간 조작 작업 간에 긍정적인 지식 전이(Positive Transfer)가 발생함을 시사한다.
또한 GEdit-Bench와 같은 일반 편집 벤치마크에서도 7.52점을 기록하며, 공간 편집 능력을 강화하더라도 일반적인 이미지 편집 성능(스타일 변환 등)이 저하되지 않고 경쟁력을 유지함을 확인했다.
기술 상세
SpatialEdit-16B는 MM-DiT 아키텍처를 기반으로 하며, VAE 잠재 공간(Latent Space)에서 노이즈를 제거하는 방식으로 이미지를 생성한다. 텍스트 지시문은 Qwen3VL의 텍스트 타워를 통해 임베딩되며, 참조 이미지는 비전 타워를 통해 토큰화되어 DiT 블록의 컨디셔닝 정보로 주입된다.
기하학적 평가를 위해 도입된 Framing Error(FE)는 객체 탐지 모델(YOLO)을 활용한다. [생성된 이미지 → YOLO 탐지 → 객체 바운딩 박스 중심점 → 레이 캐스팅(Ray Casting) 연산 → 카메라 중심 대비 각도 차이] 과정을 거쳐 객체가 화면 내에서 의도한 위치에 올바르게 배치되었는지 검증한다. 이는 단순 픽셀 일치도가 아닌 3D 투영 구조를 고려한 지표이다.
학습 시에는 AdamW 옵티마이저를 사용하며, Learning Rate는 1e-4, Warmup 1,000 steps 설정을 적용했다. LoRA 파인튜닝 시에는 Rank 16, Alpha 16 설정을 사용하여 파라미터 효율성을 확보하면서도 공간 지각 능력을 효과적으로 주입했다.
한계점
논문은 합성 데이터셋(SpatialEdit-500k)을 기반으로 학습되었기 때문에, 실제 복잡한 현실 세계 이미지에서 발생할 수 있는 아주 미세한 질감 변화나 극단적인 조명 조건에서의 기하학적 일관성 유지에는 여전히 개선의 여지가 있음을 언급했다.
실무 활용
이 연구는 정밀한 구도 조정이 필요한 상업용 이미지 편집이나 3D 콘텐츠 제작 보조 도구로 즉시 활용 가능하다.
- 전자상거래 제품 사진의 각도를 텍스트 명령만으로 정밀하게 수정
- 영화 콘셉트 아트 제작 시 카메라 앵글과 피사체 배치를 자유롭게 변경
- 단일 이미지로부터 다양한 시점의 이미지를 생성하여 3D 재구성(Reconstruction) 성능 향상
- 로봇 시뮬레이션 환경에서 시점 변화에 따른 데이터 증강(Data Augmentation)
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.