왜 중요한가
기존 3D 데이터셋은 사람이 일일이 라벨링해야 하는 한계로 인해 규모 확장이 매우 어려웠다. 이 논문은 일반 비디오를 고품질 3D 장면과 질문-답변 쌍으로 변환하는 완전 자동화 파이프라인을 제시하여, 데이터 부족 문제를 해결하고 모델의 공간 추론 능력을 비약적으로 향상시켰다.
핵심 기여
Holi-Spatial 자동 큐레이션 파이프라인
사람의 개입 없이 원본 비디오에서 3D 구조 복원, 물체 인식, 시맨틱 라벨링, 공간 QA 생성을 수행하는 세계 최초의 완전 자동화 시스템이다.
Holi-Spatial-4M 대규모 데이터셋 구축
1.2만 개의 최적화된 3DGS 장면과 1.2M개의 3D Grounding 인스턴스, 1.2M개의 공간 QA 쌍을 포함하는 400만 개 이상의 고품질 어노테이션을 공개했다.
3D 공간 지능 모델 성능의 비약적 향상
구축된 데이터셋으로 Qwen3-VL을 파인튜닝한 결과, ScanNet++ 3D Grounding에서 AP50 기준 15% 향상, MMSI-Bench에서 7.9% 정확도 향상을 달성했다.
핵심 아이디어 이해하기
기존의 3D 공간 지능 연구는 데이터의 '양'과 '다양성' 부족이라는 벽에 부딪혀 있었다. 인터넷에 널린 2D 이미지와 달리 3D 데이터는 특수 장비로 스캔하고 전문가가 직접 물체 경계를 그려야 했기 때문이다. Holi-Spatial은 이러한 수동 작업을 최신 AI 도구들의 유기적인 결합으로 대체하여 '데이터 플라이휠'을 구축했다.
핵심 원리는 3D Gaussian Splatting(3DGS)을 통해 비디오의 여러 프레임을 하나의 정교한 3D 공간으로 통합하는 것이다. 여기에 SAM3와 같은 비전 모델이 2D 프레임에서 물체를 찾으면, 이를 3D 공간으로 투영(Back-projection)하여 입체적인 물체 후보를 만든다. 이 과정에서 발생하는 기하학적 노이즈나 중복된 탐지 결과는 VLM 에이전트가 직접 이미지를 확대해서 보고 판단하는 피드백 루프를 통해 정제된다.
결과적으로 모델은 단순히 사진 속 물체를 맞히는 수준을 넘어, "내 뒤에 있는 책상이 왼쪽으로 얼마나 떨어져 있는가?"와 같은 복잡한 3차원 상대 위치와 거리 개념을 스스로 학습할 수 있게 된다. 이는 로봇이 실제 환경을 이해하고 움직이는 데 필수적인 지능의 토대가 된다.
방법론
Holi-Spatial 파이프라인은 세 단계로 구성된다. 첫 번째 단계인 Geometric Optimization에서는 비디오 프레임에서 카메라 경로를 추적하고 Depth-Anything-V3로 초기 깊이를 계산한다. 이후 3DGS를 학습시켜 여러 각도에서 봐도 일관된 3D 구조와 정교한 깊이 지도를 생성한다.
두 번째 단계인 Image-level Perception에서는 Gemini-3 Pro와 같은 VLM이 주요 프레임에서 물체 종류를 파악한다. 이 정보는 SAM3의 가이드가 되어 정교한 2D 마스크를 생성하며, 이를 3DGS에서 얻은 깊이 값과 결합하여 3D 공간상의 점들로 변환한다. [픽셀 좌표 u와 깊이 값 Dt(u), 카메라 내부 파라미터 K의 역행렬을 입력으로] → [행렬 곱 연산을 수행해] → [3차원 좌표 P를 얻고] → [이 값은 2D 화면상의 점이 실제 3D 세계의 어디에 위치하는지를 의미한다.]
마지막 단계인 Scene-level Lift and Refinement에서는 생성된 3D 물체 후보들을 통합한다. 3D 공간에서 겹치는 정도(IoU)를 계산하여 중복을 제거하고, VLM 에이전트가 신뢰도가 낮은 물체를 재검토하여 최종적인 3D 경계 상자와 설명을 확정한다. 이 과정을 통해 12,000개 이상의 장면에서 400만 개 이상의 데이터를 자동으로 추출한다.
주요 결과
ScanNet++ 벤치마크 실험 결과, Holi-Spatial은 기존 3DGS 기반 방식인 M3-Spatial 대비 Depth F1-score에서 0.39에서 0.89로 압도적인 성능 향상을 보였다. 3D 물체 탐지 성능인 AP50 지표에서도 기존 모델들을 64% 이상 앞지르며 자동화된 라벨링의 정확성을 입증했다.
모델 학습 효과 측면에서, Qwen3-VL-8B 모델을 본 데이터셋으로 학습시켰을 때 MindCube 공간 추론 벤치마크에서 정확도가 29.4%에서 49.1%로 약 20%p 상승했다. 이는 사람이 직접 라벨링한 데이터로 학습한 기존 SOTA 모델들보다도 높은 수치로, 자동 생성된 데이터의 품질이 실질적인 지능 향상에 기여함을 보여준다.
실무 활용
로봇 공학, 자율 주행, AR/VR 분야에서 실내 공간을 정밀하게 이해해야 하는 모델을 개발할 때 핵심적인 학습 자원으로 활용될 수 있다. 특히 고가의 장비 없이 일반 비디오만으로 학습 데이터를 무한히 확장할 수 있다는 점이 실무적 강점이다.
- 서비스 로봇의 실내 장애물 인지 및 복잡한 위치 명령 수행 학습
- 스마트폰 비디오 촬영만으로 실내 공간의 디지털 트윈 및 3D 물체 목록 자동 생성
- 시각 장애인을 위한 주변 공간 상황 설명 및 길 안내 AI 서비스 개발
- 메타버스 환경 구축을 위한 실제 공간의 시맨틱 3D 복원 도구
기술 상세
Holi-Spatial은 3DGS의 미분 가능한 렌더링 특성을 활용하여 2D 시맨틱 정보를 3D 공간으로 일관되게 전이시킨다. 특히 'Mask Erosion' 기법을 도입하여 SAM3가 생성한 2D 마스크의 경계 오차를 줄이고, 'Mesh-guided Filtering'을 통해 3DGS 특유의 유령 현상(Floaters)을 효과적으로 제거하여 3D 경계 상자의 정밀도를 높였다.
데이터셋 구성 시에는 단순한 물체 탐지를 넘어, 카메라의 회전(Rotation), 이동(Movement), 물체 간 거리(Distance) 및 방향(Direction)을 묻는 10가지 유형의 공간 QA 템플릿을 설계했다. 이를 통해 모델이 에고센트릭(Ego-centric) 시점 변화와 알로센트릭(Allocentric) 상대 위치 관계를 동시에 학습할 수 있도록 유도했다.
VLM 에이전트 기반의 검증 시스템은 신뢰도 점수가 0.8에서 0.9 사이인 모호한 케이스에 대해 'Zoom-in' 도구를 사용하여 해당 물체를 다시 확인하고 라벨을 수정하거나 삭제한다. 이러한 계층적 검증 구조는 자동화 파이프라인이 가질 수 있는 노이즈 문제를 해결하고 데이터의 신뢰성을 확보하는 핵심 장치이다.
한계점
파이프라인이 3DGS, SAM3, Gemini 등 상위 모델의 성능에 의존하므로 해당 모델들의 한계가 전이될 수 있다. 또한 동적인 물체가 많은 환경이나 극심한 모션 블러가 있는 비디오에서는 3D 복원 품질이 저하될 가능성이 있으며, 장면당 최적화 과정에 상당한 계산 자원이 소요된다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.