핵심 요약
현재 멀티모달 대형 언어 모델(MLLM)은 뛰어난 설명 능력을 갖췄음에도 불구하고 정확한 거리 인지나 3D 공간 관계 파악에는 한계를 보이고 있다. OpenSpatial은 폐쇄적인 데이터 생성 파이프라인 문제를 해결하기 위해 3D 바운딩 박스 중심의 오픈소스 데이터 엔진을 제공하여 공간 지능 연구의 새로운 표준을 제시한다.
왜 중요한가
현재 멀티모달 대형 언어 모델(MLLM)은 뛰어난 설명 능력을 갖췄음에도 불구하고 정확한 거리 인지나 3D 공간 관계 파악에는 한계를 보이고 있다. OpenSpatial은 폐쇄적인 데이터 생성 파이프라인 문제를 해결하기 위해 3D 바운딩 박스 중심의 오픈소스 데이터 엔진을 제공하여 공간 지능 연구의 새로운 표준을 제시한다.
관련 Figure

왼쪽은 3D 바운딩 박스 기반의 자동 주석 파이프라인을 시각화하며, 오른쪽 차트는 Qwen 및 InternVL 모델들이 OpenSpatial 데이터를 사용했을 때 최대 19%까지 성능이 향상됨을 입증한다.
OpenSpatial의 전체 개요와 주요 모델별 성능 향상 수치를 보여주는 다이어그램이다.
핵심 기여
OpenSpatial 데이터 엔진 개발
고품질의 확장 가능한 공간 추론 데이터를 생성하기 위해 3D 바운딩 박스를 핵심 프리미티브로 사용하는 오픈소스 데이터 엔진을 구축했다.
OpenSpatial-3M 대규모 데이터셋 공개
5가지 핵심 공간 작업(측정, 관계, 카메라 인지, 다중 뷰 일관성, 장면 추론)을 아우르는 300만 개의 고충실도 샘플 데이터셋을 구축하여 공개했다.
3D Lifting 자동화 파이프라인
수동 라벨링 없이도 웹상의 일반 비디오나 이미지에서 3D 바운딩 박스 정보를 자동으로 추출하여 데이터 규모를 확장할 수 있는 메커니즘을 구현했다.
SOTA 성능 달성 및 분석
OpenSpatial 데이터로 학습된 모델들이 BLINK, AllAngles 등 주요 공간 추론 벤치마크에서 기존 모델 대비 평균 19%의 상대적 성능 향상을 기록했다.
관련 Figure

측정(SM), 관계(SR), 일관성(MC), 카메라 인지(CP), 장면 추론(SAR) 각각에 대해 모델이 풀어야 하는 구체적인 문제 형태를 보여주며 데이터의 다양성을 증명한다.
OpenSpatial 데이터셋에 포함된 5가지 핵심 작업 카테고리별 실제 예시 이미지와 QA 쌍이다.
핵심 아이디어 이해하기
기존의 MLLM 학습 데이터는 주로 2D 이미지와 텍스트 설명의 정렬에 집중되어 있어, 모델이 이미지 속 객체의 실제 3D 물리적 속성을 파악하는 데 한계가 있었다. 2D 바운딩 박스는 시점에 따라 크기와 위치가 변하므로 일관된 공간 좌표계를 제공하지 못하며, 이는 모델이 거리나 높이를 정확히 계산하지 못하는 '공간적 근시(Spatial Myopia)' 현상을 야기한다.
OpenSpatial은 이 문제를 해결하기 위해 모든 학습 데이터를 3D Oriented Bounding Boxes(OBBs)를 기준으로 정렬한다. 3D OBB는 시점과 무관하게 객체의 고유한 위치, 크기, 방향 정보를 유지하는 세계 좌표계(World Coordinate System)를 기반으로 한다. 이를 통해 모델은 단순히 이미지를 묘사하는 것을 넘어, 객체 간의 실제 거리나 다중 시점에서의 일관된 논리를 학습하게 된다.
결과적으로 모델은 임베딩 공간 내에서 시각적 토큰을 처리할 때 3D 기하학적 구조를 내재화하게 된다. 이는 단순한 패턴 인식을 넘어 물리적 세계의 법칙을 이해하는 기초적인 공간 지능으로 이어지며, 로봇 공학이나 자율 주행과 같이 정밀한 공간 인지가 필요한 분야에서 MLLM의 활용 가능성을 크게 확장한다.
방법론
OpenSpatial의 데이터 파이프라인은 원시 다중 뷰 이미지나 비디오 프레임을 입력받아 3D OBB를 생성하는 단계부터 시작한다. 수동 주석(Manual Annotation)과 자동화된 3D Lifting 방식을 모두 지원하며, 3D Lifting은 Gemini와 SAM을 활용해 객체를 인식하고 마스크를 추출한 뒤 이를 3D 공간에서 통합하여 최종적인 바운딩 박스를 형성한다.
추출된 3D 박스는 각 프레임으로 투영(Projection)되어 2D 속성과 동기화된다. 이때 가려짐(Occlusion)이나 프레임 이탈을 처리하기 위해 깊이 맵(Depth Map) 기반의 검증 과정을 거친다. 구체적으로 픽셀의 점 구름(Point Cloud) 데이터가 3D 박스 내부에 위치하는 비율인 부피 점유율(Volumetric Occupancy)을 계산하여 임계값 미만인 객체는 제거함으로써 데이터의 정확성을 보장한다.
최종적으로 구축된 장면 그래프(Scene Graph)를 바탕으로 질문-답변(QA) 쌍을 생성한다. 단일 뷰 QA는 객체의 크기나 상대적 위치를 묻고, 다중 뷰 QA는 시점 변화에 따른 객체의 재식별이나 카메라의 움직임을 추론하도록 설계되었다. 이 과정에서 3D 박스는 시점 불변의 참조점 역할을 수행하여 복잡한 공간 논리 생성을 가능하게 한다.
관련 Figure

3D Lifting을 통해 메쉬와 3D 박스를 생성하고, 이를 다시 프레임별 속성으로 매핑하여 장면 그래프를 구축하는 과정을 상세히 설명한다. 데이터셋의 소스 분포와 작업 비중도 함께 표시되어 있다.
데이터 전처리부터 단일 뷰 및 다중 뷰 QA 생성까지의 전체 데이터 파이프라인 구조도이다.
주요 결과
OpenSpatial-3M 데이터셋으로 파인튜닝된 모델들은 주요 공간 추론 벤치마크에서 압도적인 성능 향상을 보였다. Qwen2.5-VL-7B 모델의 경우 3D-Avg 지표에서 기존 50.0점에서 59.5점으로 상승하며 19.0%의 상대적 향상을 기록했다. 특히 BLINK(+10.6), AllAngles(+8.3), MMSI(+13.1) 등 정밀한 공간 인지가 필요한 항목에서 10점 이상의 큰 폭으로 점수가 올랐다.
데이터 규모에 따른 확장성 분석(Scalability Evaluation) 결과, 데이터 양이 증가함에 따라 3D-Avg 성능이 지속적으로 우상향하는 경향을 확인했다. 또한 5가지 핵심 작업(SM, SR, CP, MC, SAR)을 단계적으로 추가했을 때 모델의 종합적인 공간 지능이 시너지 효과를 내며 상승하는 '증분적 시너지(Incremental Synergy)' 현상이 관찰되었다.
효율성 측면에서는 병렬 처리와 중간 특징 재사용(Intermediate Feature Reuse) 최적화를 통해 기존 나이브 파이프라인 대비 데이터 생성 속도를 최대 12배까지 향상시켰다. 이는 대규모 데이터셋 구축 시 연산 비용을 획기적으로 줄여주는 결과로 이어졌다.
관련 Figure

병렬화, 비동기 실행, 중간 특징 재사용 기법을 순차적으로 적용함에 따라 기본 파이프라인 대비 최대 12배의 속도 향상이 이루어짐을 보여준다.
파이프라인 최적화 단계별 처리 속도 향상 효과를 나타낸 그래프이다.
기술 상세
OpenSpatial 아키텍처는 3D 바운딩 박스를 정규화된 표현(Canonical Representation)으로 사용하여 2D 시각 정보와 3D 물리 정보를 연결한다. 각 객체는 중심 좌표(x, y, z), 크기(xl, yl, zl), 회전값(r, p, y)으로 파라미터화된 OBB로 정의되며, 이는 Z-up 컨벤션의 전역 좌표계에서 관리된다.
데이터 생성의 핵심인 3D Lifting 모듈은 다중 뷰 기하학 원리를 이용한다. 여러 프레임에서 탐지된 동일 객체의 2D 마스크를 역투영(Back-projection)하여 3D 점 구름을 형성하고, 이에 대한 Convex Hull을 계산하여 최적의 3D 박스를 피팅한다. 이 방식은 고가의 라이다(LiDAR) 장비 없이도 일반 RGB 영상만으로 정밀한 3D 주석을 생성할 수 있게 한다.
학습 전략으로는 Supervised Fine-tuning(SFT)을 채택했으며, 일반적인 멀티모달 데이터와 공간 특화 데이터를 1:1 비율로 혼합하여 모델의 범용 성능 저하(Catastrophic Forgetting)를 방지했다. 비전 인코더로는 SigLIP을 사용하여 고해상도 이미지의 세부적인 공간 특징 추출 성능을 극대화했다.
한계점
현재 데이터셋은 주로 실내 환경과 데스크톱 수준의 시나리오에 집중되어 있어, 복잡한 실외 환경이나 대규모 도시 경관에 대한 데이터 분포가 다소 부족하다. 또한 3D Lifting 과정에서 깊이 추정 오류가 발생할 경우 최종 바운딩 박스의 정확도에 영향을 미칠 수 있다.
실무 활용
OpenSpatial은 로봇 제어, 자율 주행, 증강 현실(AR) 등 정밀한 공간 이해가 필요한 AI 시스템 개발에 즉시 활용 가능하다. 오픈소스 엔진을 통해 사용자는 자신의 특정 도메인 데이터를 고품질 공간 학습 데이터로 변환할 수 있다.
- 로봇 에이전트의 실내 내비게이션 및 장애물 회피 경로 계획 학습
- 자율 주행 시스템의 다중 카메라 시점 일관성 유지 및 거리 측정 정확도 향상
- 디지털 트윈 구축을 위한 일반 영상 기반의 3D 객체 배치 및 구조 자동 분석
- 시각 장애인 보조 AI의 주변 사물 거리 및 위치 관계 상세 설명 기능 강화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.