왜 중요한가
기존 2D 이미지 기반 비전 모델들이 갖지 못한 3D 공간 인지 능력을 언어 모델의 추론 능력을 빌려 주입하는 혁신적인 프레임워크이다. 이를 통해 복잡한 로봇 제어나 3D 장면 이해 작업에서 비전 모델의 성능을 획기적으로 끌어올릴 수 있다.
핵심 기여
SpatialBoost 프레임워크 제안
2D 비전 인코더에 LLM의 언어적 추론을 결합하여 3D 공간 지식을 주입하는 확장 가능한 학습 프레임워크를 구축했다.
계층적 멀티턴 시각 공간 추론 데이터셋
픽셀 수준의 깊이부터 객체 간 관계, 전체 장면 이해까지 단계적으로 추론하는 CoT(Chain-of-Thought) 구조의 VQA 데이터셋을 설계했다.
이중 채널 어텐션 메커니즘 도입
기존 비전 인코더의 지식을 보존하면서 새로운 공간 정보를 효과적으로 학습하기 위해 학습 가능한 추가 어텐션 채널을 레이어별로 추가했다.
광범위한 비전 태스크에서의 성능 입증
DINOv3, SigLIPv2 등 최신 모델에 적용하여 ADE20K 세그멘테이션 및 NYUd 깊이 추정 등 다양한 벤치마크에서 SOTA 성능을 기록했다.
핵심 아이디어 이해하기
기존 비전 인코더는 대규모 2D 이미지 데이터셋으로 학습되어 사물의 의미는 잘 파악하지만, 실제 세계의 3D 공간 관계를 이해하는 데 한계가 있다. 이는 Self-Attention 메커니즘이 이미지 내 패치 간의 관계를 계산할 때 주로 2D 평면상의 시각적 특징에만 집중하기 때문이다.
SpatialBoost는 이 문제를 해결하기 위해 언어를 매개체로 사용한다. 이미지에서 추출한 3D 기하학적 정보(깊이, 좌표 등)를 텍스트 설명으로 변환하고, 이를 LLM이 단계적으로 추론하게 함으로써 비전 인코더가 공간적 맥락을 학습하도록 유도한다.
특히 픽셀에서 객체, 장면으로 이어지는 계층적 추론 과정을 통해 모델은 단순한 위치 정보를 넘어 사물 간의 입체적인 배치와 거리를 이해하게 된다. 이 과정에서 기존의 강력한 시각적 특징 추출 능력을 잃지 않도록 별도의 학습 채널을 사용하는 것이 핵심 아이디어이다.
방법론
전체 파이프라인은 공간 지식 추출, 설명 변환, 비전 인코더 파인튜닝의 3단계로 구성된다. 먼저 Depth-pro나 VGGT 같은 모델을 사용해 2D 이미지에서 3D 포인트 클라우드와 세그멘테이션 맵을 생성하여 기초 데이터를 확보한다.
추출된 기하학적 정보를 바탕으로 멀티턴 CoT(Chain-of-Thought) 데이터셋을 구축한다. 이미지 특징 벡터를 LLM의 토큰 임베딩 공간으로 매핑한 뒤, 픽셀 좌표의 깊이부터 객체 간의 3D 거리 측정까지 12단계의 대화형 데이터를 생성하여 계층적 공간 이해를 학습시킨다.
비전 인코더 학습 시에는 Dual-channel Attention 레이어를 도입한다. 기존 Attention 가중치 Attn(x)와 새로 추가된 Attn+(x)를 학습 가능한 혼합 계수 alpha를 이용해 결합한다. alpha = sigmoid(a) 연산을 통해 0에서 1 사이의 가중치를 결정하며, 초기에는 기존 지식에 의존하다가 학습이 진행됨에 따라 점진적으로 새로운 공간 정보를 수용하도록 가중치를 갱신한다.
주요 결과
DINOv3 모델에 적용했을 때 ADE20K 세그멘테이션 벤치마크에서 mIoU가 55.9에서 59.7로 3.8%p 상승하며 최고 성능을 기록했다. NYUd 데이터셋의 깊이 추정 작업에서도 SigLIPv2의 RMSE 수치를 0.51에서 0.39로 크게 개선하여 정밀한 거리 측정 능력을 입증했다.
3D 장면 이해를 평가하는 SQA3D 태스크에서 DINOv3의 성능을 51.4%에서 54.9%로 향상시켰으며, 로봇 제어 시뮬레이션인 CortexBench의 4개 도메인 모두에서 기존 모델 대비 높은 성공률을 보였다.
공간 정보와 직접 관련이 없는 ImageNet 분류 성능도 88.4%에서 90.2%로 상승했다. 이는 공간 인지 능력이 강화됨에 따라 모델이 사물의 형태와 배경의 관계를 더 정확하게 파악하게 되어 전반적인 시각적 표현력이 개선되었음을 의미한다.
실무 활용
자율 주행, 로봇 팔 제어, 3D 장면 재구성 등 정밀한 공간 이해가 필요한 비전 시스템에 즉시 적용 가능한 기술이다.
- 로봇의 정밀한 물체 파지 및 장애물 회피 경로 계획
- 단일 카메라 이미지를 활용한 고정밀 3D 깊이 맵 생성 및 증강 현실(AR) 구현
- 자율 주행 시스템의 주변 사물 거리 인식 및 위험 상황 판단 정확도 향상
기술 상세
SpatialBoost 아키텍처는 비전 인코더 fV, 프로젝션 모듈 gP, 그리고 LLM fL로 구성된다. LLaVA 스타일의 2단계 정렬(Alignment)을 거친 후, 비전 인코더의 각 레이어에 Dual-channel Attention을 삽입하여 최종 파인튜닝을 수행하는 구조를 가진다.
공간 추론 데이터셋은 픽셀 레벨(5턴), 객체 레벨(4턴), 장면 레벨(1턴), 장면 캡션(2턴)으로 구성된 총 12턴의 대화 구조를 가진다. 이는 LLM이 하위 수준의 기하학적 정보를 근거(Rationale)로 삼아 상위 수준의 복잡한 공간 관계를 추론하도록 강제하는 CoT 메커니즘을 구현한다.
학습 과정에서 LLM의 파라미터는 고정(Freeze)하고 비전 인코더의 추가 채널과 프로젝터만 업데이트한다. 이는 LLM이 보유한 방대한 공간 상식과 추론 능력을 비전 인코더로 효과적으로 전이(Knowledge Transfer)하면서도 연산 효율성을 유지하기 위한 전략이다.
한계점
제안된 파이프라인은 공간 추론 데이터셋 구축을 위해 기존 비전 파운데이션 모델(VFM)에 의존하므로, 해당 모델들의 예측 오류가 파인튜닝된 인코더에 전파될 가능성이 있다. 또한 대규모 3D 지면 진리(Ground-truth) 데이터의 부족으로 인해 모델의 잠재력을 완전히 끌어올리는 데 한계가 있을 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.