TL;DR
Vision–Language Models(VLMs)은 2D 작업에 강하지만 3D 이해에는 한계가 있다. 본 논문은 경량의 Depth Head를 LLM 백본에 부착하고 통합 비전-텍스트 감독으로 학습시켜, 단일 순전파로 픽셀 단위 깊이 맵과 텍스트 출력을 함께 생성한다. 이를 통해 VLM의 3D 추론과 다중 모달 이해를 함께 개선하고, Indoors/Outdoors를 아우르는 DepthVLM-Bench를 제시한다. DepthVLM은 DepthLM/Youtu-VL 대비 추론 속도 및 정확도를 크게 향상시키며, 3D 공간 추론 성능을 높인다.
왜 중요한가
Vision–Language Models(VLMs)은 2D 작업에 강하지만 3D 이해에는 한계가 있다. 본 논문은 경량의 Depth Head를 LLM 백본에 부착하고 통합 비전-텍스트 감독으로 학습시켜, 단일 순전파로 픽셀 단위 깊이 맵과 텍스트 출력을 함께 생성한다. 이를 통해 VLM의 3D 추론과 다중 모달 이해를 함께 개선하고, Indoors/Outdoors를 아우르는 DepthVLM-Bench를 제시한다. DepthVLM은 DepthLM/Youtu-VL 대비 추론 속도 및 정확도를 크게 향상시키며, 3D 공간 추론 성능을 높인다.
핵심 기여
Native dense geometry predictor 구축
VLM 백본에 경량 Depth Head를 부착하고 Stage-1/Stage-2 두 단계 학습으로 Dense metric depth를 픽셀 단위로 예측하고 언어 응답과 함께 한 번의 Forward Pass에서 출력한다.
DepthVLM-Bench 도입
실내/실외 데이터셋을 하나의 VLM 호환 포맷으로 결합한 벤치마크로, 다중 데이터 도메인에서 metric depth 추정 성능을 평가하고 순수 비전 모델과의 공정한 비교를 가능케 한다.
데이터 스케일/캡쳐 차이 보정
focal-length normalization을 도입해 서로 다른 카메라 초점거리로 인한 스케일 불일치를 제거하고, 도메인 간 일반화 성능을 높인다.
한 샷에서 피ixel-정렬 깊이 맵 출력
추가 후처리 없이 입력 해상도에 맞춘 픽셀 정렬 깊이 맵을 단일 패스로 출력하며, DepthLM/Youtu-VL 등과 비교해 높은 추론 효율을 보인다.
3D 공간 추론 성능 향상
Dense geometry 예측 능력이 하위 수준 기능과 상호 작용하여, 3D 공간 추론 태스크의 정확도 및 해석 가능성을 높이며 광범위한 비전-언어 태스크에서 잠재적 이익을 입증한다.
핵심 아이디어 이해하기
출발점: 기존 VLM은 텍스트 중심의 감독으로 인해 3D 기하 구조를 명시적으로 모델링하기 어렵다. 해결책: ViT의 다층 특징에서 DPT 스타일의 경량 깊이 헤드를 구축하고, RefineNet 기반 다중 스케일 융합으로 Dense metric depth를 예측한다. 그리고 이 깊이 예측 모듈과 LLM의 텍스트 생성 경로를 하나의 VLM 백본에서 함께 동작하게 하여, 한 번의 forward pass로 depth 맵과 텍스트 응답을 모두 산출한다. 효과: Stage-1에서 깊이 헤드만 미세 조정하고 Stage-2에서 백본을 포함한 엔드-투-엔드 학습을 수행하며, DepthVLM-Bench를 통해 Indoors/Outdoors 데이터의 보정된 학습·평가가 가능하고, 카메라 초점거리에 의한 스케일 편향을 제거하는 focal-length normalization으로 일반화를 강화한다.
방법론
전체 접근: Ev(비전 인코더) → ϕ(임베딩 매핑) → F_k(F1~F3: ViT 중간 층의 시각 특징, F4: LLM 최종 히든 상태) → DPT 스타일의 헤드로 D_hat = DPT(F1, F2, F3, F4)로 Dense Depth Map 생성. 출력은 양의 깊이를 보장하는 Softplus 활성화로 마무리한다. 텍스트 출력은 LLM으로 처리되며 L_joint = L_text + α L_depth의 가중합으로 학습한다. 수식/계산 흐름은 다음과 같다: 입력 이미지 I와 프롬프트 T에서 Hidden states H_LLM = FLLM([ϕ(E_v(I)); T]); 깊이 예측 D_hat는 다중 스케일 ViT 피쳐 F1, F2, F3와 LLM 피쳐 F4를 입력으로 DPT 모듈에 통과시켜 얻고, L_depth는 Stage-1에서 scale-invariant log-depth 손실(SILog)을 이용해 계산한다. 귀결적으로, 딥러닝 기본 구성 요소를 유지한 채 Dense Depth와 Text 생성을 같은 모델에서 수행한다.
관련 Figure

깊이 예측 헤드가 VLM 백본과 결합되어 한 번의 전진 패스로 깊이 맵과 텍스트 출력을 함께 생성한다는 논문의 핵심 아이디어를 보강한다.
Figure 1: DepthVLM의 전체 파이프라인과 Dense Geometry Prediction과 3D Spatial Reasoning의 결합 구조를 시각화한다.

다층 피처를 활용한 다중 스케일 융합과 DPT-스타일 Depth Head의 상호작용을 구체화한다.
Figure 3: DepthVLM 아키텍처의 흐름도. 다중 계층 ViT 피처를 이용한 Dense Depth 디코딩의 흐름을 보여준다.

평가 프로토콜의 구체적 구성과 marker를 통한 depth 추정의 원리 및 공정성 보장을 시각적으로 설명한다.
Figure 6: Depth 추정 평가 프로토콜(빨간 화살표 마커)과 입력 해상도 보정
주요 결과
주요 벤치마크에서의 δ1(↑): Ours-4B는 0.868(Avg.)로 상위 성능, Ours-8B는 0.876(Avg.)로 더 우수하다. Pure-VLM 벤치에서의 비교에서도 Ours-4B: 0.884, Ours-8B: 0.890으로 최고 성능을 기록했다. DepthVLM은 DepthLM(12B, 0.730 avg) 및 Youtu-VL(0.603 avg)보다 우수하다. 추론 속도는 256×192 입력에서 0.42초로, DepthLM의 per-pixel 쿼리(수 초-수십 초)와 Youtu-VL의 2.48초보다 현저히 빠르다. DepthVLM은 9개 데이터셋에 걸친 다중 도메인 평가에서 우수한 일반화 성능을 보이며, 3D 공간 추론 태스크에서도 향상된 성능을 보여준다.
관련 Figure

Unified Vision-Text Supervision으로 딥러닝 파이프라인의 차별화를 시각적으로 보여주며, 결과적으로 3D 형상 추정의 향상을 뒷받침한다.
Figure 2: DepthVLM의 비교 그림으로 기존 VLM과 DepthVLM의 차이를 시각적으로 제시한다.

Dense geometry 예측의 구조적 정합성과 의미론적 일관성을 강조하며, 고차원 3D 추론에서의 이점을 시각적으로 제시한다.
Figure 4: 3D 태스크에서의 질적 결과와 깊이 맵의 구조적 디테일 비교.
기술 상세
아키텍처 구성: Ev(비전 인코더) → ϕ(임베딩 매핑) → 다중 계층 피처 F1~F3( ViT의 중간 레이어) 및 LLM의 이미지 토큰 위치에 해당하는 F4를 포함하는 다층 피처를 수집한다. 각 Fk은 1×1 컨볼루션으로 투영하고 레이어별 해상도에 맞게 업샘플링하여 다중 해상 피처를 구성한 뒤 RefineNet 블록으로 융합한다. 최종 깊이 맵은 DPT(F1, F2, F3, F4)로 디코딩되고, 출력은 음이 아닌 깊이를 보장하기 위해 Softplus를 사용한다. 학습은 두 단계로 진행된다: Stage-1은 깊이 헤드만 동결된 VLM에서 학습, Stage-2는 LLM 백본을 해제하고 엔드-투-엔드로 미세 조정한다(L_joint = L_text + α L_depth). 카메라 간 스케일 불일치를 해결하기 위해 fc로 고정된 초점 거리에 입력을 정규화하는 focal-length normalization을 적용한다(s = fc/f, ˜I = Rs(I), ˜D = Rs(D)). DepthVLM-Bench는 Indoor(ScanNet++, Taskonomy, HM3D, Matterport3D)와 Outdoor(Argoverse2, Waymo, DDAD, NuScenes) 데이터를 혼합해 학습하고, Indoor/Outdoor 9개 데이터셋에서 evaluation을 수행한다.
한계점
논문은 Dense metric depth estimation에 집중하며 객체 검출/포즈 추정 등 다른 3D 인지는 다루지 않는다. 향후 holistic 3D 인지/추론으로의 확장이 남아 있다.
실무 활용
VLM 기반 시스템에서 Dense depth estimation을Native하게 수행하고, 텍스트 응답과 깊이 맵을 단일 패스로 생성하므로 실무에서 3D 인식+자연어 인터랙션을 한 모델로 구현 가능하다.
- AR/VR 어플리케이션에서 실시간 깊이 맵과 대화형 질의 응답 동시 제공
- 자율주행/로봇 비전에서 한 모델로 3D 이해와 커맨드 기반 질의 응답 운영
- 3D 공간 이해가 필요한 문서 이해 및 멀티모달 Q&A 시스템
- 실외/실내 환경의 멀티도메인 depth 추정 및 시각-언어 기반 의사소통 시스템
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.