VLM에서 밀집 메트릭 깊이 추정의 가능성 열기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Vision–Language Models(VLMs)은 2D 작업에 강하지만 3D 이해에는 한계가 있다. 본 논문은 경량의 Depth Head를 LLM 백본에 부착하고 통합 비전-텍스트 감독으로 학습시켜, 단일 순전파로 픽셀 단위 깊이 맵과 텍스트 출력을 함께 생성한다. 이를 통해 VLM의 3D 추론과 다중 모달 이해를 함께 개선하고, Indoors/Outdoors를 아우르는 DepthVLM-Bench를 제시한다. DepthVLM은 DepthLM/Youtu-VL 대비 추론 속도 및 정확도를 크게 향상시키며, 3D 공간 추론 성능을 높인다.

왜 중요한가

핵심 기여

Native dense geometry predictor 구축

VLM 백본에 경량 Depth Head를 부착하고 Stage-1/Stage-2 두 단계 학습으로 Dense metric depth를 픽셀 단위로 예측하고 언어 응답과 함께 한 번의 Forward Pass에서 출력한다.

DepthVLM-Bench 도입

실내/실외 데이터셋을 하나의 VLM 호환 포맷으로 결합한 벤치마크로, 다중 데이터 도메인에서 metric depth 추정 성능을 평가하고 순수 비전 모델과의 공정한 비교를 가능케 한다.

데이터 스케일/캡쳐 차이 보정

focal-length normalization을 도입해 서로 다른 카메라 초점거리로 인한 스케일 불일치를 제거하고, 도메인 간 일반화 성능을 높인다.

한 샷에서 피ixel-정렬 깊이 맵 출력

추가 후처리 없이 입력 해상도에 맞춘 픽셀 정렬 깊이 맵을 단일 패스로 출력하며, DepthLM/Youtu-VL 등과 비교해 높은 추론 효율을 보인다.

3D 공간 추론 성능 향상

Dense geometry 예측 능력이 하위 수준 기능과 상호 작용하여, 3D 공간 추론 태스크의 정확도 및 해석 가능성을 높이며 광범위한 비전-언어 태스크에서 잠재적 이익을 입증한다.

핵심 아이디어 이해하기

출발점: 기존 VLM은 텍스트 중심의 감독으로 인해 3D 기하 구조를 명시적으로 모델링하기 어렵다. 해결책: ViT의 다층 특징에서 DPT 스타일의 경량 깊이 헤드를 구축하고, RefineNet 기반 다중 스케일 융합으로 Dense metric depth를 예측한다. 그리고 이 깊이 예측 모듈과 LLM의 텍스트 생성 경로를 하나의 VLM 백본에서 함께 동작하게 하여, 한 번의 forward pass로 depth 맵과 텍스트 응답을 모두 산출한다. 효과: Stage-1에서 깊이 헤드만 미세 조정하고 Stage-2에서 백본을 포함한 엔드-투-엔드 학습을 수행하며, DepthVLM-Bench를 통해 Indoors/Outdoors 데이터의 보정된 학습·평가가 가능하고, 카메라 초점거리에 의한 스케일 편향을 제거하는 focal-length normalization으로 일반화를 강화한다.

방법론

전체 접근: Ev(비전 인코더) → ϕ(임베딩 매핑) → F_k(F1~F3: ViT 중간 층의 시각 특징, F4: LLM 최종 히든 상태) → DPT 스타일의 헤드로 D_hat = DPT(F1, F2, F3, F4)로 Dense Depth Map 생성. 출력은 양의 깊이를 보장하는 Softplus 활성화로 마무리한다. 텍스트 출력은 LLM으로 처리되며 L_joint = L_text + α L_depth의 가중합으로 학습한다. 수식/계산 흐름은 다음과 같다: 입력 이미지 I와 프롬프트 T에서 Hidden states H_LLM = FLLM([ϕ(E_v(I)); T]); 깊이 예측 D_hat는 다중 스케일 ViT 피쳐 F1, F2, F3와 LLM 피쳐 F4를 입력으로 DPT 모듈에 통과시켜 얻고, L_depth는 Stage-1에서 scale-invariant log-depth 손실(SILog)을 이용해 계산한다. 귀결적으로, 딥러닝 기본 구성 요소를 유지한 채 Dense Depth와 Text 생성을 같은 모델에서 수행한다.

주요 결과

주요 벤치마크에서의 δ1(↑): Ours-4B는 0.868(Avg.)로 상위 성능, Ours-8B는 0.876(Avg.)로 더 우수하다. Pure-VLM 벤치에서의 비교에서도 Ours-4B: 0.884, Ours-8B: 0.890으로 최고 성능을 기록했다. DepthVLM은 DepthLM(12B, 0.730 avg) 및 Youtu-VL(0.603 avg)보다 우수하다. 추론 속도는 256×192 입력에서 0.42초로, DepthLM의 per-pixel 쿼리(수 초-수십 초)와 Youtu-VL의 2.48초보다 현저히 빠르다. DepthVLM은 9개 데이터셋에 걸친 다중 도메인 평가에서 우수한 일반화 성능을 보이며, 3D 공간 추론 태스크에서도 향상된 성능을 보여준다.

기술 상세

아키텍처 구성: Ev(비전 인코더) → ϕ(임베딩 매핑) → 다중 계층 피처 F1~F3( ViT의 중간 레이어) 및 LLM의 이미지 토큰 위치에 해당하는 F4를 포함하는 다층 피처를 수집한다. 각 Fk은 1×1 컨볼루션으로 투영하고 레이어별 해상도에 맞게 업샘플링하여 다중 해상 피처를 구성한 뒤 RefineNet 블록으로 융합한다. 최종 깊이 맵은 DPT(F1, F2, F3, F4)로 디코딩되고, 출력은 음이 아닌 깊이를 보장하기 위해 Softplus를 사용한다. 학습은 두 단계로 진행된다: Stage-1은 깊이 헤드만 동결된 VLM에서 학습, Stage-2는 LLM 백본을 해제하고 엔드-투-엔드로 미세 조정한다(L_joint = L_text + α L_depth). 카메라 간 스케일 불일치를 해결하기 위해 fc로 고정된 초점 거리에 입력을 정규화하는 focal-length normalization을 적용한다(s = fc/f, ˜I = Rs(I), ˜D = Rs(D)). DepthVLM-Bench는 Indoor(ScanNet++, Taskonomy, HM3D, Matterport3D)와 Outdoor(Argoverse2, Waymo, DDAD, NuScenes) 데이터를 혼합해 학습하고, Indoor/Outdoor 9개 데이터셋에서 evaluation을 수행한다.

한계점

논문은 Dense metric depth estimation에 집중하며 객체 검출/포즈 추정 등 다른 3D 인지는 다루지 않는다. 향후 holistic 3D 인지/추론으로의 확장이 남아 있다.

실무 활용

VLM 기반 시스템에서 Dense depth estimation을Native하게 수행하고, 텍스트 응답과 깊이 맵을 단일 패스로 생성하므로 실무에서 3D 인식+자연어 인터랙션을 한 모델로 구현 가능하다.

AR/VR 어플리케이션에서 실시간 깊이 맵과 대화형 질의 응답 동시 제공
자율주행/로봇 비전에서 한 모델로 3D 이해와 커맨드 기반 질의 응답 운영
3D 공간 이해가 필요한 문서 이해 및 멀티모달 Q&A 시스템
실외/실내 환경의 멀티도메인 depth 추정 및 시각-언어 기반 의사소통 시스템

코드 공개 여부: 공개

코드 저장소 보기

키워드

Vision-Language Models (VLMs)dense metric depthDepthVLMDepthVLM-Benchfocal-length normalizationtwo-stage trainingpixel-level depth mapmultimodal foundation model