핵심 요약
기존 시각 언어 모델은 3D 기하학 정보를 주어도 익숙한 2D 외형 정보에만 의존하는 경향이 있어 복잡한 공간 추론에 한계가 있었다. 이 논문은 2D 정보를 의도적으로 가리고 기하학 정보를 강제로 사용하게 함으로써 로봇 공학이나 자율 주행에 필수적인 공간 이해력을 획기적으로 개선했다.
왜 중요한가
기존 시각 언어 모델은 3D 기하학 정보를 주어도 익숙한 2D 외형 정보에만 의존하는 경향이 있어 복잡한 공간 추론에 한계가 있었다. 이 논문은 2D 정보를 의도적으로 가리고 기하학 정보를 강제로 사용하게 함으로써 로봇 공학이나 자율 주행에 필수적인 공간 이해력을 획기적으로 개선했다.
핵심 기여
기하학 토큰의 과소 활용 문제 규명
단순한 토큰 주입 방식이 공간 추론 성능 향상에 미미하거나 오히려 방해가 될 수 있음을 입증하고, 모델이 2D 외형 지름길에 의존하는 현상을 발견함.
Geometry-Unleashing Masking (GUM) 제안
학습 중 2D 비전 토큰을 전략적으로 마스킹하여 모델이 정답을 맞히기 위해 기하학적 단서에 의존하도록 강제하는 기법을 도입함.
Geometry-Guided Fusion (GGF) 메커니즘 도입
기하학적 증거가 중요한 영역에서 해당 토큰의 기여도를 적응적으로 증폭하는 게이트 라우팅 메커니즘을 통해 정보 융합 효율을 극대화함.
정적 및 동적 공간 추론 벤치마크 SOTA 달성
VSI-Bench 및 DSR-Bench에서 기존 모델들을 일관되게 능가하며 기하학 정보 활용의 유효성을 검증함.
핵심 아이디어 이해하기
시각 언어 모델(VLM)은 대규모 학습을 통해 이미지 이해력은 높지만, 3D 공간에서의 위치 관계나 움직임을 추론하는 '공간 추론'에는 취약하다. 기존 연구들은 3D 기초 모델에서 추출한 기하학 정보를 추가하는 방식을 썼지만, 모델은 여전히 익숙한 2D 외형 정보(Appearance)만 보고 답을 찾는 '지름길(Shortcut)'에 의존하여 추가된 정보를 무시하는 경향이 있다.
GeoSR은 이 문제를 해결하기 위해 '정보의 차단'이라는 역발상을 적용한다. 학습 시 2D 시각 정보의 일부를 마스킹하여 모델이 정답을 맞히기 위해 어쩔 수 없이 추가된 기하학 토큰을 들여다보게 만든다. 이는 Attention 메커니즘이 특정 토큰에만 쏠리는 현상을 방지하고 기하학적 특징을 임베딩 공간에서 더 깊게 학습하도록 유도한다.
또한, 모든 영역에 기하학 정보를 동일하게 섞는 대신, 게이트(Gate) 구조를 통해 기하학적 증거가 정말 필요한 곳에만 정보를 집중시킨다. 결과적으로 모델은 2D 외형과 3D 기하학 정보를 조화롭게 사용하여 복잡한 시점 변화나 객체 이동 상황에서도 정확한 판단을 내릴 수 있게 된다.
방법론
GeoSR은 기존 VLM 백본에 3D 기초 모델(VGGT, π³)을 결합한 구조를 가진다. 입력 영상에서 2D 비전 토큰과 3D 기하학 토큰을 각각 추출한 뒤, 이를 융합 모듈을 통해 결합하여 VLM의 입력으로 사용한다.
Geometry-Unleashing Masking (GUM)은 학습 단계에서 2D 비전 토큰 F_V에 이진 마스크 m을 적용한다 [비전 토큰 → 원소별 곱셈 → 마스킹된 토큰 의미]. 정적 장면에서는 무작위 마스킹을, 동적 장면에서는 질문과 관련된 기하학적 중요도가 높은 영역을 TopK 방식으로 선택해 마스킹함으로써 모델이 기하학 정보를 능동적으로 찾게 한다.
Geometry-Guided Fusion (GGF)은 학습된 게이트 α를 사용하여 두 스트림을 융합한다 [시각 및 기하 특징 → 게이트 연산 → 융합된 특징 의미]. 여기서 α는 시각 정보와 기하학 정보를 결합한 뒤 Sigmoid 함수를 거쳐 생성된 토큰별/채널별 가중치로, 기하학적 증거가 유용한 위치에서 기하학 특징이 지배적이 되도록 조절한다.
주요 결과
정적 공간 추론 벤치마크인 VSI-Bench에서 GeoSR은 평균 51.9%의 정확도를 기록하며 GPT-4o(47.8%) 및 기존 모델인 VG-LLM(50.7%)을 능가했다. 특히 객체 크기 및 방 크기 추정 등 수치적 질문에서 강점을 보였다.
동적 공간 추론 벤치마크인 DSR-Bench에서는 평균 66.1%를 달성하여 GSM(58.9%) 대비 큰 폭의 성능 향상을 이루었다. 이는 움직임이 포함된 복잡한 비디오 환경에서 기하학적 단서가 효과적으로 활용되었음을 의미한다.
Ablation Study 결과, 마스킹(GUM)과 적응형 융합(GGF)을 모두 제거했을 때 성능이 66.1%에서 64.0%로 하락하는 것을 확인하여 각 구성 요소가 기하학 정보를 실질적인 증거로 변환하는 데 필수적임을 입증했다.
기술 상세
GeoSR은 Qwen2.5-VL-7B를 백본으로 사용하며, 정적 장면에는 VGGT를, 동적 장면에는 π³ 모델을 기하학 토크나이저로 채택했다. 모든 토크나이저는 Frozen 상태로 유지하며 융합 모듈과 VLM 백본만 미세 조정한다.
GUM의 동적 마스킹 전략은 QFormer의 Attention 가중치를 활용한다. 텍스트 쿼리와 기하학 토큰 간의 교차 어텐션 점수를 계산하여 질문과 가장 관련이 깊은 기하학적 영역을 식별하고, 해당 위치의 2D 비전 토큰을 마스킹한다.
GGF의 게이트 α는 입력 토큰 V와 G를 채널 방향으로 결합한 뒤 레이어 정규화(LN)와 선형 변환을 거쳐 계산된다. 이는 공간적 해상도를 유지하면서 각 토큰의 채널별로 기하학 정보의 주입량을 미세하게 조정할 수 있게 한다.
학습 시 마스킹 확률 β=0.5, 마스킹 비율 γ=0.8을 설정하여 모델의 안정성과 기하학 의존성 사이의 균형을 맞추었다. 추론 시에는 마스킹을 해제하고 전체 비전 토큰을 사용한다.
한계점
현재 데이터셋의 품질 한계로 인해 일부 질문 공식이 기하학적으로 모호하거나 주석이 실제 시각적 증거와 완벽하게 일치하지 않는 경우가 존재한다.
실무 활용
3D 공간 이해가 필요한 로봇 제어, 자율 주행 시스템의 시각 지능 고도화에 직접 활용 가능하다.
- 자율 주행 차량의 주변 객체 거리 및 속도 변화 추론
- 로봇의 실내 환경 내 경로 계획 및 객체 위치 파악
- 비디오 보안 시스템에서의 객체 간 3D 관계 변화 감지
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.