왜 중요한가
기존 시각-언어 모델은 이미지의 의미는 잘 파악하지만 물체 간의 거리나 깊이 같은 공간 정보를 이해하는 데 한계가 있었다. 이 논문은 모델이 답변을 내놓기 전에 스스로 이미지의 2D 영역을 나누고 3D 깊이를 계산하는 '공간적 사고 과정'을 거치게 하여, 복잡한 공간 추론 능력을 획기적으로 개선했다.
핵심 기여
명시적 공간 지각 토큰 생성 도입
2D 세그멘테이션과 3D 깊이 정보를 텍스트 시퀀스 내에 토큰 형태로 직접 생성하여 모델이 기하학적 구조를 명시적으로 파악하도록 유도함.
새로운 깊이 토큰 손실 함수 및 소프트 머징 기법
깊이 토큰의 생성 위치와 개수를 안정화하는 복합 손실 함수(marker, token, count)와 미분 가능한 재구성을 위한 소프트 머징 기술을 도입함.
지각 강화 멀티태스크 공동 학습 전략
56,000개의 정교한 데이터셋을 구축하여 세그멘테이션, 깊이 추정, 텍스트 답변을 동시에 학습하는 멀티태스크 파이프라인을 구축함.
핵심 아이디어 이해하기
기존 LVLM은 이미지를 고정된 벡터(Embedding)로 변환하여 텍스트와 연결하지만, 이 과정에서 픽셀 단위의 세밀한 위치 정보나 3D 깊이 정보가 손실되는 경우가 많다. Transformer 기반의 모델은 의미론적 이해에는 강하지만, '어떤 물체가 더 가까이 있는가'와 같은 기하학적 질문에는 무작위 추측에 가까운 성능을 보였다.
Perceptio는 모델이 최종 답변을 생성하기 전에 중간 단계로 [seg] 토큰과 [depth] 토큰을 먼저 출력하도록 강제한다. 이는 마치 사람이 문제를 풀 때 그림 위에 보조선을 긋는 것과 유사한 '공간적 사고의 사슬(Spatial Chain-of-Thought)' 역할을 한다. VQ-VAE를 통해 연속적인 깊이 정보를 이산적인 토큰으로 압축하여 언어 모델이 텍스트처럼 처리할 수 있게 만든 것이 핵심이다.
이 방식을 통해 모델은 단순히 텍스트를 생성하는 것을 넘어, 스스로 생성한 공간 정보를 바탕으로 추론을 수행한다. 결과적으로 별도의 외부 모델 없이도 단일 모델 내에서 2D 영역 분할과 3D 깊이 인식을 통합하여 더 정확한 시각적 답변을 제공할 수 있게 되었다.
방법론
전체 아키텍처는 InternVL-2.5를 기반으로 하며, SAM 2 인코더와 VQ-VAE 깊이 코드북을 통합한 구조이다. 입력 이미지는 표준 이미지 인코더, SAM 인코더, 깊이 인코더 세 가지 경로를 통해 처리되어 LLM의 입력으로 들어간다.
깊이 정보 처리를 위해 Depth Anything V2 모델로부터 지식을 증류하여 VQ-VAE 코드북을 학습한다. 연속적인 깊이 맵 값을 입력으로 받아 미리 정의된 K개의 대표 벡터(Codebook) 중 가장 가까운 인덱스를 선택하는 연산을 수행한다. 이를 통해 고해상도 깊이 정보를 소수의 정수 시퀀스로 변환하며, 이 숫자는 LLM이 텍스트 토큰처럼 처리할 수 있는 공간적 위치 정보를 의미한다.
학습 시에는 LLM 손실, 세그멘테이션 재구성 손실, 깊이 토큰 생성 손실, 깊이 재구성 손실을 합산한 복합 손실 함수를 사용한다. 특히 깊이 토큰 생성 손실은 토큰의 시작/끝 위치를 맞추는 Marker Loss, 값의 정확도를 높이는 Token Loss, 생성되는 토큰 개수를 조절하는 Count Loss로 구성되어 안정적인 토큰 생성을 보장한다.
깊이 재구성을 위해 소프트 머징(Soft-merging) 기법을 도입했다. 모델이 예측한 각 코드북 인덱스에 대한 확률 분포를 입력으로 하여 각 임베딩 벡터와 가중합을 구하는 연산을 수행한다. 이를 통해 이산적인 토큰을 연속적인 임베딩 공간으로 투영한 결과값을 얻으며, 이는 깊이 재구성 오차가 모델 전체로 역전파되어 학습될 수 있게 하는 매개체 역할을 한다.
주요 결과
RefCOCO, RefCOCO+, RefCOCOg 등 주요 참조 표현 세그멘테이션 벤치마크에서 기존 SOTA 모델인 Sa2VA-8B 대비 각각 +1.1, +1.7, +1.3 cIoU 향상을 기록하며 최고 성능을 달성했다.
3D 공간 이해도를 측정하는 HardBLINK 벤치마크에서 평균 정확도 71.0%를 기록하여, LLaVA-Aurora(60.7%)나 InternVL2.5-26B(33.1%)를 크게 상회하는 성능을 보였다.
일반적인 시각 질의응답 성능을 평가하는 MMBench에서도 83.4%의 정확도를 기록하여, 공간 지각 능력이 강화됨과 동시에 범용적인 멀티모달 이해 능력도 향상됨을 입증했다.
실무 활용
단일 모델로 2D 세그멘테이션과 3D 깊이 추론이 가능하므로, 로봇 제어나 자율 주행 보조 시스템 등 정밀한 공간 파악이 필요한 분야에 활용 가능하다.
- 로봇 팔의 물체 조작을 위한 정밀 거리 측정 및 영역 파악
- 자율 주행 시스템의 주변 장애물 깊이 인식 및 객체 분할
- 시각 장애인을 위한 주변 환경의 입체적 구조 설명 서비스
- 이미지 편집 도구에서 객체별 깊이 기반 레이어 분리
기술 상세
Perceptio는 자동 회귀 시퀀스 내에 [seg] 토큰과 [depth] 토큰을 삽입하여 공간적 정보를 명시화한다. 출력 형식은 [seg tokens], [depth tokens], [text tokens] 순서로 고정되어, 지각 결과가 텍스트 생성의 조건(Prior)으로 작용하도록 설계되었다.
2D 세그멘테이션은 SAM 2 디코더를 활용하며, LLM이 출력한 [seg] 토큰의 임베딩이 디코더의 쿼리로 입력되어 마스크를 생성한다. 이 과정에서 픽셀 단위의 Cross-entropy와 DICE Loss를 결합하여 정밀도를 높였다.
훈련 데이터는 LLaVA-1.5 인스트럭션 데이터와 자체 큐레이션한 56K 규모의 지각 강화 데이터셋을 혼합하여 사용했다. LoRA(Rank=256)를 적용하여 효율적인 파인튜닝을 수행했으며, 64개의 NVIDIA A100 GPU에서 약 24시간 동안 학습되었다.
추론 시에는 추가적인 지각 토큰 생성에도 불구하고 Sa2VA-8B와 유사한 수준의 낮은 오버헤드를 유지한다. 텍스트 답변 생성 전에 공간 정보를 먼저 출력함으로써 모델이 장면의 기하학적 구조를 내면화하도록 유도하는 구조적 특징을 가진다.
한계점
깊이 토큰 생성이 텍스트 전용 작업과 약간의 최적화 충돌을 일으켜 일반 VQA 지표가 미세하게 변동할 수 있다. 또한 현재는 정적 이미지에 국한되어 있어 비디오 데이터로의 확장이 과제로 남아 있으며, 동결된 교사 모델(SAM 2, Depth Anything V2)의 오류가 학생 모델로 전이될 가능성이 존재한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.