핵심 요약
3D 환경 이해를 위해 여러 각도에서 촬영된 다중 뷰 이미지를 사용하면 데이터량이 너무 많아져 AI의 추론 속도가 급격히 느려진다. 이 논문은 중요한 물체 정보는 남기고 공간적으로는 골고루 샘플링하는 기술을 통해 데이터량을 10분의 1로 줄이면서도 답변 속도를 7배 이상 높였다.
왜 중요한가
3D 환경 이해를 위해 여러 각도에서 촬영된 다중 뷰 이미지를 사용하면 데이터량이 너무 많아져 AI의 추론 속도가 급격히 느려진다. 이 논문은 중요한 물체 정보는 남기고 공간적으로는 골고루 샘플링하는 기술을 통해 데이터량을 10분의 1로 줄이면서도 답변 속도를 7배 이상 높였다.
핵심 기여
SeGPruner 프레임워크
다중 뷰 이미지에서 발생하는 시각적 중복성을 제거하기 위해 의미론적 중요도와 3D 기하학적 거리를 결합한 새로운 토큰 감축 프레임워크를 제안함.
Saliency-aware Token Selector (STS)
Attention Mechanism의 점수를 활용하여 물체 인식과 질의응답에 결정적인 핵심 시각 토큰을 우선적으로 식별하고 보존함.
Geometry-aware Token Diversifier (GTD)
시각 토큰을 3D 공간으로 역투영하여 공간적으로 겹치지 않고 다양한 영역의 정보를 수집함으로써 장면 전체의 이해도를 유지함.
추론 효율성 및 성능 입증
ScanQA 벤치마크에서 시각 토큰 예산을 91% 줄이면서도 추론 지연 시간을 86% 단축하고 베이스라인 모델보다 높은 정확도를 기록함.
핵심 아이디어 이해하기
기존 VLM은 다중 뷰 이미지를 처리할 때 모든 이미지 패치를 토큰화하여 LLM에 입력한다. Transformer의 Self-Attention 연산량은 시퀀스 길이의 제곱에 비례하므로, 중복 정보가 많은 다중 뷰 데이터는 추론 속도를 심각하게 저하시킨다. SeGPruner는 이 문제를 해결하기 위해 '무엇이 중요한가'와 '어디가 비어있는가'를 동시에 고려한다.
먼저 Attention Mechanism에서 높은 점수를 받은 토큰(STS)을 중요한 물체로 간주해 보존한다. 하지만 중요도만 따지면 특정 물체에만 토큰이 쏠려 전체 장면의 구조를 놓칠 수 있다. 이를 방지하기 위해 남은 토큰들을 3D 좌표계로 옮긴 뒤, 이미 선택된 토큰들과 물리적 거리 및 의미론적 유사도가 가장 먼 토큰들(GTD)을 추가로 선택해 공간적 다양성을 확보한다.
결과적으로 핵심 물체에 대한 세밀한 정보와 전체 공간에 대한 포괄적인 시야를 동시에 갖추게 된다. 이는 단순히 2D 이미지 상에서 토큰을 줄이는 방식보다 3D 공간 이해도가 훨씬 높으며, 매우 적은 수의 토큰만으로도 전체 장면을 효과적으로 재구성하여 답변의 정확도를 유지하게 한다.
방법론
3D-Aware Feature Construction 단계에서는 각 뷰의 2D 이미지 패치를 깊이 맵과 카메라 파라미터를 이용해 3D 좌표로 역투영한다. [2D 패치 좌표와 깊이 값 입력 → 카메라 행렬 연산 → 3D 세계 좌표 출력] 과정을 통해 모든 뷰의 토큰을 단일한 3D 공간 내에 배치하여 공간적 관계를 직접 비교할 수 있게 한다.
Saliency-aware Token Selection (STS)은 시각 인코더의 마지막 블록에서 계산된 Self-Attention 행렬을 사용한다. [Attention 행렬의 열 방향 평균 계산 → 각 토큰이 받는 평균 어텐션 양 산출 → 중요도 점수 결정] 과정을 거쳐, 상위 점수를 가진 토큰들을 핵심 물체 정보로 보존한다.
Geometry-aware Token Diversifier (GTD)는 Farthest Point Sampling 원리를 확장 적용한다. [두 토큰 사이의 유클리드 거리와 코사인 유사도 입력 → 가중치를 적용한 통합 거리 계산 → 기존 선택 집합과 가장 먼 토큰 선택] 과정을 반복하여, 의미적으로나 공간적으로 중복되지 않는 다양한 토큰을 수집한다.
주요 결과
ScanQA 벤치마크에서 SeGPruner는 원래 토큰의 23%만 사용하고도 전체 토큰을 사용한 베이스라인(LLaVA-OV-7B, 27.6 EM@1)보다 높은 28.0 EM@1을 기록했다. 토큰을 9%까지 극단적으로 줄였을 때도 26.3 EM@1을 유지하며 타 모델 대비 압도적인 효율성을 보였다.
OpenEQA 벤치마크에서도 LLaVA-OV-7B 기반 SeGPruner는 56.2 LLM-Match 점수를 획득하여 GPT-4V(50 frames, 55.3)나 MovieChat(54.9) 같은 강력한 모델들을 능가하는 성능을 입증했다.
추론 속도 측면에서 VisPruner 대비 약 39%의 추가적인 지연 시간 단축을 달성했다. 9% 토큰 유지 시 예제당 지연 시간은 0.63초로 나타났으며, 이는 원본 모델 대비 약 7배 빠른 속도임이 확인됐다.
기술 상세
SeGPruner는 시각 인코더와 LLM 사이에 삽입되는 플러그인 형태의 모듈로, 모델 재학습 없이 추론 시에만 작동하는 Training-free 방식이다. 2D 도메인에 국한되었던 기존 토큰 프루닝 기법을 깊이 정보를 활용한 3D 기하학적 매핑으로 확장하여 뷰 간 중복(Multi-view redundancy)을 명시적으로 해결한다.
STS 모듈은 물체 중심의 추론을 위해 높은 어텐션을 받는 영역을 보존하며, GTD 모듈은 장면 전체의 컨텍스트를 유지하기 위해 공간적 다양성을 보장한다. GTD에서 사용되는 통합 거리 함수는 기하학적 거리와 시맨틱 유사도를 선형 결합하여, 물리적으로 멀리 떨어져 있거나 시각적 내용이 다른 토큰을 우선적으로 선택하도록 설계되었다. 이러한 이중 선택 전략이 공격적인 토큰 감축 상황에서도 성능 저하를 막는 핵심 기제다.
한계점
이 방법론은 데이터셋에서 제공하는 깊이 맵(Depth map)의 정확도에 의존한다. 실제 환경에서 깊이 추정 오류가 발생할 경우 3D 좌표 변환의 정확도가 떨어져 성능에 영향을 줄 수 있다.
실무 활용
로봇 청소기나 자율 주행 드론처럼 연산 자원이 제한된 임베디드 환경에서 다중 카메라 정보를 실시간으로 처리해야 하는 3D QA 시스템에 즉시 적용 가능하다.
- 모바일 로봇의 실시간 실내 환경 이해 및 질의응답 시스템
- 제한된 대역폭을 가진 원격 감시 시스템의 효율적 시각 데이터 전송 및 분석
- 저사양 하드웨어에서의 고성능 VLM 추론 가속화 솔루션
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.