핵심 요약
3D 환경을 이해하기 위해 여러 각도에서 찍은 사진을 모두 입력하면 데이터가 너무 많아져 AI가 매우 느려진다. 이 논문은 중요한 물체는 남기고 공간적으로 겹치는 부분은 제거하는 스마트한 압축 기술을 통해 정확도는 유지하면서 추론 속도를 86% 단축하는 성과를 거두었다.
왜 중요한가
3D 환경을 이해하기 위해 여러 각도에서 찍은 사진을 모두 입력하면 데이터가 너무 많아져 AI가 매우 느려진다. 이 논문은 중요한 물체는 남기고 공간적으로 겹치는 부분은 제거하는 스마트한 압축 기술을 통해 정확도는 유지하면서 추론 속도를 86% 단축하는 성과를 거두었다.
핵심 기여
SeGPruner 프레임워크 제안
멀티뷰 이미지의 시각적 중복성을 제거하기 위해 시맨틱 중요도와 3D 기하학적 정보를 결합한 새로운 토큰 감축 프레임워크를 개발했다.
Saliency-aware Token Selector 개발
Attention 점수를 기반으로 질문 답변에 핵심적인 주요 객체 관련 토큰을 우선적으로 식별하고 보존하여 정보 손실을 방지한다.
Geometry-aware Token Diversifier 설계
3D 좌표 공간에서 토큰 간의 거리와 시맨틱 유사도를 동시에 고려하여, 장면 전체를 고르게 포괄하는 다양한 토큰을 선택한다.
추론 효율성 및 성능 입증
ScanQA 벤치마크에서 시각 토큰 예산을 91% 줄이면서도 추론 지연 시간을 86% 단축했으며, 베이스라인 모델보다 높은 정확도를 달성했다.
핵심 아이디어 이해하기
Transformer 기반 시각 언어 모델(VLM)은 이미지 패치를 토큰으로 처리하는데, 3D 장면 이해를 위해 여러 시점의 이미지를 합치면 토큰 수가 수천 개로 늘어나 연산량이 급증한다. 이는 시퀀스 길이의 제곱에 비례하는 Attention 연산 특성상 실시간 추론에 큰 장애가 된다.
SeGPruner는 두 단계의 협력 구조로 이 문제를 해결한다. 먼저 Attention 메커니즘을 활용해 질문과 관련된 핵심 객체 토큰을 골라낸다. 그 다음, 선택되지 않은 나머지 토큰들을 3D 공간으로 투영하여 서로 멀리 떨어져 있거나 시각적 내용이 다른 토큰들을 추가로 샘플링한다. 이는 주요 객체에 대한 집중력과 장면 전체에 대한 시야를 동시에 확보하는 원리이다.
결과적으로 3D 구조를 이해한 상태에서 꼭 필요한 정보만 선별하여 LLM에 전달하므로, 훨씬 적은 자원을 사용하면서도 배경 노이즈가 제거되어 오히려 더 정확한 3D 추론이 가능해진다.
방법론
멀티뷰 이미지와 깊이 지도(Depth map)를 사용하여 2D 토큰을 통합된 3D 좌표계로 투영한다. 각 패치 i의 3D 위치 c_i는 역투영 연산 Π를 통해 계산되며, 이를 통해 서로 다른 시점에서 찍힌 토큰들을 동일한 공간 좌표계에서 비교할 수 있는 기반을 마련한다.
시각 인코더의 마지막 블록에서 추출한 Self-Attention 행렬 A를 활용해 토큰 중요도를 평가한다. 각 토큰 j가 다른 모든 토큰으로부터 받는 평균 Attention 값 s_j = 1/N * Σ A_ij를 계산한다. [입력: Attention 행렬 → 연산: 열 방향 평균 계산 → 결과: 중요도 점수 → 의미: 해당 토큰이 전체 시각 정보에서 차지하는 비중] 이 점수가 높은 상위 k개의 토큰을 '중요 토큰'으로 우선 선택한다.
Farthest Point Sampling(FPS) 기법을 확장하여 공간적 다양성을 확보한다. 선택되지 않은 토큰 r과 이미 선택된 세트 D 사이의 거리를 d_rj_geo = λ * (d_rj / d_x) + (1 - λ) * (1 - s_rj) 공식을 통해 계산한다. [입력: 3D 거리 d_rj와 시맨틱 유사도 s_rj → 연산: 정규화된 거리와 유사도 역수를 가중치 λ로 합산 → 결과: 융합 거리 점수 → 의미: 값이 클수록 기존 선택된 토큰들과 공간적으로 멀고 내용도 중복되지 않음] 이 점수가 가장 큰 토큰을 반복적으로 추가하여 장면 전체의 커버리지를 높인다.
주요 결과
ScanQA 벤치마크에서 LLaVA-OV-7B 모델을 기반으로 실험한 결과, 전체 토큰의 23%만 사용하고도 전체 토큰을 사용한 베이스라인(27.6 EM@1)보다 높은 28.0 EM@1을 기록했다. 이는 불필요한 배경 토큰을 제거하는 것이 추론 정확도 향상에 기여함을 보여준다.
OpenEQA 벤치마크에서도 8%의 극단적인 토큰 유지율로 49.9 LLM-Match 점수를 기록하며, 기존 2D 기반 프루닝 방식인 VisPruner(47.3)보다 우수한 견고함을 입증했다. 특히 3D 공간 정보를 활용함으로써 시점 간 중복을 효과적으로 제거했다.
효율성 측면에서 토큰 예산을 91% 줄였을 때 추론 지연 시간은 예제당 4.39초에서 0.63초로 약 86% 감소했다. 이는 제한된 컴퓨팅 자원을 가진 로봇이나 임베디드 환경에서 실시간 3D QA를 수행할 수 있는 수준의 성능이다.
기술 상세
SeGPruner는 별도의 추가 학습이 필요 없는(Training-free) 플러그앤플레이 모듈로 설계되었다. 시각 인코더와 대규모 언어 모델(LLM) 사이에 삽입되어 추론 단계에서만 동작하므로, 기존에 학습된 다양한 VLM 아키텍처에 즉시 통합될 수 있다.
기존의 2D 토큰 프루닝 기법들이 이미지 평면상의 정보만 활용하여 시점 간 중복(Cross-view redundancy)을 해결하지 못했던 한계를 3D 좌표계 투영을 통해 극복했다. 카메라 파라미터와 깊이 정보를 활용해 모든 시점의 토큰을 단일 3D 공간에 배치함으로써 물리적으로 동일한 위치의 중복 정보를 명확히 식별한다.
Saliency 선택과 Diversity 선택의 비율을 조절하는 하이퍼파라미터 r을 도입하여, 특정 객체에 집중해야 하는 질문과 장면 전체의 구조를 파악해야 하는 질문 사이의 균형을 유연하게 조절할 수 있도록 설계되었다. 구현 시 SigLIP 시각 인코더와 LLaVA-OneVision 모델을 사용하여 범용성을 확인했다.
한계점
토큰 유지율을 9% 미만으로 극단적으로 낮출 경우 성능 저하가 관찰되며, 정확한 토큰 배치를 위해 데이터셋에서 제공하는 깊이 지도(Depth map)의 품질에 의존한다는 제약이 있다.
실무 활용
로봇이나 자율주행 기기처럼 실시간성이 중요하고 연산 자원이 제한된 환경에서 3D 장면을 이해하고 질문에 답하는 시스템에 즉시 적용 가능한 기술이다.
- 실내 서비스 로봇의 물체 위치 파악 및 사용자 안내 시스템
- 자율주행 차량의 다중 카메라 정보를 통합한 주변 상황 판단 및 질의응답
- AR/VR 기기에서 사용자가 보고 있는 3D 환경에 대한 실시간 설명 및 상호작용
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.