왜 중요한가
인간처럼 시선을 옮기며 정보를 수집하는 '능동 시각(Active Vision)'을 파운데이션 모델 규모로 확장한 첫 사례이다. 기존 모델보다 훨씬 적은 연산량으로도 고해상도 장면을 이해하고 정밀한 분할 작업을 수행할 수 있어 로봇이나 자율 주행 등 실시간 처리가 중요한 분야에 적합하다.
핵심 기여
최초의 태스크 및 정책 불가지론적 능동 시각 파운데이션 모델 CanViT 제안
특정 작업이나 시선 이동 정책에 종속되지 않고 범용적으로 사용 가능한 능동 시각 아키텍처와 학습 파이프라인을 구축했다.
비대칭 교차 어텐션 메커니즘인 Canvas Attention 도입
고용량 작업 기억 공간인 Canvas와 가벼운 백본 사이의 효율적인 정보 교환을 위해 캔버스 측의 연산을 최소화한 비대칭 구조를 설계했다.
라벨이 필요 없는 Passive-to-Active Dense Latent Distillation 기법 개발
정적인 이미지에서 학습된 DINOv3의 풍부한 표현을 교사 모델로 삼아, 부분적인 훑어보기(Glimpse) 시퀀스만으로 전체 장면을 재구성하도록 학습시켰다.
핵심 아이디어 이해하기
기존의 Vision Transformer는 이미지 전체를 한 번에 처리하는 수동적 방식이다. 이는 고해상도 이미지에서 연산량이 시퀀스 길이의 제곱(N²)으로 늘어나는 한계가 있다. 인간은 눈을 빠르게 움직이며 중요한 부분만 집중적으로 보고 뇌 속의 작업 기억에 전체 지도를 그리는 방식으로 이를 해결한다.
CanViT는 이 과정을 Backbone과 Canvas라는 두 스트림으로 구현했다. Backbone은 현재 보고 있는 좁은 영역(Glimpse)을 빠르게 처리하고, Canvas는 지금까지 본 모든 정보를 통합하여 전체 장면의 지도를 유지한다. 이 구조는 연산량이 이미지 전체 크기가 아닌 Glimpse 크기에 비례하게 만든다.
이 접근법은 Canvas Attention 기술을 통해 Backbone이 Canvas에서 필요한 맥락을 읽어오거나 새로 본 정보를 기록하게 한다. 캔버스 쪽의 복잡한 연산을 제거하여 수천 개의 토큰을 가진 대형 캔버스도 낮은 지연 시간으로 업데이트할 수 있으며, 이는 고해상도 장면에서도 효율적인 추론을 가능하게 한다.
방법론
CanViT 아키텍처는 Glimpse를 처리하는 ViT Backbone과 장면 전체의 잠재 표현을 담는 Canvas로 구성된다. Canvas는 고정된 격자 구조를 가지며, SR-RoPE(Scene-Relative RoPE)를 통해 백본의 망막 좌표계와 캔버스의 공간 좌표계를 하나의 참조 프레임으로 묶는다.
Canvas Attention은 비대칭 교차 어텐션으로 작동한다. Read 단계에서는 [백본 토큰을 Query로, 캔버스 토큰을 Key/Value로 입력하여] → [Scaled Dot-Product Attention 연산을 수행해] → [백본에 주입할 맥락 벡터를 얻고] → [현재 보고 있는 영역이 전체 장면의 어디에 해당하는지 이해한다]. Write 단계에서는 [캔버스 토큰을 Query로, 백본 토큰을 Key/Value로 입력하여] → [어텐션 연산을 수행해] → [캔버스 상태를 갱신하고] → [새로 관측된 정보를 기억 장치에 저장한다].
학습은 DINOv3 ViT-B를 교사 모델로 사용하는 증류 방식을 취한다. 무작위 위치와 줌 레벨로 추출된 Glimpse 시퀀스를 입력받아, 캔버스에서 재구성된 특징값이 교사 모델의 전체 이미지 특징값과 일치하도록 MSE Loss를 최소화한다. 이 과정에서 모델은 관측되지 않은 영역을 추론하고 전체 구조를 파악하는 능력을 학습한다.
주요 결과
ADE20K 세그멘테이션 벤치마크에서 단 한 번의 저해상도 Glimpse만으로도 38.5% mIoU를 기록했다. 이는 기존 최고 성능의 능동 시각 모델인 AME의 27.6%를 크게 앞지르는 수치이며, 연산량은 15.86 GFLOPs로 교사 모델인 DINOv3보다도 적게 사용했다.
추가적인 Glimpse를 제공할 경우 성능이 지속적으로 향상되어 최대 45.9% mIoU에 도달했다. ImageNet-1K 분류에서도 별도의 파인튜닝 없이 81.2%의 Top-1 정확도를 달성하며 강력한 제로샷 전이 능력을 입증했다.
학습 시 보지 못한 새로운 시선 이동 정책이나 더 긴 시퀀스, 더 큰 장면 해상도(1024px)에서도 성능 저하 없이 일반화되는 특성을 보였다. 특히 CPU 환경에서도 고해상도 처리가 가능할 만큼 실시간 추론 효율성이 높게 나타났다.
실무 활용
고해상도 이미지를 실시간으로 처리해야 하는 로봇 시각이나 자율 주행 시스템에 즉시 적용 가능하다. 특정 작업에 맞춰 다시 학습할 필요 없이 제로샷으로 다양한 시각 작업에 활용할 수 있다.
- 제한된 대역폭의 카메라 센서를 활용한 고해상도 환경 감시 및 보안 시스템
- 로봇 팔의 정밀 조작을 위한 능동적 시각 정보 수집 및 장애물 회피
- 모바일 기기에서의 효율적인 실시간 객체 분할 및 증강 현실(AR) 구현
기술 상세
CanViT는 순환 신경망 구조를 ViT에 결합한 형태로, 매 타임스텝마다 캔버스 상태를 유지하며 업데이트한다. 백본은 16x16 패치 크기를 사용하며, 캔버스는 32x32 또는 64x64 격자로 유연하게 설정 가능하다. 캔버스 측에는 MLP나 Self-Attention을 적용하지 않아 토큰 수 증가에 따른 비용을 선형적으로 제어한다.
SR-RoPE는 장면 중심 좌표를 기준으로 상대적 위치를 인코딩하여, 줌 레벨이 다른 Glimpse들 사이의 공간적 관계를 수학적으로 정의한다. VPE(Viewpoint Encoding)는 (x, y, s) 좌표를 스케일 불변성을 갖도록 변환하여 백본에 주입하며, 이는 정책 학습 시 다음 시선 위치를 결정하는 데 도움을 준다.
Canvas Attention의 비대칭 투영은 캔버스 토큰 수가 많아질 때 발생하는 연산량 폭발을 방지한다. 캔버스 쪽의 QKVO 투영을 생략하고 백본 쪽에서만 선형 변환을 수행함으로써 FLOPs를 7.2배 이상 절감했다. 학습 시에는 Truncated BPTT를 사용해 메모리 효율을 높였다.
한계점
정적인 자연 이미지에서만 학습 및 평가되었으며, 비디오 처리나 실제 로봇 환경에서의 동적 성능은 아직 검증되지 않았다. 또한 학습 과정이 사전 학습된 교사 모델인 DINOv3에 의존한다는 한계가 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.