Spatial-TTT: 테스트 타임 트레이닝을 활용한 스트리밍 시각 기반 공간 지능

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 멀티모달 모델이 긴 영상에서 공간 정보를 기억하고 추론할 때 겪는 연산량 급증과 기억력 한계를 실시간 가중치 업데이트 방식으로 해결했다. 이 연구는 로봇이나 자율주행 시스템이 끊임없이 변화하는 환경을 실시간으로 이해하고 복잡한 3D 공간 작업을 수행할 수 있는 실질적인 기술적 토대를 제공한다.

왜 중요한가

핵심 기여

Spatial-TTT 프레임워크

테스트 타임 트레이닝(TTT)을 적용하여 스트리밍 비디오 입력으로부터 공간 정보를 실시간으로 축적하고 업데이트하는 적응형 메모리 시스템을 구축했다.

하이브리드 TTT 아키텍처

TTT 레이어와 표준 Self-Attention 레이어를 3:1 비율로 교차 배치하여, 효율적인 긴 문맥 압축과 기존 모델의 강력한 시맨틱 추론 능력을 동시에 확보했다.

공간 예측 메커니즘

TTT 브랜치에 3D 시공간 컨볼루션을 도입하여 프레임 간의 기하학적 대응 관계와 시간적 연속성을 캡처하고 온라인 업데이트의 안정성을 향상시켰다.

고밀도 장면 설명 데이터셋

모델이 전역적인 3D 공간 신호를 구조화된 방식으로 기억하고 조직화할 수 있도록 돕는 상세한 3D 공간 설명 데이터셋을 구축하여 학습에 활용했다.

핵심 아이디어 이해하기

Transformer의 Attention 메커니즘은 영상이 길어질수록 모든 프레임 간의 관계를 계산해야 하므로 연산 비용이 시퀀스 길이의 제곱으로 증가하는 한계가 있다. Spatial-TTT는 이를 해결하기 위해 추론 시점에 입력 데이터에 맞춰 실시간으로 갱신되는 'Fast Weights'를 도입한다. 이는 새로운 영상 프레임이 들어올 때마다 Gradient Descent를 통해 해당 공간의 특징을 모델 가중치에 직접 인코딩하는 방식이다. 결과적으로 모델은 거대한 Attention Map을 유지할 필요 없이, 압축된 가중치 안에 전체 공간 구조를 저장하고 필요할 때 즉시 꺼내어 복잡한 공간 추론을 수행할 수 있게 된다. 여기에 3D Spatiotemporal Convolution을 결합하여 인접한 픽셀과 프레임 간의 기하학적 관계를 명시적으로 학습함으로써 더욱 정교한 3D 공간 지능을 구현한다.

방법론

전체 구조는 TTT 레이어와 표준 Self-Attention 레이어를 인터리빙한 하이브리드 설계를 채택한다. TTT 레이어는 긴 문맥을 Fast Weights로 압축하고, Self-Attention 레이어는 기존 MLLM의 시맨틱 추론 능력을 유지하는 앵커 역할을 수행한다. TTT 레이어 내부에서는 Sliding Window Attention(SWA)과 TTT 브랜치가 병렬로 작동하며 쿼리, 키, 값 투영을 공유한다. TTT 브랜치는 입력 토큰 x_t에서 유도된 Key k_t와 Value v_t 쌍이 주어질 때, 현재 가중치 W_{t-1}을 이용해 예측값 f_{W_{t-1}}(k_t)를 계산하고 실제 v_t와의 차이에 대한 Gradient를 구한다. 이 Gradient에 학습률을 곱해 기존 가중치에서 빼줌으로써 W_t를 갱신하며, 이후 Query q_t를 입력해 이전의 모든 정보를 반영한 출력을 얻는다. 공간적 인덕티브 바이어스를 주입하기 위해 3D Spatiotemporal Convolution을 적용하며, 3x3x3 커널을 사용하여 국부적인 이웃 정보를 집계함으로써 모델이 시공간적 맥락 간의 예측 매핑을 학습하도록 유도한다.

주요 결과

VSI-Bench 평가 결과, Spatial-TTT-2B 모델은 평균 64.4점을 기록하며 GPT-5(예측치) 및 Gemini-3-pro 등 상용 모델과 대등하거나 능가하는 성능을 보였다. 특히 상대적 방향성(Relative Direction)과 경로 계획(Route Plan) 등 정밀한 기하학적 이해가 필요한 작업에서 강점을 나타냈다. MindCube-Tiny 벤치마크에서는 76.2 ACC를 달성하여 기존 SOTA 모델인 MindCube-3B(51.7%) 대비 24.5%p 이상의 압도적인 성능 향상을 입증했다. 효율성 측면에서 1024 프레임 처리 시 Qwen3-VL-2B 대비 TFLOPs와 메모리 사용량을 40% 이상 절감했으며, 영상 길이가 길어질수록 기존 Transformer 기반 모델과의 효율성 격차가 더욱 벌어짐을 확인했다.

기술 상세

아키텍처는 Qwen3-VL-2B-Instruct를 백본으로 하며, 4개의 Attention 레이어 중 3개를 TTT 레이어로 교체한 3:1 하이브리드 구조를 가진다. TTT 레이어는 Fast Weights를 업데이트하는 브랜치와 로컬 컨텍스트를 처리하는 SWA 브랜치의 합으로 최종 출력을 생성한다. Fast Weights 네트워크 f_W는 비선형성을 높이기 위해 편향이 없는 SwiGLU-MLP 구조를 사용하며, 업데이트 시에는 일반적인 SGD 대신 Muon 옵티마이저를 사용하여 가중치를 직교화함으로써 온라인 업데이트의 안정성과 효율성을 극대화한다. 학습은 2단계 공간 인식 점진적 전략을 따른다. 1단계에서는 16K 규모의 고밀도 장면 설명 데이터셋으로 전역적 3D 인식을 학습시키며, 이때 Sliding Window 크기를 점진적으로 줄이는 Annealing 기법을 적용해 TTT 레이어가 긴 문맥 처리를 전담하도록 유도한다. 2단계에서는 3M 규모의 대규모 공간 VQA 데이터로 미세 조정을 수행하여 실질적인 공간 추론 능력을 완성한다.

실무 활용

실시간 영상 스트림을 처리해야 하는 로봇 제어, 자율주행, 보안 시스템에 즉시 적용 가능하다. 긴 시간 동안 수집된 시각 정보를 효율적으로 압축하여 저장하므로 메모리 제약이 있는 엣지 디바이스에서도 고성능 공간 추론이 가능하다.

실내 서비스 로봇의 복잡한 경로 탐색 및 장애물 회피
자율주행 차량의 장기적인 주변 환경 맵핑 및 객체 추적
AR/VR 기기에서의 실시간 공간 재구성 및 상호작용
보안 카메라 영상 기반의 장시간 객체 카운팅 및 행동 분석

코드 공개 여부: 공개

코드 저장소 보기

키워드

TTT(테스트 타임 트레이닝)Spatial Intelligence(공간 지능)Fast Weights(빠른 가중치)3D Spatiotemporal Convolution(3D 시공간 컨볼루션)MLLM(멀티모달 대형 언어 모델)