핵심 요약
현대의 시각 에이전트(visual agents)가 실시간 스트리밍 환경에서 작동하기 위해서는 일반적이고, 인과적이며, 물리적으로 구조화된 표현(representations)이 필요합니다. 그러나 현재의 비전 기반 모델(vision foundation models)은 이미지 의미론적 인지(semantic perception), 오프라인 시계열 모델링(temporal modeling), 또는 공간 기하학(spatial geometry) 중 하나에만 좁게 특화되어 파편화된 상태로 남아 있습니다. 본 논문은 다양한 시각적 입력으로부터 효과적으로 인지하고, 재구성하며, 행동하는 통합 스트리밍 비전 백본(streaming visual backbone)인 OmniStream을 소개합니다. 인과적 시공간 어텐션(causal spatiotemporal attention)과 3D 회전 위치 임베딩(3D rotary positional embeddings, 3D-RoPE)을 통합함으로써, 우리 모델은 지속적인 KV-캐시(persistent KV-cache)를 통해 비디오 스트림의 효율적인 프레임별 온라인 처리를 지원합니다. 우리는 정적 및 시계열 표현 학습, 스트리밍 기하학적 재구성(geometric reconstruction), 그리고 시각-언어 정렬(vision-language alignment)을 결합한 시너지 효과를 내는 멀티태스크 프레임워크를 사용하여 29개의 데이터셋에서 OmniStream을 사전 학습시켰습니다. 광범위한 평가 결과, OmniStream은 백본을 엄격하게 고정한 상태에서도 이미지 및 비디오 프로빙(probing), 스트리밍 기하학적 재구성, 복잡한 비디오 및 공간 추론뿐만 아니라 학습 시 보지 못한 로봇 조작(robotic manipulation) 분야에서 전문 모델들과 대등한 경쟁력 있는 성능을 달성했습니다. 특정 벤치마크의 우위를 추구하기보다, 본 연구는 의미론적, 공간적, 시계열적 추론 전반에 걸쳐 일반화되는 단일하고 다재다능한 비전 백본을 학습시키는 것의 타당성을 입증하며, 이는 상호작용 및 체화된 에이전트(embodied agents)를 위한 범용 시각 이해를 향한 의미 있는 진전입니다.
핵심 기여
통합 스트리밍 비전 백본 아키텍처
인지, 3D 재구성, 행동 제어를 단일 모델에서 수행할 수 있는 범용 비전 백본인 OmniStream을 제안하여 기존의 파편화된 모델 구조를 통합했다.
효율적인 온라인 처리를 위한 인과적 메커니즘
인과적 시공간 어텐션과 지속적인 KV-캐시를 도입하여 비디오 스트림을 프레임 단위로 실시간 처리할 수 있는 구조를 구현했다.
3D 회전 위치 임베딩(3D-RoPE) 도입
시공간적 맥락을 정확하게 파악하기 위해 3D-RoPE를 적용하여 공간적 기하학과 시간적 연속성을 동시에 학습할 수 있도록 설계했다.
대규모 멀티태스크 사전 학습 프레임워크
29개의 다양한 데이터셋을 활용하여 의미론적 인지, 기하학적 재구성, 시각-언어 정렬을 동시에 학습하는 시너지 프레임워크를 구축했다.
방법론
OmniStream은 인과적 시공간 어텐션(Causal Spatiotemporal Attention)과 3D 회전 위치 임베딩(3D-RoPE)을 핵심 구조로 채택하여 비디오 스트림의 인과성을 유지합니다. 지속적인 KV-캐시(Persistent KV-cache) 메커니즘을 통해 이전 프레임의 정보를 효율적으로 유지하며 프레임별 실시간 추론을 가능하게 합니다.
주요 결과
OmniStream은 백본을 동결(Frozen)한 상태에서도 이미지 및 비디오 프로빙, 기하학적 재구성에서 전문 모델 수준의 성능을 기록했다. 특히 학습 데이터에 포함되지 않은 로봇 조작(Robotic Manipulation) 작업에서도 뛰어난 일반화 능력을 입증하며 범용 비전 백본으로서의 가능성을 확인했다.
시사점
이 연구는 실시간 스트리밍 환경에서 작동해야 하는 자율 주행이나 로봇 에이전트 개발에 중요한 이정표를 제시합니다. 단일 백본으로 시각 인지와 물리적 재구성을 동시에 처리할 수 있어 시스템 복잡도를 낮추고 실시간 반응성을 높이는 데 기여할 것으로 기대됩니다.
키워드
섹션별 상세
통합 스트리밍 비전 백본 아키텍처
효율적인 온라인 처리를 위한 인과적 메커니즘
3D 회전 위치 임베딩(3D-RoPE) 도입
대규모 멀티태스크 사전 학습 프레임워크
AI 요약 · 북마크 · 개인 피드 설정 — 무료