핵심 요약
기존 비전 모델들이 정적 이미지나 오프라인 영상 처리에 국한되었던 한계를 넘어, 실시간 스트리밍 환경에서 지각과 3D 재구성, 행동 제어를 동시에 수행하는 통합 백본을 제시한다. 특히 모델을 고정한 채로도 전문 모델 수준의 성능을 내어 범용 로봇 및 AR 기기용 시각 엔진으로서의 가능성을 입증했다.
왜 중요한가
기존 비전 모델들이 정적 이미지나 오프라인 영상 처리에 국한되었던 한계를 넘어, 실시간 스트리밍 환경에서 지각과 3D 재구성, 행동 제어를 동시에 수행하는 통합 백본을 제시한다. 특히 모델을 고정한 채로도 전문 모델 수준의 성능을 내어 범용 로봇 및 AR 기기용 시각 엔진으로서의 가능성을 입증했다.
핵심 기여
인과적 시공간 어텐션 및 KV-캐시 메커니즘
과거 프레임에만 의존하는 Causal Spatiotemporal Attention과 지속적인 KV-cache를 도입하여, 매 프레임마다 전체 시퀀스를 재계산하지 않고도 효율적인 실시간 온라인 추론을 구현했다.
3D 회전 위치 임베딩 (3D-RoPE)
기존 2D RoPE를 시공간 영역으로 확장하여 시간, 높이, 너비에 대한 상대적 위치 정보를 인코딩함으로써 긴 스트림에서도 정교한 공간 및 시간적 추론이 가능하도록 설계했다.
통합 멀티태스크 사전 학습 프레임워크
정적/동적 표현 학습, 스트리밍 기하학적 재구성, 시각-언어 정렬이라는 세 가지 상호 보완적인 목표를 결합하여 29개 데이터셋, 약 2억 개의 프레임으로 학습함으로써 범용성을 확보했다.
핵심 아이디어 이해하기
Transformer 아키텍처는 시퀀스 전체를 한 번에 처리하는 데 최적화되어 있어, 실시간으로 들어오는 영상 스트림을 처리할 때 매번 과거 데이터를 다시 계산해야 하는 비효율성이 존재한다. 또한 기존 비전 모델들은 의미 파악(Semantic)이나 기하학적 구조(Geometry) 중 하나에만 특화되어 있어, 로봇처럼 실시간 지각과 물리적 행동이 동시에 필요한 환경에 적용하기 어려웠다. OmniStream은 이를 해결하기 위해 언어 모델의 추론 방식과 유사한 Causal Attention과 KV-cache를 비전 영역에 도입했다. 현재 프레임이 오직 과거 프레임에만 주의를 기울이게 강제하고, 계산된 중간 값들을 캐시에 저장해 재사용함으로써 연산량을 획기적으로 줄였다. 여기에 3D-RoPE를 더해 공간적 위치와 시간적 순서를 하나의 임베딩 체계로 통합하여 물리적 세계에 대한 이해도를 높였다. 결과적으로 이 모델은 백본을 미세 조정하지 않고도 상단에 가벼운 헤드만 붙여 3D 깊이 추정, 영상 질의응답, 로봇 팔 제어 등 상이한 작업들을 동시에 수행할 수 있다. 이는 비전 분야에서도 LLM처럼 하나의 강력한 기반 모델이 다양한 하위 작업을 주도할 수 있음을 보여준다.
방법론
전체 구조는 DINOv3 ViT-L을 기반으로 하며, 실시간 스트리밍을 위해 Causal Temporal Mask를 적용한 Spatiotemporal Self-Attention을 사용한다. [입력 토큰 u와 v의 프레임 인덱스 t(u), t(v)를 비교] → [t(u) < t(v)인 경우 어텐션 가중치를 -inf로 설정] → [미래 프레임 정보를 차단] → [인과 관계가 유지된 시공간 표현 생성]. 3D-RoPE는 d_head 차원을 시간(t), 높이(y), 너비(x)에 대해 2:3:3 비율로 분할하여 할당한다. [각 축의 상대적 거리에 따라 회전 행렬을 적용] → [특징 벡터의 위상을 변화시켜 위치 정보를 주입] → [시공간적 상대 거리가 보존된 임베딩 획득] → [모델이 물리적 거리와 시간 흐름을 동시에 인지]. 학습은 세 가지 손실 함수의 가중 합으로 진행된다. DINOv3 스타일의 증류 손실, 깊이 및 카메라 포즈를 예측하는 기하학적 손실, 그리고 Qwen3-0.6B 디코더를 활용한 시각-언어 정렬 손실을 동시에 최적화하여 의미론적 이해와 물리적 구조 파악 능력을 동시에 학습시킨다.
주요 결과
이미지 벤치마크에서 ImageNet 84.7%, NYUv2 깊이 추정 0.377 RMSE를 기록하며 DINOv3와 대등한 성능을 보였다. 영상 이해 측면에서는 SSv2 데이터셋에서 68.5%의 정확도를 달성하여 DINOv3(54.0%)를 크게 상회했으며, 이는 KV-cache를 통한 장기적 시간 맥락 추출의 효과를 입증한다. 온라인 3D 재구성 실험에서 Sintel 데이터셋 기준 0.314 Abs Rel을 기록하여 기존 전문 모델인 CUT3R(0.421)보다 우수한 성능을 보였다. 특히 학습 시 보지 못한 110프레임 이상의 긴 시퀀스에서도 성능 저하 없이 안정적인 제로샷 연장 능력을 보여주었다. 효율성 분석 결과, 64프레임 컨텍스트에서 기존 방식(0.998초) 대비 약 15배 빠른 0.067초의 지연 시간을 달성했다. 메모리 사용량 또한 선형적으로 증가하여 512프레임 이상의 긴 스트림에서도 OOM 없이 처리가 가능함을 확인했다.
기술 상세
OmniStream은 DINOv3 ViT-L 아키텍처를 스트리밍 환경에 맞게 개조한 모델이다. 핵심은 Causal Spatiotemporal Attention으로, 매 프레임마다 [CLS], 레지스터 토큰, [CAM] 토큰 및 패치 토큰들을 생성하며, 이전 프레임의 Key와 Value를 캐싱하여 현재 프레임의 Query 연산에만 활용한다. 3D-RoPE 구현 시, 기존 2D RoPE의 공간적 사전 지식을 최대한 보존하기 위해 2:3:3 차원 분할 전략을 채택했다. 시간 축(t) 성분을 기존 2D 패턴 사이에 인터리빙 방식으로 삽입하여, 사전 학습된 공간 가중치를 파괴하지 않으면서 시간적 상대 위치를 학습할 수 있게 했다. 기하학적 재구성을 위해 Dual-DPT 모듈 기반의 깊이 헤드와 MLP 기반의 카메라 헤드를 부착했다. [백본 특징 맵 입력] → [DPT를 통한 깊이 및 레이 맵 예측] → [카메라 토큰 z_cam을 통한 6-DoF 포즈 예측] → [L1 회귀 및 그래디언트 손실 적용] 과정을 통해 시각적 특징에 물리적 제약 조건을 주입한다. 시각-언어 정렬을 위해 Qwen3-0.6B 언어 디코더를 MLP 프로젝터로 연결했다. 캡셔닝, OCR, 객체 접지 데이터를 혼합하여 학습함으로써, 시각 토큰이 언어적 개념과 정렬되도록 유도하며 이는 추후 VLM 및 VLA 작업의 기반이 된다.
한계점
OmniStream이 모든 벤치마크에서 전문화된 SOTA 모델들을 일관되게 압도하는 것은 아니며, 특정 작업에서는 여전히 격차가 존재한다. 또한 현재 연구는 모델 스케일링보다는 통합 패러다임 검증에 집중하고 있어, 향후 더 큰 모델 규모에서의 성능 확장이 과제로 남아있다.
실무 활용
실시간 영상 분석이 필요한 로봇 공학, 자율 주행, AR/VR 기기에서 범용 시각 엔진으로 즉시 활용 가능하다. 백본을 고정한 채로 가벼운 헤드만 추가하여 다양한 도메인에 빠르게 배포할 수 있는 것이 강점이다.
- 자율 주행 로봇의 실시간 3D 장애물 감지 및 경로 계획
- AR 글래스에서의 실시간 주변 환경 재구성 및 정보 오버레이
- 지능형 CCTV의 실시간 행동 인식 및 이상 징후 탐지
- 로봇 팔의 실시간 시각 피드백 기반 정밀 조작 제어
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.