핵심 요약
기존 비디오 언어 모델은 전체 영상을 먼저 저장한 뒤 분석하는 오프라인 방식에 치중되어 있어 실시간 대응이 어려웠다. AURA는 끊임없이 들어오는 비디오 스트림을 실시간으로 처리하며 사용자의 질문에 답하거나 상황에 맞춰 먼저 말을 거는 능동적 상호작용을 가능하게 한다.
왜 중요한가
기존 비디오 언어 모델은 전체 영상을 먼저 저장한 뒤 분석하는 오프라인 방식에 치중되어 있어 실시간 대응이 어려웠다. AURA는 끊임없이 들어오는 비디오 스트림을 실시간으로 처리하며 사용자의 질문에 답하거나 상황에 맞춰 먼저 말을 거는 능동적 상호작용을 가능하게 한다.
핵심 기여
AURA 통합 스트리밍 시각 상호작용 프레임워크
비디오 스트림을 프레임 단위로 연속 처리하며 침묵할 때와 응답할 때를 스스로 결정하는 통합 VideoLLM 구조를 구현했다.
대화형 비디오 스트림 컨텍스트 관리
무한히 늘어나는 비디오 프레임과 텍스트 이력을 제한된 컨텍스트 윈도우 내에서 효율적으로 관리하기 위한 이중 슬라이딩 윈도우 전략을 도입했다.
Coarse-to-Fine 데이터 엔진
실시간 질의응답, 능동적 질의응답, 다중 응답 질의응답 등 스트리밍 환경에 특화된 5단계 데이터 생성 파이프라인을 구축했다.
Silent-Speech Balanced Loss
스트리밍 데이터에서 압도적으로 많은 침묵(Silent) 상태와 실제 응답 상태 간의 불균형을 해소하여 모델이 적절한 타이밍에 응답하도록 학습하는 손실 함수를 설계했다.
핵심 아이디어 이해하기
기존의 Transformer 기반 모델은 입력 시퀀스가 길어질수록 모든 토큰 간의 관계를 계산하는 Self-Attention 비용이 기하급수적으로 증가한다. 특히 실시간 비디오 스트림은 초당 수많은 프레임이 들어오므로 이를 무한정 컨텍스트에 담는 것은 물리적으로 불가능하며 추론 속도를 저하시킨다.
AURA는 이 문제를 해결하기 위해 비디오 프레임과 텍스트 대화 기록을 서로 다른 주기로 관리하는 '이중 슬라이딩 윈도우' 방식을 사용한다. 시각 정보는 밀도가 높으므로 최근 30초 분량의 프레임만 유지하여 연산량을 제한하고, 텍스트 정보는 정보 밀도가 높으므로 더 긴 대화 이력을 보존함으로써 모델이 과거의 맥락을 놓치지 않게 한다.
또한 모델이 매 순간 응답을 생성하는 대신, 특별한 토큰인 <|silent|>을 출력하도록 학습시켜 정보가 충분하지 않거나 사용자의 요청이 없을 때는 침묵하게 한다. 이를 통해 모델은 비디오를 실시간으로 '관찰'하다가 필요한 순간에만 즉각적으로 반응하는 능동적인 비서 역할을 수행할 수 있게 된다.
방법론
Interactive Video Stream Context Management는 비디오 스트림을 1초 단위의 청크로 나누어 처리한다. 비디오 윈도우 크기 N과 QA 그룹 윈도우 크기 M을 설정하여, N초 이전의 비디오 청크는 제거하되 해당 시점의 텍스트 대화 내용은 보존하는 이중 구조를 가진다. [비디오 청크+텍스트 입력 → 이중 슬라이딩 윈도우 적용 → 제한된 길이의 컨텍스트 생성] 순으로 연산하여 무한한 스트림에서도 일정한 추론 속도를 유지한다.
Silent-Speech Balanced Loss는 모델이 과도하게 침묵하거나 불필요하게 말을 많이 하는 편향을 방지한다. 학습 시 침묵 토큰(<|silent|>)의 개수 n_silent를 계산하여 1/n_silent 가중치를 부여하고, 실제 응답 토큰에는 1의 가중치를 부여한다. [각 토큰의 Cross-Entropy Loss → 클래스별 가중치 곱셈 → 가중 평균 계산] 과정을 거쳐 모델이 두 상태를 균형 있게 학습하도록 유도한다.
실시간 추론 프레임워크는 KV-cache 재사용을 극대화하기 위해 윈도우가 가득 찼을 때 하나씩 지우는 대신 여유분 N'만큼 한꺼번에 지우는 전략을 취한다. [윈도우 크기 N+N' 도달 → 가장 오래된 N'개 청크 일괄 삭제 → 나머지 N개 캐시 유지] 순으로 동작하여 빈번한 캐시 재계산을 방지하고 2 FPS의 속도를 확보했다.
주요 결과
StreamingBench 벤치마크에서 73.1%의 정확도를 기록하며 기존 오픈소스 SOTA 모델인 MiniCPM-o-4.5(62.7%)를 10.4%p 차이로 앞질렀다. 특히 실시간 시각 이해(RTVU), 전방위 소스 이해(OSU), 컨텍스트 이해(CU) 등 모든 주요 지표에서 1위를 차지했으며, GPT-4o(60.2%)나 Gemini-1.5-Pro(67.1%) 같은 상용 모델보다도 높은 성능을 보였다.
OVO-Bench에서도 65.3%의 정확도를 달성하여 상용 모델인 Gemini-1.5-Pro(63.0%)를 능가했다. 실시간 추론 성능 분석 결과, AURA는 두 개의 80G 가속기 환경에서 ASR(음성 인식)과 TTS(음성 합성)를 포함한 전체 시스템 지연 시간을 약 312.2ms 수준으로 유지하며 원활한 실시간 대화가 가능함을 입증했다.
기술 상세
AURA는 Qwen3-VL-8B-Instruct 모델을 기반으로 하며, 시각 인코더와 커넥터는 고정한 채 LLM 컴포넌트만 미세 조정했다. 학습 데이터는 약 115k개의 스트리밍 QA 샘플과 59k개의 오프라인 QA 샘플을 혼합하여 총 1.2B 토큰 규모로 구성했다. 스트리밍 데이터는 비디오를 청크 단위로 펼쳐서(Unrolling) 각 응답 시점마다의 컨텍스트를 개별 샘플로 구성하여 학습 효율을 높였다.
추론 시에는 vLLM 엔진을 기반으로 커스텀 슬라이딩 윈도우 메커니즘을 구현했다. 특히 Prefix Caching 기술을 활용하여 윈도우 내에서 변하지 않는 과거 프레임의 KV-cache를 보존함으로써, 새로운 프레임이 추가될 때마다 발생하는 중복 연산을 최소화했다. 이는 긴 시간 동안 지속되는 스트리밍 세션에서도 Time-to-First-Token(TTFT)을 일정하게 유지하는 핵심 기술이다.
한계점
논문에서는 모델이 2 FPS로 동작하도록 최적화되었으나, 더 높은 프레임 레이트가 필요한 매우 빠른 움직임의 비디오에서는 이해도가 제한될 수 있음을 시사한다. 또한 현재 시스템은 두 개의 80G 가속기를 필요로 하므로 모바일 기기 등 저사양 환경에서의 직접 구동에는 한계가 있다.
실무 활용
AURA는 실시간 비디오 스트림을 이해하고 대화할 수 있는 AI 어시스턴트 구축에 즉시 활용 가능하다. 특히 저지연 추론 최적화가 적용되어 실제 하드웨어 환경에서 안정적인 구동이 가능하다.
- 시각 장애인을 위한 실시간 주변 상황 설명 및 안내 서비스
- CCTV 스트림을 실시간 감시하며 이상 징후 발생 시 즉각적인 보고 및 질의응답
- 개인용 AI 비서가 사용자의 활동을 관찰하며 적절한 타이밍에 리마인더나 조언 제공
- 로봇 시스템의 실시간 환경 인식 및 인간과의 자연스러운 상호작용 인터페이스
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.