핵심 요약
실시간 영상 속에서 AI가 언제 말을 걸어야 할지 스스로 판단하는 것은 매우 어렵다. 이 논문은 확산 모델의 디노이징 원리를 적용해 AI가 상황의 맥락을 파악하고 가장 적절한 순간에 반응하도록 만들어, 더 자연스러운 실시간 상호작용을 가능하게 한다.
왜 중요한가
실시간 영상 속에서 AI가 언제 말을 걸어야 할지 스스로 판단하는 것은 매우 어렵다. 이 논문은 확산 모델의 디노이징 원리를 적용해 AI가 상황의 맥락을 파악하고 가장 적절한 순간에 반응하도록 만들어, 더 자연스러운 실시간 상호작용을 가능하게 한다.
핵심 기여
능동적 스트리밍 활성화를 구조적 시퀀스 모델링으로 재정의
비디오 스트림의 활성화 신호를 개별 프레임 단위의 이진 분류가 아닌, 시간 윈도우 내의 구조화된 시퀀스로 모델링하여 연속적인 활성화 구간을 포착한다.
마스크드 확산 모델 기반의 STRIDE 프레임워크 제안
가벼운 마스크드 확산 모듈을 사용하여 활성화 신호를 공동으로 예측하고 반복적으로 정제함으로써 시간적 일관성을 확보한다.
시퀀스 복제를 통한 양방향 문맥 복구 기법 도입
인과적 어텐션을 사용하는 사전 학습 모델에서도 시퀀스 복제를 통해 윈도우 내 전체 문맥을 참조하며 디노이징을 수행할 수 있도록 설계했다.
다양한 스트리밍 벤치마크에서의 SOTA 성능 입증
OVO-Bench, StreamingBench, ET-Bench 등 주요 벤치마크에서 기존 온라인 및 오프라인 모델들을 상회하는 성능을 달성했다.
핵심 아이디어 이해하기
기존의 비디오 모델은 전체 영상을 임베딩(Embedding) 공간에 투사한 뒤 한꺼번에 처리하는 오프라인 방식에 최적화되어 있다. 하지만 실시간 스트리밍에서는 프레임이 순차적으로 도착하므로, 매 순간 '지금 응답해야 하는가'를 판단해야 한다. 기존 방식은 이를 단순한 이진 분류 문제로 취급하여 신호가 불안정하게 튀는 한계가 있었다. STRIDE는 확산 모델(Diffusion Model)의 노이즈 제거 원리를 도입하여, 슬라이딩 윈도우 내의 활성화 신호 전체를 하나의 구조화된 시퀀스로 보고 주변 맥락에 맞춰 정교하게 다듬는다. 이를 통해 AI는 단편적인 프레임 정보에 의존하지 않고 전체적인 사건의 흐름을 파악하여 훨씬 안정적이고 정확한 시점에 발화를 시작할 수 있게 된다.
방법론
STRIDE는 경량 활성화 모델과 다운스트림 Video-LLM으로 구성된 2단계 아키텍처를 채택한다. 활성화 모델은 슬라이딩 윈도우 내의 활성화 상태 시퀀스를 마스크드 확산 모델을 통해 공동으로 예측한다. 학습 시에는 Boundary-Anchored Span Masking 등 세 가지 전략을 혼합하여 모델이 활성화 구간의 경계를 정밀하게 포착하도록 유도한다. K-단계 Progressive Denoising 과정에서는 각 마스크 위치의 활성화 확률 p^j를 입력받아 max(p^j, 1-p^j) 연산을 수행하여 확신도 점수 c^j를 산출한다. 이 점수가 높을수록 해당 위치의 상태가 명확함을 의미하며, 상위 k개의 토큰을 먼저 확정하고 나머지는 다음 단계에서 다시 정제함으로써 점진적으로 정확한 활성화 시퀀스를 완성한다.
주요 결과
OVO-Bench의 Forward Active Responding 지표에서 STRIDE는 기존 모델들을 압도하는 성능을 보여주었다. 특히 Qwen3-VL 백본과 결합 시 평균 59.07점을 기록하며 능동적 응답 능력을 입증했다. ET-Bench 실험에서는 시간적 접지 정확도가 베이스라인 대비 평균 8.3점, TVG 태스크에서는 27.1점 향상되어 이벤트 경계 식별의 정밀함을 확인했다. 또한 지연 시간은 약 113ms로 전체 시스템의 7% 수준에 불과해 실시간 운영의 효율성을 증명했다.
기술 상세
STRIDE는 스트리밍 비디오 이해에서 활성화 결정을 구조화된 시퀀스 모델링으로 공식화한다. 아키텍처는 Qwen3-VL-2B를 활성화 모델로 사용하여 스트리밍 오버헤드를 최소화하며, 다운스트림 모델을 효율적으로 게이팅한다. 특히 Sequence Duplication 기법은 인과적 어텐션을 사용하는 백본에서도 윈도우 내 양방향 정보를 참조할 수 있게 하여 시간적 일관성을 제공한다. 추론 시에는 Selective Re-masking 전략을 통해 불확실한 과거 결정을 실시간으로 수정하며, 이는 스트리밍 환경의 부분적 관측성 문제를 효과적으로 해결한다. 결과적으로 STRIDE는 독립적인 프레임 판단 방식에서 발생하는 플리커링 현상을 억제하고 안정적인 활성화 구간을 생성한다.
한계점
1 FPS의 낮은 샘플링 속도로 인해 매우 짧은 이벤트나 급격한 시각적 변화를 놓칠 가능성이 있다. 또한 쿼리가 모호하거나 광범위한 이벤트를 지칭할 경우 활성화 지점이 분산되는 문제가 발생할 수 있다.
실무 활용
실시간 비디오 스트림을 감시하며 특정 사건 발생 시 능동적으로 반응해야 하는 AI 에이전트 개발에 활용 가능하다.
- 실시간 요리 보조 AI 비서
- 자율주행 위험 상황 경고 시스템
- 스포츠 하이라이트 자동 감지기
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.