시청하며 생각하기: 멀티모달 대형 언어 모델의 멀티턴 비디오 추론을 위한 온라인 스트리밍 세그먼트 수준 메모리

왜 중요한가

기존 비디오 AI는 영상을 다 본 뒤에야 답하거나 답하는 동안 영상을 보지 못하는 한계가 있었다. 이 논문은 영상을 보면서 동시에 메모리를 작성하고 생각하는 구조를 도입해 실시간 대화의 끊김을 없애고 장기 기억력을 획기적으로 높였다.

핵심 기여

세그먼트 수준 메모리 뱅크

비디오를 구간별로 나누어 핵심 내용을 요약한 메모리 노트를 작성하고 이를 영구적인 뱅크에 저장하여 장기 기억 손실을 방지함.

입출력 병렬화 아키텍처

독립적인 위치 인코딩과 이중 KV 캐시 설계를 통해 영상 데이터 수신과 답변 생성을 동시에 수행하여 실시간성을 확보함.

3단계 스트리밍 CoT 학습 전략

단일 라운드 적응, 다중 라운드 대화 일관성, 장기 기억 회상 및 방해 요소 무시 능력을 단계별로 학습시키는 방법론을 구축함.

적응형 어텐션 백엔드

추론 상황에 따라 Flash Attention과 메모리 효율적 Attention을 동적으로 선택하여 연산 속도와 메모리 사용량을 최적화함.

핵심 아이디어 이해하기

Transformer 기반 비디오 모델은 시퀀스가 길어질수록 모든 토큰 간의 관계를 계산하는 Attention 연산 비용이 기하급수적으로 증가하며, 특히 답변 생성 중에는 새로운 영상 입력을 처리하지 못하는 문제가 있다. 이는 마치 사람이 말을 하는 동안에는 눈을 감고 있는 것과 같아 실시간 스트리밍 환경에 부적합하다.

이 논문은 '메모리 뱅크'와 '입출력 분리'라는 원리로 이를 해결한다. 모델은 영상을 보는 동안 각 구간(Segment)의 핵심 정보를 Embedding 공간에 메모리 노트로 기록한다. 질문이 들어오면 모델은 수만 개의 비디오 토큰을 다시 훑는 대신, 압축된 메모리 노트를 참조하여 답변을 생성한다. 이때 입력과 출력의 위치 인코딩을 분리하여 답변 중에도 다음 영상 구간을 계속해서 메모리에 기록할 수 있게 했다.

결과적으로 모델은 과거의 시각적 단서를 잊지 않으면서도 실시간으로 들어오는 새로운 정보를 동시에 처리할 수 있다. 이는 기존의 순차적 처리 방식에서 벗어나 진정한 의미의 '시청하며 생각하기'를 가능하게 하여, 긴 영상에서도 일관성 있는 답변을 훨씬 적은 연산량으로 제공한다.

방법론

전체 시스템은 비디오를 세그먼트 단위로 처리하며 지속적인 메모리 상태를 유지한다. 각 세그먼트 $S_t$ 가 도착하면 모델은 메모리 함수 $Mem_\theta$ 를 통해 요약 노트 $m_t$ 를 생성하고 이를 메모리 뱅크 $M_t$ 에 추가한다. [ $S_t$ 입력] → [핵심 엔티티 및 동작 추출] → [ $m_t$ 생성] → [메모리 뱅크 업데이트].

스트리밍 인과성을 보장하기 위해 세그먼트 수준 스트리밍 인과적 마스크를 적용한다. 생성 유닛 $C_u$ 가 현재까지 수신된 입력 유닛 $R_{1:u}$ 와 이전에 생성된 유닛 $C_{1:u}$ 에만 접근하도록 제한한다. [ $R_1, ..., R_U, C_1, ..., C_U$ 입력] → [인과적 관계에 따른 0/1 행렬 연산] → [미래 정보가 차단된 Attention 스코어 산출].

위치 인코딩은 MRoPE를 기반으로 하되 입력과 출력을 분리하여 병렬 처리를 지원한다. 입력 스트림은 누적 오프셋을 따르지만, 출력 스트림은 0부터 독립적으로 시작하여 생성 중에도 새로운 입력 위치를 정확히 지정할 수 있다. [ $k$ 번째 생성 유닛 $C_k$ 의 시작 오프셋 $B^C_k = \sum L[C_i]$ 계산] → [이전 생성 토큰 길이에 기반한 위치 할당] → [출력 길이를 몰라도 새로운 입력 위치 지정 가능].

학습은 3단계로 진행된다. 1단계는 메모리 작성 및 단일 질문 답변, 2단계는 다중 라운드 대화의 일관성, 3단계는 긴 영상에서의 증거 회상 및 방해 요소 무시 능력을 강화한다. 추론 시에는 이중 KV 캐시를 사용하여 영상 수신과 텍스트 디코딩의 병목 현상을 제거한다.

주요 결과

Qwen3-VL-4B 모델을 기반으로 실험한 결과, StreamingBench에서 단일 라운드 정확도가 기존 대비 2.6% 향상된 60.04%를 기록했다. OVO-Bench에서도 3.79% 향상된 55.02%를 달성하며 스트리밍 환경에서의 우수성을 입증했다.

다중 라운드 스트리밍 환경에서 효율성이 크게 개선되었다. 기존 Thinking 모델과 대등한 성능을 유지하면서도 출력 토큰 사용량을 56.10% 절감(평균 302.56개 토큰)하여 추론 비용을 획기적으로 낮췄다.

Ablation Study를 통해 메모리 노트를 제거할 경우 정확도가 57.40%에서 52.35%로 급감함을 확인하여, 세그먼트 수준 메모리가 장기 문맥 유지에 필수적임을 증명했다. 또한, 추론 파이프라인 최적화를 통해 첫 번째 토큰 생성 시간(TTFT)을 기존 대비 92.6% 단축했다.

실무 활용

실시간 영상 분석이 필요한 보안 관제, 로봇 제어, 라이브 방송 인터랙션 분야에 즉시 적용 가능하다. 답변 중에도 영상 입력을 멈추지 않아 지연 시간이 매우 낮고 장기 기억력이 뛰어나다.

실시간 CCTV 분석을 통한 이상 징후 감지 및 즉각적인 상황 질의응답
라이브 커머스 방송 중 시청자의 복잡한 질문에 대한 실시간 AI 답변 생성
자율 주행 로봇의 연속적인 환경 변화 인식 및 과거 상황을 고려한 명령 수행
긴 교육 영상이나 회의 영상의 실시간 요약 및 특정 시점 정보 추출

기술 상세

본 연구는 기존 MLLM의 직렬 처리 방식인 Interleaved Perception-Generation의 한계를 극복하기 위해 입출력 병렬화 아키텍처를 제안한다. 핵심은 독립적인 위치 인코딩과 이중 KV 캐시 구조를 통해 디코딩 중에도 인코딩이 멈추지 않게 설계한 것이다.

세그먼트 수준 메모리 노트는 원본 비디오 토큰을 직접 유지하는 대신, 각 구간의 핵심 엔티티, 속성, 동작 정보를 텍스트 형태로 압축하여 저장한다. 이는 메모리 사용량을 줄일 뿐만 아니라 Attention 메커니즘이 필요한 정보만 선택적으로 검색(Retrieval)할 수 있는 인덱스 역할을 수행한다.

수학적으로는 $M^{seg}[A, B]$ 마스크를 정의하여 생성 유닛이 미래의 입력을 참조하지 못하게 함으로써 스트리밍의 물리적 제약을 모델에 내재화했다. 또한, MRoPE를 수정하여 입력과 출력의 위치 인덱스를 분리함으로써 생성되는 텍스트의 길이에 관계없이 새로운 영상 프레임에 올바른 위치 정보를 부여할 수 있게 했다.

학습 데이터셋은 GPT-5.2를 활용하여 3단계 스트리밍 CoT 데이터를 합성 구축했다. 특히 3단계에서는 긴 영상에서의 증거 회상, 불확실성 처리, 무관한 세그먼트(Distractor) 무시 능력을 집중적으로 학습시켜 실제 복잡한 환경에서의 강건성을 확보했다.

한계점

메모리 노트가 정보를 압축하는 과정에서 물체의 정확한 색상이나 미세한 위치 같은 세부 속성이 소실될 수 있다. 또한, 증거가 불충분할 때 판단을 유보하지 않고 너무 일찍 결론을 내리는 조기 확신 문제가 발생할 수 있으며, 시각적으로 강렬하지만 관련 없는 장면에 의해 메모리가 오염될 가능성이 존재한다.

키워드

MLLM(멀티모달 대형 언어 모델)Streaming Video Reasoning(스트리밍 비디오 추론)Memory-Anchored Framework(메모리 앵커형 프레임워크)Chain-of-Thought(사고의 사슬)KV Cache(KV 캐시)