Proact-VL: 실시간 AI 컴패니언을 위한 능동형 비디오 LLM

왜 중요한가

기존 비디오 AI는 질문에만 답하거나 쉴 새 없이 말을 하여 사용자 경험을 해치는 한계가 있었다. 이 논문은 AI가 상황을 인지하고 적절한 순간에만 개입하는 능동성을 부여하여, 게임 해설이나 플레이 가이드와 같은 실시간 상호작용 분야에서 인간과 유사한 동반자를 구현할 수 있는 길을 열었다.

핵심 기여

능동적 응답 메커니즘 설계

특수 토큰 <|FLAG|>의 히든 스테이트를 입력으로 받아 응답 여부를 결정하는 경량 MLP 헤드를 도입하여, 모델이 텍스트 생성 전 발화 타이밍을 스스로 판단하도록 설계했다.

Live Gaming 데이터셋 및 벤치마크 구축

12개의 주요 게임 타이틀에서 추출한 561시간 분량의 전문 해설 및 가이드 데이터를 포함하는 대규모 데이터셋을 구축하여 실시간 능동형 모델 평가의 기준을 제시했다.

실시간 청크 기반 추론 스키마

비디오 스트림을 1초 단위 청크로 처리하고 지속적인 KV 캐시 업데이트를 통해 지연 시간을 최소화하면서도 긴 문맥을 유지하는 추론 구조를 구현했다.

안정성 정규화 손실 함수 도입

발화 빈도와 시간적 일관성을 조절하는 다계층 손실 함수를 통해 AI가 너무 자주 말하거나 불필요하게 침묵하지 않도록 인간의 발화 패턴을 학습시켰다.

핵심 아이디어 이해하기

기존의 비디오 언어 모델은 영상 전체를 보고 질문에 답하는 수동적인 구조이거나, 스트리밍 환경에서 언제 말을 시작해야 할지 결정하는 정책이 부족했다. Proact-VL은 비디오를 1초 단위의 짧은 조각(청크)으로 나누어 처리하면서, 매 초마다 '지금이 말할 타이밍인가?'를 묻는 특수 토큰을 삽입한다. 이 토큰의 벡터 정보를 바탕으로 별도의 작은 신경망이 응답 확률을 계산하며, 이 확률이 일정 기준을 넘을 때만 AI가 입을 열게 된다.

이 과정은 딥러닝의 임베딩(Embedding) 개념을 활용한다. 비디오와 문맥 정보가 압축된 벡터가 특정 상황(예: 게임 내 득점 순간)에서 특이한 패턴을 보이면, 모델은 이를 '중요한 순간'으로 인식한다. 이는 마치 사람이 경기를 보다가 흥미로운 장면에서 자연스럽게 감탄사를 내뱉는 것과 유사한 원리다.

결과적으로 모델은 불필요한 연산을 줄이면서도 꼭 필요한 순간에만 개입할 수 있게 된다. 이는 단순히 텍스트를 생성하는 능력을 넘어, 시간적 흐름 속에서 상호작용의 리듬을 조절하는 능력을 갖추게 되었음을 의미한다.

방법론

전체 시스템은 청크 단위 입력 스키마를 기반으로 작동한다. 비디오 스트림을 1초 간격의 청크 (Vt, Qt, Bt)로 분할하며, 여기서 Vt는 시각 정보, Qt는 사용자 쿼리, Bt는 이전 문맥을 나타낸다. Transformer 아키텍처의 KV 캐시를 유지하여 과거의 정보를 효율적으로 참조하면서 실시간성을 확보한다.

핵심 메커니즘은 능동적 응답 트리거링이다. 사용자 메시지 끝에 <|FLAG|> 토큰을 삽입하고 해당 위치의 히든 스테이트 ht를 추출한다. [추출된 벡터 ht → Gated MLP 연산 → 시그모이드 활성화] 순으로 연산하여 0에서 1 사이의 응답 확률 pt를 얻는다. pt가 설정된 임계값 τ를 초과하면 Assistant 접두사를 추가하여 텍스트 생성을 시작하고, 그렇지 않으면 침묵 토큰을 출력한다.

학습을 위해 다계층 손실 함수 L = Lmain + αLresp를 사용한다. Lmain은 텍스트 품질을 관리하는 Causal Language Modeling Loss이며, Lresp는 발화 타이밍을 조절한다. Lresp 내의 정규화 항 Lreg는 [현재 확률 pt와 이전 확률 pt-1의 차이 제곱 → 평균 계산 → 시간적 변화량 산출] 과정을 통해 확률 변화를 부드럽게 만들어 응답의 지터(jitter)를 억제하고 인간의 평균 발화율에 맞춘다.

무한 스트리밍 추론을 위해 슬라이딩 윈도우 KV 캐시와 Reverse RoPE 기법을 적용한다. 캐시가 가득 차면 오래된 데이터를 삭제하는데, 이때 발생하는 위치 인덱스의 불연속성을 해결하기 위해 [삭제된 길이 Δ만큼 전체 위치 인덱스에서 뺄셈 → 회전 행렬 재계산 → 상대적 위치 복구] 과정을 거쳐 모델의 문맥 이해 능력을 유지한다.

주요 결과

Live Gaming Benchmark 실험 결과, Proact-VL은 GPT-4o 및 Gemini 2.5 Pro와 같은 강력한 상용 모델보다 우수한 응답 타이밍과 품질을 보여주었다. 특히 응답의 정확도와 재현율을 종합한 F1 스코어에서 기존 모델들을 압도했으며, 인간 해설자와의 시간적 일치도를 나타내는 TimeDiff 지표에서도 가장 낮은 오차를 기록했다.

Ablation Study를 통해 손실 함수의 효과를 검증했다. 정규화 항 Lreg를 제거했을 때 F1 스코어가 49.05포인트 급감하고 TimeDiff가 15.09초 증가하는 현상이 발견되어, 단순히 응답 여부를 맞추는 것을 넘어 발화의 안정성을 확보하는 것이 실시간 상호작용에 필수적임을 입증했다.

효율성 측면에서는 10~15 FPS의 비디오 스트림을 실시간으로 처리할 수 있는 성능을 확인했다. 윈도우 크기가 커져도 토큰당 생성 시간은 약 0.04초 수준으로 일정하게 유지되어, 장시간 스트리밍 환경에서도 안정적인 서비스 제공이 가능함을 보여주었다.

실무 활용

게임 스트리밍 해설, 실시간 교육 가이드, 시각 장애인을 위한 상황 설명 등 실시간 비디오 이해와 능동적 개입이 필요한 다양한 에이전트 서비스에 활용될 수 있다.

e스포츠 중계 시 상황에 맞춰 자동으로 해설을 제공하는 AI 캐스터
오픈월드 게임에서 플레이어의 행동을 관찰하고 적절한 시점에 힌트를 주는 AI 가이드
실시간 화상 강의 중 학생의 반응을 살피며 보충 설명을 제공하는 AI 튜터
CCTV 영상을 실시간 분석하여 위험 상황 발생 시 즉각 음성 경고를 내보내는 보안 시스템

기술 상세

Proact-VL은 Qwen-VL 아키텍처를 기반으로 하며, 실시간 처리를 위해 '결정 후 생성(Decide-then-generate)' 파이프라인을 채택했다. 이는 모든 프레임에서 텍스트를 생성하려 시도하는 대신, <|FLAG|> 토큰 기반의 경량 헤드에서 긍정 신호가 올 때만 디코딩을 시작하여 연산 자원을 최적화한다.

응답 헤드는 단순한 토큰 분류가 아닌 연속적인 스코어를 출력하도록 설계되었다. 이는 <|SILENCE|> 토큰을 직접 예측할 때 발생하는 데이터 불균형 문제를 피하고, 추론 시 임계값(Threshold) 조절을 통해 AI의 성격(말이 많은 정도)을 유연하게 변경할 수 있게 한다.

수학적으로 Reverse RoPE는 회전 행렬의 가법성 R(a)R(b) = R(a+b)을 활용한다. 캐시 축출 후 위치 인덱스를 재설정(p' = p - Δ)함으로써, 모델이 학습 시 경험하지 못한 매우 큰 위치 인덱스 값으로 인해 성능이 저하되는 현상을 방지하고 수만 토큰 이상의 긴 시퀀스에서도 안정적인 추론을 보장한다.

데이터 정제 과정에서는 WhisperX를 통한 정밀한 시간 정렬, Qwen3-Omni-Flash를 이용한 감정 및 어조 라벨링, DeepSeek-V3를 활용한 게임 용어 교정 등 다단계 파이프라인을 구축하여 원시 비디오 데이터를 고품질의 학습 데이터로 변환했다.

한계점

HUD의 작은 텍스트를 인식하는 OCR 능력이 부족하여 게임 내 수치 정보(예: 골드 차이)를 잘못 해석하는 경우가 발생한다. 또한 정보가 너무 밀집된 화면에서는 중요한 시각적 단서를 놓쳐 'Oh, no!'와 같은 단순한 반응을 반복하는 한계가 명시되었다.

키워드

VideoLLM(비디오 대형 언어 모델)Proactive AI(능동형 인공지능)Real-time Interaction(실시간 상호작용)KV Cache(키-값 캐시)RoPE(회전식 위치 임베딩)Gaming Dataset(게임 데이터셋)