CurveStream: 곡률 기반 계층적 시각 메모리 관리를 통한 멀티모달 LLM의 스트리밍 비디오 이해 성능 향상

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

스트리밍 비디오는 이론적으로 무한한 길이를 가지기 때문에 모든 시각 토큰을 처리하면 메모리 부족(OOM)이나 과거 정보를 잊어버리는 문제가 발생한다. CurveStream은 영상의 의미가 급변하는 '곡률' 지점을 포착해 중요한 장면만 고화질로 남기고 나머지는 압축함으로써, 적은 메모리로도 긴 영상의 핵심 맥락을 정확히 유지한다.

왜 중요한가

핵심 기여

스트리밍 비디오의 곡률(Curvature) 효과 발견

잠재 특징 공간 내의 고곡률 영역이 장면 전환이나 새로운 객체 등장과 같은 전역적인 시맨틱 전환점과 기하학적으로 일치함을 발견했다.

학습이 필요 없는 CurveStream 프레임워크

추가 학습 없이 기존 MLLM에 즉시 적용 가능한 Curvature-Aware Scorer(CAS)와 계층적 메모리 관리(HVMM) 모듈을 제안했다.

동적 K-Sigma 임계값 기반의 계층적 라우팅

실시간 곡률 통계를 바탕으로 프레임을 Clear(고해상도), Blurred(저해상도), Discard(폐기) 상태로 자동 분류하여 메모리 효율을 극대화했다.

스트리밍 벤치마크 SOTA 달성

StreamingBench에서 10.69%, OVOBench에서 13.58%의 성능 향상을 기록하며 GPT-4o 및 Gemini 1.5 Pro를 상회하는 결과를 보였다.

핵심 아이디어 이해하기

비디오를 처리할 때 각 프레임은 고차원 공간상의 점(Embedding)으로 표현되며, 영상이 진행됨에 따라 이 점들이 이동하며 궤적(Trajectory)을 그린다. 기존 방식은 단순히 일정 간격으로 프레임을 뽑거나 인접 프레임 간의 단순 차이만 계산했기 때문에, 카메라의 단순한 움직임과 실제 중요한 사건의 발생을 구분하지 못해 메모리를 낭비하거나 핵심 정보를 소실하는 한계가 있었다.

CurveStream은 궤적의 '곡률'에 주목한다. 물리적으로 물체가 급회전할 때 곡률이 커지듯, 영상의 의미가 급변하는 지점(새로운 인물 등장, 행동의 시작 등)에서 특징 벡터의 이동 방향이 급격히 꺾이며 곡률 스파이크가 발생한다. 이 기하학적 원리를 이용해 1차 운동 강도와 2차 기하학적 곡률을 결합하여 실시간으로 '시맨틱 강도'를 측정한다.

이렇게 측정된 곡률 점수를 바탕으로, 통계적 임계값을 넘는 중요한 장면은 원본 화질로 유지하고, 중간 과정은 저화질로 압축하며, 중복되는 정보는 삭제한다. 결과적으로 고정된 메모리 예산 안에서 영상의 전체적인 인과 관계를 유지하면서도 세부적인 특징을 보존하여 모델이 무한한 길이의 영상 스트림에서도 일관된 추론을 수행하게 한다.

방법론

Curvature-Aware Scorer(CAS)는 입력 프레임 $I_t$ 의 특징 벡터 $F_t$ 궤적을 분석한다. 1차 운동 변화량 $M_t$ 는 인접 프레임 간 코사인 유사도로 계산하며, 2차 기하학적 곡률 $C_t$ 는 인접한 두 변위 벡터 $d_1, d_2$ 사이의 각도 편차를 측정한다. [특징 벡터들의 방향 차이를 입력으로] → [코사인 거리를 계산하여] → [0에서 1 사이의 스칼라 값을 얻고] → [이 값이 클수록 시맨틱 변화가 급격함을 의미한다.] 최종 점수 $CS_t$ 는 이 둘의 선형 결합으로 산출된다.

Hierarchical Visual Memory Management(HVMM)는 지수 이동 평균(EMA)을 통해 곡률 점수의 평균 $u_t$ 와 분산 $au_t^2$ 을 실시간 갱신한다. 이를 기반으로 두 개의 동적 임계값 $g_1, g_2$ 를 생성한다. [현재까지의 곡률 통계량을 입력으로] → [가우시안 분포 기반의 임계값 연산을 수행해] → [상위 경계값들을 도출하고] → [현재 프레임의 중요도를 분류하는 기준선으로 활용한다.]

분류된 프레임은 계층적으로 저장된다. $CS_t \ge g_2$ 인 프레임은 Clear Memory에 고해상도로, $g_1 \le CS_t < g_2$ 인 프레임은 Blurred Memory에 저해상도( $224 \times 224$ )로 저장되며, 나머지는 폐기된다. 메모리 용량 초과 시 FIFO(First-In-First-Out) 규칙에 따라 가장 오래된 토큰부터 삭제하여 고정된 메모리 점유율을 유지한다.

주요 결과

StreamingBench에서 Qwen2.5-VL-7B 모델에 적용 시 기존 대비 10.69% 향상된 84.00%의 정확도를 기록했으며, OVOBench에서는 13.58% 향상된 73.48%를 달성했다. 이는 GPT-4o(73.28%) 및 Gemini 1.5 Pro(75.69%)와 같은 상용 모델의 성능을 상회하는 수치이다.

Ablation Study 결과, CAS(곡률 스코어러)만 적용했을 때 성능이 9.12% 향상되었고, HVMM(계층적 메모리)만 적용했을 때 9.76% 향상되었다. 두 모듈을 결합했을 때 12.00%의 시너지 효과가 나타나 각 모듈의 상호 보완성이 입증되었다.

오프라인 벤치마크인 MVBench와 VideoMME에서도 각각 1.03%, 1.77%의 성능 향상을 보여, 스트리밍 환경뿐만 아니라 일반적인 긴 영상 이해에서도 범용적인 효율성을 증명했다.

기술 상세

CurveStream은 고정된 메모리 예산 내에서 MLLM의 조건부 확률을 최대화하는 온라인 정보 추출 문제로 스트리밍 이해를 정의한다. 특징 추출기로는 가벼운 DINOv2-small을 사용하여 로컬 기하학적 표현을 획득하며, 메인 추론에는 Qwen-VL 또는 LLaVA 시리즈를 활용한다.

CAS 모듈의 핵심은 2차 기하학적 곡률을 통해 '등속 운동 노이즈'를 억제하는 것이다. 카메라가 일정하게 팬(Pan)하는 경우 1차 변화량은 클 수 있지만, 변위 벡터 간의 각도 차이가 거의 없어 곡률은 0에 가깝게 유지된다. 이를 통해 단순한 물리적 움직임과 실제 의미 있는 장면 전환을 수학적으로 분리한다.

HVMM은 비정상성을 띄는 스트리밍 데이터에 대응하기 위해 고정 임계값 대신 EMA 기반의 동적 임계값을 채택한다. 이는 영상의 템포가 갑자기 변하는 상황에서도 적응적으로 토큰 예산을 배분할 수 있게 하며, 중요도가 낮은 배경 프레임도 저해상도로 일부 유지함으로써 시간적 연속성을 보존한다.

한계점

Qwen2.5-VL-7B를 이용한 VideoMME 실험에서 성능이 64.52%에서 62.97%로 소폭 하락했는데, 이는 엄격하게 고정된 메모리 풋프린트를 유지하기 위해 일부 미세한 전역 정보를 희생했기 때문으로 분석된다.

실무 활용

별도의 학습 없이 기존 MLLM에 즉시 적용 가능한 경량 모듈로, 실시간 영상 분석이 필요한 엣지 디바이스나 긴 영상 처리 서비스의 메모리 비용 절감에 매우 효과적이다.

자율주행 자동차의 실시간 주변 상황 인지 및 돌발 사건 감지
CCTV 보안 시스템의 장시간 영상 요약 및 이상 행동 실시간 알림
AI 비서의 긴 화상 회의 내용 실시간 맥락 파악 및 질의응답
로봇의 1인칭 시점 실시간 작업 수행 및 환경 변화 대응

코드 공개 여부: 공개

코드 저장소 보기

키워드

MLLM(멀티모달 대형 언어 모델)Streaming Video Understanding(스트리밍 비디오 이해)Visual Memory Management(시각 메모리 관리)Curvature-Aware(곡률 인지)Training-free(학습 불필요)