HiMu: 긴 비디오 질의응답을 위한 계층적 멀티모달 프레임 선택 기술

왜 중요한가

긴 비디오에서 질문에 답하기 위해 필요한 핵심 장면을 찾는 과정은 매우 비싸거나 부정확했다. HiMu는 복잡한 질문을 논리 트리로 분해해 가벼운 전문가 모델들로 처리함으로써, 연산량을 10배 줄이면서도 최신 AI 에이전트보다 높은 정확도를 달성했다.

핵심 기여

신경 기호적(Neuro-Symbolic) 쿼리 분해 프레임워크

자연어 질문을 계층적 논리 트리로 변환하고, 각 노드를 시각(CLIP, OVD, OCR) 및 오디오(ASR, CLAP) 전문가 모델에 할당하여 정밀한 시간적 접지(Temporal Grounding)를 수행함.

훈련이 필요 없는 단일 단계 파이프라인

반복적인 LVLM 호출 대신 단 한 번의 텍스트 전용 LLM 계획 단계와 캐싱된 전문가 평가를 사용하여 쿼리당 지연 시간을 최소화함.

효율성-정확도 파레토 프론트 재정의

Video-MME 등 주요 벤치마크에서 16개의 프레임만으로도 32~512개의 프레임을 사용하는 기존 에이전트 기반 시스템의 성능을 능가함.

핵심 아이디어 이해하기

비디오 질의응답에서 가장 큰 난제는 수만 개의 프레임 중 질문과 관련된 소수의 프레임을 찾는 것이다. 기존의 유사도 기반 방식은 질문 전체를 하나의 벡터(Embedding)로 압축하여 "A 사건 이후에 B가 일어났는가?"와 같은 복잡한 논리 구조나 시간적 순서를 놓치는 한계가 있었다. HiMu는 질문을 '빨간 차(OVD)', '폭발음(CLAP)', '그 후(SEQ)'와 같은 원자 단위의 논리 트리로 분해한다. 각 단위는 해당 분야에 특화된 가벼운 전문가 모델들이 비디오 전체 타임라인에서 점수를 매기고, 이 점수들을 퍼지 논리(Fuzzy Logic) 연산자로 결합하여 최종적인 '만족도 곡선'을 생성한다. 이 방식은 무거운 멀티모달 모델을 반복 호출하지 않고도 복잡한 질문의 구조를 해석할 수 있게 한다. 결과적으로 적은 수의 프레임만으로도 질문의 의도를 완벽하게 반영하는 장면들을 추출하여 하위 모델의 정확도를 극대화한다.

방법론

전체 파이프라인은 텍스트 전용 LLM을 통한 쿼리 분해, 전문가 모델 기반 신호 추출, 퍼지 논리 합성, PASS 알고리즘을 통한 프레임 선택의 4단계로 구성된다. LLM은 질문을 JSON 형태의 논리 트리로 변환하며, 리프 노드는 특정 전문가 모델과 쿼리 쌍으로 정의된다. 전문가 모델은 CLIP(시각 개념), OVD(객체), OCR(텍스트), ASR(음성), CLAP(환경음)으로 구성된다. 각 모델의 출력값 u_i(t)는 Median Absolute Deviation(MAD) 기반의 정규화 과정을 거쳐 [0, 1] 범위의 신호로 변환된다. [입력: 원시 점수 u_i → 연산: 시그모이드 함수를 통한 정규화 → 결과: 0~1 사이의 확률값 → 의미: 해당 시점에 조건이 충족될 확률]. 정규화된 신호는 가우시안 커널을 이용해 시간적으로 평활화(Smoothing)된 후, AND(곱셈), OR(확률적 합), SEQ(시간 순서), RightAfter(근접성) 연산자를 통해 상향식으로 합성된다. 최종 만족도 곡선 T(t)에서 PASS 알고리즘이 국소 최댓값을 찾아 중복되지 않는 핵심 프레임들을 추출한다.

주요 결과

Video-MME 벤치마크에서 Qwen3-VL 8B 모델과 결합했을 때, 16개 프레임만으로 73.22%의 정확도를 기록하며 기존의 모든 프레임 선택 기법을 압축했다. 특히 LongVideoBench에서는 기존 최고 성능 대비 6.70%p 향상된 결과를 보였다. GPT-4o를 사용한 실험에서는 16개 프레임만으로 78.18%를 달성하여, 32~512개의 프레임을 사용하는 VSLS나 VideoChat-A1과 같은 에이전트 기반 시스템을 능가했다. 이는 연산량(FLOPs) 측면에서 약 10배 이상의 효율성을 의미한다. 소거 연구(Ablation Study) 결과, 논리 트리 구조를 제거하고 단순히 점수를 합산(Flat Fusion)했을 때 정확도가 5.49%p 하락하여 계층적 구성의 중요성을 입증했다. 전문가 모델 중에서는 ASR(음성 인식)이 성능 향상에 가장 크게 기여하는 것으로 나타났다.

실무 활용

HiMu는 별도의 학습 없이 기존의 어떤 멀티모달 LLM과도 결합 가능한 플러그앤플레이 모듈이다. 비디오 특징을 미리 캐싱해두면 쿼리당 연산 비용이 매우 낮아 실시간 대규모 비디오 분석 서비스에 적합하다.

긴 영화나 다큐멘터리에서 특정 사건의 인과관계를 묻는 질의응답 시스템
CCTV 영상에서 특정 객체의 행동 순서를 기반으로 한 보안 검색
대규모 비디오 데이터셋에서 특정 논리 조건에 맞는 장면을 추출하는 데이터 큐레이션 도구

기술 상세

HiMu의 핵심은 신경 기호적(Neuro-Symbolic) 접근법을 프레임 선택에 도입한 것이다. 자연어의 의미론적 구조를 명시적인 논리 연산으로 변환함으로써, 블랙박스 형태의 임베딩 유사도 측정이 갖는 모호성을 해결한다. 퍼지 논리 연산자 중 SEQ 연산자는 H_j(t)(과거 최대치)와 F_j(t)(미래 최대치) 신호를 결합하여 구현된다. [입력: 각 단계의 신호 u_l → 연산: u_l * (이전 단계들의 누적 최댓값) * (이후 단계들의 미래 최댓값) → 결과: 순서가 보장된 시점의 점수 → 의미: 이전 단계가 발생했고 이후 단계가 발생할 예정인 시점만 활성화]. PASS(Peak-And-Spread Selection) 알고리즘은 단순히 점수가 높은 상위 K개를 뽑는 대신, 만족도 곡선의 피크(Peak)를 먼저 찾고 그 주변 프레임을 확장(Spread)하여 선택한다. 이는 비디오 내의 다양한 사건을 골고루 포착하면서도 각 사건의 맥락을 충분히 확보하게 해준다.

한계점

전문가 모델의 특징 추출 단계에서 발생하는 초기 지연 시간이 존재하며, LLM 파서가 논리 트리를 잘못 생성할 경우 성능이 저하될 수 있다. 또한 ASR 모델의 언어 지원 범위에 따라 다국어 비디오 처리 능력이 제한된다.

키워드

VideoQA(비디오 질의응답)Frame Selection(프레임 선택)Neuro-Symbolic(신경 기호적)Fuzzy Logic(퍼지 논리)Multimodal(멀티모달)

코드 예제

json

{
  "op": "AND" | "OR" | "SEQ" | "RIGHT_AFTER" | "LEAF",
  "children": [<recursive tree nodes>],
  "expert": "CLIP"|"OVD"|"OCR"|"ASR"|"CLAP",
  "query": "<atomic predicate string>"
}

질문을 계층적 논리 트리로 분해하기 위한 JSON 출력 스키마 예시

text

Algorithm 1 PASS: Peak-And-Spread Selection
1: S <- empty
3: // Phase 1: Peak detection
4: P <- empty
5: C <- {t : T(t) > T(t-1) and T(t) > T(t+1)}
8: if |t - t'| >= Delta for all t' in P then
9: P <- P U {t}
17: // Phase 2: Neighbor spread
18: for each peak p in P do
21: S <- S U Wp[1 : Nn]
24: // Phase 3: Greedy fill
27: S <- S U R[1 : (K - |S|)]

만족도 곡선에서 핵심 프레임을 다양하게 추출하는 PASS 알고리즘의 로직