핵심 요약
긴 영상을 처리할 때 모든 프레임을 다 보는 대신, 모델이 스스로 '확신'하는 구간을 찾아 집중함으로써 연산 효율과 정확도를 동시에 잡았습니다. 별도의 추가 학습 없이도 기존 MLLM에 바로 적용할 수 있어 실무적 가치가 큽니다.
왜 중요한가
긴 영상을 처리할 때 모든 프레임을 다 보는 대신, 모델이 스스로 '확신'하는 구간을 찾아 집중함으로써 연산 효율과 정확도를 동시에 잡았습니다. 별도의 추가 학습 없이도 기존 MLLM에 바로 적용할 수 있어 실무적 가치가 큽니다.
핵심 기여
엔트로피 기반 그룹 중요도 산출
MLLM의 응답 확률 분포에서 계산된 엔트로피를 활용하여 비디오 그룹별 프롬프트 관련성을 정량화하고, 이를 전역 제어 신호로 사용함.
전역 토큰 예산 적응형 할당
특정 구간에 고정된 자원을 쓰는 대신, 전체 영상 맥락에서 확신도가 높은(중요한) 구간에 더 많은 토큰 상세도를 배분하는 전략을 구현함.
AdaptToken-Lite를 통한 조기 종료
모델이 충분한 증거를 확보하여 확신도가 임계치를 넘으면 나머지 프레임 처리를 건너뛰어 정확도 손실 없이 추론 시간을 약 50% 단축함.
위치 인식 전역 토큰 중복 제거
시공간적 유사도를 결합한 토큰 제거 단계를 도입하여 정보 밀도를 높이고, 인접 프레임 간의 중복된 시각 정보를 효과적으로 압축함.
핵심 아이디어 이해하기
Transformer 기반 MLLM은 입력 토큰 수에 따라 연산량이 급격히 증가하며, 특히 긴 영상에서는 무의미한 배경 프레임이 메모리와 연산 자원을 낭비하는 문제가 있다. 기존 방식은 단순히 프레임을 솎아내거나 짧은 구간 내에서만 중요도를 따졌기에, 영상 전체에서 질문 답변에 결정적인 장면이 어디인지 판단하는 기준이 부족했다.
AdaptToken은 모델의 '응답 엔트로피(Entropy)'를 핵심 지표로 삼는다. 모델이 특정 비디오 구간을 보고 답변을 생성할 때, 출력 확률 분포가 특정 토큰에 집중되어 엔트로피가 낮아지면 모델이 해당 구간을 '확신'하고 있다고 해석한다. 즉, 모델 스스로가 질문과 가장 관련 있는 장면을 찾아내도록 유도하는 원리이다.
이렇게 식별된 중요 구간에 전체 토큰 예산을 집중적으로 할당하고, 확신이 충분히 쌓이면 뒷부분은 아예 보지도 않고 답변을 확정한다. 결과적으로 1만 프레임 이상의 초장기 영상에서도 핵심 정보만 골라내어 정확도를 높이면서도 속도는 비약적으로 향상되는 결과를 얻는다.
방법론
영상을 여러 프레임 그룹으로 분할하고, 각 그룹을 MLLM에 입력하여 응답 확률 분포를 얻는다. [응답 토큰의 확률 분포 입력] → [ 연산] → [엔트로피 산출] → [모델의 불확실성 측정]. 이를 통해 각 그룹의 확신도 점수 를 도출한다.
동시에 MLLM의 특정 레이어에서 Cross-modal Attention 맵을 추출하여 그룹 내 토큰별 중요도를 계산한다. [텍스트 쿼리와 시각 키 임베딩 입력] → [어텐션 가중치 합산 및 최대값 추출] → [토큰별 관련성 점수 산출] → [중요 토큰 식별].
산출된 그룹별 확신도()를 Softmax 함수에 통과시켜 전체 토큰 예산()을 배분한다. [확신도 점수 집합 입력] → [ 연산] → [그룹별 예산 결정] → [중요 구간에 더 많은 자원 할당].
선택된 토큰들 사이의 특징 유사도와 시간적 거리를 결합하여 중복을 제거한다. [토큰 특징 및 프레임 인덱스 입력] → [코사인 유사도와 가우시안 시간 거리 합산] → [가장 유사한 토큰 반복 제거] → [정보 밀도 최적화].
조기 종료(Early Stopping)를 위해 엔트로피가 임계치 미만인 그룹이 3개 이상 발견되면 추가 그룹 처리를 중단한다. 이는 충분한 증거가 수집되었음을 의미하며, 수집된 정보만으로 최종 응답을 생성한다.
주요 결과
VideoMME, MLVU 등 4개 주요 벤치마크에서 Qwen2.5-VL 7B 기준 평균 +6.7점의 성능 향상을 기록했다. 특히 2시간 이상의 영상을 다루는 LVBench에서 기존 SOTA 모델들을 능가하는 성능을 보이며 초장기 영상 이해 능력을 입증했다.
AdaptToken-Lite 버전은 정확도 손실을 최소화하면서도 추론 시간을 약 50% 단축했다. VideoMME 벤치마크 기준 기존 17.8초에서 8.6초로 추론 시간이 줄어들었으며, 이는 모델이 모든 프레임을 보지 않고도 정확한 답변이 가능함을 시사한다.
입력 프레임 수를 1만 개까지 확장했을 때도 성능이 지속적으로 향상되는 결과를 보였다. 기존 방법론들이 수천 프레임 이상에서 성능이 정체되거나 하락하는 것과 달리, AdaptToken은 전역적인 토큰 관리 덕분에 데이터 규모에 따른 확장성을 확보했다.
기술 상세
훈련이 필요 없는(Training-free) 구조로, MLLM의 내부 상태인 로짓(Logits)과 어텐션 가중치를 직접 제어 신호로 활용한다. 이는 모델 아키텍처에 구애받지 않는 범용성을 제공한다.
응답 엔트로피 계산 시 모든 토큰을 평균 내는 대신, 하위 10%의 확신도를 가진 토큰들(가장 불확실한 부분)의 평균을 사용하여 노이즈를 억제하고 모델의 실제 정보 부족 상태를 더 민감하게 포착한다.
Cross-modal Attention 추출을 위해 Needle-in-a-Haystack 실험을 사전 수행하여, 정보 검색 능력이 가장 뛰어난 특정 후반부 레이어를 선택적으로 사용함으로써 토큰 선택의 정확도를 높였다.
조기 종료 조건으로 엔트로피 임계치와 그룹 개수를 설정하여 연산 효율과 답변 신뢰도 사이의 균형을 맞췄으며, 이는 다양한 크기의 모델(7B~72B)에서 일관된 성능 향상을 보였다.
실무 활용
추가 학습 없이 기존 MLLM의 추론 파이프라인에 즉시 적용 가능한 플러그인 형태의 프레임워크이다.
- CCTV나 블랙박스 등 장시간 영상에서 특정 사건(사고, 범죄 등)을 검색하고 요약하는 시스템
- 영화나 강의 영상 전체를 분석하여 사용자의 복잡한 질문에 답변하는 AI 비서
- 로봇의 시각 센서 데이터를 실시간으로 처리하며 중요한 상황에만 연산 자원을 집중하는 임베디드 AI
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.