핵심 요약
비디오 AI 모델이 고해상도와 긴 영상을 동시에 처리할 때 발생하는 연산량 폭증 문제를 해결한다. 기존처럼 이미 읽어들인 정보를 깎아내는 대신, 인코딩 전 단계에서 중요한 장면에만 화질을 집중 투자하여 효율성과 정확도를 동시에 확보했다.
왜 중요한가
비디오 AI 모델이 고해상도와 긴 영상을 동시에 처리할 때 발생하는 연산량 폭증 문제를 해결한다. 기존처럼 이미 읽어들인 정보를 깎아내는 대신, 인코딩 전 단계에서 중요한 장면에만 화질을 집중 투자하여 효율성과 정확도를 동시에 확보했다.
핵심 기여
입력단 적응형 프레임워크 ResAdapt
인코딩 전 단계에서 프레임별 시각적 예산을 동적으로 할당하여 백본 모델의 아키텍처 수정 없이도 높은 효율성을 달성한다.
비대칭 보상 기반의 CAPO 최적화
정확도와 비용의 균형을 맞추기 위해 비대칭적 보상 셰이핑을 적용한 Cost-Aware Policy Optimization 기법을 통해 안정적인 강화학습 훈련을 가능하게 한다.
시공간적 중복성 억제 정규화
인접한 유사 프레임에 중복된 고해상도 예산이 할당되지 않도록 Temporal-similarity Regularizer를 도입하여 정보 밀도에 따른 차별적 할당을 유도한다.
표준 추론 엔진과의 완전한 호환성
백본 모델이 표준적인 토큰 시퀀스를 그대로 수신하므로 FlashAttention이나 vLLM 같은 기존 하드웨어 가속 최적화 도구를 즉시 활용 가능하다.
핵심 아이디어 이해하기
Transformer 기반의 MLLM은 시각적 토큰 수의 제곱에 비례하여 연산량이 증가하므로, 고해상도와 긴 영상 맥락을 동시에 유지하는 것이 매우 어렵다. 기존의 효율화 방식은 이미 인코딩된 정보를 삭제하거나 병합하는 방식이었으나, 이는 세밀한 증거를 영구적으로 손실하거나 복잡한 추론 엔진과의 호환성을 떨어뜨리는 한계가 있었다.
ResAdapt는 '모든 프레임이 똑같이 중요하지 않다'는 직관에서 출발한다. 가벼운 Allocator가 영상 전체를 미리 훑으며 질문과 관련된 핵심 장면에는 높은 해상도를, 배경이나 정적인 장면에는 낮은 해상도를 할당한다. 이는 마치 사람이 긴 영상을 볼 때 중요한 부분만 집중해서 보고 나머지는 빠르게 넘기는 것과 유사한 원리다.
이 과정은 강화학습을 통해 최적화되며, 모델은 정답을 맞히는 데 필요한 최소한의 픽셀만 사용하도록 훈련된다. 결과적으로 동일한 연산 자원으로도 훨씬 더 많은 프레임을 처리할 수 있게 되어, 시간적 맥락 파악 능력이 비약적으로 향상된다.
방법론
ResAdapt는 경량 Allocator와 MLLM 백본으로 구성된다. Allocator는 저해상도 특징과 텍스트 쿼리를 입력받아 각 프레임의 크기 조절 인자(st)를 결정한다. [저해상도 특징 + 쿼리 → Attention 기반 인코더 → 프레임별 스케일 값(0.2~1.8) → 각 프레임의 중요도 및 할당 예산 의미]
CAPO(Cost-Aware Policy Optimization)는 연속적인 할당 공간에서 정책을 최적화한다. 단순한 비용 페널티는 모델이 모든 예산을 최소화하려는 붕괴 현상을 초래하므로, 비대칭적 보상 셰이핑을 적용한다. [정답 여부 + 사용 픽셀 비용 → 비대칭 보상 함수 → Advantage 계산 → 정확도와 비용의 최적 균형점 도달]
Temporal-similarity Regularizer는 인접 프레임 간의 중복 투자를 방지한다. 프레임 간 코사인 유사도를 계산하여 비슷한 장면이 반복될 경우 예산을 억제한다. [프레임 특징 벡터 → 코사인 유사도 계산 → 유사도 임계값 초과 시 페널티 부여 → 정보 밀도에 따른 효율적 예산 분배]
주요 결과
Qwen2.5-VL-7B 모델을 사용한 실험에서, 시각적 토큰을 90% 압축하면서도 VideoMMMU 등 추론 집약적 벤치마크에서 기존 기법(ToMe, VisionZip) 대비 우수한 성능을 기록했다. 특히 낮은 예산 구간에서 파레토 최적선(Pareto Frontier)에 근접하거나 이를 능가하는 효율을 보였다.
동일한 토큰 예산 내에서 프레임 수를 16배(8개에서 128개로) 늘렸을 때, 고정 해상도 방식보다 15% 이상의 상대적 성능 향상을 달성했다. 이는 공간적 해상도를 줄여 확보한 자원을 시간적 맥락 확장으로 전환하는 전략이 유효함을 입증한다.
학습된 정책을 분석한 결과, 텍스트 오버레이, 장면 전환, 빠른 움직임이 있는 구간에 자동으로 해상도를 집중시키는 '능동적 지각(Active Perception)' 특성이 나타났다. 또한 비디오로 학습된 Allocator가 이미지 벤치마크(ChartQA 등)에서도 일부 유효한 성능을 보이며 범용성을 확인했다.
기술 상세
Allocator 아키텍처는 SmolVLM 구조를 기반으로 하며, Spatial/Temporal/Cross Attention 레이어를 거쳐 각 프레임에 대한 Beta 분포의 파라미터(α, β)를 출력한다. 이를 통해 연속적인 스케일 공간에서 미분 가능한 방식으로 샘플링을 수행한다.
훈련 시 GRPO(Group Relative Policy Optimization) 알고리즘을 활용하여 여러 할당 궤적을 샘플링하고 그룹 내 상대적 우위를 계산한다. 백본 모델은 동결하거나(ResAdapt) 함께 업데이트(ResAdapt-RL) 할 수 있으며, 두 네트워크를 교대로 최적화하여 안정성을 확보한다.
입력단 적응 방식의 핵심 이점은 '가속 투명성(Acceleration Transparency)'이다. 백본 모델은 단순히 짧아진 토큰 시퀀스를 수신하므로 FlashAttention-2나 vLLM과 같은 표준 커널 최적화 기술을 수정 없이 그대로 활용할 수 있어 실질적인 추론 속도 향상으로 이어진다.
한계점
프론트엔드 Allocator의 오버헤드는 긴 영상(프레임 수 32개 이상)에서만 상쇄되며, 짧은 영상에서는 오히려 전체 지연 시간이 늘어날 수 있다. 또한 현재 정책은 오픈 루프(Open-loop) 방식으로, 추론 도중에 해상도를 수정하거나 놓친 정보를 복구할 수 없는 한계가 있다.
실무 활용
긴 영상의 효율적인 분석이 필요한 보안 관제, 영상 요약, 비디오 QA 서비스에 즉시 적용 가능하다. GPU 메모리가 제한된 환경에서 고해상도 세부 정보와 긴 맥락을 동시에 유지해야 할 때 특히 유용하다.
- CCTV 영상에서 특정 사건 발생 구간만 고화질로 정밀 분석하여 연산 비용 절감
- 교육용 영상에서 판서나 도표가 등장하는 부분만 해상도를 높여 텍스트 인식률 향상
- 엣지 디바이스 등 저사양 환경에서 실시간 멀티모달 추론 성능 최적화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.