TL;DR
AR 비디오 확산 모델은 과거 프레임의 KV 캐시를 축적하는 동안 메모리 비용과 주의 계산량이 급증한다. 본 논문은 헤드별 기능 차이를 발견하고, static heads는 트랜지션 앵커 프레임에 집중하도록 고정적으로 보존하고, dynamic heads는 인접 프레임 간의 segment-wise 유사도에 기반한 동적 압축을 적용한다. 이를 통해 출력 품질은 유지하면서 KV 캐시 크기를 줄이고 추론 속도를 크게 향상시킨다.
왜 중요한가
AR 비디오 확산 모델은 과거 프레임의 KV 캐시를 축적하는 동안 메모리 비용과 주의 계산량이 급증한다. 본 논문은 헤드별 기능 차이를 발견하고, static heads는 트랜지션 앵커 프레임에 집중하도록 고정적으로 보존하고, dynamic heads는 인접 프레임 간의 segment-wise 유사도에 기반한 동적 압축을 적용한다. 이를 통해 출력 품질은 유지하면서 KV 캐시 크기를 줄이고 추론 속도를 크게 향상시킨다.
핵심 기여
Head specialization pattern
AR 비디오 확산 모델에서 attention heads가 static/dynamic으로 구분되며, static heads는 현재 프레임 및 transition anchor frame에 집중하고 dynamic heads는 시간적 대응을 통해 장기 컨텍스트를 활용하는 패턴을 발견한다.
FORCING-KV 하이브리드 KV 캐시 압축
static heads에는 static structural pruning을 적용해 transition anchor-frame과 current chunk의 KV를 보존하고, dynamic heads에는 segment-wise similarity pruning을 적용해 인접 프레임의 유사 영역을 보존한다.
오프라인 헤드 프로파일링
프레이밍 단위의 attention mass를 이용해 헤드 타입을 분류하는 간단한 오프라인 프로파일링 방법(alpha=0.8)을 제시하고, 프롬프트에 독립적으로 헤드를 분류할 수 있다.
다양한 모형/해상도에서의 대규모 실험
LongLive, Self Forcing 등 모델과 480P~1080P 해상도에서 5초~60초 장편 영상에 대해 30% KV 캐시 절감과 최대 2.82× 가속을 달성한다.
핵심 아이디어 이해하기
AR 비디오 확산은 누적되는 KV 캐시의 크기와 주의 비용이 큰 제약이다. Static Head는 현재 프레임과 가장 최근 프레임에 치중해 로컬 구조를 보존하고, Dynamic Head는 시간 축에 걸친 영역을 따라 움직임/일관성을 포착한다. 오프라인 헤드 프로파일링으로 두 유형을 구분한 뒤, static-head는 transition anchor frame을 보존하는 구조적 프루닝으로, dynamic-head는 segment-wise similarity를 활용한 동적 프루닝으로 처리하면, 품질 저하 없이 캐시를 크게 줄이고 속도를 높일 수 있다.
관련 Figure

해당 도식을 통해 FORCING-KV의 전체 흐름과 static vs dynamic Head의 역할 구분이 시각적으로 이해된다. 핵심 기여인 head 분류와 하이브리드 압축의 연결 고리를 직관적으로 보강한다.
FORCING-KV 개요를 시각화한 다이어그램으로 Static/Dynamic Head 분리와 예시 프레임 흐름을 보여준다.

Static Head는 현재 프레임/최근 프레임에 집중하는 반면 Dynamic Head는 프레임 간 연속적 변화에 초점을 맞춘다. 두 헤드의 패턴 차이가 FORCING-KV의 하이브리드 압축 설계의 근거가 된다.
Static Head와 Dynamic Head의 Attention 패턴 비교 그림
방법론
헤드 프로파일링 방법: 각 헤드의 attention mass를 전체 window에서 local frames에 집중하는 정도로 평가하고, 헤드 타입을 Static 또는 Dynamic으로 분류한다. Static Head의 압축은 다음과 같은 구조적 규칙을 따른다: O_static_i = Attention(Q_i, C_f)에서 K/Sink 프레임과 현재 프레임의 KV를 고정적으로 보존한다. Dynamic Head의 압축은 인접 프레임 간의 구간을 n개로 분할하고 각 구간의 코사인 유사도를 계산해 가장 유사한 상위 rn 구간을 제거하고 남은 구간만 KV를 유지한다. 이때 K, V는 각각 키/값 상태를 나타내고, Sink 프레임은 제거하지 않는다. FP8 양자화와 같은 추가 최적화도 적용 가능하다.
관련 Figure

Static/Dynamic Head 구성 및 핵심 연산 흐름을 구체적으로 보여준다. 방법론의 구성 요소 간 관계를 시각적으로 확인할 수 있다.
FORCING-KV 아키텍처의 상세 다이어그램

static-head 캐시 제거, dynamic-head 캐시 제거의 각 영향이 제시된다. 하이브리드 접근의 필요성과 효과를 시각적으로 뒷받침한다.
헤드 프로파일링 및 하이브리드 압축의 아블레이션 비교
주요 결과
메인 벤치마크에서 5초/30초/60초 영상 실험의 FPS 상승 및 속도향상 수치를 제시한다. LongLive에서 FORCING-KV는 1.30×의 속도향상, Self Forcing에서 1.50×의 속도향상을 달성했고, 480P에서 KV 캐시 메모리 약 30%를 감소시켰다. 1080P 해상도에서 속도향상은 최대 2.82×까지 확장되며 메모리 감소율은 약 30%에 이른다. Ablation 연구에서 head profiling의 효과와 static/dynamic head의 각각의 캐시 제거 효과를 확인했다. 5초 영상에서 FORCING-KV는 1.35×/1.44×의 속도향상과 약간의 품질 유지를 보였고, 30초 영상에서 큰 폭의 dynamic degree 개선과 chunk discontinuity 감소를 보였다. 사용자 연구에서도 주관적 영상 품질과 시간적 역동성이 개선되었다.
관련 Figure

헤드 프로파일링의 효과 및 Static/Dynamic Head의 각 캐시 제거 영향이 제시된다. 실험적으로 head 분류의 중요성과 하이브리드 압축의 이점이 확인된다.
헤드 아블레이션 결과(다양한 프레임 노출) 그래프

FORCING-KV의 효율성 이점을 정량적으로 보여준다. 30% KV 캐시 감소와 FPS 증가를 시각적으로 확인할 수 있다.
성능 지표 비교 차트: KF 캐시 메모리 절감 및 FPS 증가

해상도 증가와 윈도우 확대로 KV 캐시의 실제 사용이 커지는 패턴을 보여주며, FORCING-KV의 ускор성 증가가 더 커진다.
attention window 크기 및 해상도에 따른 레이턴시/메모리 변화

Chunk discontinuity 지표를 시각적으로 제시하여 FORCING-KV의 개선 효과가 프레임 경계에서의 연속성에 미치는 영향을 보여준다.
Chunk discontinuity의 사례 연구: 프레임 간 흐름 변화
기술 상세
아키텍처: autoregressive 비디오 확산 Transformer에서 KV cache를 활용하며, static_head와 dynamic_head를 오프라인에서 분류한 뒤 각각에 대하여 다른 압축 전략을 적용한다. Static Head의 구조적 프루닝은 transition anchor frame과 현재 chunk의 KV를 보존하고, sink 프레임은 보존한다. Dynamic Head의 압축은 segment-wise similarity를 이용해 인접 프레임 간의 중복되는 영역을 제거하고, 남은 영역의 KV만 self-attention에 사용한다. 이때 first block의 key 상태만을 사용한 segment-wise similarity 계산으로 비용을 줄인다. 실험은 LongLive, Self Forcing 등에서 다양한 해상도와 길이의 영상에서 평가되었다. FP8 양자화는 주된 주의 연산에 적용되어 처리량을 추가로 증가시킨다.
실무 활용
훈련 없이도 AR video diffusion의 KV 캐시를 효과적으로 압축해 고해상도, 장시간 영상의 실시간 스트리밍 가능성을 높인다.
- 메모리 제약이 있는 GPU 환경에서의 실시간 텍스트-투-비디오 스트리밍 영상 생성
- 고해상도(1080P) 영상의 길어진 컨텍스트를 다루는 애플리케이션의 추론 속도 향상
- LongLive 같은 장시간 비디오 생성 시스템의 KV 캐시 관리 개선
- FP8 양자화 등 추가 가속과의 호환을 통한 추가 성능 튜닝
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.