지속적 시각 메모리: 대형 시각 언어 모델의 심층 생성을 위한 지각 유지

대형 시각 언어 모델(LVLM)이 긴 문장을 생성할 때 초기에 입력된 시각 정보를 잊어버리는 '시각 신호 희석' 현상을 수학적으로 증명하고 해결책을 제시했습니다. PVM 모듈을 통해 모델이 생성 길이와 관계없이 고해상도 이미지 세부 사항에 지속적으로 접근할 수 있게 하여 복잡한 시각적 추론의 정확도를 높였습니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

시각 신호 희석 현상의 수학적 분석

텍스트 이력이 쌓일수록 Attention 메커니즘 내에서 시각 토큰의 비중이 반비례하게 감소하는 현상을 이론적으로 도출하고 '저-어텐션 평형' 상태에 빠짐을 확인했다.

Persistent Visual Memory(PVM) 아키텍처 제안

FFN과 병렬로 동작하며 텍스트 길이에 영향을 받지 않는 독립적인 시각 정보 추출 경로를 구축하여 시각적 지각 능력을 유지하는 경량 모듈을 개발했다.

다양한 벤치마크에서의 성능 입증

Qwen3-VL 4B 및 8B 모델에 적용 시 각각 평균 4.4%, 4.8%의 정확도 향상을 기록했으며, 특히 긴 추론 과정이 필요한 과학 및 수학 문제에서 탁월한 성과를 보였다.

핵심 아이디어 이해하기

Transformer 기반 모델의 Self-Attention은 모든 입력 토큰의 점수 합을 1로 만드는 Softmax 정규화를 거친다. 생성 과정에서 텍스트 토큰이 계속 추가되면 분모에 해당하는 전체 토큰 수가 늘어나고, 상대적으로 고정된 수의 시각 토큰이 차지하는 확률 비중은 시퀀스 길이에 반비례하여 급격히 줄어든다. 이로 인해 모델은 생성 후반부로 갈수록 눈앞의 이미지보다 이전에 생성한 텍스트 맥락에 더 의존하게 되어 환각 현상이 발생한다.

PVM은 이 문제를 해결하기 위해 텍스트 이력과 섞이지 않는 별도의 '시각 전용 통로'를 만든다. 기존의 Attention 구조가 텍스트와 이미지를 한데 섞어 정규화하는 것과 달리, PVM은 현재의 숨겨진 상태(Hidden State)를 Query로 사용하여 오직 원본 시각 임베딩만을 참조하도록 설계되었다. 이는 텍스트가 아무리 길어져도 시각 정보를 찾는 정규화 과정이 텍스트 길이에 오염되지 않음을 의미한다.

결과적으로 모델은 추론의 어느 단계에서든 필요할 때마다 고화질의 시각 정보를 직접 다시 읽어올 수 있다. 이는 마치 긴 글을 쓰다가도 언제든 옆에 놓인 사진을 다시 확인하는 것과 같은 효과를 주어, 복잡한 단계별 추론 과정에서도 시각적 사실 관계를 정확히 유지할 수 있게 한다.

관련 Figure

#1Diagram
표준 모델은 생성 길이가 길어질수록 시각 신호가 희석(Dilution)되지만, PVM은 독립적인 검색 경로를 통해 간섭 없이 지속적인 시각 정보 추출이 가능함을 보여준다. 기존의 재주입(Injection) 방식이 추론 흐름을 방해하는 것과 달리 PVM은 병렬 구조로 이를 해결한다.
표준 LVLM, 시각 주입 방식, 그리고 제안된 PVM 방식의 메커니즘 비교 다이어그램

방법론

PVM은 Transformer 디코더 블록 내의 Feed-Forward Network(FFN)와 병렬로 배치되는 경량 어댑터 구조를 취한다. 전체 아키텍처는 크게 투영(Projection), 잠재 검색(Latent Retrieval), 복원(Restoration)의 3단계로 구성된다.

먼저 입력된 숨겨진 상태 x와 고정된 시각 특징 V를 낮은 차원의 잠재 공간 d'로 투영한다. [d 차원의 벡터 x와 V에 각각 학습 가능한 행렬 W_down을 곱하여] → [d' 차원의 x_lat과 V_lat을 생성하고] → [연산량을 줄이면서 핵심 시각 의미를 추출한다].

다음으로 x_lat을 Query로, V_lat을 Key와 Value로 사용하는 Cross-Attention을 수행한다. [Query와 Key의 내적을 계산하고 Softmax를 취해] → [각 시각 토큰에 대한 가중치를 구한 뒤 Value와 곱하여] → [현재 문맥에 가장 필요한 시각 정보를 선택적으로 추출한다]. 이때 정규화는 오직 시각 토큰 집합 내에서만 이루어지므로 텍스트 길이에 독립적이다.

마지막으로 추출된 특징을 다시 원래 차원 d로 복원한 후, 학습 가능한 게이트 값 λ와 시각 소음 마스크(Silencing Mask)를 적용하여 주 경로에 더한다. [추출된 시각 신호에 λ를 곱하고 텍스트 토큰 위치에서만 활성화되도록 마스킹하여] → [기존 FFN 출력값과 합산함으로써] → [사전 학습된 지식을 해치지 않으면서 시각적 근거를 보강한다].

주요 결과

Qwen3-VL-8B 모델을 기준으로 MMMU, MathVerse, AI2D 등 8개 주요 멀티모달 벤치마크에서 평균 71.5%의 정확도를 달성하며 기본 모델 대비 4.8%p 향상된 성능을 보였다. 특히 시각적 정보 확인이 필수적인 MathVision에서는 5.9%p의 높은 상승폭을 기록했다.

생성 길이에 따른 성능 분석 결과, 짧은 답변(Short) 그룹에서는 6.1%의 개선을 보인 반면, 긴 답변(Long)이 필요한 그룹에서는 27.3%라는 압도적인 상대적 성능 향상을 확인했다. 이는 PVM이 긴 문맥에서 발생하는 시각 신호 희석 문제를 효과적으로 방어하고 있음을 입증한다.

LogitLens를 이용한 메커니즘 분석에서는 PVM이 적용된 모델이 중간 레이어에서부터 최종 예측값으로의 수렴 속도가 훨씬 빠름이 나타났다. 이는 모델이 시각 정보를 찾기 위해 여러 레이어를 헤매는 대신, PVM 경로를 통해 필요한 정보를 즉각적으로 획득하여 추론 효율성을 높였음을 시사한다.

기술 상세

PVM은 LVLM의 중간 레이어(8, 16, 24번 레이어 등)에 전략적으로 배치되어 시각적 정보가 가장 활발하게 처리되는 구간을 보강한다. 이는 'Strided Strategy'로 명명되었으며, 특정 레이어에 집중하는 것보다 네트워크 전체 깊이에 걸쳐 시각적 근거를 재주입하는 것이 효과적임을 실험으로 증명했다.

수학적으로 PVM의 출력 h_pvm은 텍스트 길이 t에 대한 편미분 값이 0이 되는 '국소 불변성(Local Invariance)'을 만족한다. 이는 표준 Attention이 O(t^-1)로 감쇠하는 것과 대조적이며, 이론적으로 무한히 긴 문맥에서도 시각 신호의 강도가 유지될 수 있는 구조적 토대를 제공한다.

학습은 2단계로 진행된다. 1단계(SFT)에서는 백본을 고정하고 PVM 모듈만 학습시켜 시각-언어 정렬을 수행하며, 2단계(GRPO)에서는 강화학습 기법을 통해 모델이 복잡한 추론 과정에서 능동적으로 PVM의 시각 정보를 인출하도록 최적화한다. 이 과정에서 추가되는 파라미터는 8B 모델 기준 약 0.32% 수준으로 매우 경량화되어 있다.

관련 Figure

#2Chart
네트워크의 중간 레이어(13-21번 부근)에서 시각 정보에 대한 의존도가 가장 높게 나타나는 'Rise-Peak-Decay' 패턴을 확인할 수 있다. 이 데이터는 PVM 모듈을 어느 레이어에 삽입할지 결정하는 기술적 근거가 된다.
레이어별 평균 시각 어텐션 비중 분포 그래프

한계점

현재 연구는 Qwen3-VL 시리즈에 집중되어 있어 더 다양한 아키텍처나 더 큰 규모의 모델에서의 범용성 검증이 추가로 필요하다. 또한 정적인 이미지 문맥에서의 희석 문제는 해결했으나, 동적인 비디오 스트리밍 입력에서의 지속적 메모리 메커니즘 확장은 향후 과제로 남아있다.

실무 활용

긴 단계의 추론이 필요한 시각적 문제 해결이나 상세한 이미지 캡셔닝 시스템에 즉시 적용 가능하다. 기존 모델의 가중치를 고정한 채 소량의 파라미터만 추가 학습하면 되므로 구현 비용이 낮다.

복잡한 기하학 문제나 과학 도표를 단계별로 풀이하는 교육용 AI 에이전트
고해상도 의료 영상이나 설계 도면의 세부 사항을 놓치지 않고 설명하는 전문 분석 도구
긴 대화 맥락 속에서도 초기 공유된 이미지 정보를 정확히 기억하고 답변하는 멀티모달 챗봇

코드 공개 여부: 공개

코드 저장소 보기

키워드

LVLM(대형 시각 언어 모델)Visual Signal Dilution(시각 신호 희석)Persistent Memory(지속적 메모리)Attention Mechanism(어텐션 메커니즘)Multimodal Reasoning(멀티모달 추론)

지속적 시각 메모리: 대형 시각 언어 모델의 심층 생성을 위한 지각 유지

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

시각 신호 희석 현상의 수학적 분석

Persistent Visual Memory(PVM) 아키텍처 제안

다양한 벤치마크에서의 성능 입증

핵심 아이디어 이해하기

관련 Figure

방법론

주요 결과

기술 상세

관련 Figure

한계점

실무 활용

복잡한 기하학 문제나 과학 도표를 단계별로 풀이하는 교육용 AI 에이전트
고해상도 의료 영상이나 설계 도면의 세부 사항을 놓치지 않고 설명하는 전문 분석 도구
긴 대화 맥락 속에서도 초기 공유된 이미지 정보를 정확히 기억하고 답변하는 멀티모달 챗봇

코드 공개 여부: 공개

코드 저장소 보기

키워드

LVLM(대형 시각 언어 모델)Visual Signal Dilution(시각 신호 희석)Persistent Memory(지속적 메모리)Attention Mechanism(어텐션 메커니즘)Multimodal Reasoning(멀티모달 추론)

지속적 시각 메모리: 대형 시각 언어 모델의 심층 생성을 위한 지각 유지

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

지속적 시각 메모리: 대형 시각 언어 모델의 심층 생성을 위한 지각 유지

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드