핵심 요약
시각-언어 모델(VLM)이 내부적으로 시각 정보와 언어 정보를 어떻게 결합하여 추론하는지 뉴런 간의 상관관계 그래프를 통해 분석했습니다. 개별 뉴런 단위의 분석을 넘어 뉴런 집단이 형성하는 '신경 위상(Neural Topology)'이 모델의 성능과 환각 현상을 예측하는 핵심 지표임을 입증했습니다.
왜 중요한가
시각-언어 모델(VLM)이 내부적으로 시각 정보와 언어 정보를 어떻게 결합하여 추론하는지 뉴런 간의 상관관계 그래프를 통해 분석했습니다. 개별 뉴런 단위의 분석을 넘어 뉴런 집단이 형성하는 '신경 위상(Neural Topology)'이 모델의 성능과 환각 현상을 예측하는 핵심 지표임을 입증했습니다.
핵심 기여
신경 위상 기반의 VLM 해석 프레임워크 제안
각 레이어를 뉴런 간의 공동 활성화 패턴을 나타내는 상관관계 그래프로 모델링하여, 모델의 거동을 인구 수준(Population-level)의 구조적 관점에서 분석할 수 있는 체계를 구축했다.
그래프 기반 프로브를 통한 행동 예측 성능 입증
뉴런 상관관계 그래프에서 추출한 특징만으로 모델의 수치적 추론 정확도와 환각 발생 여부를 선형 모델 대비 높은 성능으로 예측할 수 있음을 확인했다.
교차 모달리티 통합의 깊이별 진화 과정 규명
레이어가 깊어질수록 시각 토큰과 텍스트 토큰 간의 상관관계가 강화되며, 특정 '허브 뉴런'들을 중심으로 정보가 통합되는 구조적 안정성이 나타남을 발견했다.
구조적 허브 뉴런의 인과적 영향력 확인
그래프 위상에서 중심도가 높은 허브 뉴런을 섭동(Perturbation)했을 때, 단순 활성화 값이 큰 뉴런을 건드렸을 때보다 모델의 최종 출력 변화가 훨씬 크게 나타나는 인과 관계를 증명했다.
핵심 아이디어 이해하기
기존의 인공지능 해석 연구는 주로 특정 입력값에 대해 어떤 뉴런이 강하게 반응하는지(Activation)를 찾는 데 집중했다. 하지만 Transformer 기반의 VLM은 수만 개의 뉴런이 복잡하게 얽혀 계산을 분산 처리하기 때문에, 개별 뉴런 하나하나의 의미를 찾는 것만으로는 모델이 시각 정보와 텍스트를 결합하여 논리적 추론을 수행하는 전체적인 메커니즘을 설명하기 어렵다.
이 논문은 뉴런을 개별 점이 아니라 서로 연결된 '관계망(Graph)'으로 바라본다. 두 뉴런이 여러 입력 데이터에 대해 동시에 활성화되는 정도를 측정하여 연결 강도를 정의하고, 이를 통해 각 레이어의 '신경 위상'을 구성한다. 이는 마치 뇌 과학에서 뉴런들이 어떻게 군집을 이루어 특정 기능을 수행하는지 분석하는 것과 유사한 접근 방식이다.
분석 결과, 모델의 지능은 단순히 뉴런의 활성화 크기가 아니라 이들이 형성하는 네트워크의 구조적 특징에 저장되어 있었다. 특히 시각과 언어 정보가 만나는 지점에서 특정 뉴런들이 강력한 '허브' 역할을 수행하며 전체 계산 흐름을 주도한다는 사실을 밝혀냈다. 이는 VLM의 추론 능력이 독립적인 구성 요소들의 합이 아니라, 조직화된 뉴런 집단의 창발적 속성임을 시사한다.
방법론
각 레이어 ℓ에서 모델의 은닉 상태 H(ℓ) ∈ R^{d×N}을 추출한다. 여기서 d는 뉴런의 수(차원), N은 입력 토큰의 수이다. 각 뉴런 i의 활성화 프로필 H_{i,:}를 입력으로 하여 Pearson 상관계수를 계산함으로써 뉴런 간의 기능적 결합도 W_{ij}를 측정한다. [뉴런 i와 j의 활성화 벡터 입력 → 공분산을 표준편차의 곱으로 나눔 → -1에서 1 사이의 상관 수치 산출 → 두 뉴런의 기능적 유사성 의미]
계산된 상관관계 행렬에서 상위 k%의 강한 연결만을 남겨 희소 그래프(Sparse Graph)를 구축한다. 이 그래프의 노드(뉴런)들에 대해 학습 가능한 임베딩을 부여하고, 그래프 합성곱 네트워크(GCN)를 통과시켜 각 레이어의 구조적 특징을 요약하는 벡터 h(ℓ)을 생성한다. [그래프 인접 행렬과 노드 특징 입력 → 이웃 노드 정보를 집계하여 업데이트 → 고정 차원의 레이어 서명 벡터 산출 → 해당 레이어의 위상 정보 함축]
시각 전용 토큰과 텍스트 전용 토큰을 분리하여 각각의 부분 그래프(Sub-graph)를 구성하고, 이들 간의 정렬(Alignment) 상태를 InfoNCE 손실 함수를 통해 분석한다. [서로 다른 모달리티의 그래프 임베딩 입력 → 동일 샘플 내 유사도 극대화 및 타 샘플 간 유사도 최소화 → 대조 학습 수행 → 두 모달리티가 공유하는 구조적 공간의 일치도 측정]
관련 Figure

입력 데이터에 따른 뉴런 활성화 프로필을 추출하고, 이를 상관관계 행렬로 변환한 뒤 최종적으로 신경 위상 그래프를 생성하는 파이프라인을 보여준다. 이 구조적 그래프가 모델 해석의 핵심 단위임을 시각화한다.
시각-언어 모델의 레이어별 활성화를 기반으로 신경 위상을 구축하는 전체 과정 다이어그램
주요 결과
InternVL3-1B, Qwen2.5-VL-3B, LLaVA-1.5-7B 모델을 대상으로 실험한 결과, GCN 기반 프로브는 CLEVR 데이터셋의 객체 계산 작업에서 선형 프로브 대비 MSE를 대폭 낮추었으며(InternVL3 기준 0.020 → 0.007), TDIUC 벤치마크에서도 더 높은 정확도를 기록했다.
환각 탐지 실험(MHaluBench)에서 그래프 위상 정보는 텍스트 통계 기반 베이스라인보다 월등히 높은 성능(Qwen2.5-VL 기준 0.910 Accuracy)을 보였다. 이는 모델이 환각을 일으킬 때 내부 뉴런들의 연결 구조가 정상적인 추론 시와는 다른 패턴을 보임을 의미한다.
인과적 개입 실험에서 그래프 중심도(Degree)가 높은 상위 1% 뉴런을 제거했을 때, 단순히 활성화 값이 큰 뉴런을 제거했을 때보다 성능 하락 폭이 최대 2배 이상 컸다. 예를 들어 InternVL3-1B의 특정 레이어 허브 뉴런을 억제하면 색상 인식 정확도가 80%에서 30% 수준으로 급락했다.
관련 Figure

레이어가 깊어질수록 시각-텍스트(Vision-Text) 상관관계가 지속적으로 상승함을 보여준다. 이는 모델의 후반부로 갈수록 두 모달리티의 정보가 더 강력하게 통합된다는 증거로 활용된다.
레이어 깊이에 따른 시각-시각, 시각-텍스트, 텍스트-텍스트 토큰 간의 상관관계 변화 그래프

그래프 중심도(Graph Degree)가 높은 뉴런을 제거했을 때(빨간색 막대) 성능 하락이 가장 극심하게 나타난다. 이는 위상학적 허브 뉴런이 모델의 추론에 있어 가장 결정적인 역할을 수행함을 입증한다.
랜덤 선택, 활성화 크기 기반, 그래프 중심도 기반 뉴런 제거 시의 성능 하락 비교 차트
기술 상세
본 연구는 VLM의 각 레이어를 '신경 위상(Neural Topology)'으로 정의하고, 이를 분석하기 위해 Graph Probing 기법을 도입했다. 핵심은 원시 활성화 값(Raw Activations)을 직접 사용하는 대신, 뉴런 간의 상관관계 구조만을 사용하여 모델의 행동을 예측한다는 점이다. 이는 모델이 정보를 '무엇'으로 표현하는지보다 '어떻게' 조직화하는지에 집중한다.
실험 결과, 시각-텍스트 간의 상관관계(Vision-Text Correlation)는 레이어가 깊어질수록 단조 증가하는 경향을 보였으며, 이는 디코더 기반 VLM에서 시각 토큰이 언어 생성의 조건부 입력으로서 점진적으로 통합됨을 시사한다. 또한, 중간 레이어에서 허브 뉴런의 안정성(Stability)이 가장 높게 나타났는데, 이는 이 구간이 멀티모달 융합의 핵심적인 병목(Bottleneck) 역할을 수행함을 의미한다.
허브 뉴런에 대한 직접적인 스케일링 실험(Direct Perturbation)을 통해, 이 뉴런들이 매우 좁은 기능적 범위(Narrow Functional Range) 내에서 작동함을 확인했다. 활성화를 억제하는 것뿐만 아니라 과도하게 증폭시키는 경우에도 모델의 성능이 급격히 저하되는 대칭적 민감성을 보였다.
한계점
본 연구는 상관관계 기반의 그래프를 사용하므로 뉴런 간의 직접적인 인과 관계(Causal Circuit)를 완벽하게 복원한 것은 아니며, 계산 효율성을 위해 상위 k%의 엣지만 사용하는 희소 그래프 근사 방식을 채택했다는 한계가 있다.
실무 활용
VLM의 신뢰성을 평가하고 내부 오류를 진단하는 도구로 활용될 수 있습니다. 특히 모델의 출력을 생성하기 전에 내부 뉴런의 연결 상태만으로 환각 가능성을 실시간 모니터링하는 시스템 구축이 가능합니다.
- VLM 추론 과정에서의 실시간 환각(Hallucination) 감지 모니터링
- 모델 경량화 시 위상학적으로 중요도가 낮은 뉴런을 식별하여 효율적인 가지치기(Pruning) 수행
- 특정 도메인(의료, 법률 등)에 대한 VLM의 지식 통합 과정을 레이어별로 시각화하여 분석
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.